本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

简体中文
首页 > 关于我们 > 新闻中心 > 「元脑有观点」Agent AI时代,并发供给率成为算力系统存储的“金标准”!

「元脑有观点」Agent AI时代,并发供给率成为算力系统存储的“金标准”!

2026-04-20

你的GPU算力规模再大,如果“喂不饱”它,一切都是空转。

随着大模型从“被动问答”向“主动执行”的Agent AI进化,数据流转已从单向、大块吞吐演变为高频、碎片化的实时并发交互。在Agent AI时代,存储不再是数据的后端仓库,而是算力的“首公里”。

浪潮信息副总经理赵帅提出,算力数据面的并发供给率——即存储系统能否在超大规模并发下,确保每一颗GPU都能被即时“喂饱”而不空转闲置,已成为衡量Agent AI算力系统存储效能的金标准。

基于这一判断,浪潮信息与业界顶级的AI原生并行文件系统伙伴联合推出元脑QLC全闪存储方案,以提高“并发供给率”为核心逻辑,对算力数据面的系统性重构。方案基于NF5280、NF3180等旗舰存储节点,与AI原生并行文件系统卓越协同,专为Agent AI读密集型、大并发负载量身定制,在业界率先攻克了超大规模集群下的供数瓶颈,树立了Agent AI算力“即刻就绪、永不空转”的数据存储新标杆。

浪潮信息新一代元脑QLC全闪存储方案.jpg

01 Agent AI的“数据饥渴”:为什么传统存储喂不饱GPU?

Agent AI的工作流不再是简单的“输入-输出”单向流水线。一个典型的智能体任务需要经历“感知→检索→规划→执行→反思”的多步闭环。

在这种模式下,数据流动的特征发生了质变:

交互高频化:每一步决策都要实时调用长期记忆(历史对话)和外部知识库(RAG)。

流量碎片化:大量小文件的随机读取取代了连续的大块吞吐。

供给实时化:数据不再是静态存放的“湖”,而是必须即刻响应决策的“神经递质”。

这样的变化给传统存储方案带来了全新的挑战:

挑战一:协议割裂,数据在系统间“无效搬迁”。传统方案中,数据在归档阶段用对象存储,在训练阶段用并行文件系统。Agent AI的工作流需要在这两者间频繁切换,导致海量数据被迫反复搬迁(ETL)。这种基于协议分割的存储孤岛,导致万卡级AI训练的数据管道极其臃肿,严重拉长了智能体调用历史记忆和知识库的响应时间,无法满足Agent AI需要的企业动态数据实时接入需求。据IDC研究报告,数据团队81%的时间都消耗在此类数据准备工作中,难以支撑AI业务高速迭代。

挑战二:介质错配带来的“沉没成本”。AI训练与推理工作负载,超过90%是高频并发读取。这是一种典型的“读密集型”负载。传统方案采用高写入寿命的TLC闪存,企业实际上是在为用不上的“写入寿命”支付高昂的溢价,造成了严重的资源浪费。

挑战三:架构瓶颈,万卡级扩展遭遇“性能天花板”。面对万卡级的并发I/O洪峰,传统文件系统架构的局限性逐渐突显,其设计之初并未能考虑如此大规模的并发读写冲击。当算力系统向万卡、十万卡级别扩容时,节点间网络通信内耗、元数据锁竞争急剧增加,扩展到几十个节点就开始出现响应延迟与性能衰减,非AI原生的架构制约了系统的横向扩展能力,拉低超大规模算力系统的性能上限。

02 重新定义金标准:从“账面带宽”到“并发供给率”

在Agent AI时代,算力数据面的核心矛盾已经变了:

不再是“数据能不能存下”,而是“数据能不能以足够快的速度、足够高的并发,持续供给给每一颗GPU”。

浪潮信息副总经理赵帅认为:“衡量算力系统存储价值的尺度应从技术参数转向商业结果。真正的金标准是并发供给率,衡量的就是它支撑GPU高利用率的能力。”

业界权威测试MLPerf Storage已经验证了这一逻辑:其评价标准并非单纯的峰值带宽,而是在保持GPU利用率处于高水位(如90%以上)的前提下,存储系统能支撑的GPU数量。

这就是“并发供给率”的底层逻辑:如果一个存储系统能让大规模GPU算力系统的计算利用率持续稳定在95%以上,它就证明了自身的并发供给能力。反之,如果GPU有一半时间在等待数据,再高的峰值带宽也只是毫无意义的账面数字。

03 元脑QLC全闪存储:让数据“即刻就绪,永不空转”

基于这一判断,浪潮信息正式推出元脑QLC全闪存储方案,基于NF5280、NF3180等旗舰存储节点,与业界顶级的AI原生并行文件系统卓越协同,专为Agent AI读密集型、大并发负载量身定制。该方案以提高“并发供给率”为核心设计逻辑,通过重构统一数据面实现数据亚毫秒级“零拷贝”流转,可稳定支撑十万卡级性能无损线性扩展,在EB级存储规模下提供104TB/s级聚合带宽与8.5亿IOPS,存储整体建设成本相较传统TLC方案直降64%。通过软硬极致协同,浪潮信息在业界率先攻克了超大规模集群下的供数瓶颈,树立了Agent AI算力“即刻就绪、永不空转”的数据存储新标杆。

■ 重构一:统一数据面,终结“数据孤岛”

方案通过搭建统一命名空间,原生支持文件、对象、块等多协议接入,底层依托QLC大容量闪存池与NVMe-oF全共享互联。数据在不同协议间实现“零拷贝”流转,任何一个智能体写入的状态更新,都能以亚毫秒级的延迟对整个网络可见。

■ 重构二:十万卡无损扩展,打破性能天花板

元脑QLC存储方案以NF5280、NF3180等旗舰节点为核心,深度协同AI原生并行文件系统,通过软硬一体化重构,攻克了超大规模集群下的性能衰减难题:

硬件层:全路径PCIe 5.0与NUMA均衡设计。全面部署PCIe 5.0直连架构,打通从QLC SSD到计算节点的极速通路,单节点I/O带宽翻倍。配合NUMA均衡优化,彻底消除内部吞吐损耗,确保数据供给“零卡顿”。

软件层:GDS直连与微秒级“零拷贝”。原生支持NVIDIA GPUDirect Storage (GDS) 与RDMA技术,数据直接由闪存推向GPU显存,彻底绕过CPU上下文切换与系统内存中转。不仅大幅降低CPU负载,更实现了微秒级的“零拷贝”数据流动。

架构层:创新分离式架构,消除“东西向流量”。采用控制面与数据面完全解耦的架构,无状态计算节点通过NVMe-oF网络对等访问存储介质。从根源上消除了节点间的冗余通信,支持从PB级到EB级的无损线性扩展。

实测数据显示:在十万卡级数据中心,基于元脑QLC全闪存储方案构建的EB级存储系统表现强悍:

百TB级极致吞吐:稳定提供104TB/s持续聚合带宽及8.5亿级随机读IOPS,随节点增加呈现近乎完美的线性增长。   

元脑QLC全闪存储方案实测性能.jpg

95%以上GPU利用率:得益于无锁冲突架构与高效并发供给,无论集群规模如何扩张,GPU利用率始终稳定在95%以上,彻底解决了“算力等数据”的闲置瓶颈。
■ 重构三:精准匹配读密集负载,TCO直降64%
方案针对Agent AI“读多写少”的特性,将存储介质全面向企业级大容量QLC倾斜。以构建1EB数据存储为例进行核算,与传统TLC全闪方案相比,用户采用本方案的5年TCO可降低64%,电力与冷却成本降低超71%,空间成本降低超75%,真正实现了高性能、高扩展与低成本兼得。企业无需为冗余写入寿命投入额外资金,可将资源精准聚焦于核心算力建设。方案的成熟度与规模化能力已获得全球多家主流AI云厂商等头部客户的验证认可。

元脑QLC与传统TLC全闪存储TCO对比.jpg

04 金标准的本质:从“存得下”到“喂得饱”

元脑QLC全闪存储方案的发布,本质上是浪潮信息对Agent AI时代算力基础设施的一次范式转换。

在Token调用量指数级增长的今天,行业必须正视一个真相:AI算力的上限,不仅取决于你买了多少GPU,更取决于你能让多少GPU同时满负荷工作。

“并发供给率”这一指标的提出,旨在推动存储回归其本质价值——不再是安静的仓库,而是算力澎湃输出的引擎。元脑QLC全闪存储,就是要让数据“即刻就绪”,让算力“永不空转”。


售前咨询

售后服务

意见反馈

AIStore

回到顶部

回到顶部

收起
回到顶部 回到顶部
请选择服务项目
售前咨询
售后服务
访问 AIStore

扫码访问AIStore