“存传一体”优化大模型推理性能！元脑KOS发布基于CXL的KVCache管理系统

2026-03-03

大模型推理正在向长上下文、高并发方向快速演进，由此产生的缓存（KVCache）规模已从百GB跃升至TB级。业界此前采用基于CXL池化内存的KVCache缓存管理架构，在一定程度上缓解了显存空间不足、跨节点数据共享等挑战，但在PD分离场景下，在解码过程中还是存在着传输冗余的问题。

为此，元脑服务器操作系统KOS（简称元脑KOS）基于CXL（Compute Express Link）内存池化技术，创新推出“存传一体”的KVCache管理系统MantaKV，通过KVCache存储与传输逻辑重构、PD并行加载KVCache、KVCache聚合传输优化、CXL RPC通信等技术，将P节点产生的海量KVCache集中存储在CXL池化共享内存中，既直接供D节点解码使用（无需再次传输），又自然成为全局可用的持久缓存（无需卸载至P节点本地SSD），将两次独立搬运合并为单次写入，彻底解决传输冗余问题，提升模型推理效率。

元脑KOS KVCache管理系统示意图.jpg

KVCache缓存急剧膨胀，传输冗余限制推理性能表现

大模型技术正从“能用”迈向“好用”。推理过程中上下文长度从4K走向128K，KVCache规模已突破TB级，远超单机显存容量。为解决KVCache的缓存膨胀问题，业界采用基于CXL构建内存共享资源池，此举虽然缓解了容量不足的困扰，但在PD分离场景下，还是无法解决跨节点KVCache传输冗余的问题，让大模型推理速度无法得到进一步提升。

大模型推理中，Prefill阶段与Decode阶段的资源需求差异显著——Prefill阶段计算密集、访存规则，Decode阶段则显存占用高、访存随机，PD分离架构由此成为业界提升资源利用率的普遍选择。

然而，现有推理框架在实现PD分离时将KVCache的本地复用与跨节点传输分割为“存”和“传”两个独立的流程：

■ “存”是指P节点执行完Prefill之后，系统会将GPU HBM中的KVCache按block卸载到内存、CXL内存、硬盘或远端存储中，供后续Prefill复用；

■ “传”则是指KVCache从P节点传入到D节点进行解码，并且每次prefill完成后都需要进行全量KVCache传输，而D节点GPU使用完之后便删除，导致KVCache数据的传输冗余。

其根源在于，跨阶段（Prefill与Decode）、跨节点（物理机器）的KVCache缺乏全局管理机制：P节点与D节点之间的数据传输流程与缓存复用机制缺乏统一设计，冷热缓存数据缺乏分级管理，导致存储P节点与D节点之间KVCache传输冗余，严重制约大模型推理效率。

“存传一体”KVCache管理方案消除传输冗余与数据孤岛

针对PD分离架构下的传输冗余问题，元脑KOS基于CXL池化内存技术，推出 “存传一体”的KVCache管理系统MantaKV，利用CXL交换机构建可扩展共享内存池的硬件架构，并对内存调用逻辑等进行重构，让P节点生成的KVCache直接存储在内存资源池中，两次独立搬运合并为单次写入，彻底解决传输冗余问题。

基于CXL扩展池化内存的KVCache管理方案.jpg

基于CXL扩展池化内存的KVCache管理方案

通过推理引擎与KVCache管理器的深度协同优化，构建面向CXL池化共享内存的跨阶段、跨节点KVCache统一管理机制：

KVCache存储与传输逻辑重构。将原有分散的缓存管理方式统一为基于block 的标准化卸载与复用机制。Prefill节点完成计算后，将新增KVCache按block 粒度卸载至CXL池化共享内存，并通知Decode节点增量加载所需缓存以继续计算；Decode阶段结束后，同样将本阶段新增KVCache回写至CXL池化共享内存，供后续Prefill请求复用，形成跨阶段、跨节点的KVCache循环共享体系；

PD并行加载KVCache。Prefill与Decode节点在接收推理请求后，可并行从 CXL池化共享内存中查询并加载可复用KVCache，减少Decode节点串行加载带来的关键路径阻塞，显著降低请求启动时延；

KVCache聚合传输优化。优化数据访问路径，将离散操作转化为高效连续传输，进一步提升带宽利用率与传输效率；

基于CXL的共享内存通信机制（CXL RPC）。利用CXL共享内存的load/store 语义替代传统的RPC通信，实现PD节点间的低延迟控制与数据交互。通过内存语义通信减少协议栈开销与数据拷贝，实测可将节点间通信时延降低约80%，显著提升跨节点协同效率。

通过以上优化措施，MantaKV消除PD分离架构的传输冗余，为长上下文、高并发大模型推理提供可拓展、高吞吐、低延迟的内存基础设施。实测数据显示，在PD分离KVCache 100%复用场景下，相比400Gbps RDMA网络方案，MantaKV将PD间KVCache传输时延降低99.4%、首Token延迟（TTFT）降低62.8%。

30k Input token下CXL池化内存与400Gbps RDMA-Based分布式内存的TTFT与KVCache传输时间对比.jpg

MantaKV与400Gbps RDMA网络方案效果对比，结果越低越好

上一篇：万亿参数全球唯三：Yuan3.0 Ultra开源，企业Agent AI核心能力前沿领先

下一篇：浪潮信息AIStation 5.4发布：打造企业级Agent算力底座，已支持OpenClaw

返回列表