本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

简体中文
首页 > 关于我们 > 新闻中心 > “存传一体”优化大模型推理性能!元脑KOS发布基于CXL的KVCache管理系统

“存传一体”优化大模型推理性能!元脑KOS发布基于CXL的KVCache管理系统

2026-03-03

大模型推理正在向长上下文、高并发方向快速演进,由此产生的缓存(KVCache)规模已从百GB跃升至TB级。业界此前采用基于CXL池化内存的KVCache缓存管理架构,在一定程度上缓解了显存空间不足、跨节点数据共享等挑战,但在PD分离场景下,在解码过程中还是存在着传输冗余的问题。

为此,元脑服务器操作系统KOS(简称元脑KOS)基于CXL(Compute Express Link)内存池化技术,创新推出“存传一体”的KVCache管理系统MantaKV,通过KVCache存储与传输逻辑重构、PD并行加载KVCache、KVCache聚合传输优化、CXL RPC通信等技术,将P节点产生的海量KVCache集中存储在CXL池化共享内存中,既直接供D节点解码使用(无需再次传输),又自然成为全局可用的持久缓存(无需卸载至P节点本地SSD),将两次独立搬运合并为单次写入,彻底解决传输冗余问题,提升模型推理效率。

元脑KOS KVCache管理系统示意图.jpg

KVCache缓存急剧膨胀,传输冗余限制推理性能表现

大模型技术正从“能用”迈向“好用”。推理过程中上下文长度从4K走向128K,KVCache规模已突破TB级,远超单机显存容量。为解决KVCache的缓存膨胀问题,业界采用基于CXL构建内存共享资源池,此举虽然缓解了容量不足的困扰,但在PD分离场景下,还是无法解决跨节点KVCache传输冗余的问题,让大模型推理速度无法得到进一步提升。

大模型推理中,Prefill阶段与Decode阶段的资源需求差异显著——Prefill阶段计算密集、访存规则,Decode阶段则显存占用高、访存随机,PD分离架构由此成为业界提升资源利用率的普遍选择。

然而,现有推理框架在实现PD分离时将KVCache的本地复用与跨节点传输分割为“存”和“传”两个独立的流程:

■ “存”是指P节点执行完Prefill之后,系统会将GPU HBM中的KVCache按block卸载到内存、CXL内存、硬盘或远端存储中,供后续Prefill复用;

■ “传”则是指KVCache从P节点传入到D节点进行解码,并且每次prefill完成后都需要进行全量KVCache传输,而D节点GPU使用完之后便删除,导致KVCache数据的传输冗余。

其根源在于,跨阶段(Prefill与Decode)、跨节点(物理机器)的KVCache缺乏全局管理机制:P节点与D节点之间的数据传输流程与缓存复用机制缺乏统一设计,冷热缓存数据缺乏分级管理,导致存储P节点与D节点之间KVCache传输冗余,严重制约大模型推理效率。

“存传一体”KVCache管理方案消除传输冗余与数据孤岛

针对PD分离架构下的传输冗余问题,元脑KOS基于CXL池化内存技术,推出 “存传一体”的KVCache管理系统MantaKV,利用CXL交换机构建可扩展共享内存池的硬件架构,并对内存调用逻辑等进行重构,让P节点生成的KVCache直接存储在内存资源池中,两次独立搬运合并为单次写入,彻底解决传输冗余问题。

基于CXL扩展池化内存的KVCache管理方案.jpg

基于CXL扩展池化内存的KVCache管理方案

通过推理引擎与KVCache管理器的深度协同优化,构建面向CXL池化共享内存的跨阶段、跨节点KVCache统一管理机制:

KVCache存储与传输逻辑重构。将原有分散的缓存管理方式统一为基于block 的标准化卸载与复用机制。Prefill节点完成计算后,将新增KVCache按block 粒度卸载至CXL池化共享内存,并通知Decode节点增量加载所需缓存以继续计算;Decode阶段结束后,同样将本阶段新增KVCache回写至CXL池化共享内存,供后续Prefill请求复用,形成跨阶段、跨节点的KVCache循环共享体系;

PD并行加载KVCache。Prefill与Decode节点在接收推理请求后,可并行从 CXL池化共享内存中查询并加载可复用KVCache,减少Decode节点串行加载带来的关键路径阻塞,显著降低请求启动时延;

KVCache聚合传输优化。优化数据访问路径,将离散操作转化为高效连续传输,进一步提升带宽利用率与传输效率;

基于CXL的共享内存通信机制(CXL RPC)。利用CXL共享内存的load/store 语义替代传统的RPC通信,实现PD节点间的低延迟控制与数据交互。通过内存语义通信减少协议栈开销与数据拷贝,实测可将节点间通信时延降低约80%,显著提升跨节点协同效率。

通过以上优化措施,MantaKV消除PD分离架构的传输冗余,为长上下文、高并发大模型推理提供可拓展、高吞吐、低延迟的内存基础设施。实测数据显示,在PD分离KVCache 100%复用场景下,相比400Gbps RDMA网络方案,MantaKV将PD间KVCache传输时延降低99.4%、首Token延迟(TTFT)降低62.8%。

30k Input token下CXL池化内存与400Gbps RDMA-Based分布式内存的TTFT与KVCache传输时间对比.jpg

MantaKV与400Gbps RDMA网络方案效果对比,结果越低越好

售前咨询

售后服务

意见反馈

AIStore

回到顶部

回到顶部

收起
回到顶部 回到顶部
请选择服务项目
售前咨询
售后服务
访问 AIStore

扫码访问AIStore