新闻动态
当前位置:首页 > 新闻动态

AI私有化部署门槛降80%!浪潮信息KOS与趋境科技联合发布轻量化推理方案

2025-11-07

AI大模型迭代日新月异,顶尖大模型的私有化部署已成为越来越多企业的迫切需求。然而,高昂成本支出、复杂运维链条与性能折损构成的三重挑战,阻碍了企业私有化部署AI大模型的进程。

浪潮信息以服务器操作系统云峦KeyarchOS(以下简称KOS)为技术底座,联合趋境科技推出轻量化推理方案,通过全栈软硬协同架构创新,将AI大模型私有化部署的门槛降低80%,仅需双路通用服务器及消费级显卡,单机即可支持40人规模团队使用DeepSeek-R1 671B满血版大模型推理,或者 200 人规模团队使用QWen3-235B大模型推理,为顶级大模型能力的私有化部署提供了低成本、易运维、高性能的解决方案。

1(1).png浪潮信息与趋境科技联合发布轻量化推理方案

大模型私有化部署面临成本、运维、性能三方面挑战

■首先,自硬件采购到后续运营均需持续投入,成本高昂。高端GPU、高速RDMA网卡等设备价格高昂,加之机房改造与专业运维费用,一次性投入巨大,成为企业推进大模型私有化部署的主要门槛。

■其次,运维复杂度攀升,容易触发性能滑坡和业务中断。多框架版本依赖、GPU拓扑、NUMA与RDMA等配置错综复杂且极易出错,稍有偏差即可导致性能衰减。同时,运行中的掉卡、通信死锁、输出异常需快速定位并调优,对运维人员的技能深度和响应速度提出极高要求,任何疏忽都将影响业务可用性。

■再次,算力潜能发挥受多因素限制,性能与隐私合规难以兼顾。内存带宽及推理框架优化不足等拖累效能,使同等规格GPU的实际吞吐量低于官方基准。同时,大模型明文自然语言需直达算力节点,传输、日志、缓存环节均存在泄露隐患,传统加密手段难以直接适用,企业被迫在性能损失与合规要求之间反复权衡,导致模型规模与效果大打折扣,业务价值释放受限。

硬核技术创新,AI大模型私有化门槛降低80%

浪潮信息KOS与趋境科技推出的轻量化推理方案,通过全栈软硬协同技术创新,实现了顶尖AI能力的低成本、高性能本地化部署,将部署门槛降低80%。

■首先,极致性价比与“顶配”能力兼得,以消费级硬件跑通千亿大模型推理。凭借趋境科技全球首创的异构协同大模型推理架构,方案能够在消费级GPU+CPU的组合上实现千亿大模型推理,使AI大模型私有化部署成本降低80%。通过消费级GPU异构调度+671B模型动态优化,双路通用服务器+消费级显卡即可流畅运行满血版DeepSeek-R1推理,单机支持40人规模团队使用。同时,方案采用线性延展、即需即建的边云协同架构,取代超前预投的传统私有云架构,让企业享有低风险的投资回报曲线。

■其次,出厂即完成全栈预装,零手工调参即可上线运行。硬件、操作系统、推理引擎、模型管理平台到上层应用全栈预装至服务器中,插电即用,模型服务与应用开箱即用。同时,方案提供图形化AMaaS管理平台,内置DeepSeek-R1-671B满血版、QWen3-235B等参数规模超千亿级的大模型版本,支持多模型并行/测试。此外,方案实现了资源自动化分配,自动计算并分配GPU显存与KVCache,保障模型稳定运行。

■再次,软硬协同重塑性能曲线,企业级SLA保障数据中心级可用性。对比业界,方案将Prefill速度提升超30倍,Generate速度提升超3倍,并通过采取Prefix Cache等技术,在高并发场景下实现10倍性能提升。此外,方案通过高效GPU通信技术,大幅降低消费级显卡通信延迟,使其通讯带宽达到数据中心级GPU水平。尤其在大模型推理All2ALL场景下,方案通过系统级深度优化,实现了显著的性能提升。此外,通过企业级引擎优化,方案保障了显存溢出不崩溃、长文本推理零中断,提供企业级SLA保障。

浪潮信息KOS携手趋境科技推出的轻量化推理方案,以消费级硬件承载顶尖模型能力,兼具企业级可靠性与开箱即用体验,为私有化大模型部署提供低成本、易运维、高性能的一站式范本,加速AI能力在千行百业的普及与深化。

关注我们

Copyright © 2024 浪潮信息 鲁ICP备13028953号-12

售前咨询

售后服务

回到顶部

回到顶部

售前咨询
售后服务