新闻动态
当前位置:首页 > 新闻动态

大模型部署方案普惠西北科研高校,KOS系统助力省级计算中心升级服务

2025-08-01

随着大模型的快速发展,人工智能正在重塑技术、产业和社会生活的方方面面。某省级计算中心作为省内首个计算机研究和服务的专业科研机构,为全省科研、教育、企业等用户提供科学计算公共平台服务。日前,该中心已经成功部署了Qwen3-32B、Qwen3-30B-A3B、DeepSeek-R1-70B、Qwen-32B(原生版)、DeepSeek-V3-0324及DeepSeek-R1-Distill-Qwen-32B等多款大模型。在部署过程中,中心面临着硬件资源受限、存在数据安全隐患以及软件版本升级等问题。1.jpg针对该省计算中心的诉求,浪潮信息通过将原有CentOS V7.9迁移至KOS V5.8,对系统漏洞进行了及时修复与优化,通过内置安全策略与定期安全更新,进一步增强系统的防护能力;同时通过完善的资源调度算法,在多用户或者多任务的计算环境中动态分配GPU资源,确保资源能够高效利用,提升工作效率。

省级计算中心部署多款大模型 部署效率及算力调度面临挑战

中心现有计算集群及智算集群5套,如何实现模型的快速部署,在不同模型共享集群时,调度系统如何高效协调计算、存储、网络等资源,以及面对波动性请求,如何实现动态负载均衡并且成本优化,成为中心面临的挑战。

在传统模型部署中,从基础设施硬件搭建、系统软件准备,到上层AI软件栈搭建,涉及GPU驱动适配、软件栈选择、版本冲突、系统配置、环境变量以及软件栈与容器依赖等诸多问题,繁琐的步骤通常耗费数天,甚至数周时间。这种复杂性不仅增加了技术实施的难度,还显著延长了AI应用的落地时间。

同时,中心的计算平台长期运行在CentOS 7.9上,随着CentOS停更,平台的日常升级维护变得十分困难,且在安全检查中扫描出大量漏洞。这不仅影响了平台的稳定运行,还可能导致数据泄露、服务中断或恶意攻击,操作系统的迁移刻不容缓。

此外,省级计算中心软硬件环境复杂,在硬件方面,涵盖了CPU服务器、GPU服务器、分布式存储、IB网络以及Mellanox网卡、NVMe显卡等多种设备与部件;在软件方面,中心集成了30+款科研计算应用软件,以满足气象预测、计算物理、计算化学、医药研制、地质勘探等各类科研任务需求,新操作系统需要解决复杂软硬件兼容问题。

KOS助力系统平滑迁移与性能提升计算中心实现稳定高效算力输出

针对中心面对的问题,浪潮信息通过操作系统迁移及软件层面的优化,实现了模型推理服务的“一键部署”,有效解决了CentOS停更带来的升级维护与安全漏洞,深度适配中心复杂的软硬件设备,优化驱动程序,实现了多个模型部署下资源的按需调度与弹性扩展,在不改变硬件情况下,提升集群整体性能与运维效率。2.png

某省计算中心系统升级替换架构图

通过与主流GPU厂商联合选型,KOS深度预集成AI专属软件仓库栈与主流AI框架,为用户提供一站式AI推理环境,提升了大模型部署效率。KOS内置GPU驱动组件、Docker容器工具包、CUDA/cuDNN运行库等核心组件,用户仅需一条命令即可完成基础环境的部署,系统自动完成依赖解析与配置;同时,KOS内置主流AI框架,包括TensorFlow、PyTorch、MXNet、PaddlePaddle等深度学习框架,TensorRT、ONNX Runtime、OpenVINO等推理框架,以及cuDNN、NCCL、OpenCV等主流AI库,通过完善的依赖管理机制,解决了不同框架与库之间的版本依赖与冲突问题,确保上述组件无缝协同工作。

在多模型部署场景中,KOS提供高效的资源管理和硬件适配能力,以支持多个大模型并行运行时的稳定性与性能;KOS预装最新版CUDA Toolkit与GPU驱动,确保用户能够高效利用最新的GPU计算特性,如指令集、性能优化算法等;通过CXL分层内存冷热页识别及动态迁移技术,扩展了内存容量,提升了kvcache访问效率,确保了在底层硬件配置不变的情况下,能够实现更高的计算效率;深度集成Docker、Kubernetes等容器技术,支持GPU容器化部署,并通过Web界面展示容器状态、资源使用情况等信息,实现GPU的可视化运维。

对于计算中心大量软硬件兼容的问题,KOS团队凭借丰富的硬件驱动问题处理以及常见算力板卡适配选型经验,遴选了主流CPU、GPU及Infiniband卡的最佳驱动,确保硬件设备的正常稳定运行。对常用的科学计算工具及依赖库,如Docker、NCCL、NV-FM、OpenLDAP、PDSH等,KOS进行了测试优选,并将其内置到系统镜像中,有效避免了因依赖库等问题导致软件包无法安装的情况。

在迁移过程中,KOS对系统进行了全面的安全评估,并利用漏洞扫描与批量修复能力,对漏洞进行了及时修复与优化。通过内置安全策略与定期安全更新,进一步增强系统的防护能力,有效降低了数据泄露、服务中断与恶意攻击等安全风险。

综上,在多款大模型部署情况下,KOS帮助该省计算中心实现系统迁移的同时,凭借软硬件协同调优能力,为中心提供了稳定、高效、安全的计算环境,进一步提升了省计算中心科研智能化服务能力,更好满足用户不同需求。

关注我们

Copyright © 2024 浪潮信息 鲁ICP备13028953号-12

售前咨询

售后服务

回到顶部

回到顶部

售前咨询
售后服务