本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

简体中文
首页 > 关于我们 > 成功案例 > 头部智驾公司算力建设快速扩张,元脑InManage助力破解大规模异构设备运维难题

头部智驾公司算力建设快速扩张,元脑InManage助力破解大规模异构设备运维难题

发布时间:2026-06-03

随着企业智能化转型不断深入,越来越多的数据中心正从数百台设备迈向千台乃至数千台规模。然而,企业数据中心并不是一夜之间增长至上千台设备的,而是在业务扩张过程中逐年建设、逐步演进形成的。

前年新增一批GPU服务器支撑AI训练,去年扩容一批存储设备承载海量数据,今年又引入新的网络设备和加速资源……几年下来,多地数据中心的设备规模不断增长,厂商品牌越来越多、产品代际越来越复杂、硬件架构越来越丰富,数据中心逐渐演变为一个庞大的异构基础设施体系。

当设备只有几十台时,依靠人工巡检、厂商管理工具和经验脚本尚能支撑日常运维;但当设备达到数千台规模后,运维人员不仅需要管理设备在线状态,还要面对跨品牌设备的固件升级、资产管理、健康监测、故障诊断、能耗优化等大量工作,运维复杂度呈指数级增长。

这正是全球某头部智驾公司在算力快速扩张过程中面临的现实挑战。

随着智驾硬件、整车操作系统及高阶智驾系统研发持续推进,该公司在全国多个研发创新基地构建了多个数据中心,IT设备规模已增长至3000+台,并形成跨品牌、跨代际、跨架构的异构算力体系。面对持续攀升的运维复杂度,该公司选择元脑InManage数据中心基础设施管理平台,对智算中心运维体系进行全面升级。

浪潮元脑InManage数据中心运维平台.jpg

依托对服务器、存储、网络等多类型设备的广泛兼容能力,元脑InManage实现多地数据中心3000余台IT设备统一纳管,将原本分散在不同厂商工具中的设备管理、资产管理、固件管理和监控运维能力集中到统一平台,大规模异构设备的运维管理效率提升2倍以上。在此基础上,元脑InManage还为企业用户构建覆盖“部件-节点-集群-数据中心”的全栈可观测体系,实现GPU、内存等关键部件提前7天故障预警,并通过打通IT基础设施管理系统与动力环境监控系统,实现智能能效协同优化,在风冷场景下节能15%-20%,为智驾研发业务连续性与算力系统稳定运行提供坚实保障。

01 头部智驾公司算力建设快速扩张,大规模异构设备运维管理面临挑战

随着该公司智驾硬件搭载车型达到数百款,智驾系统达到千万级量产规模,其研发投入持续加码,多地数据中心规模随之急剧扩张:服务器、存储等IT设备数量超3000台,数据规模接近EB级,并形成多地多中心、多云异构的复杂IT环境,且预计未来三年每年都会增长超千台IT设备。规模庞大的异构基础设施带来了统一纳管难、故障排查慢、能耗成本高等问题,让数据中心运维面临前所未有的复杂挑战。

多品牌、多代际、多架构设备并存,统一运维管理难:该智驾研发公司短时间内,构建起多地多数据中心的算力布局,但IT资源异构程度高,涵盖众多品牌和型号的服务器、存储及网络设备,且CPU、GPU、DPU等核心计算组件也来自不同厂商。传统运维模式下,一名运维人员运维50台设备已经达到极限。面对3000+台的不同品牌、代际和架构的IT设备,运维人员不得不在多个控制后台来回切换,完成设备发现、资产盘点、状态监控及固件升级等工作。随着设备规模持续增长,管理复杂度快速攀升,不仅运维效率受到影响,也难以保障跨平台设备管理的一致性和标准化。

缺乏统一可观测体系,海量设备故障定位效率低:在自动驾驶的端到端大模型训练中,常常涉及万卡级的GPU算力系统并行计算。在这种环境下,任何一个节点异常都可能影响任务连续性。然而在异构环境下,设备状态、告警信息和运行日志分散在多个系统中,运维人员难以快速建立从部件到集群的全局视图。一旦出现训练任务异常,传统的运维模式往往是“事后排查”,从发现训练中断再去排查,响应周期长达数小时甚至数天,远远不能满足用户30分钟级的故障恢复需求。

高密算力持续增长,数据中心能耗管控压力加剧:随着智驾公司数据中心承载的业务负载的逐年增长,各地数据中心整体功耗逐年攀升。传统的制冷策略由于无法感知IT设备的实时负载,往往采取“冷气全开”的粗放模式,导致大量的能源浪费。高密算力带来的能耗上升与PUE管控压力,成为管理者必须解决的难题。仅按照目前的算力规模体量保守预测,一年电费花销高达上千万元。

02 元脑InManage:实现多数据中心3000+异构设备统一纳管与智能运维

面对上述挑战,该公司选择元脑InManage作为数据中心运维升级的核心平台。元脑InManage拥有领先的异构设备自动化运维能力,实现了该用户多地数据中心3000+台跨品牌、跨代际、跨架构设备的统一纳管,覆盖自动上架、资产管理、智能监控、自动巡检、故障管理、能耗优化等全生命周期运维。

元脑InManage数据中心智能运维管理平台三大能力闭环示意图.jpg

■ 一键纳管3000+IT设备,运维效率提升2倍

针对多品牌、多代际、多架构设备并存带来的管理挑战,元脑InManage构建统一运维管理平台,实现多数据中心3000+服务器、存储、网络设备等多类型基础设施集中纳管。原本分散在不同厂商工具中的设备管理、资产管理、固件升级与健康监测能力被统一整合至单一平台,使运维人员无需频繁切换系统即可完成日常运维操作。在本次部署中,3000+设备实现快速统一接入,运维效率提升2倍以上。

■ 关键部件提前7天故障预警,根因定位分钟级完成

针对海量设备环境下故障发现慢、定位难的问题,元脑InManage构建覆盖“部件—节点—集群—数据中心”的全栈可观测体系,将原本分散的设备状态、日志信息和告警数据统一关联分析。平台可实时感知GPU、内存、硬盘等关键部件健康状态,并基于历史运行数据与AI算法实现提前7天故障预警。运维人员可以在业务低峰期提前更换存在风险的硬件,避免训练任务因单点故障中断。当故障发生时,系统还能够快速完成根因分析与故障定位,大幅缩短排障时间,故障定位效率提升90%,有效保障智驾研发业务连续运行。

■ 智能能耗管控,风冷节能15%-20%、液冷再节能10%

在能耗管理方面,元脑InManage平台打通IT基础设施管理系统与动力环境监控系统,实现双平台统一纳管,构建覆盖数据中心环境参数和服务器关键数据的全域数据池,可以根据服务器部件温度情况,实现从服务器风扇、整机负载,到数据中心空调、冷量、流量等自适应精准调控,让服务器始终稳定运行在最适宜的温度下,从而达成数据中心级的节能降耗,风冷系统能耗直降15-20%,液冷系统再节能10%,打造安全稳定、绿色高效的高质量数据中心。

通过引入浪潮信息元脑InManage平台,该智驾公司不仅解决了万卡级数据中心的管理难题,更在运维自动化与智能化层面迈出了关键一步。多地数据中心3000多台服务器、交换机等IT设备统一调度、关键部件提前7天的故障预警、分钟级的根因定位以及显著的节能降耗成果,共同构成了其未来在高阶自动驾驶竞赛中稳健驰骋的坚实底座。

#交通 #InManage基础设施管理平台

售前咨询

售后服务

意见反馈

AIStore

回到顶部

回到顶部

收起
回到顶部 回到顶部
请选择服务项目
售前咨询
售后服务
访问 AIStore

扫码访问AIStore