头部智驾公司算力建设快速扩张，元脑InManage助力破解大规模异构设备运维难题-浪潮信息

随着企业智能化转型不断深入，越来越多的数据中心正从数百台设备迈向千台乃至数千台规模。然而，企业数据中心并不是一夜之间增长至上千台设备的，而是在业务扩张过程中逐年建设、逐步演进形成的。

前年新增一批GPU服务器支撑AI训练，去年扩容一批存储设备承载海量数据，今年又引入新的网络设备和加速资源……几年下来，多地数据中心的设备规模不断增长，厂商品牌越来越多、产品代际越来越复杂、硬件架构越来越丰富，数据中心逐渐演变为一个庞大的异构基础设施体系。

当设备只有几十台时，依靠人工巡检、厂商管理工具和经验脚本尚能支撑日常运维；但当设备达到数千台规模后，运维人员不仅需要管理设备在线状态，还要面对跨品牌设备的固件升级、资产管理、健康监测、故障诊断、能耗优化等大量工作，运维复杂度呈指数级增长。

这正是全球某头部智驾公司在算力快速扩张过程中面临的现实挑战。

随着智驾硬件、整车操作系统及高阶智驾系统研发持续推进，该公司在全国多个研发创新基地构建了多个数据中心，IT设备规模已增长至3000+台，并形成跨品牌、跨代际、跨架构的异构算力体系。面对持续攀升的运维复杂度，该公司选择元脑InManage数据中心基础设施管理平台，对智算中心运维体系进行全面升级。

浪潮元脑InManage数据中心运维平台.jpg

依托对服务器、存储、网络等多类型设备的广泛兼容能力，元脑InManage实现多地数据中心3000余台IT设备统一纳管，将原本分散在不同厂商工具中的设备管理、资产管理、固件管理和监控运维能力集中到统一平台，大规模异构设备的运维管理效率提升2倍以上。在此基础上，元脑InManage还为企业用户构建覆盖“部件-节点-集群-数据中心”的全栈可观测体系，实现GPU、内存等关键部件提前7天故障预警，并通过打通IT基础设施管理系统与动力环境监控系统，实现智能能效协同优化，在风冷场景下节能15%-20%，为智驾研发业务连续性与算力系统稳定运行提供坚实保障。

01 头部智驾公司算力建设快速扩张，大规模异构设备运维管理面临挑战

随着该公司智驾硬件搭载车型达到数百款，智驾系统达到千万级量产规模，其研发投入持续加码，多地数据中心规模随之急剧扩张：服务器、存储等IT设备数量超3000台，数据规模接近EB级，并形成多地多中心、多云异构的复杂IT环境，且预计未来三年每年都会增长超千台IT设备。规模庞大的异构基础设施带来了统一纳管难、故障排查慢、能耗成本高等问题，让数据中心运维面临前所未有的复杂挑战。

多品牌、多代际、多架构设备并存，统一运维管理难：该智驾研发公司短时间内，构建起多地多数据中心的算力布局，但IT资源异构程度高，涵盖众多品牌和型号的服务器、存储及网络设备，且CPU、GPU、DPU等核心计算组件也来自不同厂商。传统运维模式下，一名运维人员运维50台设备已经达到极限。面对3000+台的不同品牌、代际和架构的IT设备，运维人员不得不在多个控制后台来回切换，完成设备发现、资产盘点、状态监控及固件升级等工作。随着设备规模持续增长，管理复杂度快速攀升，不仅运维效率受到影响，也难以保障跨平台设备管理的一致性和标准化。

缺乏统一可观测体系，海量设备故障定位效率低：在自动驾驶的端到端大模型训练中，常常涉及万卡级的GPU算力系统并行计算。在这种环境下，任何一个节点异常都可能影响任务连续性。然而在异构环境下，设备状态、告警信息和运行日志分散在多个系统中，运维人员难以快速建立从部件到集群的全局视图。一旦出现训练任务异常，传统的运维模式往往是“事后排查”，从发现训练中断再去排查，响应周期长达数小时甚至数天，远远不能满足用户30分钟级的故障恢复需求。

高密算力持续增长，数据中心能耗管控压力加剧：随着智驾公司数据中心承载的业务负载的逐年增长，各地数据中心整体功耗逐年攀升。传统的制冷策略由于无法感知IT设备的实时负载，往往采取“冷气全开”的粗放模式，导致大量的能源浪费。高密算力带来的能耗上升与PUE管控压力，成为管理者必须解决的难题。仅按照目前的算力规模体量保守预测，一年电费花销高达上千万元。

02 元脑InManage：实现多数据中心3000+异构设备统一纳管与智能运维

面对上述挑战，该公司选择元脑InManage作为数据中心运维升级的核心平台。元脑InManage拥有领先的异构设备自动化运维能力，实现了该用户多地数据中心3000+台跨品牌、跨代际、跨架构设备的统一纳管，覆盖自动上架、资产管理、智能监控、自动巡检、故障管理、能耗优化等全生命周期运维。

元脑InManage数据中心智能运维管理平台三大能力闭环示意图.jpg

■ 一键纳管3000+IT设备，运维效率提升2倍

针对多品牌、多代际、多架构设备并存带来的管理挑战，元脑InManage构建统一运维管理平台，实现多数据中心3000+服务器、存储、网络设备等多类型基础设施集中纳管。原本分散在不同厂商工具中的设备管理、资产管理、固件升级与健康监测能力被统一整合至单一平台，使运维人员无需频繁切换系统即可完成日常运维操作。在本次部署中，3000+设备实现快速统一接入，运维效率提升2倍以上。

■ 关键部件提前7天故障预警，根因定位分钟级完成

针对海量设备环境下故障发现慢、定位难的问题，元脑InManage构建覆盖“部件—节点—集群—数据中心”的全栈可观测体系，将原本分散的设备状态、日志信息和告警数据统一关联分析。平台可实时感知GPU、内存、硬盘等关键部件健康状态，并基于历史运行数据与AI算法实现提前7天故障预警。运维人员可以在业务低峰期提前更换存在风险的硬件，避免训练任务因单点故障中断。当故障发生时，系统还能够快速完成根因分析与故障定位，大幅缩短排障时间，故障定位效率提升90%，有效保障智驾研发业务连续运行。

■ 智能能耗管控，风冷节能15%-20%、液冷再节能10%

在能耗管理方面，元脑InManage平台打通IT基础设施管理系统与动力环境监控系统，实现双平台统一纳管，构建覆盖数据中心环境参数和服务器关键数据的全域数据池，可以根据服务器部件温度情况，实现从服务器风扇、整机负载，到数据中心空调、冷量、流量等自适应精准调控，让服务器始终稳定运行在最适宜的温度下，从而达成数据中心级的节能降耗，风冷系统能耗直降15-20%，液冷系统再节能10%，打造安全稳定、绿色高效的高质量数据中心。

通过引入浪潮信息元脑InManage平台，该智驾公司不仅解决了万卡级数据中心的管理难题，更在运维自动化与智能化层面迈出了关键一步。多地数据中心3000多台服务器、交换机等IT设备统一调度、关键部件提前7天的故障预警、分钟级的根因定位以及显著的节能降耗成果，共同构成了其未来在高阶自动驾驶竞赛中稳健驰骋的坚实底座。

#交通 #InManage基础设施管理平台

让策略迭代更快、执行更稳，元脑服务器支撑量化业务提速增效

AI让名医经验传承，元脑生态伙伴助力三甲中医医院“人工智能+中医药”建设