本站点使用Cookies,继续浏览表示您同意我们使用Cookies。
Cookies和隐私政策>
随着智算中心规模越来越大,设备连接数几何级增长、异构计算架构复杂度飙升、液冷技术普及带来新监控需求、业务连续性要求持续提升,传统IT监控已难以覆盖全链路、精细化管理需求。Gartner早已将可观测性列为关键战略技术趋势,其在《2025年监控与可观测性技术成熟度曲线》报告中进一步指出,可观测性技术正逐步成熟并为主流市场接受。可观测性是基于系统运行时产生的指标、调用链、日志等数据,全面洞察系统内部状态与环境交互的能力,快速识别问题找到根因,进而快速检测并解决问题,保障系统高效可靠运行。
近日,元脑InManage智能运维管理平台全新升级全栈可观测能力,通过实时采集GPU温度、显存、液冷流量等硬件指标、网络日志、跨节点作业数据等,构建“指标-日志-追踪”三位一体数据池,改变了此前单一的部件和设备监控,实现智算中心从部件、整机、集群到系统的四级智能观测,驱动了观测体系、液冷智控系统、自动预警三大功能升级,精准应对了智算中心规模激增带来的统一运维、液冷精准监测和根因定位三大挑战。
目前,元脑InManage已实现多元架构下多维核心参数统一观测,并能关联硬件功耗与冷却参数进行精准调控,最终达成故障定位效率提升90%、硬件失效提前7天预警的效果,助力智算中心总持有成本(TCO)下降40%,为大模型时代的智算中心运维提供全新解决方案。
随着大模型技术快速迭代,模型参数指数级增长,智算中心正迎来极速扩张,运维难度也随之提升。在政策推动下,智算中心跨地域协同需求激增,需整合多地资源实现全局调度。智算中心的运维管理正从“设备监控”向“系统协控”演进,在全局观测方面面临挑战。
■ 异构计算架构带来的统一运维难:智算中心设备连接数呈几何级增长,“CPU+GPU+DPU”异构计算架构普及导致硬件多样性显著提升,其内部结构和工作原理与传统设备大相径庭,以往运维多局限于对单一CPU或GPU单元的状态监控,资源管理、链路规划、流量优化等工作依赖人工配置,不仅效率低下,更易出现操作失误,缺乏多维度对万卡级智算中心的加速卡利用率、显存占用、计算资源、存储资源等核心参数的统一观测能力。
■ 功耗攀升带来的液冷精准监测难:大模型参数量突破万亿,推动算力集群规模扩大至数万GPU卡,高功率密度设备对散热提出严苛要求,液冷技术得以广泛应用。但是传统智算中心的监控体系缺乏对液冷系统的一体化监测:冷却液流量、压力、温度控制等基础参数难以实时追踪,漏液、凝露等风险无法及时感知,更无法关联芯片功耗实现精准调控,严重时可能影响设备寿命,存在安全隐患。
■ 业务复杂性增加带来根因定位难:GPU显存泄漏、IB网络丢包等硬件级异常无法关联具体AI训练任务,传统故障定位如同“大海捞针”,传统监控方式多以被动为主,难以满足“分钟级根因定位”的需求。同时,存储容量不足、集群环境异常等风险往往难以及时预警,易导致训练中断。人工运维传统模式下,配置与诊断效率低,进一步推高运维成本,制约智算中心规模化发展。
针对智算中心规模激增带来的统一运维、液冷精准监测和根因定位三大挑战,元脑InManage全面覆盖计算、网络、存储、作业等核心领域,进而建立起智算中心“部件-节点-集群-系统”四级智能观测体系,破解大规模智算中心运维难题。元脑InManage基于全局视角实现IT基础设施与动力环境的全域统一运维,液冷系统节能10%、故障定位效率提升90%、硬件失效提前7天预警,显著提升运维智能化水平,为大规模智算中心的稳定运行提供坚实保障。
■ 构建四级智能观测体系,破解大规模运维困局
元脑InManage打造智算中心“部件-节点-集群-系统”四级智能观测体系,通过实时采集CPU、GPU、硬盘等关键部件的健康指标以及资源利用率,实现异构计算架构的统一运维,并持续记录运行事件及网络日志,自动拓扑追踪跨节点作业数据,构建“指标-日志-追踪”三位一体数据池。同时,结合作业链路上的设备状态、端口监测数据,依托3D实时建模动态展示资源分布,运维团队可快速识别问题、优化性能,故障定位效率提升90%,彻底破解大规模运维难题,实现从“部件异常”到“业务影响”的全链路精准溯源。
■ 打造液冷智控体系,实现散热精准监测与调控
基于“全维度数据采集、多源关联分析、主动智能调控”的核心能力,元脑InManage对液冷系统全方位升级,实现IT基础设施与动力环境的全域统一监控。一方面,实时监测冷却液流量、温度、压力等基础参数,并创新性关联芯片实时功耗,构建 "散热需求 - 液冷供给" 联动观测体系;另一方面,通过多目标优化算法与 AI 精准调控,动态计算不同环境下的最优流量分配方案,实现流量利用率提升50%、液冷系统节能10%。针对异常场景,平台可立即触发警报并提供故障诊断信息,若出现漏液风险,更能与CDU联动实现秒级断液、自动关机,最大限度保障设备安全。
■ 作业根因定位与预警自动化,业务故障分钟级溯源
元脑InManage 构建 "提前预警 + 自动响应+精准溯源" 的业务保障体系,基于基础设施健康指标、设备日志与智能算法分析,实现了从被动响应到主动预警的转变,可提前3天预警存储容量风险,提前7天预警硬件失效风险。同时,元脑InManage通过构建“硬件实体-作业任务-网络拓扑”的知识图谱,结合时序异常检测算法,实现90%根因在5分钟内自动定位,摆脱传统依赖经验定位故障的模式,使运维效率提升4倍,大幅降低运维成本,为智算中心业务稳定运行提供多重保障。
此次InManage全栈可观测能力升级,解决了智算中心“规模、复杂度、连续性”三大核心痛点。当前,智算中心已成为AI产业发展的核心底座,InManage全栈可观测能力将持续助力金融、互联网、科研等行业的智算中心实现“零接触、全自动、高可靠”运维,为AIGC、自动驾驶、科学计算等领域的创新发展提供坚实支撑。
访问 AIStoreAIStore是基于元脑生态打造的商业协作线上平台,作为知识资源平台、交流服务平台和商机孵化平台,赋能“百模”与“千行”的对接,目前已上架200+产品和方案,在智能票据识别、AI工业质检、代码生成、视觉智能标注、AI健康助手等领域实现成功牵手和落地应用,助力千行百业加速AI产业创新,高效释放生产力。

扫码访问AIStore