本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

简体中文
首页 产品 元脉网络 AIGC网络 软件 ICE智能运管平台
ICE智能运管平台网络操作系统
ICE智能运管平台网络操作系统

ICE智能运管平台

ICE是专为智算中心AIGC网络打造的智能运管平台,基于开放架构,实现网络与AI服务器的统一纳管,覆盖从部署、配置到运维排障的全生命周期自动化。在部署阶段,ICE通过端到端自动化流程,将AI系统网络交付周期从数周大幅缩短至数天,显著提升上线效率;在运维阶段,ICE深度融合高精度Telemetry遥测与AI智能算法,实时感知网络状态,分钟级精准定位故障,并对光模块进行细粒度监控与健康度预测,全面增强网络可靠性,大幅降低运维复杂度。


产品特性
自适应路由

自适应路由

通过一键启用AI Fabric自适应路由功能,实时感知多路径网络拥塞状态,并基于实时数据实现细粒度负载均衡,将 RoCEv2网络带宽利用率从60%大幅提升至95%以上

自动化部署

自动化部署

在AIGC应用场景中,以Fabric为部署单元,自动完成GPU配置、网卡参数设置与交换机调优,实现端到端自动化部署,将整体交付周期从数周大幅缩短至数天

基于导航式设计,自动化完成设备从开箱到零接触配置上线的全流程,显著提升交付效率

智能化运维

智能化运维

基于 Telemetry 技术实时监控 AI Fabric 网络状态,快速识别链路闪断、网络拥塞等异常,精准定位故障,将网络故障诊断时间从小时级缩短至分钟级,保障网络长期稳定运行

支持对关键软硬件资源进行手动或定时巡检,并自动生成巡检或验收报告,直观呈现网络健康状况

高精度压测

高精度压测

集成可视化网络压测功能,支持一键触发服务器端流量测试,精准测量带宽、时延等关键指标;针对 AI 流量的突发特性,提供毫秒级监控与智能流量分析,快速评估网络性能,并支持一键导出压测报告

技术规格

场景

指标项

功能描述

系统概况

概况

涵盖了网络管理的关键方面,包括拓扑展示、设备与状态统计、健康度评估、端口震荡与带宽统计、资源使用排行以及告警通知,全面助力网络运维监控。

拓扑图

完整的网络设备管理与拓扑生成系统,支持Fabric域配置、设备扫描与添加、拓扑生成与动态刷新、设备信息展示、远程配置操作以及拓扑图自适应调整等功能

服务器概览

提供了对服务器和GPU资源的全面监控,包括数量统计、状态总览以及基于服务器组的GPU卡状态统计,助力高效管理和资源优化

全景图

流量、光模块、端口状态、链路状态、GPU状态等全方位展示

快捷菜单栏

该系统支持保留客户常用功能、收藏特定功能、搜索功能以及全量展示功能,为用户提供了高效便捷的操作体验

设计部署

资源管理

硬件资源展示:包括交换机、服务器和链路资源列表展示;底层网络协议资源池:包括协议配置自动化资源的展示

拓扑规划

支持手动添加设备型号、构造拓扑,并可对比预期拓扑与实际设备拓扑

算力接入

支持算力接口及网关IP地址配置、下联口配置,并可自动发布相关路由协议

遥测订阅

功能涵盖了网络接口和队列的丢包统计、缓存不足丢弃报文数统计、ECN报文统计、芯片转发丢包统计以及流量统计,全面监测网络性能和数据传输状态

收集器管理

采集器和备份系统的配置与管理

AI调优

全局调优

支持全网交换机调优模版的自动化部署

网卡调优

支持交换机负载均衡联动方案的网卡进行自动化配置,
  支持升级固件的配置、DCQCN、RTTCC 参数调优

流量负载调优

支持全网交换机负载均衡功能的开启

协议调优

支持QoS优先级、队列调度管理;
  支持缓存空间、PFC、ECN功能的可视化展示和配置管理

监控中心

指标监控可视化

全面的网络性能监控,涵盖接口和队列的丢包、缓存不足丢弃报文、ECN报文、芯片转发丢包以及流量统计

一键压测监控

图形化一键方式的高精度的交换机端口监控、服务器端打流测试与结果查看、流量监控对比分析、集群一键压测,以及全面的带宽和时延测试结果展示

专家级压测

基于NCCLtest的高精度压测

高精度端口监控

高精度的端口up/down震荡遥测监控

光模块监控

监控接收功率、发送功率、偏置电流、温度、电压等关键参数,同时记录光模块的类型、厂家、序列号等信息

光模块AI分析

支持通过AI算法预测光模块故障率

交换机资源监控

CPU/内存利用率、硬盘状态、风扇/电源状态的监控,交换机软件模块运行状态监控

控制器监控

控制器系统监控、线程池监控

告警日志

告警信息

告警列表分类、告警日报和告警邮箱配置功能

AI告警分析

支持AI辅助分析告警并进行根因定位,同时支持关联相关数据的深度分析

阈值管理

支持CPU、内存、syslog等模板配置,阈值模板管理

日志管理

设备日志分级别展示,北向web界面的操作日志记录,南向ssh下发配置记录

配置结果

控制器下发配置历史结果展示

运维管理

意图网络

该系统支持组合成配置方案并实例化应用到设备或端口

端口管理

L2、L3层接口的图形化配置,包括:端口的状态和配置展示

风暴抑制

支持交换机端口的广播、非已知单播报文风暴和组播的抑制的批量配置以及展示

控制器系统备份

控制器数据库和配置文件备份

交换机备份

该系统支持单台及多台设备的配置备份、下载、还原操作,同时提供ICE与交换机的整体打包备份、定时自动备份及整体还原功能

售前咨询

售后服务

意见反馈

AIStore

回到顶部

回到顶部

收起
回到顶部 回到顶部
请选择服务项目
售前咨询
售后服务
访问 AIStore

扫码访问AIStore