首页 > 关于我们 > 新闻中心 > 诊断大模型来了!浪潮信息升级InService托维服务平台

诊断大模型来了!浪潮信息升级InService托维服务平台

2024-01-30

近日,浪潮信息正式发布InService托维服务平台2.0版本。此次2.0版本重点新增的服务器硬盘故障预测模块,是浪潮信息基于累计分析300亿+条特征数据,576种预处理参数的近百种模型组合,针对不同型号、不同厂商的硬盘,实现最优硬盘失效模型建模,可实现提前14天预测风险,预测准确率达95%以上。

1.png

故障预测,听起来像是未来技术,这是可以实现的吗?

千里之堤可溃败于蚁穴

众所周知,在一张小小的2.5英寸的金属硬盘中,装载了多个超薄的磁盘片。在工作状态下,这些盘片要以超过每分钟7000转的速度疯狂旋转。读取和写入数据的磁头在盘片表面上方5-10纳米的距离间不断来回扫动,从而实现数据读写。这个间距,大约是人类头发宽度的1/12。

这无疑是现代工业体系中,精密制造工艺的极限了。

磁头要在5纳米的距离“掠过”盘片,且两者之间不能产生接触。具有如此紧密公差的系统,任何轻微撞击或金属疲劳导致的介质损坏,都有可能让硬盘读写故障,甚至引发蝴蝶效应,导致数据中心的运维事故。

在数据中心和云服务基础设施中,硬盘发生故障的问题一直是一种普遍现象,也是最严重最频繁的硬件问题之一。

2.jpg

公开数据显示,某互联网大厂的数据中心4年内的29万次硬件故障中,硬盘故障占比高达81.84%。一旦硬盘故障,就会导致阵列降级,读写性能下降,期间还会存在二次掉盘导致的数据丢失风险。虽然传统存储有RAID、副本等机制,但是数据重建过程中要使用大量IO资源,而且重建时间很长,往往以天计算,这会对业务连续性造成严重影响。

将所有珍贵的数据资料存放在一张张高速旋转的硬盘盘片中,是真正的走钢丝。

“浪潮信息有近30年的服务器维护经验,故障维修案例超过100万。如果我们把经验充分利用起来,实现无感的智能诊断和故障预测,把突发故障变为计划故障,不就会大大降低客户的维护成本了吗?”

这是个方向正确,却很大胆的想法。

智能故障诊断,将事故扼杀于微时

浪潮信息年出货量130多万台服务器,服务器存量近千万台,分布于全球各个国家。将故障诊断的专家经验系统化,相当于是要给每一台服务器配置一名经验丰富的资深“老师傅”。

服务器故障数据诊断,需要依据硬件、操作系统及上层应用多达20+种日志类型、上百个日志文件、数十万条日志数据。同时还要分析故障发生时间、频次以及多条报错记录之间的逻辑关系。即使是经验丰富的顶级专家,也需要耗费大量精力做问题定位。

要实现无人值守的故障诊断,需要先构建诊断规则库。工程师们首先对CPU、硬盘、内存、外插卡等主要部件的报错梳理出多种故障类型,并基于IPMI标准规范,将经验转化成故障诊断规则。其次,需要根据人类专家经验的线性逻辑,将每一类故障的具体诊断思路做成思维导图,再通过对相应日志进行串联与逻辑判断,从而实现人类经验的系统规则的转化。

通过故障数据的提取分类、各子模块的“初诊”、整体综合“会诊”等步骤,进行系统化的故障诊断定位,最终形成可行性的专家诊断规则库。

专家经验的系统化可以提升故障诊断定位的效率,而引入AI算法来进行深入细致的数据规律挖掘,则是将诊断的准确率提高了一整个档次。

浪潮信息将100万+诊断实例,数百万台的服务器运维数据进行整理清洗,形成业内最大的训练数据集,反复训练调整,形成了诊断大模型。把大模型与专家诊断系统进行融合,一台服务器的故障诊断及问题定位过程仅需30秒,整体准确率达85%以上,其中硬盘、内存等主要部件准确率可达90%以上。

故障智能预测,“治未病”

中国古代有一个评价医术高低的著名典故,即“上医治未病,中医治欲病,下医治已病”。实现设备的智能诊断,能做到防微杜渐,将重大运维事故扼杀在摇篮中,但这仅仅实现了“中医治欲病”。要想实现对故障的“未诊先知”,才能实现“上医治未病”的初心。

浪潮信息在发展智能诊断技术的同时,也发展出故障预测技术,实现从“治欲病”到“治未病”的转变。

以磁盘故障预测为例。根据当前技术规范,服务器系统可提取的硬盘参数大约60多种,这是磁盘故障判断的基础。工程师们选择采用AI算法技术来建立硬盘的失效预测模型。模型累计分析了超过300亿条故障特征数据,引入GAN、XGBoost、PCCs算法,基于567种预处理参数的近百种模型组合,以匹配不同型号、不同厂商的硬盘,最终实现最优的失效模型建模。

目前已实现HDD故障预测、SSD寿命预测,提前14天预测风险盘,故障预测准确率超95%,误报率小于1%。

某通信行业客户设备总保有量超5000台,各类设备的硬盘总计超过5万块,因应用层对数据读写频率较高,导致硬盘故障频发。2023年1-3月,客户月均报修量,仅硬盘故障就占比超70%。

2023年4月,客户接入inService平台后,借助云端硬盘故障预测模型,同时结合客户现场实际故障磁盘数据,功能启用后仅3个月,预测准确率就已达到95%以上。客户90%的硬盘类故障由被动式紧急修复转变为主动式计划性修复,大幅提高业务运行的稳定性、连续性。

目前, InService2.0平台向客户提供免费的原厂专家托维服务。客户设备选择接入平台后,会24小时实时监测设备运行状态,一旦出现硬件隐患,就会自动触发告警,并通过智能诊断模型快速定位问题生成服务工单,通过智能调派自动派单到人,主动联系客户上门服务,实现从故障发现到问题解决服务全流程的自动化、智能化。