首页 > 关于我们 > 新闻中心 > AI时代服务器固件技术创新实践技术沙龙举行

AI时代服务器固件技术创新实践技术沙龙举行

2023-12-08

AI时代,AIGC等创新技术应用推动算力快速增长,计算架构正在由CPU密集型转向GPU、FPGA、ASIC芯片的加速计算密集型,对数据中心计算系统的安全性、性能、能耗、自动化和智能化水平等方面都提出了更高的要求。固件作为计算机系统中协调硬件与软件的关键桥梁,是支撑计算产业演进的重要支柱。固件的持续优化和更新是保障计算系统适应AI时代新应用,提高系统整体性能,提升大规模数据中心运维效率的重要工具。

为了更好推动固件产业在AI时代的持续创新,加强固件产业厂商间交流与合作,由固件产业技术创新联盟主办,浪潮信息承办的“AI时代的固件技术创新实践技术”技术沙龙在北京召开,沙龙邀请了来自中国电子技术标准化研究院、南京百敖、阿里、百度、字节、联想、浪潮信息的技术专家,对AI时代,固件技术创新的机遇与挑战展开了交流研讨。

1.png

中国电子技术标准化研究院集成电路测评中心副主任&固件产业技术创新联盟秘书长尹航在致辞中表示,固件是计算系统中很重要的细分方向,对系统的安全性、稳定性至关重要。固件产业技术创新联盟希望搭建产业沟通、交流的平台,以加强前沿技术、产业标准、评测以及人才培养等相关的交流,推动固件产业生态的持续健康发展。

2.png

会议承办方浪潮信息副总经理黄家明在致辞中表示,固件是计算机系统很关键的一部分,作为连接底层硬件和上层软件的重要桥梁,计算系统的很多创新设计都需要固件来实现。尤其在AI快速发展的今天,产业链上下游可以通过固件产业技术创新联盟的开放生态,加强技术创新交流与合作,把握在AI时代固件技术创新机遇,以推动整个计算产业的发展。

3.jpg

机遇与挑战并存 产业上下游携手同行

AI技术的快速发展,对固件技术创新带来了机遇与挑战。百敖CTO吴平在演讲中指出,一方面,对云端资源分配调度、高功耗下液冷散热系统调度管理、各类资源池化,以及边缘端更多处理器、异构加速器的多元算力协同管理,给固件系统带来了新的挑战;另一方面基于AI技术的内存、外存失效预测模型、功耗管理、Issue问题分类预测,以及辅助开发等都给固件创新带来了一系列新的机遇。百敖的研发团队正在展开一系列的技术攻关,希望能与产业上下游携手来应对机遇与挑战,推动固件技术的创新发展。

面对产业界的全新机遇与挑战,产业界上下游正在携手建立更加公平、开放的标准及测试体系。阿里技术专家杨青介绍了固件产业技术创新联盟的固件测试认证平台开源项目情况。该项目有12家产业上下游企业参与,是国内首个固件开源的测试平台,作为一项BIOS/BMC标准符合性测试工具,旨在为产业提供更加公正的、开放的固件验收及测试用例的标准和认证工具。同时该项目也是一项互联网云厂商服务器引入的固件前置测试工具,将满足互联网用户服务器固件后续定制化的需求,减少二次开发,提升固件产品的交付效率。阿里技术专家黄征在演讲中分享了云服务器硬件监控标准化的创新实践,阿里基于固件产业技术创新联盟,已经针对服务器监控北向接口的标准、DMTF-Redfish标准都做了重要提案,并做出了很多探索,希望后续不断提升针对AI大模型GPU异构服务器、大容量存储服务器、包含新形态DPU或SmartNIC的机型的设备监控管理的维度,细化相关动态指标的丰富度,推动数据中心服务器硬件监控的标准化管理。

此外,作为计算系统中软硬件的重要桥梁,固件的安全性与可靠性对服务器安全、云的稳定性都至关重要。百度资深技术专家司昌谅针对数据中心固件的安全性和可靠性进行了分析,介绍了固件安全在认证、通信、启动升级恢复以及日志四个层面的安全,分享目前百度基于PFR规范设计的固件安全运维管理技术。同时对于提升固件可靠性,从系统OS自重启恢复能力、软件模块的恢复能力、非必要BMC模块的功能裁剪、CPU以及内存资源优化四个方面提出了改进优化建议。

智能故障诊断及运维,开启数据中心的AI运维创新

随着数据中心规模的不断扩大,百万级设备的故障自动化和智能化运维也给固件创新提出了新的挑战。为提升服务器硬件故障自动化和智能化水平,目前字节跳动固件研发团队已经开展了数据中心故障诊断的研发创新,字节技术专家李琛琛表示,目前字节定义了数据中心故障分析的问题焦点,比如CPU、主板、内存、网卡等等,并针对固件采集到的故障问题,海量数据,运用AI建立了故障分析和处理的整个体系,更好帮助数据中心的故障诊断以及预测。字节技术专家高静也从硬件问题数据的采集、标准化、定位问题模式样、以及内存故障的预测等方面,进一步阐述了字节跳动硬件故障智能运维的运行机制。

浪潮信息固件技术专家陈超凡也分享了目前AI在服务器故障管理领域的应用,介绍了当下基于AI技术对内存进行智能故障预测、提前15天预测硬盘故障,以及风扇噪音预测数据中心风扇故障的创新技术,并表示未来更多的AI故障诊断及预测模型规模将更加轻量化,以嵌入带外BMC管理芯片的模式,实现服务器独立故障预测,随着模型的逐步迭代优化,预测也将更加精准,除了内存、硬盘、风扇,会有更多的关键部件可以构建智能化的故障预测模型。

开源开放,数据中心固件创新进入开放时代

随着AI、云计算等技术的快速发展,算力需求爆发,服务器设计呈现多元异构特征,对服务器的固件而言,无论是BMC监控管理计算系统还是BIOS系统启动和各项参数的定义,都需要去快速适配多种通用计算处理器、多种异构加速器和各类部件,才能实现服务器高效、稳定、可靠运行。联想的固件高级经理曹光耀分享《Linuxboot的应用和展望》过程中详细介绍了关于BIOS系统的Linuxboot开源技术及其强大的各项应用实践,比如Linuxboot的应用对于装机效率的提升,并表示希望不断完善Linuxboot的开源生态,找到Linuxboot的客户价值点,让开源的Linuxboot发挥最大的作用,为用户的OS交好最后一棒。

在技术沙龙的圆桌对话上,来自阿里、中国电子技术标准化研究院、Insyde、昆仑太科、以及浪潮信息的五位专家也共同交流了关于AI时代性固件技术发展面临的机会和挑战,OpenBMC开源开放的趋势,开源和标准对推动固件产业技术创新,加快固件技术迭代的作用,以及未来固件创新在开源方向的机会等。

4.png

加强固件技术的产业开放与创新,是推动计算产业系统升级的关键一环。此次固件产业技术创新联盟技术沙龙不仅聚焦推动AI时代下固件技术创新和标准建立,更为芯片厂商、固件厂商、系统厂商和用户全产业链企业搭建了交流与学习平台。未来,联盟将持续发挥技术交流与合作的桥梁作用,为推动固件产业的健康发展,促进计算产业的系统化升级起到关键性的推动作用。

注:本文转载自固件产业技术创新联盟官微