随着人工智能、云计算等技术的快速发展,算力需求爆发,服务器设计呈现多元异构特征,如何快速适配多种通用计算处理器、多种异构加速器和各类部件,实现服务器高效、稳定、可靠运行,对服务器管理的兼容性、精细度、定制化和快速迭代能力提出了一系列新的挑战,BMC作为服务器管理和监控的核心部件,相关技术和发展趋势备受关注。
近日,在ODCC峰会“数据中心管理的开放之路”的圆桌对话上,来自英特尔、三星和浪潮信息的技术专家,从多元算力时代下管理固件面临的挑战、OpenBMC社区的发展现状、管理固件未来发展趋势等方向,畅聊数据中心固件管理开放之路,深度探讨OpenBMC为数据中心固件管理发展带来的全新机遇与变革路径。
数据中心规模化发展,点燃BMC管理固件开源开放
BMC是在服务器中嵌入的复杂而独立SoC(System on Chip)系统,硬件上由BMC处理器、内存、Flash和外围I/O组成,连接着服务器的处理器、存储、传感器等各类组件,软件上基于Linux内核构建了嵌入式操作系统固件。BMC固件是服务器、整机柜到数据中心IT设备管理的关键核心, BMC不仅可以通过远程控制、故障诊断、配置部署、固件升级等各类运维管理功能,保障服务器安全可靠运行,也可以为整机柜、数据中心管理平台提供Redfish、IPMI、SNMP等API接口,实现海量服务器远程集中运维管理和批量部署,是数据中心高效管理的核心组件。
英特尔云计算系统架构师刘凌云在回顾BMC的演进过程中表示,BMC固件以往依赖IBV(Independent BMC Vendor,独立BMC固件提供商)设计的闭源商业方案。但随着超大规模互联网应用场景的增多,传统BMC开发周期长、线上故障响应不及时、安全需求及功能固化等问题日益突出。2014年,Meta(Facebook)面对传统BMC开发周期长、问题处理响应慢、黑盒代码不安全等问题,设计并开源了其管理固件解决方案,2015年Meta、Google、IBM、Intel、微软共同发起成立OpenBMC社区,点燃了管理固件开源开放的星星之火。
对此,浪潮信息服务器固件研发经理王兴隆补充道:“服务器管理固件的产业生态是在数据中心规模不断扩大的背景下逐渐成熟,而传统BMC开发模式封闭、代码闭源、架构陈旧,已无法满足大规模数据中心更加精细化、深层次的管理需求,OpenBMC应运而生,OpenBMC通过先进的软件架构让各功能模块深度解耦,甚至能够按需加载功能模块,提升了代码的可移植性,显著缩短了固件开发周期;开源开放让上下游厂商能够共同参与贡献,促进了产业合作与发展。随着2018年OpenBMC被Linux基金会接纳,行业对其认可程度逐年提升。”
同时,借助OpenBMC,服务器、部件等领域的固件创新也在加强,三星电子西安电子研究所资深高级工程师李宁分享了三星和浪潮信息合作的SSD带外管理创新项目。三星通过优化SSD内部架构,设计独立的带外管理控制器监控SSD的主控部件,将SSD的管理和主控分离,管理控制器独立供电,不仅带来更强大的带外管理能力,控制逻辑也更加可靠。同时浪潮信息基于OpenBMC实现BMC与SSD的带外管理信息交互,实现了资产信息获取、SSD健康状态监控、运行日志抓取、主动告警等功能特性,相比传统BMC,明显提升协同开发调试效率,缩短了开发周期,加快了产品落地进度。
智算崛起 数据中心管理固件开放成为刚需
如果说数据中心的规模化发展点燃了BMC固件管理开源开放的“星星之火”,那么数据中心算力的多元化将让开放的BMC管理固件形成“燎原之势”。刘凌云指出,通用服务器BMC需管理的硬件主要有CPU、存储、网络、散热风扇等,但在AIGC平台上,BMC需要管理的硬件不但数量多,类型也百花齐放,从之前的单一的GPU卡到现在新兴的GPGPU卡、AI加速卡、FPGA卡等各种异构加速器,以及其他的通用计算平台。面对众多的芯片,需要定义更加开放的BMC管理接口标准,以实现数据中心高效管理。
王兴隆进一步解释说:传统BMC固件架构落后,可扩展性差,无法快速适配兼容不同的处理器、加速器。开放的OpenBMC固件基于分层解耦的软件架构,功能模块之间通过一致的系统总线接口协议进行交互,扩展性高,能够实现灵活的模块化开发,同一套OpenBMC固件代码能够同时兼容多种处理器平台、多种异构加速器等关键部件,对于新增部件能够快速适配兼容,大幅缩短迭代周期,提升开发效率。
除了多元算力对BMC固件扩展性、定制化的需求,刘凌云还表示,高算力带来的高功耗也在推动数据中心散热体系变革,风冷式、冷板式、浸没式液冷方案持续并存,这些都需要BMC的统一管理调度。面对超大型互联网、人工智能等应用场景,新兴服务器硬件种类繁多、快速迭代,OpenBMC已经不是锦上添花,而是“非你莫属”了。
王兴隆指出,在异构多元算力需求不断提升的背景下,算力纵向扩展瓶颈越来越明显,横向扩展成为趋势,为提升算力资源协同利用率,浪潮信息设计实现融合架构3.0原型系统,将通用计算、异构加速计算、内存、存储、I/O等资源池化,实现硬件解耦,同时面向不同应用场景需要通过软件定义进行硬件资源重构,形成适用于不同应用负载的服务器系统,而OpenBMC为软硬件协同承担了更多软件定义的角色。
传统BMC or OpenBMC,企业何去何从
OpenBMC势不可挡,但是否意味着传统BMC走向末路了呢?对此,刘凌云认为传统的BMC和OpenBMC当前是两条技术路线,适应于不同的应用场景。中小规模的数据中心用户关注业务稳定性,关注管理固件的兼容性,对定制化要求不高,固件管理的技术投入资源有限,对技术类别不敏感,传统的BMC在这种场景仍然有着广阔空间。而对于大型、超大型互联网客户,快速响应,更高性能、更精细化的管理、定制化等诉求则更适合采用OpenBMC。目前处理器厂商正在围绕带外管理,运用OpenBMC更精细的管理数据中心设备,在故障诊断、预警、安全等方面进行固件技术创新,以保证较高可用性、可靠性和可管理性。
OpenBMC经过近十年的发展,已经形成较为稳定的基础代码,国内大型CSP已发布OpenBMC方案,服务器厂商也在持续开发OpenBMC相关产品和配套解决方案,在刚刚结束的ODCC开放数据中心产业峰会上,浪潮信息发布了基于OpenBMC的最新服务器管理固件解决方案,面向通用客户实现OpenBMC落地应用。
产业界上下游携手,加速OpenBMC发展
三位嘉宾一致认为OpenBMC是大势所趋,数据中心管理固件的开源开放将推动和强化服务器、部件、处理器等多方面的协同,并为数据中心高效管理提供更优的解决方案。从部件角度,三星未来将聚焦于存储部件带外管理,基于OpenBMC开源代码进行固件创新,提供增强的带外管理能力,比如产品内部各组件监控,设备寿命预测,智能化故障分析,异常恢复和设备认证数据加密等方面。同时,基于OpenBMC的设备带外管理标准化对推动产业上下游协同至关重要,三星携手浪潮信息在近期的ODCC峰会中发布了《服务器插入式设备带外管理白皮书》,希望通过定义部件管理的软硬件接口,加速部件与主机BMC适配效率。
从英特尔角度来看,OpenBMC最重要的功能就是带外监控和管理,未来管理会更加智能化、细粒度和更安全,从而提升数据中心SLA降低TCO。例如内存故障预测隔离,能显著降低服务器故障率;在线无缝的固件升级,还有对CPU状态性能监测功耗的优化管理会也更加精细,以及对硬件的保护提升安全性等等。此外OpenBMC做为开源开放平台,在GPU卡、节能散热等方面建立标准化管理接口也是未来英特尔研究的方向。
浪潮信息则认为OpenBMC的发展会更加开放,更广泛的产品应用和更稳定的社区基础代码,将吸引更多的上下游厂商参与到社区的建设当中。同时OpenBMC将会更加标准化,当前面向用户侧的管理接口已通过Redfish规范进行了标准化,但在服务器内部的部件管理标准化程度还不够,相信OpenBMC将推动内部管理接口标准化。目前,为了满足数据中心多元化的算力需求,浪潮信息开发了基于OpenBMC的服务器管理固件平台InBry,并对接数据中心集群管理平台InManage,推动形成从部件到服务器到数据中心的全生命周期精细化管理。
未来,OpenBMC产品化应用更为广泛,更多用户将会从OpenBMC受益,OpenBMC持续健康发展将为数据中心产业的绿色高质量发展创造更大价值。