当我们把目光拉到整整9年前……
在2014年,浪潮信息超前提出了“硬件重构+软件定义”的融合架构,第一次让数据中心计算体系结构的发展方向“脱离了”传统意义上摩尔定律,也就是CPU为核心的方向。一石激起千层浪。
这个新的方向,在硬件层将计算、存储、网络等资源分类进行资源整合,同时在软件层面利用智能感知技术,进行自适应硬件资源重构,实现硬件资源的动态组合和智能分配,满足各类应用的需求。
如今9年时间一晃而过,融合架构也升级到了3.0。
在OCP China Day 2023上,浪潮信息发布了融合架构3.0原型系统,以开创性的系统架构设计实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,支持池化资源异步升级、支持细粒度多主机共享高并发存储、亚微秒级远端内存共享访问等特性,可通过软件定义实现“一套系统,N类应用”。
融合架构为数据中心“化繁为简”而生
融合这两个字往往与“简约”相互辉映,而恰恰数字化转型最大的难题就是复杂化。
数字化技术的层出不穷,数字化转型场景的不断打开,带来了应用的多样化、复杂化,这就对数据中心底层硬件资源的供给提出了更高的要求。
通常来讲,传统架构的云、数、智、边、端等各类技术平台彼此独立,硬件资源难以共享复用,造成资源浪费的同时也使得运维管理难度激增,这等于让本就复杂的数字化业务“雪上加霜”。
即便是预算充沛的大型企业,也不能无休止扩容硬件基础施设来保证上层数字化应用的顺滑体验。一切数字化、一切智能化,实际上是物理世界和数字世界逐步深度融合的过程,需要多种多样的数字技术支撑,但不同的技术对硬件架构的要求不同,各技术平台之间很难实现资源共享复用。
因此,在数据中心层面化繁为简就成为了大势所趋,所谓的集约化建设本质上也是为了解决这个问题。而在架构层,如何能够让整个系统变得简单?融合架构正是顺应“简约化”的趋势而生。
这也是,融合架构3.0原型系统“一套架构,N类应用”所要实现的价值。
做好两个关键词:池化与连接
融合架构,要做好融合二字,有两个关键词。
一是池化,池化的资源越多,系统一致性就越强,架构的效率就越高;二是连接,将数据中心内部的资源有效融合的关键,就是连接技术的突破,超低的时延,才能让整个数据中心像是一台计算机。
首先,池化是一个逐步演进,不断深入的过程。
融合架构1.0阶段,更多是融合整个系统的基础设施,集中供电、散热,实现了非IT资源的集中和模块化;融合架构2.0阶段是非计算部分的存储、网络等设备做池化,将应用软件虚拟化技术满足云的需求。
融合架构3.0则是通过系统架构创新解耦重构服务器系统,突破性实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,可支持多种通用处理器平台与GPU、FPGA、DPU等多种异构加速单元的协同计算,并可通过软件定义实现资源协同动态调度。
彻底池化的难点在于内存的资源池化。
浪潮信息服务器产品线总经理赵帅坦言,“如何实现远程内存的调用,实现低延时的快速响应,如何实现缓存一致性,这都是内存池化面临的挑战。”
而随着以CXL为代表的串行缓存一致性总线的出现,给主机和远端共享内存之间提供了低延时的访问路径以及缓存一致性保证,为大规模内存扩展与内存资源池化提供了可能。
比如CPU与GPU、FPGA或其他加速器之间高速高效的互联极难满足,但借助于CXL技术,就可以实现从而满足当下低延迟、高效率的异构计算需求,保证了CPU内存空间和连接设备内存之间的一致性。
“通过软件定义系统设计及CXL高性能交换技术,率先实现内存资源池化与细粒度多主机共享。未来AI处理器支持CXL接口后,整系统内存可以实现硬件层面全局共享,将显著缓解AI大模型训练‘内存墙’问题。最大化释放异构计算算力。”赵帅说。
其次,连接是伴随着解耦、池化、重构衍生出来的难题。
对于融合架构系统来说,在池化之前需要先“解耦”,解耦之后是池化,再之后才是重构。
那么,在解耦之后,互联技术就成为了一个核心,无论是IO还是内存,抑或异构计算都需要互通互联。
由于解耦与池化带来了新的互连挑战,整系统通过设计供电控制、复位、时钟锁定等协同工作方式实现解耦单元整体运行。此外,随着数据速率的不断攀升和系统链路变得更加复杂,解耦池化系统互连链路互连延展已经接近极限,系统针对复杂链路高速互连进行高精度的拟合仿真研究,准确分析系统互连链路多样化拓扑和传输速率的极限。
浪潮信息技术研发部副总经理吴安说,“我们其实要对这种复杂链路的高速互联,做高精度的拟合的仿真研究,来准确分析像系统互联的多样化拓扑,和传输速率的一个极限保证系统的一个可用性。”
通过更多基础架构设计方面的创新,包括空间架构、液环式真空负压液冷架构,让它的能耗优化达到最佳值;让它的效能通过软件协同,在面向不同业务负载时达到一个比较高的业绩水平,既提供了高算力,又可以提供一个可持续的算力。
一次跨越,多个价值
9年时间,融合架构3.0,完成了一次历史性的跨越,也在几个层面提供了新的价值。
第一,异步迭代,让业务价值最大化。我们知道,传统数据中心迭代是产品级的。从解耦的角度,融合架构当中的通用计算单元,异构计算单元,内存单元,IO单元仍然可以跟随产品同步迭代,只是其一。但是融合架构又提供了一个更有想象力的空间,可以做异步迭代,因为解耦之后,系统不是以处理器为核心,而是以数据为核心,因此可以通过系统设计来实现异步迭代。用户就可以选择更适合自身业务、更具性价比的解决方案,从而通过解耦与池化的优势,让业务价值最大化。
第二,整体架构向系统为中心转移。融合架构3.0原型机打破了以往“以CPU为中心”的设计理念,而是从整体出发,“以系统为中心”,通过硬件解耦将异构计算、内存、存储等资源转变为可独立扩展的资源池,用户可以根据应用需求实现资源自由扩展。
第三,资源匹配合理化。传统架构下,IT资源的扩展是以整机形态来完成的,即便用户亟需的是某种特定资源,而融合架构系统可以实现更为灵活的资源重构,为人工智能、高性能计算等多种应用场景提供强大的算力支撑。
第四,整体效率的提升。如赵帅所说:“融合架构3.0原型系统效率可比上一代软件虚拟化系统提升一到两个数量级,可扩展性提高2~4倍,系统延时降低90%,PUE低于1.1。随着数字经济、人工智能持续发展,企业的各项业务越来越依赖数据及其价值,算力技术也需要不断演进,融合架构3.0原型系统的发布,有助于企业提升数据管理效率,最大化释放数据价值。”
任何市场的更替,既有技术驱动的背景,也有业务转型的逻辑,但无论从哪种角度,融合架构3.0从迭代能力、整体效率、业务逻辑上都完胜传统架构,让数据中心由资源供给驱动型向业务需求引导型转变,是每个行业都无法拒绝的“诱惑”。
(注:本文转载自科技自媒体郑凯正能量)