首页 > 关于我们 > 新闻中心 > 龙蜥副理事长张东:《潮蜥共引,繁荣系统软件生态》

龙蜥副理事长张东:《潮蜥共引,繁荣系统软件生态》

2023-12-25

人工智能、云计算、大数据等多种数字技术的交织并行,正在对数字基础设施带来新的挑战。未来,面向智能计算场景与通用计算场景的融合,下一代操作系统不仅要更好的支持AI大模型,也需要借助技术演进对底层基础设施进行重构,而其中的关键就是算力与操作系统的软硬协同发展,以系统软件的进阶构建可支撑多类应用的“超级底座”。

在不久前举行的2023龙蜥操作系统大会上,龙蜥社区副理事长张东发表了《潮蜥共引,繁荣系统软件生态》的主题演讲,从算力产业的新趋势出发,分享了系统软件未来发展方向和生态建设的思考与见解。

算力产业洞察:算力形态多元化、算力供给服务化、算力应用智能化

数字时代、智能时代,算力是非常重要的一种推动社会发展的新型生产力,“计算力就是生产力、智算力就是创新力”业已成为业界共识。随着整个社会数字化、智能化的发展,算力产业呈现了很多新的特征、新的趋势。

首先,是算力形态的多元异构。传统的算力大部分是通过通用处理器提供,随着应用日趋复杂和多样,依靠单一处理器很难满足海量算力应用的需求,GPU、ASIC、FPGA、NPU等各类AIPU随之兴起,为人工智能开发与应用提供了更加多元的算力支持,但也对算力管理带来了巨大的挑战。

1.png

其次,是算力供给服务化。随着生成式人工智能的发展,基础大模型对算力的需求暴涨,依靠云架构来完成算力供给成为大的趋势。目前,全球绝大部分的算力都是通过云来提供。从整体来看,中国虽然发展很快,但是上云的比例仍然很低,30%的上云率远低于美国的85%和欧洲的70%,也就是说中国的云计算成长空间很大,但要走的路也很长。

2.png

最后,是算力应用智能化。人工智能从机器学习到深度学习,现在进入大模型的时代。之前,模式匹配的图像识别已经广泛应用起来了,而随着最近两年生成式人工智能的发展,以ChatGPT为代表的现象级应用的出现,基于语义理解的大模型以及多模态大模型也逐步渗透到应用中。从感知智能到认知智能,算力应用走向智能化,因此对人工智能的支持也成为算力产业发展非常核心的方向之一。

3.png

算力更好支撑应用,系统软件进阶是关键

在算力产业的新发展格局下,要以用户思维,真正关注“算力如何为应用提供最好的支撑”。算力的释放从来不是单点式的,芯片性能的提升是一个重要因素,但不是唯一的,配套的系统软件同样是关键要素。因此,应该从系统全局考虑,坚持以应用为导向,以系统设计为核心,实现多元异构算力融合、软硬协同设计与优化,持续提升计算力。这个转变的一个关键点,就是要实现系统软件的进阶。

4.png

系统软件进阶首要目标就是实现多元算力的协同优化。当前,众多采用不同架构的计算芯片、存储芯片,以及由此衍生出的复杂网络、互联协议等等,需要硬件特性使能,并予以持续的硬件特性优化,同时也要对配套的系统软件、平台软件展开优化,特别是对操作系统的优化,才能最终实现在多场景下的全栈软硬协同,为算力释放提供更好的支持。

5.png

第二,未来的应用基本上大部分都是云原生的,系统软件的进阶要面向云原生应用场景支撑优化。在云里,尤其是从虚拟化到容器的全面转换过程里,需要对资源更好的进行安全封装隔离,对在离线业务进行混合部署,对异构资源统一管理,这些是对系统软件最基本的要求。同时,云原生场景下的应用开发,如Serverless、Service Mesh等,与传统应用开发有很大的区别,其开发环境的构建也需要操作系统、基础软件的底层支持。此外,在云原生环境下,对资源的监控、调度、管理,会比原来物理机管理、虚拟机管理更加复杂,量级从千级万级,可能增长到千万级、亿级,对上亿个容器,上亿个各式服务进行管理,这需要系统软件提供大规模的、更细粒度的管理能力。

6.png

第三,系统软件要与人工智能深度双向融合。现在人工智能发展非常快,大模型的出现,需要系统软件的技术演进,去满足对大算力环境的支持,对数据多模态、跨模态巨量数据的管理,以及对各种新型融合网络的架构支持。同样,人工智能开发也不同于传统开发,以前讲DevOps从开发到运维,而人工智能大模型的开发涉及到数据准备、模型调整、基础训练、微调训练、强化学习、模型评估、部署验证、服务发布等复杂的流程,DevOps在向MLOps转化,需要系统软件给予支撑。

7.png

以上是人工智能对系统软件的要求,是System for AI,而人工智能的发展,可能也会对系统软件带来革命性的变化,是AI for System。在未来的环境里,算力的维护、管理更加复杂,很多工作靠传统的人工很难实现,人工智能可以提供更多的辅助,让数据中心的运维管理,从原来自动化走向智能化,真正实现AIOps。同时,系统软件的开发也可以用人工智能进行辅助的编程,进行测试用例的自动生成,帮开发人员自动找到系统bug……这些将成为系统软件未来很重要的发展方向。

目前,浪潮信息已构建包括固件、服务器OS、云OS、数据中心管理、智算软件栈、大模型在内的全栈系统软件,并实现与自身服务器优化匹配,可向客户交付高效的智算系统。

系统软件进阶要充分发挥开源力量

开源代表着一种开放、平等、协作、共享的文化理念,它所创造全球协同创新的模式,已经成为推动数字科技创新和数字产业发展的强大动力。

中国的开源社区在过去取得了非常大的发展,很多软件在应用规模、技术水平上已经全球领先,但在像操作系统这类基础软件方面,对核心技术的掌握还有较长的路要走。就操作系统层面来看,中国有很多新兴的芯片厂商、应用软件厂商,他们对操作系统有不同的诉求点,很多实际问题需要依靠中国自身的力量来解决。

解决这些问题最好的方式,是建立一个中国主导的、全球性的操作系统开源社区,通过汇聚各方力量,来满足富有中国特色的开发需求,而创新成果也能贡献给全球,促进技术的全球化交流。同时,社区也需要平衡开源和商业成功之间的关系,要吸引更多的核心厂商参与社区,要做好公平性,要保证每个人的利益诉求在社区里都得到满足。

龙蜥社区已经快速成长为中国最具影响力的开源操作系统社区。浪潮信息在2022年加入龙蜥,在社区版本的基础上开发出了云峦KeyarchOS,主要面对数据中心里最核心的需求,在稳定可靠、软硬协同、智能运维、安全可信方面做了特性增强。浪潮信息是全球领先的算力提供商,合作伙伴基本上涵盖了全球多数的芯片厂商、板卡厂商,以及下游做数据库、中间件的厂商。借助这样的力量,过去十几年来不断推动云峦KeyarchOS和上下游厂商做认证,而且是真正意义上的双认证,目前在医疗、教育、通信、金融等等行业已经得到广泛应用。

8.png

浪潮信息积极参与了龙蜥社区生态的建设,和龙蜥社区成立了联合实验室,主要是围绕技术创新、软硬件兼容、产品认证和标准制定等等方面做了很多工作。在最近的理事会上,浪潮信息被选为副理事长单位,这一方面是对过去工作的肯定,同时也督促浪潮信息为社区做更多贡献。未来,浪潮信息会继续发挥系统厂商衔接上下游的优势,一方面通过整机带动,为龙蜥社区产品技术创新提供更多活力,更好的实现软硬协同的系统设计,推动下一代服务器操作系统的开发;另一方面,也会推动社区版本的落地提供更多的生态维度的、用户维度的支持。

最后提几点建议,既是对社区的建议,也是对中国整个操作系统发展的想法:

一是创新一定要摆在第一位,一个开源社区有没有吸引力,有没有竞争力,做出有自己特色的创新是关键。创新不单单是技术上的,同样包括在商业、生态上的创新。

二是要积极探索开源与商业相互成就的模式。开源是非常好的模式,但是要鼓励更多的人参与开源,就要让参与开源的人能够从开源这件事情上得到收益,让社区的成员能够基于自身的工作获得商业上的成功。从社区的发展上来讲,一定要平衡好开源和社区共同成就的模式。

三是要加强人才的培养。在操作系统层面,我们已经有了非常好的基础,也希望在院校里,能够把操作系统作为学生基础的能力培养,为中国操作系统的可持续发展提供源源不绝的人才动力。