极客有约 | 浪潮信息Owen: 大模型的智能涌现与算力投入有直接关系

2023-09-26

细数历史上的每一次变迁，从学术创意到切实部署的轨迹勾勒出进步的蓝图，从概念到商业化落地，人工智能从感知世界、认知世界再迈至创造世界。这场转折的背后是架构、模型、数据、算力技术的全方位革新。

自2020年GPT-3发布以来，OpenAI等国内外的科技企业和研究机构通过零样本学习（Zero-Shot Learning）、提示词工程（Prompt Engineering）、指令微调（SFT）、人类反馈强化学习（RLHF）等诸多技术创新转动起“飞快的齿轮”。当技术得到高速成长与普及的同时，模型的部署训练架构、开源资源、算力的成本与效率成为大模型应用落地和企业盈亏的关键分水岭，重要性不低于模型精度。

日前，InfoQ主办线上大咖对话栏目“极客有约”，浪潮信息AI应用架构师Owen ZHU博士，与微软软件工程师姜雨生，围绕大模型时代的技术创新变革，就算力需求与瓶颈挑战展开思想碰撞。

9.27.1.jpg

对话要点：

从信息化、数字化走向智能化，算力是最具活力和创新力的新生产力；

大模型时代与算力共振，算力的投入与智能的涌现有着直接关系，发挥算力效率是破局核心之一；

构建应用导向的架构设计、硬件、软件及算法平台，赋力大模型更高效地释放算力。

以下是论坛问答实录：

“算力是最具活力和创新力的新生产力”

姜雨生：从信息化、数字化走向智能化，算力是最具活力和创新力的新生产力，能分享下您对算力及其重要性的理解吗？在当下，它的价值主要体现在哪些方面？

Owen Zhu：从浪潮信息的角度来看，我们在很早之前就开始关注算力的重要性，因此我们早早地便强调算力的重要性，提出了像“计算力就是生产力”这样的概念。此外，我们与全球领先的产业研究院机构如国际数据公司IDC、清华大学进行联合编制了诸多报告。例如，此前发布的《2022-2023全球计算力指数评估报告》。在宏观层面上，我们对算力与经济增长之间的关系进行了评估。一个有趣的数据是，我们引入了计算力指数，用来量化评估每个国家的算力水平，范围从 0 到 100。最新评估结果显示，十五个样本国家的计算力指数平均每提高1点，国家的数字经济和GDP将分别增长3.6‰和1.7‰。

进一步来看，在智能计算领域，我们也提出了一个新概念，即智算力就是创新力，旨在生产力的基础上进一步强调人工智能计算的重要性。具体来说，人工智能在各个领域的应用中都发挥了举足轻重的作用，包括大模型。此外，在 AI for Science 这些领域，人工智能正推动着科学研究，这表明算力在提供创新力和社会创新方面发挥着根本性的作用。现在热门的 AIGC，所深刻反映的即是AI 在创造力方面的能力体现，而这些能力都是在算力的支持下实现的。

此外，如果我们深入研究算力对整个 AI 发展的驱动作用，可以清楚地看到，它实际上是 AI 发展的核心支撑和引擎。有很多例子可以证明这一点，包括算力从 2012 年以来的指数级增长。以自动驾驶举例，从最早只能提供辅助驾驶功能的ADAS，到能够在高速公路上实现无人干预自动驾驶的高速NOA，再到最近针对城市通勤的自动驾驶应用城市NOA。浪潮信息服务于诸多汽车制造商和自动驾驶客户，他们对算力的需求也在逐步增加。在这些年里，我们也看到他们在 AI 算法方面的投入，特别是在模型训练方面，算力的需求可能增加了数十到数百倍。

总之，无论从宏观经济发展层面还是从微观应用场景和算法层面来看，算力都扮演着至关重要的角色。

姜雨生：针对刚才您提到的这几个分类，我们国内现在在这几方面的发展现状如何

Owen Zhu：这个问题实际上是一个相对宏观的问题。根据前者所提到的我们之前提到的《2022-2023全球计算力指数评估报告》，报告中其对各个国家在算力领域的投入进行评估和打分。总体来说，我国算力总规模全球第二，仅次于美国，年增长率近30%。将目光再聚焦于当下最热议的生成式AI算力，其从 2022 年的 8.2 亿美元增长到 2026 年的 109.9 亿美元，市场占比（生成式 AI 计算占整体 AI 计算市场）更是从 4.2% 增长到 31.7% 。

“算力的投入与智能的涌现有直接关系”

姜雨生：我们现在正处于一个非常有趣的时刻，OpenAI 推出了 ChatGPT，全球范围内引发了对 AI 大模型的热潮。许多公司都在全力以赴投入算力，现阶段算力需求发生了哪些变化？算力对于 AI 的发展有多大的影响？

Owen Zhu：我们必须承认算力在当前 AI 发展中的重要性是非常高的，这也是为什么人们争相获取算力的根本原因。之前我们一直所谈及的深度学习的三驾马车：算力、算法和数据，它们共同推动了深度学习技术的进步。但随着大模型时代的到来，尽管这些要素仍然很重要，但算力的重要性更加凸显。

为什么这样说呢？因为我们现在逐渐认识到一个事实：基于通用人工智能引入了一些重要的概念，如泛化和涌现。这些是非常核心的能力，但如何衡量它们呢？渐渐地，业界形成了一个共识，即算力的投入与智能的涌现有着直接关系。

从理论分析的角度来看，大模型中有一个重要概念scaling law，称为"扩展性"，即如何扩展大模型的能力。比如，如果我们要将一个模型的参数扩大 10 倍，我们需要多少算力来支持这个过程？这就是所谓的"扩展性"问题。在这方面，OpenAI 和其他公司进行了大量研究，发现扩展模型的过程是近似线性的。这意味着，要扩大 10 倍的模型，需要 100 倍的算力投入。这使得算力成为一个重要的标尺，用来衡量模型的能力。因此，无论是提高模型参数量还是提升数据规模，算力依旧是大模型能力提升的核心驱动力：需要用“足够大”的算力，去支撑起“足够精准”模型泛化能力。举个例子，GPT-3 拥有 1750 亿参数，训练时使用了 3000 亿的 token 数。而像 Llama 2 这样的新模型，虽然参数较少，只有 700 亿，但训练使用了 2 万亿的 token 数，实际上投入的算力更大。从评测指标上看，Llama 2 在某些方面超越了 GPT-3，这进一步证实了算力投入与模型能力的关系。

最近，有一些关于 GPT-4 的估测表明，它的算力投入可能是 GPT-3 的 68 倍，甚至更多。而谷歌即将发布的下一代模型 Gemini，被认为将投入超过 GPT-4 5倍以上的算力。这显示出在大模型的算力投入方面，业界领先公司在成本上毫不吝啬。

姜雨生：那么在看您来，在算力足够的情况下，模型能力可以无限的增强，带来无限可能吗？

Owen Zhu：业界对于这个问题尚无明确答案。然而，有一个观点是，当算力不再是限制时，数据将成为限制因素。这个观点在业界已经有一些人在讨论，比如大规模地进行模型训练，很快可能会耗尽互联网上的数据资源，而这也并非无稽之谈。

事实上，当我们自己进行数据处理时，我们会发现互联网上的文本数据的质量和数量是有限的。特别是对于中文互联网来说，由于相对封闭的特性，获取高质量的数据可能会受到一些限制。因此，数据的限制可能很快会成为一个瓶颈。因此，尽管我们拥有强大的算力，但并不意味着智能会无限增长。

然而，有很多解决方法，例如引入多模态数据。我们知道引入新的模态数据可以带入大量新信息，从而进一步提升模型的性能。因此，这个问题的解决方案可能是多种多样的，非常值得继续探讨。

“大模型时代的基础设施建设”

姜雨生：云服务提供商在算力方面可能存在垄断或半垄断的情况，这使得访问大型模型成为一种昂贵的资源。对于个人开发者或者企业来说，有些人可能确实用不到这种大型模型，而另一些人可能承受不起这些服务的高成本。有声音认为买不起算力，直接将一大部分开发者挡在了 AI 时代的大门外，您怎么看“买不起”这一现象？

Owen Zhu: 解决这一困境，除通过政策引导、政策补贴等方式降低企业融资成本外，还应大力发展普适普惠的智算中心，通过算力基建化使得智算力成为城市的公共基础资源，供用户按需使用，发挥公共基础设施的普惠价值。同时，智算中心也应由传统的硬件、软件向“智件”升级，为用户提供功能丰富、使用便捷的智能算力、算法服务和个性化开发服务，提升算力的普适价值。目前，浪潮信息以应用为导向，坚持开源开放、集约高效、绿色普惠的建设原则，相继推动南京智算中心、淮海智算中心、青田元宇宙智算中心、“钱塘江”液冷智算中心等多个区域核心算力基础设施的建设。

通过大力发展智算中心新基建，中国和美国大模型产业的发展已经呈现出完全不同的发展路径。在美国，大模型产业可能掌握在少数企业手中，而中国由于算力供给基建化，呈现“百模争秀”的全新格局。随着“东数西算”等国家政策的发布，加强算力基础设施建设成为中国数字社会经济发展的重要的基石，算力基础设施纳入国家新基建范畴，按照公益性、适度超前的指导思想，加大对人工智能算力基础设施的投资，这将为中国大模型发展提供一片沃土。

姜雨生：对于企业而言，大模型时代基础设施建设面临两个比较大的困难：一是高额的成本，二是随着算力集群规模增大，稳定性越难做到，效率也很难提升。对于第二点，目前有哪些解决方案？

Owen Zhu：从浪潮信息的角度，我们正在尝试着解决这一问题。实际上，从用户的实际场景需求与痛点侧来看，以解释这个情况。在过去，许多企业可能更倾向于使用公有云等云服务提供商的算力来满足 AI 需求，但是今年我们观察到了一些变化，即企业更倾向于选择高质量的算力，例如智算中心，或者自建基础设施。

这种变化有多个原因，其中之一即是用户对算力的需求发生了重大变化。以训练AI大模型为例，其可能需要数百甚至上千块 GPU 卡。对于企业来说，购买如此大规模的算力可能成为挑战，因为即使是公有云，其资源分布在不同的数据中心，难以实现集中供给。自建基础设施的成本可能相对较低，但也带来了一些新的挑战，如操作系统、驱动程序、环境配置、监控和调度等问题。为了解决这些问题，我们上月刚发布了大模型智算软件栈 OGAI（Open GenAI Infra），旨在为客户提供一套技术堆栈，通过多层次的软件解决方案来解决这些问题。这包括对智算中心的支持，以及指南和工具，帮助用户部署和配置 AI 基础设施。

姜雨生：对于国内 IT 基础设施厂商来说，这其中有哪些机遇与挑战？这个过程中，浪潮信息的技术产品策略是否发生了变化？

Owen Zhu：您谈到的关于基础设施和算力的问题，确实对 AI 行业产生了许多挑战和机遇。我觉得有几个方面需要关注。首先，从市场的角度来看，当前算力仍然是一项短期内比较突出的问题，特别是在上半年，大家一直都在争抢算力资源。这种紧缺局面可能会一直持续到明年的 Q1 和 Q2。大模型对整个 AI 行业产生了革命性的影响，这是继 AlphaGo 之后的第二次重大变革。因此，算力短缺将继续存在。

第二，我们需要关注的趋势是多元异构计算的概念，尽管这听起来有点抽象。目前，主要的加速芯片是 Nvidia 的 GPU，但随着加速计算和异构计算在计算中变得越来越重要，更多的加速计算芯片和解决方案将涌现，包括英特尔的 Habana 和 AMD 的 MI 系列等针对 AI 的加速芯片。这将导致市场出现多元化的生态系统，这一趋势将逐渐凸显。因此，我们需要思考如何在这种情况下实现兼容性和融合，以确保各种芯片和产品能够无缝协作，提供给用户一个一致的接口。

第三，算力基建化将成为一个重要趋势，随着算力的不断增加，它将成为基础设施的一部分。政府、云服务提供商和科技公司等都在大规模投资和建设算力基础设施，将算力作为一种服务提供给外部。这将推动算力基建化技术的加速发展，以满足不同行业和应用领域的需求。

总之，我们需要在硬件、软件和算法等多个层面上积极应对这些趋势。在硬件层面，我们需要关注多元化的 AI 芯片接入。在软件和算法层面，我们需要投入更多的资源来研发和支持算法，以及解决用户在应用 AI 时可能遇到的问题。此外，构建生态系统也是一个关键战略，让不同领域的专业公司和行业解决方案提供商共同合作，以实现 AI 技术在各个领域的落地应用，这将有助于促进 AI 产业的发展和应用。

9.27.2.png

上一篇：吉利汽车以智算中心获“2023 IDC中国未来企业大奖”，浪潮信息全程助力！

下一篇：七大绿色黑科技，浪潮信息G7服务器打造节能降碳高质算力

返回列表