细数历史上的每一次变迁,从学术创意到切实部署的轨迹勾勒出进步的蓝图,从概念到商业化落地,人工智能从感知世界、认知世界再迈至创造世界。这场转折的背后是架构、模型、数据、算力技术的全方位革新。
自2020年GPT-3发布以来,OpenAI等国内外的科技企业和研究机构通过零样本学习(Zero-Shot Learning)、提示词工程(Prompt Engineering)、指令微调(SFT)、人类反馈强化学习(RLHF)等诸多技术创新转动起“飞快的齿轮”。当技术得到高速成长与普及的同时,模型的部署训练架构、开源资源、算力的成本与效率成为大模型应用落地和企业盈亏的关键分水岭,重要性不低于模型精度。
日前,InfoQ主办线上大咖对话栏目“极客有约”,浪潮信息AI应用架构师Owen ZHU博士,与微软软件工程师姜雨生,围绕大模型时代的技术创新变革,就算力需求与瓶颈挑战展开思想碰撞。
对话要点:
从信息化、数字化走向智能化,算力是最具活力和创新力的新生产力;
大模型时代与算力共振,算力的投入与智能的涌现有着直接关系,发挥算力效率是破局核心之一;
构建应用导向的架构设计、硬件、软件及算法平台,赋力大模型更高效地释放算力。
以下是论坛问答实录:
“算力是最具活力和创新力的新生产力”
姜雨生:从信息化、数字化走向智能化,算力是最具活力和创新力的新生产力,能分享下您对算力及其重要性的理解吗?在当下,它的价值主要体现在哪些方面?
Owen Zhu:从浪潮信息的角度来看,我们在很早之前就开始关注算力的重要性,因此我们早早地便强调算力的重要性,提出了像“计算力就是生产力”这样的概念。此外,我们与全球领先的产业研究院机构如国际数据公司IDC、清华大学进行联合编制了诸多报告。例如,此前发布的《2022-2023全球计算力指数评估报告》。在宏观层面上,我们对算力与经济增长之间的关系进行了评估。一个有趣的数据是,我们引入了计算力指数,用来量化评估每个国家的算力水平,范围从 0 到 100。最新评估结果显示,十五个样本国家的计算力指数平均每提高1点,国家的数字经济和GDP将分别增长3.6‰和1.7‰。
进一步来看,在智能计算领域,我们也提出了一个新概念,即智算力就是创新力,旨在生产力的基础上进一步强调人工智能计算的重要性。具体来说,人工智能在各个领域的应用中都发挥了举足轻重的作用,包括大模型。此外,在 AI for Science 这些领域,人工智能正推动着科学研究,这表明算力在提供创新力和社会创新方面发挥着根本性的作用。现在热门的 AIGC,所深刻反映的即是AI 在创造力方面的能力体现,而这些能力都是在算力的支持下实现的。
此外,如果我们深入研究算力对整个 AI 发展的驱动作用,可以清楚地看到,它实际上是 AI 发展的核心支撑和引擎。有很多例子可以证明这一点,包括算力从 2012 年以来的指数级增长。以自动驾驶举例,从最早只能提供辅助驾驶功能的ADAS,到能够在高速公路上实现无人干预自动驾驶的高速NOA,再到最近针对城市通勤的自动驾驶应用城市NOA。浪潮信息服务于诸多汽车制造商和自动驾驶客户,他们对算力的需求也在逐步增加。在这些年里,我们也看到他们在 AI 算法方面的投入,特别是在模型训练方面,算力的需求可能增加了数十到数百倍。
总之,无论从宏观经济发展层面还是从微观应用场景和算法层面来看,算力都扮演着至关重要的角色。
姜雨生:针对刚才您提到的这几个分类,我们国内现在在这几方面的发展现状如何
Owen Zhu:这个问题实际上是一个相对宏观的问题。根据前者所提到的我们之前提到的《2022-2023全球计算力指数评估报告》,报告中其对各个国家在算力领域的投入进行评估和打分。总体来说,我国算力总规模全球第二,仅次于美国,年增长率近30%。将目光再聚焦于当下最热议的生成式AI算力,其从 2022 年的 8.2 亿美元增长到 2026 年的 109.9 亿美元,市场占比(生成式 AI 计算占整体 AI 计算市场)更是从 4.2% 增长到 31.7% 。
“算力的投入与智能的涌现有直接关系”
姜雨生:我们现在正处于一个非常有趣的时刻,OpenAI 推出了 ChatGPT,全球范围内引发了对 AI 大模型的热潮。许多公司都在全力以赴投入算力,现阶段算力需求发生了哪些变化?算力对于 AI 的发展有多大的影响?
Owen Zhu:我们必须承认算力在当前 AI 发展中的重要性是非常高的,这也是为什么人们争相获取算力的根本原因。之前我们一直所谈及的深度学习的三驾马车:算力、算法和数据,它们共同推动了深度学习技术的进步。但随着大模型时代的到来,尽管这些要素仍然很重要,但算力的重要性更加凸显。
为什么这样说呢?因为我们现在逐渐认识到一个事实:基于通用人工智能引入了一些重要的概念,如泛化和涌现。这些是非常核心的能力,但如何衡量它们呢?渐渐地,业界形成了一个共识,即算力的投入与智能的涌现有着直接关系。
从理论分析的角度来看,大模型中有一个重要概念scaling law,称为"扩展性",即如何扩展大模型的能力。比如,如果我们要将一个模型的参数扩大 10 倍,我们需要多少算力来支持这个过程?这就是所谓的"扩展性"问题。在这方面,OpenAI 和其他公司进行了大量研究,发现扩展模型的过程是近似线性的。这意味着,要扩大 10 倍的模型,需要 100 倍的算力投入。这使得算力成为一个重要的标尺,用来衡量模型的能力。因此,无论是提高模型参数量还是提升数据规模,算力依旧是大模型能力提升的核心驱动力:需要用“足够大”的算力,去支撑起“足够精准”模型泛化能力。举个例子,GPT-3 拥有 1750 亿参数,训练时使用了 3000 亿的 token 数。而像 Llama 2 这样的新模型,虽然参数较少,只有 700 亿,但训练使用了 2 万亿的 token 数,实际上投入的算力更大。从评测指标上看,Llama 2 在某些方面超越了 GPT-3,这进一步证实了算力投入与模型能力的关系。
最近,有一些关于 GPT-4 的估测表明,它的算力投入可能是 GPT-3 的 68 倍,甚至更多。而谷歌即将发布的下一代模型 Gemini,被认为将投入超过 GPT-4 5倍以上的算力。这显示出在大模型的算力投入方面,业界领先公司在成本上毫不吝啬。
姜雨生:那么在看您来,在算力足够的情况下,模型能力可以无限的增强,带来无限可能吗?
Owen Zhu:业界对于这个问题尚无明确答案。然而,有一个观点是,当算力不再是限制时,数据将成为限制因素。这个观点在业界已经有一些人在讨论,比如大规模地进行模型训练,很快可能会耗尽互联网上的数据资源,而这也并非无稽之谈。
事实上,当我们自己进行数据处理时,我们会发现互联网上的文本数据的质量和数量是有限的。特别是对于中文互联网来说,由于相对封闭的特性,获取高质量的数据可能会受到一些限制。因此,数据的限制可能很快会成为一个瓶颈。因此,尽管我们拥有强大的算力,但并不意味着智能会无限增长。
然而,有很多解决方法,例如引入多模态数据。我们知道引入新的模态数据可以带入大量新信息,从而进一步提升模型的性能。因此,这个问题的解决方案可能是多种多样的,非常值得继续探讨。
“大模型时代的基础设施建设”
姜雨生:云服务提供商在算力方面可能存在垄断或半垄断的情况,这使得访问大型模型成为一种昂贵的资源。对于个人开发者或者企业来说,有些人可能确实用不到这种大型模型,而另一些人可能承受不起这些服务的高成本。有声音认为买不起算力,直接将一大部分开发者挡在了 AI 时代的大门外,您怎么看“买不起”这一现象?
Owen Zhu: 解决这一困境,除通过政策引导、政策补贴等方式降低企业融资成本外,还应大力发展普适普惠的智算中心,通过算力基建化使得智算力成为城市的公共基础资源,供用户按需使用,发挥公共基础设施的普惠价值。同时,智算中心也应由传统的硬件、软件向“智件”升级,为用户提供功能丰富、使用便捷的智能算力、算法服务和个性化开发服务,提升算力的普适价值。目前,浪潮信息以应用为导向,坚持开源开放、集约高效、绿色普惠的建设原则,相继推动南京智算中心、淮海智算中心、青田元宇宙智算中心、“钱塘江”液冷智算中心等多个区域核心算力基础设施的建设。
通过大力发展智算中心新基建,中国和美国大模型产业的发展已经呈现出完全不同的发展路径。在美国,大模型产业可能掌握在少数企业手中,而中国由于算力供给基建化,呈现“百模争秀”的全新格局。随着“东数西算”等国家政策的发布,加强算力基础设施建设成为中国数字社会经济发展的重要的基石,算力基础设施纳入国家新基建范畴,按照公益性、适度超前的指导思想,加大对人工智能算力基础设施的投资,这将为中国大模型发展提供一片沃土。
姜雨生:对于企业而言,大模型时代基础设施建设面临两个比较大的困难:一是高额的成本,二是随着算力集群规模增大,稳定性越难做到,效率也很难提升。对于第二点,目前有哪些解决方案?
Owen Zhu:从浪潮信息的角度,我们正在尝试着解决这一问题。实际上,从用户的实际场景需求与痛点侧来看,以解释这个情况。在过去,许多企业可能更倾向于使用公有云等云服务提供商的算力来满足 AI 需求,但是今年我们观察到了一些变化,即企业更倾向于选择高质量的算力,例如智算中心,或者自建基础设施。
这种变化有多个原因,其中之一即是用户对算力的需求发生了重大变化。以训练AI大模型为例,其可能需要数百甚至上千块 GPU 卡。对于企业来说,购买如此大规模的算力可能成为挑战,因为即使是公有云,其资源分布在不同的数据中心,难以实现集中供给。自建基础设施的成本可能相对较低,但也带来了一些新的挑战,如操作系统、驱动程序、环境配置、监控和调度等问题。为了解决这些问题,我们上月刚发布了大模型智算软件栈 OGAI(Open GenAI Infra),旨在为客户提供一套技术堆栈,通过多层次的软件解决方案来解决这些问题。这包括对智算中心的支持,以及指南和工具,帮助用户部署和配置 AI 基础设施。
姜雨生:对于国内 IT 基础设施厂商来说,这其中有哪些机遇与挑战?这个过程中,浪潮信息的技术产品策略是否发生了变化?
Owen Zhu:您谈到的关于基础设施和算力的问题,确实对 AI 行业产生了许多挑战和机遇。我觉得有几个方面需要关注。首先,从市场的角度来看,当前算力仍然是一项短期内比较突出的问题,特别是在上半年,大家一直都在争抢算力资源。这种紧缺局面可能会一直持续到明年的 Q1 和 Q2。大模型对整个 AI 行业产生了革命性的影响,这是继 AlphaGo 之后的第二次重大变革。因此,算力短缺将继续存在。
第二,我们需要关注的趋势是多元异构计算的概念,尽管这听起来有点抽象。目前,主要的加速芯片是 Nvidia 的 GPU,但随着加速计算和异构计算在计算中变得越来越重要,更多的加速计算芯片和解决方案将涌现,包括英特尔的 Habana 和 AMD 的 MI 系列等针对 AI 的加速芯片。这将导致市场出现多元化的生态系统,这一趋势将逐渐凸显。因此,我们需要思考如何在这种情况下实现兼容性和融合,以确保各种芯片和产品能够无缝协作,提供给用户一个一致的接口。
第三,算力基建化将成为一个重要趋势,随着算力的不断增加,它将成为基础设施的一部分。政府、云服务提供商和科技公司等都在大规模投资和建设算力基础设施,将算力作为一种服务提供给外部。这将推动算力基建化技术的加速发展,以满足不同行业和应用领域的需求。
总之,我们需要在硬件、软件和算法等多个层面上积极应对这些趋势。在硬件层面,我们需要关注多元化的 AI 芯片接入。在软件和算法层面,我们需要投入更多的资源来研发和支持算法,以及解决用户在应用 AI 时可能遇到的问题。此外,构建生态系统也是一个关键战略,让不同领域的专业公司和行业解决方案提供商共同合作,以实现 AI 技术在各个领域的落地应用,这将有助于促进 AI 产业的发展和应用。