首页 > 关于我们 > 新闻中心 > 应对AIGC算力挑战,《开放加速规范AI服务器设计指南》引发关注

应对AIGC算力挑战,《开放加速规范AI服务器设计指南》引发关注

2023-08-17

北京卫视报道:近日,《开放加速规范AI服务器设计指南》在北京发布。这是继今年5月北京市人民政府办公厅印发的《北京市促进通用人工智能创新发展的若干措施》之后的首个业内配套指南。

1.png

当前,生成式AI算力需求爆发,要有效保障AIGC时代的人工智能技术创新,多元优质普惠的算力供应成为关键。

近日,面向AIGC应用场景的《开放加速规范AI服务器设计指南》发布。作为开放加速计算产业的最新成果,《指南》将有效助力AI计算产业跨越创新鸿沟,加速多元算力产品方案发展,由此引发了媒体的广泛关注,以下为《经济日报》报道:

浪潮信息服务器产品线总经理赵帅介绍,该指南面向AIGC实际应用场景,细化完善了开放加速规范AI服务器的设计理论和方法,明确了硬件设计参考、管理接口规范和性能测试标准等,将为新兴的AI芯片创新提供有力的系统平台支撑,帮助AI芯片企业缩短研发和系统适配周期,大大减少开发费用,更快释放算力价值,有效加速多元算力产业发展,助力AIGC时代的AI计算产业跨越“创新”鸿沟。

加速开放计算产业发展,系统级产品创新是关键。在基础硬件、基础软件、核心应用、上层生态间建立起统一的技术路线及标准API接口,将加速器模块标准化,简化人工智能基础架构设计,能够有效缩短硬件开发和产业赋能周期。

当前,以大模型为代表的AIGC热潮带来了AI算力需求的爆发式增长。更丰富的算力资源成为人工智能竞争的核心基石。可以说,计算力就是生产力,智算力就是创新力。IDC预计,全球AI计算市场规模将从2022年的195亿美元增长到2026年的346.6亿美元,其中生成式AI计算市场规模将从2022年的8.2亿美元增长到2026年的109.9亿美元。生成式AI计算占整体AI计算市场的比例将从4.2%增长到31.7%。

AIGC技术创新是一项复杂的系统工程,需要基于海量数据集,在拥有成百上千加速卡的AI服务器集群上对千亿级参数的AI大模型进行分布式训练,这对算力资源的规模提出了极高的要求,也对算力系统设计带来了新的挑战,要求单机具有更高的扩展性、集群具有更高的加速比,由此对卡间互联、网络带宽和延迟提出了更高的要求。

随着AI大模型、超大模型的不断发展,芯片公司相继推出了新形态的AI加速卡来支持更高的功耗和更强大的卡间互联能力。当前,随着数据中心用户对AI计算力需求的不断攀升,全球已有上百家公司投入新型AI芯片的研发与设计,人工智能芯片发展呈现多元化趋势。但各厂商采用不同技术路线,导致产业面临硬件体系孤岛和生态割裂问题,带来算力产业发展高成本和低灵活性的问题。

“统一开放的产业标准能有效降低技术获取成本,推动创新技术普及,为产业发展赋能提速。”赵帅表示。

据了解,以OCP为代表的开放计算项目,推出全新的、全球化的产业协作模式,通过消除技术壁垒,加快计算产业创新的速度。其中,OCP的OAI(开放加速器基础设施)开放标准极大地激发了AI计算基础设施集成的创新。目前,已有包括浪潮信息、Intel等10+系统和芯片厂商,通过开放、合作为市场推出10余款符合OAM标准的开放加速AI服务器,并在全球范围内开展成功实践,充分论证了技术可行性,构建起茁壮的生态体系。

早在2019年OCP刚成立OAI小组时,浪潮信息作为主导的核心成员之一,牵头组织制定了UBB、OAM(云原生应用)等规范,此后又发布了业界首个开放加速参考系统MX1。浪潮信息还协同合作伙伴,共同完成了早期OAM的技术验证和积累,并发布了首款OAM服务器,将开放加速真正快速投入到产业应用中。在产业化落地的过程中,浪潮信息积累了很多经验,并总结转化从而形成《开放加速规范AI服务器设计指南》,以加速培育产业生态。

“事实上,我们也是国内最早做AI加速卡间高速互连技术的企业,对于如何构建大规模的训练系统、如何加速AI模型训练,我们有丰富的经验。浪潮信息AI服务器在市场规模和技术方面都有着领先的优势。”赵帅说。

据了解,开放加速计算的硬件架构正是为超大规模深度神经网络模型并行计算而生,天然适用于AIGC大模型训练。然而,当前开放计算技术推向产业落地的过程中,依然存在大量的定制化工作以及现有OAI标准未能完全覆盖的领域。因此,浪潮信息基于丰富的开放加速计算工程实践和产品历程,发布面向AIGC的指南,提出四大设计原则、全栈设计方法,旨在帮助社区成员更快更好地开发符合开放加速规范的AI加速卡,并大幅缩短与AI服务器的适配周期,为用户提供最佳匹配应用场景的AI算力产品方案。

其中,四大设计原则为应用导向原则、多元开放原则、绿色高效原则和统筹设计原则。基于上述设计原则,以提高适配部署效率、提高系统稳定性、提高系统可用性为目标,《指南》进一步归纳总结出开放加速规范AI服务器的设计方法,即多维协同设计、全面系统测试、性能测评调优。

业内人士认为,开放加速规范的AI服务器可为AI芯片创新提供成熟的系统平台支撑,帮助AI芯片厂商聚焦于芯片创新研发,实现更科学合理的产业分工,避免封闭技术生态存在的单点单线风险,推动智算产业生态健康发展;另一方面,基于开放加速工程实践和成熟计算平台总结的设计指南,可加速有竞争力的AI芯片的创新研发和落地部署,有效节省研发投入并缩短开发适配周期50%以上,为用户提供可以用来支撑AIGC大模型训练的多元算力解决方案,以多元算力之道破解当下AI算力供需难题。

2.jpg