本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

简体中文
首页 > 元脑博客 >实现AI芯片超千安培大电流稳定供电! 元脑服务器创新垂直供电技术揭秘

实现AI芯片超千安培大电流稳定供电! 元脑服务器创新垂直供电技术揭秘

2025年09月25日 分享

AI大模型训练与推理应用落地加速,数据中心服务器计算量激增,服务器AI芯片供电呈现高功耗、低电压、大电流的趋势,带来发热严重、传输损耗攀升和转换效率下降等挑战。尤其AI大模型推理上线时,数据中心瞬时并发可达上亿,功率飙至平时2.3倍,AI芯片电流微秒间从数百安跃升至上千安,传统供电架构难以承受。元脑服务器融合电学、热学、材料学等技术进行系统创新,自研多相垂直供电架构,将AI芯片供电能力由430A提升至1000A以上,解决大电流供电的损耗与发热,并避免电流与高速信号布局冲突,实现2700A/μs瞬态响应,功率损耗降低66%,为高并发AI场景提供稳定高效供电。

元脑服务器创新AI 芯片供电技术.jpg

GenAI爆发,AI芯片电流已攀升至上千安培

随着生成式AI技术的飞速发展,AI大模型逐渐呈现出参数量大、复杂度高的特征。在AI模型训练与推理过程中,智算中心面临高并发数据交互与海量计算需求,这推动AI芯片晶体管密度不断攀升。随着半导体制程的不断进步,当前AI芯片的晶体管密度超过每平方毫米1亿个,单个芯片上的晶体管总数可达数百亿。为进一步提升芯片性能,须采用更大的电流以缩短晶体管充放电的时间,当前部分AI芯片供电电流已经达到430A,是传统芯片供电电流的数倍。

然而,430A的供电电流还远远不够,在AI大模型推理上线期间,会遇到大规模用户并发在线访问,计算负载瞬间激增,芯片电流会迅速拉升。以DeepSeek为例,2025年2月当月访问量增速惊人,达到5.25亿次,成为全球增长最快的AI工具。其中在用户访问高峰期,单台服务器要支撑2000+用户并发,大模型吞吐性能会达到10000+tokens/s,AI芯片晶体管要承载更大电流冲击,系统瞬间功率会超过正常最大功率(TDP)的2倍以上,电压电流将承受瞬态负载陡增,最大电流达到上千安培。在这种极限性能场景下,电源极易出现供电波动,对系统的稳定性和性能造成严重影响。

上千安培大电流的AI芯片供电挑战,更大电流、更高损耗

传统服务器的AI芯片供电电流会达到数百安培,供电架构普遍采用横向供电(LPD)。该架构下,电源供电模块位于PCB板上,由VR 控制器(VR controller)、功率芯片(Power Stage)、电容(capacitor)和电感(inductor)等组成。供电模块中VR controller、Power Stage和芯片分布在同一水平面,通过将供电网络(PDN)平铺至AI芯片,实现54V直流电多级降压至1V,为AI芯片进行供电。

在单侧横向水平供电架构下,实现上千安培大电流供电面临巨大挑战,为防止对高速信号的电磁干扰,电源模块布局空间有限,供电电流路径较长,造成发热损耗高,难以实现高效供电:

■ 电源与信号的空间竞争:水平横向供电架构下,电流需经过电源供电模块将主板上的12V电压压降后传输至芯片。然而,芯片周围物理空间极其有限,该区域不仅要放置VRM、电容和大电流电感器,还要为高速信号线(如PCIe通道、内存通道)的出口区域预留空间。此类高速信号走线对电磁噪声极其敏感,需要远离大电流、高开关噪声的电源组件,导致供电组件与高速信号通道在此布局产生冲突,这也意味着物理上很难有额外空间来部署更多的电源模块。随着电流从430A增长到1000A以上,为避免信号干扰,大电流的电源组件只能远离芯片放置,但这又会导致PDN路径变长,带来新的供电损耗问题,影响系统稳定性和性能。

横向供电架构下电源与信号的布局冲突.jpg横向供电架构下电源与信号的布局冲突

■ 长距离供电带来损耗加剧:由于供电模块无法靠近AI芯片周围放置,通常只能部署在芯片的周边位置,供电路径过长会造成芯片供电热损耗变大,供电网络(PDN)中的压降波动、电流波动响应速度变慢。根据功率损耗P=I2R(I和R分别代表供电路径中的电流和电阻),一方面供电传输路径越长,电阻越大,损耗越大;另一方面,电流越大也会显著增加电源供电网络(PDN)中的传导热损耗,同时温度升高金属中的自由电子热运动速度加快,碰撞几率增加,干扰电子移动,会引发电阻进一步增加。因此,在水平横向供电架构下,电流从430A增长到1000A以上,会产生额外4~5倍的热量损耗,大幅降低供电满载效率,并且影响芯片性能的快速释放。

长距离供电额外带来4-5倍的热量损耗.jpg长距离供电额外带来4-5倍的热量损耗

要实现大电流供电,就要对电流传输的“最后一公里”线路进行革新。否则,随着未来不断增长的AI模型推理和训练需求,芯片功耗将达到数千瓦甚至万瓦级,供电电流将达到数千安培,大电流带来的电源布局空间紧张,以及发热损耗问题,将成为制约大规模芯粒集成发展的关键难题。

元脑服务器创新垂直供电架构 支撑AI芯片1000A以上大电流供电,路径损耗降低66%

面对1000A以上超大电流的供电挑战,元脑服务器电源研发工程师基于浪潮信息系统级研发平台,融合电学、热学、力学与材料学多学科领域,创新设计垂直供电架构。工程师根据电流大小和功率密度设计多相电源拓扑结构,并结合电流、信号、热场、应力等多维度仿真优化,重构电源板卡叠层,将供电模块从芯片水平方向移动至其正下方,电源层中的电流通过多相电源降压后,经基板底层供电通孔直达AI芯片。

元脑服务器垂直供电架构.jpg元脑服务器垂直供电架构

垂直供电架构系统解决了单侧水平供电中大电流电源层与高速信号层相互串扰的问题,同时供电路径缩短60%,发热损耗大幅降低66%,让AI芯片在1000A以上大电流通流下,也能保持高性能和高稳定性。

■ 设计多相VR供电拓扑,构建多通道并联、智能调控的动态供电网络

随着AI芯片供电呈现出大电流、低电压、高电流斜率的显著特征,传统单相供电电流30A已无法满足需求,AI芯片供电需要多组VR多点承压。为实现1000A以上大电流供电,元脑服务器采用多相VR供电设计,构建多通道并联、智能调控的动态供电网络。该多相VR垂直供电拓扑方案由3个VR控制器、多个智能功率芯片(SPS)、电感及电容组成:

VR控制器负责协调主板到芯片的多个并联的降压功率芯片,实现整体统筹;

各个降压VR以并联方式协同工作,提升电流承载和响应速度;

每个供电模块中SPS单元集成驱动器、MOSFET(金属氧化物半导体场效应晶体管)和温度传感器。

在VR控制器的精准调控下,SPS可实现电压从54V-5V-1V的高效转化,通过5条电源轨道Power rail,为AI芯片计算提供稳定而高效的能源供应。

多相VR供电拓扑图.jpg多相VR供电拓扑图

■ 创新电源板卡垂直供电,供电路径缩短60%

面对AI芯片1000A以上大电流,仅靠多相供电还远远不够。大量的供电模块在电流流通瞬间,会产生强烈的电磁干扰(EMI),迫使电源模块远离高速信号区域放置,导致供电路径过长。为此,元脑服务器研发团队在设计过程中,对芯片顶层所需的电源引脚数量、供电网络布局等进行电源平面与热分布的仿真优化,并结合电源完整性(PI)和信号完整性(SI)的仿真结果进行全维度建模与设计,成功将供电模块从芯片水平方向移至正下方,开发出可支持1000A以上大电流供电的VR电源板。该设计使得电源层中的电流经多相电源降压后,能通过基板底层的供电通孔直接为AI芯片供电。

水平供电与垂直供电对比.jpg水平供电与垂直供电对比

电源板卡放置在芯片垂直下方,板卡外形参考AI芯片的PIN分布区域规划,同时考虑主板的电流、电压和信号输入需求,电源板卡的左右两侧又增加了“翅膀”作为输入接口。电源板卡一面连接主板PCB,另外一面组装VRM各个组件,通过电源与信号布局优化,仅需要较少的层数,就可保障超1000A以上大电流的稳定输出。此外,与电源板卡相连的主板采用成熟方案改版,为保证主板底层上AI芯片供电区域的电源与信号完整性,又额外增加了两个信号层和两个GND层,解决了高速信号与大电流供电兼容问题。

电源板卡layout与主板layout.jpg电源板卡layout与主板layout

最终,垂直供电架构实现供电路径缩短60%,传输损耗大幅降低66%,其领先的模块化设计理念大大缩短了AI芯片供电方案的适配周期,为未来AI芯片供电功耗提升奠定了基础。

水平供电与垂直供电的供电热损耗.jpg水平供电与垂直供电的供电热损耗 垂直供电热损耗降低66%

■ 加严电源动态响应测试,电压波动大幅降低保障供电稳定

为验证服务器在高并发超负载运行时的电流承载能力及电压稳定性,元脑服务器研发工程师依托浪潮信息业界首创的PI自动化测试平台,模拟最严苛的业务负载波动下的大电流环境,对每款服务器实施超千次大电流冲击测试,整体测试强度高出行业标准40%。测试结果显示,采用垂直供电架构的AI芯片在VR动态响应中表现优异,与传统水平架构相比,在同等动态响应测试条件下,垂直供电比水平供电的动态电压波动减少10mV左右,确保1000A以上大电流供电的稳定性和可靠性。

水平供电与垂直供电的电源瞬态响应测试结果.jpg水平供电与垂直供电的电源瞬态响应测试结果

■ 电源智能故障诊断,在发生故障瞬间响应实现精确熔断

元脑服务器还设计了电源智能故障诊断功能,以应对严重电源过载或电源故障对芯片供电造成潜在影响。智能诊断电源采用PMBUS供电芯片,可实时监控每相电流、温度变化,精准定位异常相位,在异常发生的第一时间,能够毫秒级检测异常电流或电压波动,实现故障日志一键抓取,极短时间完成故障信息记录。在过流发生的瞬间,电源会立即触发智能熔断保护机制,避免主板级烧毁,防止故障扩大,真正实现稳定性与可维护性的统一。

在算力爆发的时代,半导体制程技术的不断进步,Chiplet技术也在快速普及,供电设计将向更微观的方向演进,即实现“每颗Die独立供能”,这对供电系统的精度和可靠性提出了更高的要求。未来,元脑服务器也将在服务器供电设计方面不断积累,探索精准控制服务器电源的电力波动的创新技术,确保每一微秒的峰值性能稳定输出。

售前咨询

售后服务

反馈意见

AIStore

回到顶部

回到顶部

收起
回到顶部 回到顶部
请选择服务项目
售前咨询
售后服务
访问 AIStore

扫码访问AIStore