近日,龙蜥社区智算基础设施联盟正式成立。联盟汇聚AI芯片、服务器、操作系统、应用开发及高校等产业链各方,以“打造AI原生操作系统、形成开放兼容的AI生态体系、增强AI产业链竞争力”为目标,聚焦开源大模型等AI技术落地过程中的兼容适配、系统稳定性、人才培养以及AI安全等问题,推动操作系统和AI融合发展,促进AI技术在各行业的落地应用。
该联盟由龙蜥社区牵头,阿里云、浪潮信息、中科方德等成员单位,十余家国内外芯片厂商,以及清华大学、上海交大等高校和FlagOS社区等单位共同发起,通过建立测试基准及性能优化方法,统一维护并更新社区主线版本,建设开源AI框架与芯片适配平台等举措,提升AI基础设施性能和稳定性,建设AI开源生态。其中浪潮信息将牵头负责联盟系统性能分析及优化工作,推动建立覆盖推理全流程的性能分析方法,优化提升异构算力场景下推理性能表现,构建覆盖主流模型及硬件组合的性能基准测试库,并协同制定RAS软硬件协同方案,确保AI基础设施对大模型具有稳定高效的支持能力。

龙蜥社区智算基础设施联盟成立
龙蜥智算基础设施联盟成立,以统一标准降低系统适配复杂性
OS+AI是操作系统产业未来发展的重要方向。龙蜥智算基础设施联盟成立的核心理念是面向Qwen、DeepSeek等开源大模型,优化底层操作系统和系统软件。通过资源共享、技术交流等形式,与合作伙伴共同建立异构一云多芯生态兼容的适配基线和规范,实现AI硬件与龙蜥OS的原生适配,降低GPU厂商与龙蜥不同商业发行版的适配复杂度,减少开发和维护成本。
对此,联盟将面向操作系统与AI结合的技术难点,在以下几个方面展开针对性的工作:首先,建立系统兼容性测试基准,减少GPU与不同商业版适配工作量;其次,统一维护并更新社区主线版本KABI白名单,加强上游原生版本兼容能力;第三,建设开源AI框架与国内AI芯片的适配平台,做好系统全栈适配及性能优化;最后,围绕GPU兼容性测试形成一致性标准规范,提升AI基础设施可靠性。
围绕以上工作,联盟下设测试和兼容性、性能分析优化、RAS、算子优化等多个技术组,通过在兼容测试、性能分析、系统优化及人才培养等方面持续深耕,提升AI基础设施的性能和可靠性,共创AI软硬件开放生态。
浪潮信息牵头系统性能分析优化技术组 提升异构算力协同推理性能表现
作为联盟中系统厂商代表,浪潮信息发挥自身生态位优势,牵头系统性能分析优化技术组,通过构建性能分析体系、开展异构算力协同推理场景优化,建立性能基准测试库,提升系统的可测量性,优化用户体验。
首先,针对AI推理场景下性能瓶颈,构建从用户请求、任务调度,到推理计算、结果响应全流程的推理性能分析方法,形成相关分析工具及优化方法,实现性能瓶颈快速定位。
其次,基于上述分析工具和优化方法,面向CPU+GPU异构协同推理场景,开展性能分析与优化专项。比如针对算力受限场景,通过计算任务卸载、异构资源协同等手段,提升大模型推理整体性能表现,改善用户体验。
第三,通过产学研联合攻关,构建面向智算系统的性能基准测试库,覆盖主流模型及硬件组合,更加有效、客观评价智算业务系统性能水平,为业务系统优化升级提供依据。
此外,在提升AI基础设施可靠性方面,浪潮信息联合系统、芯片等AI基础设施相关方,制定面向大规模场景的调试信息转储规范,统一日志格式、抓取范围及协议,避免日志信息不全导致的复现成本及分析成本,提升大规模场景下RAS故障处理能力。
未来,龙蜥智算基础设施联盟围绕智算技术,结合产业发展,携手伙伴重点建设和完善“模型+系统+芯片”打通的技术和生态,共建关键的技术方案、推动技术标准化和通用化、促进技术开源以及生态和应用案例推广,增强国内AI产业链的竞争力。
售前咨询
售后服务
回到顶部