华为云黄瑾：六大科技创新，昇腾云定义下一代AI基础设施__经济网

首页

公司

正文

华为云黄瑾：六大科技创新，昇腾云定义下一代AI基础设施

来源：经济网

2025-05-19 15:40

浏览

“随着大模型训练和推理对算力需求的爆炸式增长，传统计算架构已难以支撑AI技术的代际跃迁，超节点架构的诞生不仅是技术的突破，更是以工程化创新开辟AI产业的新路径。”5月16日，华为云副总裁黄瑾在华为云AI峰会上表示。

据黄瑾介绍，华为云CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势，以系统架构创新重新定义新一代AI基础设施。

图1：黄瑾.png

六大优势，重新定义AI基础设施架构

当前，大模型训练经历了从早期小模型在单卡训练、小参数大模型在单机训练，到现在MoE、长序列、多模态大模型都在AI集群上训练的演进过程。AI算力的瓶颈，从单卡算力的瓶颈到单机内总线带宽的瓶颈，再到现在集群间通信带宽的瓶颈，需求增长了1万倍。

然而过去的8年里，单卡硬件的算力增长了40倍，但是节点内的总线带宽只增长了9倍，跨节点的网络带宽只增长了4倍，这使得集群网络通信成为当前大模型训练和推理的最大挑战。

黄瑾表示，面对这些挑战，华为云创新性的推出了采用全对等互联架构的CloudMatrix 384超节点。这项技术创新跳出单点技术限制走向系统性、工程性的创新算力架构，直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。通过新型高速互联总线实现384 张卡互联成为一个超级云服务器，最高提供300Pflops的算力规模，比业界同类产品领先67%。

目前，基于CloudMatrix的超节点集群已经在芜湖、贵安、内蒙古规模上线，黄瑾总结了六大技术创新点，即MoE亲和架构，从“小作坊”到“超级工厂”；以网强算，双层网络破解“数据堵车”；以存强算，弹性内存改写“算存绑定”；长稳可靠，故障自愈的“AI医生”；朝推夜训，算力资源“错峰用电”；即开即用，“算力水电”普惠模式。

做好智能世界云底座和使能器，加速行业智能跃迁

如今AI已经成为最有影响力的通用技术，如何将技术价值转化为应用成果，成为千行百业面临的核心课题。华为云超节点创新系统架构的背后，是华为云坚持“昇腾云服务支持百模千态，盘古大模型重塑千行万业”的战略。

黄瑾强调，一直以来华为云持续推动昇腾AI云服务全面升级，通过打磨昇腾云的训练、推理的性能、可靠性和性价比，为中国乃至全球客户提供好用、易用的AI算力云服务。现已全面适配了DeepSeek在内的160多个大模型，以云服务的方式，协助客户进行模型的开发，训练，托管和应用。昇腾AI云服务上线以来，面向政府、金融、零售、互联网、交通、制造等行业已经服务六百多家创新先锋企业，加速行业智能化应用的快速落地。

在充满突破和创新的AI发展过程中，每一个阶段都会产生大量的新技术、新模式，企业唯有抓住AI时代机遇，才能抢占发展先机。黄瑾表示，面向智能世界，华为云致力于做好行业数字化的“云底座”和“使能器”，坚定打造AI算力底座，以安全、稳定、高质量、持续创新的AI云服务，赋能千行万业应用创新，携手伙伴、客户加速行业智能跃迁。

编辑：孙冰

夜间

设置

移动端

手机版

扫码手机端阅读

欢迎关注
经济网小程序

网上订阅

扫码订阅

顶部