华为云再掀算力风暴:CloudMatrix384超节点将升级,Tokens服务性能最大可超H20四倍
创始人
2025-09-19 12:45:14
0

本文来自微信公众号:量子位 (ID:QbitAI),作者:关注前沿科技


华为云算力再迎重大突破!


刚刚落幕的华为全联接大会2025,一系列新进展发布——


AI算力云服务升级,基于华为云刚刚发布的最新AI服务器规划,CloudMatrix的云上超节点规格将从384卡升级到未来的8192卡。依托MatrixLink高速对等互联网络结合多网合一技术,实现百万卡的超大集群,为智能时代提供更澎湃的AI算力。


首创EMS弹性内存存储服务,大幅降低多轮对话时延。


华为云Tokens服务正式接入CloudMatrix384超节点,打造极致性能的Tokens服务体验。


这距离CloudMatrix384超节点2025年4月正式发布仅半年,期间其能力持续进化


2025年4月,CloudMatrix384超节点发布并商用,在芜湖数据中心规模化上线;


2025年6月,基于CloudMatrix384超节点的新一代昇腾AI云服务全面上线;


2025年9月,Tokens服务全面接入CloudMatrix384超节点,有效屏蔽复杂的底层技术实现,直接为用户提供最终的AI计算结果。


现阶段,AI行业内依旧被算力焦虑笼罩。硅谷大厂近期在算力、芯片领域动作频频:


OpenAI一边和博通自研AI芯片,一边向甲骨文抛出3000亿美元买算力;马斯克百天建成万卡超算集群,还计划向百万卡规模冲击,同时悄悄布局芯片;Meta、AWS等企业也在积极获取更多算力资源……但算力的发展并非一蹴而就,它需要在单点技术上极致突破,还涉及芯片、硬件、架构、软件、网络、能源乃至整个产业生态的协同演进。


放眼全球,能够输出澎湃算力的供应商,都离不开十数年、数十年的沉淀积累。


华为云作为其中一员,探索路径因所处产业阶段而显得尤为深刻:不仅需要在技术“无人区”重新定义算力运行规则;还需把握AI发展时机,通过快速迭代响应产业海量需求。一步步成长为今天的“算力黑土地”。


黑土地是极其适合农业的土质,天然含有大量腐植质,在此耕种的庄稼产量高,能够茁壮成长。


华为云“算力黑土地”理念核心是,华为云向行业提供一块肥沃且精心开垦的“土壤”,企业、开发者可根据自身需求,在这片“土壤”上开展AI创新实践。同时,华为云通过框架创新、软硬协同等一系列能力积累作为养料,让这片黑土地越来越肥沃。


正因如此,在大模型浪潮爆发的当下,华为云才能持续向产业输送澎湃算力,做最坚实的底座。其背后的研发、行动、理念与认知,也成为中国算力产业发展的重要参考。


智算+通算,覆盖全产业算力需求


想要快速前进,纲领是第一要务。


华为云的策略是智算(智能计算)+通算(通用计算)协同推进:


智算:聚焦AI前沿,提供极致性能与弹性服务,助力AI更快更好落地千行百业。


通算:依托鲲鹏云服务,从核心到边缘全场景赋能,提供安全可信的云上通用算力。


智算部分的核心服务模式是Tokens服务,同时也可以提供HCS混合云、华为云液冷云数据中心以及昇腾专属云服务。开头提到的CloudMatrix384超节点能力升级和首创EMS弹性内存存储服务,就属于智算领域成果。


△图片为AI生成


通算部分主要是鲲鹏云业务,基于华为云自研的鲲鹏处理器(ARM架构),提供一系列面向通用计算场景的云服务产品,推动产业智能创新。


鲲鹏云实现了软硬协同的全面创新,从多核高并发的芯片设计、软硬一体的“擎天”架构,到华为云智能调度平台与操作系统的深度优化,鲲鹏云服务释放出“开箱即用”的强劲算力。目前云上鲲鹏核数从900多万核增长到1500万核,增幅达到67%。同时全面兼容主流应用软件,已适配超过25000个应用,为ARM生态繁荣提供坚实支撑。


以上就是华为云“算力黑土地”的大致架构。在这一体系下,大模型时代中的华为云能够更清晰、更针对性根据AI落地需求进行升级,为产业提供更高效、易用、可靠的算力。


AI时代,用Tokens定义计算


针对AI时代需求,华为云今年正式推出基于CloudMatrix384超节点的Tokens服务。这是一种面向AI大模型推理场景、按实际Token消耗量计费的云服务模式,与传统云计算计费方式不同,可显著降低AI推理成本。


这种模式调整背后,是对大模型落地的细致洞察。Token是将文本分割转换成数字向量,大模型吞吐内容的规模以Tokens计算,它是大模型时代天然的计量单位。随着AI落地进程推进,Tokens消耗量呈爆发式增长。


数据显示,2024年初中国日均Token消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,一年半的时间增长300多倍。显然,Token不再只是技术领域的计算单位,更是大模型消耗的实际体现,是衡量大模型落地情况的关键参考,也能直接反映背后GPU算力、内存、计算时间的使用量。


用Tokens作为计费单位逐渐成为行业共识:一方面,能更精准计算企业使用的资源,让用户仅为实际消耗付费,同时通过实际消耗了解费用构成,进一步优化成本;另一方面,可解决不同场景Tokens消耗量差距大导致的收费不公问题,为云厂商动态调节计算资源提供参考。


比如我们常遇到的在线、近线、离线等场景:长文本生成任务适用于日常办公等场景,白天调用量大、夜间几乎静默,按量计费比按时/按卡计费更合理;智能客服、AI助手等场景中,不同细分情况的会话轮次和深度不确定,Tokens服务模式可以更精准计算每次交互成本。


另一方面,Token服务可以有效屏蔽复杂的底层技术实现,用户不必关心芯片的工艺、服务器的代次等复杂的硬件技术栈,也不必关心推理框架、模型部署等复杂的软件技术栈,可以高效地直接获得“AI的最终结果”。


在本次HC2025上,华为云宣布CloudMatrix384 AI Token推理服务全面上线。这意味着AI算力进入以“极致性能、极致效率”为特征的新阶段,性能超越英伟达H20 3-4倍。其底层技术主要依托CloudMatrix384超节点及xDeepServe分布式推理框架等。


第一,CloudMatrix384超节点使用全对等互联架构与高速通信技术,在计算通信等方面优势显著,能释放更极致算力


CloudMatrix384超节点通过华为云自研的MatrixLink高速对等互联网络,将384颗昇腾NPU和192颗鲲鹏CPU紧密耦合,形成逻辑统一的超级“AI服务器”。通过Scale Out方式,还可以组成一个超16万卡的AI集群,同时支持1300个千亿参数大模型训练或者上万个模型的推理。


未来,基于华为刚刚发布的最新AI服务器规划,CloudMatrix超节点的规格将进一步升级到8192颗,组成百万卡的AI集群。


第二,基于“一切可池化”理念,华为云通过首创的EMS弹性内存存储服务将NPU显存、CPU内存和存储资源解耦,形成统一资源池。NPU可直接远程访问池化内存,实现显存独立扩容,多轮对话Token时延大幅降低。同时,计算、存储和网络资源可根据负载需求动态组合,提升资源利用率。


这一技术对多轮次问答场景提升显著。大模型进行多轮问答时,通常响应会随轮次增加而变慢,原因是大模型需“记住”之前每一轮产生的数据以保证回答连贯性,当问答轮次增加,计算量成倍增长,导致响应延迟。而EMS服务能有效解决这一问题。


第三,PDC分离及动态PD:PDC(Prefill-Decode-Caching)分离是将Prefill、Decode固化在各自集群、同时利用MatrixLink高速对等互联网络可以全局寻址的特点而另设立独立的KV缓存集群,这样不论是Prefill集群还是Decode集群的NPU都能够直接访问独立KV缓存集群的共享内存缓存,突破数据的物理位置限制,显著提高负载均衡、NPU利用率以及内存利用率,同时提供更大的弹性。同时,系统能够准确实时地分析或预测推理业务负载。


第四,CloudMatrix384超节点专为主流MoE架构设计,支持“一卡一专家”的分布式推理模式,将MoE模型的专家模块分布到不同NPU卡上并行处理,如256个专家对应256张卡,减少通信延迟导致的算力浪费,减少每张卡权重加载的时延,同时减少权重的显存占用,显著提升单卡并行的路数。


当Tokens服务全面接入CloudMatrix384超节点后,企业用户能以优的性能、好的服务、高的质量,获得各行各业所需的“最终AI计算结果”,更专注于应用和业务创新。


千行百业AI底座:支撑互联网应用、高精尖科研任务


360推出的纳米AI是全球唯一已经进化到L4级别的多智能体蜂群平台。


纳米AI的单任务执行步骤可达1000步,消耗500万至3000万Tokens,其多个专家智能体可以灵活拉群、多层嵌套、组队协作完成复杂任务,还能异步并行运行,大幅缩短超级任务执行时长。在无限上下文长度方面,有用户实测可以连续工作两小时,消耗Token 2000万,超过1000步的复杂任务不中断、不卡壳,能顺滑完成。


这对底层AI算力的实时推理性能和并发吞吐能力提出极高要求,且业务场景复杂,涉及多轮对话、文档分析等,要求算力平台具备高灵活性和适应性,同时随着用户规模增长,Tokens消耗量成倍增加,进一步加大了算力需求。


华为云将纳米AI中调用量最大的模型部署在CloudMatrix384昇腾AI云服务上,进行全面调优,并提供Tokens服务。基于CloudMatrix384超节点全新高速网络对等互联,384颗昇腾NPU、192颗鲲鹏CPU组成一台超级“AI服务器”,算力和资源互联带宽提升数十倍以上;同时依托xDeepServe分布式推理框架打造Tokens“超高速流水线”,结合EMS弹性内存存储打破AI内存墙,实现“以存强算”,最终帮助企业客户更灵活、低成本地调用优质算力,高效发展AI Agent应用。


另一边,华为云也能满足国家级科研机构对高精度、高专业性和安全可信的算力需求。


今年,中国科学院自动化研究所牵头打造并发布“磐石·科学基础大模型”,旨在为科学研究提供智能底座,推动生物、化学等领域专业大模型开发。


作为国家级科研机构,中国科学院多个研究所都对算力有国产化、自主可控的要求,且科学模型需要高精度、高专业性,比如航天航空、医疗、气象预测等领域,低精度训练可能影响实验结果。同时中国科学院涉及的科研场景多样,上百个研究所都将基于科学基础大模型开展研究工作,需要算力平台既能匹配高效算力,又能满足长期演进及专业化服务需求。


华为云为磐石提供基于国产化昇腾芯片的昇腾AI云服务,实现软硬件、计算框架、开发平台全链路自主可控。基于CloudMatrix384超节点高速互联框架优化融合算子,性能可对标甚至超越英伟达。


以高能物理应用为例,北京正负电子对撞机基于磐石实现粒子轨迹重建等任务的自动化。借助华为云CloudMatrix384昇腾AI云服务,基于磐石发展粒子物理领域大模型,模拟速度提升1个量级,物理分析周期缩短1个量级,进一步助力加速新物理现象发现。


除此之外,科大讯飞星火大模型推理、面壁小钢炮MiniCPM端侧模型训练、美的“双活”资源底座构建、高教社智能内容服务平台等,均以华为云CloudMatrix384昇腾AI云服务为底座,实现效率提升与创新加速。


十年积累孕育黑土地


以上,是对华为云“算力黑土地”的剖析。


过去十年,华为云在软硬协同、数据中心、算法框架、模型服务、生态建设方面的积累与付出,组成了如今肥沃“算力黑土地”中的养料,成为其能够持续输出澎湃算力的关键。


华为云的全栈研发体系与长期高额研发投入,如同“地核”一样,为一切提供持续热量和磁场保护,确保“生命”得以存在、成长。如今,大模型爆发如同寒武纪生命大爆发般,推动AI应用快速普及,华为云打造的“算力黑土地”,也迎来了播种与收获的时刻。

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...