今年两会期间,全国政协委员郭御风直言不讳:过去几年,我国算力基建实现跨越式发展,但“重建设、轻应用”的问题依然存在,不少智算中心的算力利用率甚至不足30%。另一组数据更触目惊心:全国数据中心与智算集群平均利用率仅20%-30%,西部枢纽大量算力闲置,东部高端算力却紧张依旧。
一边是轰轰烈烈的建设潮,一边是大量算力资源躺在机房里“晒太阳”。
在这种荒诞的对比下,一个本该早就厘清的问题被推到了台前:中国到底需不需要“超节点”?答案很清晰:需要,但我们需要的是能进机房、能跑业务、能算得过账、能兼容存量的务实超节点,而不是PPT上那种“千卡炫技”的伪概念。
饥渴的市场
先看大模型。全球调用量排名前五的模型中,中国占了四席。2026年2月,中国模型周调用量冲高至5.16万亿Token,三周增长127%。
这意味着算力消耗不是线性增长,是指数级飙升。你用8卡服务器跑千亿参数模型,就像骑三轮车上高速,不是跑得慢,是根本跑不动。
再看AI应用的质变。黄仁勋在GTC 2026上给过一个数字:推理算力的需求将比训练高出1000倍。为什么?训练是一次性的炫技,推理是7×24小时的苦力活。
当AI从“聊天机器人”变成全天候自动执行的智能体,每一次对话、每一次搜索、每一次代码补全,都在消耗算力。OpenClaw引爆的“云养虾”热潮,Token消耗是普通对话的1000倍。
算力需求已经从脉冲式变成了持续性。
中国移动已经动手了。3月18日,他们发布2026-2027年人工智能超节点设备集采项目,规模高达6208卡。这是三大运营商首次在集团层面启动AI超节点集采。
市场在用脚投票。超节点不是要不要的问题,而是什么时候上、怎么上的问题。但越是需求迫切,越要警惕一些误区。
“超节点狂欢”背后的三笔账
过去两年,智算中心陷入“唯显卡论”的怪圈。企业疯狂抢卡、囤卡,仿佛显卡数量等于算力实力。
结果呢?单卡确实猛,但一上集群就拉胯。传统8卡服务器靠普通网线互联,算力是散的,通信延迟高,几百张卡一起跑就像几百个人各唱各的调。
这就是为什么很多企业囤了卡却“用不起来”的真相。
而超节点的出现则让盲目上千卡、万卡的歪风更加魔幻。每次发布,都是“总算力刷新”、“训练速度破纪录”。业界激动,粉丝欢呼,好像谁先把超节点堆起来,谁就能先拿到通往AGI的门票。
但在这套“面子”背后,有三笔账从来没人细算。
第一笔账:规模不经济。
从传统8卡扩张到超节点,卡量扩容了48倍,纸面算力暴涨,但通信开销、同步损耗、故障概率,也跟着翻跟头往上涨。硬件采购、运维复杂度、机房改造成本,更是后者的几百倍。
但超节点落地后,真正能用上的算力,可能也就峰值的一半,剩下都耗在等通信、修故障、排队调度上了。
很多人只算了采购的账,没算运营的账。
仅一套超节点,除了上亿的硬件投入,每年的电费和制冷费就可能达到上千万元级别。而利用率低下意味着,你每花10块钱,就一半左右是扔在水里的,既没有变成科研成果,也没有变成实际业务。
第二笔账:进去容易出来难。
全栈自研听起来很性感,但代价也很实在。想用这套,你就得跟原来的技术栈说再见。PyTorch跑不了,TensorFlow用不了,CUDA写的代码迁不过来,全都得重来。
换句话说,全栈自研的另一面,是全栈出不来。而出不来,是有代价的。
对那些存量数以百万计的8卡服务器、对那些用惯了PyTorch的开发者来说,这是无法承受的成本。
真正的国产超节点,不应该逼着用户“另起炉灶”,而应该开箱即用、生态兼容,“润物细无声”,兼容存量,定义增量,让现有的代码能跑起来,让未来的代码跑得更快。
第三笔账:少数人的盛宴,多数人的奢侈品。
不差钱的话,使用者可以为超节点部署新建数据中心、上液冷、组专门的运维团队。但财大气粗的毕竟是少数。
有业内人爆料,很多地方的智算中心负责人私下都吐槽过同一件事:拿着预算去选方案,但落地清单一出来,机房要改造,供电要升级,冷却要重做,适配要付费,运维要追加,每一项都是计划外的钱,想上超节点就得硬着头皮提预算,要么就只能退而求其次,性能不是最强,但能塞进现有机房,在预算里跑起来。
此外,还有一点往往被忽视——大不等于一定好。观察任何一个成熟的行业,都会发现一个规律:头部确实有巨无霸,但撑起产业根基的,永远是那些“恰好够用”的小而美。
中国需要什么样的超节点?
第一,要从需求定义超节点,不要被个别厂商定义牵着走。
什么是真正的超节点?不应该由某一家厂商说了算。真正的标准在于:满足一系列技术参数的同时,能不能满足企业高速高性能AI算力的真实需求?
对于万亿参数的大模型训练,你可能需要384卡、768卡,甚至更大的规模——这种配置叫超节点。
对于更广大的企业,他们需要的是32卡、64卡就能跑起来,成本可控、能塞进现有机房的“即插即用”高性能AI算力系统。这种配置,同样也应该叫超节点。
如果非要把超节点定义成“必须上百卡、必须全栈自研、必须某套特定技术标准”,那等于把99.9%的企业关在门外。这种定义,无法真正推动产业,反而有可能禁锢发展。
第二,要务实配置,不要规模噱头。
8卡到64卡,是适配绝大多数企业的“黄金区间”。8卡满足基础推理、小规模训练,成本可控、运维简单;64卡突破性能瓶颈,适配中大型训练,成本远低于数百卡、千卡超节点,运维难度也在企业可承受范围内。
这个区间的“总体拥有成本”也是最优解。它既解决了传统服务器的协同短板,又不用砸锅卖铁去填电费和制冷费的无底洞。
规模适中、开箱即用、生态兼容,这才是超节点落地最务实、最主流的路径。
第三,要系统重构,不要硬件堆砌。
真正的超节点,核心从来不是“把更多卡装进箱子”,而是通过存、算、网、电、软的全链路系统级重构,打破硬件壁垒,让几百颗核、几十张卡像一块芯片一样高效协同。
这是“超节点”和“服务器堆叠”的本质区别。
更重要的是,这种系统重构不只在技术层面,更要体现在产品定义和市场认知的重构上,让超节点回归到“满足需求”的本质。
企业需要的不是“多少卡”的标签,而是“能不能跑起来、能不能算得过账”的结果。8卡到64卡的黄金区间,不是“小打小闹”,而是超节点在另一种规模上的务实落地。
只有当超节点不再被“规模”绑架,而是被“需求”定义,它才能从实验室技术真正变成普适化的产业底座。
大规模的超节点确实有它的价值,这点得认。对于那些探路AGI的头部玩家来说,超大规模预训练就像高能物理的对撞机:规模本身就是门槛,算力堆不起来,技术就上不去。
然而,产业落地靠的才是“千家万户”,不能为了千卡狂欢,而忽略实验室、企业、机构等99.9%的用户。
值得欣慰的是,已经有人在琢磨另一条路了。他们不是去跟风堆千卡,而是回头看看卡在“8卡不够用、千卡用不起”之间的人到底缺什么。
这场关于算力路线的讨论,才刚刚开始。谁能真正听见那99.9%的声音,谁才有接下来的发言权。