6月12日至13日,2026第八届北京智源大会在北京中关村国际创新中心举行。新加坡国立大学校长青年教授,潞晨科技创始人兼董事长尤洋出席并演讲。
尤洋首先提出了关于AI芯片与算力层的三大战。
第一个挑战,通信将成为AI算力集群的核心瓶颈。他提到,单芯片算力非常有限,即便是英伟达,也需要依靠成百上千甚至上万颗芯片组成的集群来提升性能。对于国产芯片而言,这个问题可能会更加严重。
第二个挑战,内存瓶颈日益严重,尤其是HBM(高带宽内存)。他表示,全球内存供应已全面紧张,头部厂商今年的产能早已被预订一空。在大模型训练与部署过程中,内存问题需要重点关注。
第三个挑战,当参数量扩展到10万亿、序列长度达到200万甚至300万时,智能增长的第三动力是什么?尤洋认为,答案是继续scaling(扩展)。
针对通信挑战,尤洋指出,超大Batch训练是关键。他在BERT上的尝试将训练时间从3天缩短到76分钟,核心思想是用更大的批量(batch)换取更高的通信效率,提升集群计算效率。“因为更大的batch意味着更少的step,在保持精度不变的前提下极大提升效率,尤其在单芯片较弱、集群规模很大的情况下,这种做法的价值越来越高。虽然未来芯片会更强,但通信成本也在上升,集群中单芯片的相对能力反而会显得更弱。”
针对内存挑战,他认为,需要更高效的优化器设计。他提到,过去五年,英伟达最重要的创新之一就是在有限的物理空间内堆叠更多的HBM。但全球内存供应已全面紧张,头部厂商今年的产能早已被预订一空。在大模型训练与部署过程中,内存问题需要重点关注。对此,潞晨科技尝试做了一些更节省内存的优化器。
“比如我们之前提出的CAME优化器,获得了ACL 2023年杰出论文奖,思路是在Adafactor基础上引入置信度引导(Confidence-guided)的信号,在保持与AdamW相同精度的前提下进一步降低内存占用。”尤洋表示,未来,通信和内存这两条线有很大探索空间,将直接决定AI训练系统的效率,也会影响算法设计。
针对智能水平是否能增长的挑战,尤洋强调,未来三年,比较重要的事情是算法和系统的协同优化,尤其是对国产芯片而言。很多开发者在华为昇腾等国产芯片上工作时,发现需要进行大量的对齐和精度优化。通过设计更好的优化器或低精度算法,可以同时提升速度和精度。
最后,尤洋总结到,未来三年最亟待解决的两个问题是通信和内存。长期来看,为了让智能持续增长(特别是多模态方向),仍需不断寻找scaling的方向。“前两个挑战更多是提升算力效率,而第三个挑战则是更高效地将算力转化为真正的智能。”
“未来3到5年的AI竞争,更像是一场AI基础设施与整体系统全栈能力的竞争。”他说。