AI算力从云端“下放”,Arm 为手机备好了“新引擎”
创始人
2025-09-12 12:27:07
0

本文来自微信公众号:极客公园 (ID:geekpark),作者:郑玄,原文标题:《AI算力从云端「下放」,Arm 为手机备好了「新引擎」》


当所有人都在谈论云端AI的万亿参数和千亿投资时,我们口袋里的手机,在AIGC浪潮中究竟扮演着怎样的角色?


不可否认,今天AI的主战场仍在云端。有着数万张高性能显卡的数据中心,支撑着模型的训练和绝大多数推理任务。但这套模式的挑战也日益凸显:高昂的算力成本、无法忽视的网络延迟,以及越来越严峻的能耗问题。每一次我们向云端AI提问,背后都是一次昂贵的计算和数据传输。


于是,行业里一个清晰的共识正在形成:AI的未来,必然是「云+端」的混合模式。将更多的AI能力下放到离用户最近的设备上,不仅能带来更快的响应、更好的隐私保护,更重要的是,它可能催生出全新的、真正「个人化」的AI体验。


而谈到终端,我们无法绕开Arm。这家公司设计的架构,驱动着全球大部分的智能手机。这意味着,终端AI的未来图景,很大程度上取决于Arm在底层计算架构上提供了怎样的「画笔」。Arm的选择,也一定程度上决定着整个移动生态能画出怎样的AI应用。


近日,Arm举办了Arm Unlocked 2025 AI技术峰会,详细解读了其下一代Lumex CSS平台。这不仅仅是一次产品发布,更像是Arm对「AI将如何重塑终端」这个问题的系统性回答。那么,这套被寄予厚望的新架构,究竟为端侧AI的爆发,准备了哪些关键的技术拼图?


01


CPU的新角色:


SME2为端侧AI注入原生动力


随着端侧AI变得愈发先进和成熟,移动芯片所面临的设计压力也在不断加剧。一方面,旗舰产品的迭代周期不断缩短,另一方面,向3纳米等先进工艺节点的迈进也带来了巨大的设计复杂性。在面积和功耗都极为受限的移动设备上实现AI性能的持续增长,对芯片供应商和OEM厂商来说是一项艰巨的挑战。


Arm Lumex计算子系统(CSS)正是在这一背景下诞生的。它代表了Arm从提供独立IP向提供集成式平台的一次关键转变。通过将预先验证和优化的CPU、GPU、系统IP与生产就绪的3纳米物理实现方案相结合,开发团队可以根据自己的需要将这些模块单元进行组合,开发自己的芯片产品,从而加速产品上市进程。


作为一个为AI优先时代重新设计的模块化平台,Lumex包含了多个协同优化的核心组件:全新的Armv9.3 C1 CPU集群,搭载为AI加速而生的SME2技术;新一代的Arm Mali G1-Ultra GPU,带来了桌面级的硬件光线追踪能力;以及全新的系统IP,用以确保数据高效流转,消除性能瓶颈。


在这套完整的计算子系统中,扮演着「计算大脑」核心角色的,便是全新的Arm C1 CPU集群。该集群由旗舰性能的C1-Ultra、次旗舰C1-Premium及持久高能效的C1-Pro、极致能效C1-Nano构成,可进行灵活组合以应对多样化的计算负载。然而,在众多升级之中,最值得关注的变化,是其原生集成的第二代可伸缩矩阵扩展技术(SME2)。


要理解SME2的重要性,首先需要明白现代AI模型,尤其是驱动生成式AI的大语言模型(LLM),其运算核心本质上是海量的矩阵乘法。过去,CPU处理这类并行计算任务的效率相对较低,因此需要将任务「卸载」给专门的AI加速器,如NPU(神经网络处理单元)。这一过程虽然有效,但数据的搬运和调度不可避免地会引入额外的延迟和功耗。


SME的出现,正是为了从根本上解决这一问题。它并非一个外部「插件」,而是在Armv9-A架构中引入的指令集架构(ISA)扩展。这使得CPU核心本身就获得了高效执行矩阵运算的原生能力。从技术演进上看,这是Arm在CPU并行计算能力上的一次飞跃,经历了从SIMD(单指令多数据流,如Neon技术)到SVE(可伸缩矢量扩展),再到如今专为矩阵运算优化的SME/SME2。


这种原生能力带来的提升是显著的。根据Arm公布的数据,在SME2技术的加持下,Arm C1 CPU集群的AI性能相较于上一代提升高达5倍,同时实现了3倍的能效优化。这意味着AI应用不仅响应速度有了质的飞跃,对于极为宝贵的移动设备电量也更为友好。


这些数据在实际应用场景中得到了验证:在处理本地语音识别任务(Whisper Base模型)时,延迟降低了4.7倍;在运行聊天机器人(Gemma 3模型)时,AI性能增长了4.7倍。在模型上生成音频(Stable Audio)时,速度提升了2.8倍。


SME2在不同AI场景工作负载的效率提升丨来自:Arm


这种性能跃升,让以往可能需要数秒等待的AI交互,变得更加「瞬时」。对于需要即时反馈的AI助手、实时翻译、代码生成等场景而言,消除延迟是提升用户体验的关键。SME2让CPU有能力直接处理这类对延迟敏感的任务,从而改变了移动SoC内部的异构计算分工模式,赋予了芯片设计师更大的灵活性。


为了让这一强大的硬件能力能够被软件生态无缝利用,Arm还提供了KleidiAI软件库。它与主流的AI框架(如PyTorch,TensorFlow,MNN,ONNX Runtime)深度集成,开发者无需重写或修改上层应用代码,就能自动调用SME2能力实现加速。这种软硬协同的策略,极大地降低了新技术的使用门槛,确保了当搭载Arm Lumex平台的设备上市时,海量的现有应用能够第一时间享受到性能红利。


可以说,SME2的出现正深刻地改变着CPU在终端AI计算中的角色。它让CPU从一个传统的通用计算与控制单元,演变为一个同样擅长处理AI负载的高效处理器,为未来更复杂、更庞大的AI模型在手机等终端设备上流畅运行,铺平了坚实的道路。


02、AI如何重塑GPU,以及移动游戏的未来


如果说CPU的进化是为终端AI提供了「通用算力」的坚实基础,那么全新的Mali G1-Ultra GPU的变革,则更像是一场由AI技术深度赋能的、针对移动游戏体验的全面升级。


说到GPU,今天很多人第一时间会想到英伟达的超级AI计算芯片。但在智能手机等移动设备上,GPU虽然也处理一部分AI工作负载,但其核心使命依然是在图形计算领域,为用户提供画面更好、运行更流畅的内容体验。Arm的思路,正是利用AI技术对移动端的游戏体验进行一次彻底的增强。


第一个层面,是用硬件光线追踪技术,为移动游戏画质带来质的飞跃。光线追踪通过模拟真实世界的光线路径,能够生成极为逼真的阴影、反射和全局光照效果,是近年来PC和主机游戏画质革命的核心。Mali G1-Ultra集成了全新的第二代光线追踪单元(RTUv2),这是一个专为光线与几何体求交运算而设计的独立硬件单元。


RTUv2的光追表现提升丨来自:Arm


相较于软件模拟,专用硬件的效率呈指数级提升,带来了高达2倍的光追性能跃升和40%的帧率提升。这意味着《原神》、《暗区突围》这类追求极致画质的手游,未来将能实现媲美桌面级的动态光影效果,从而进一步模糊手游与PC/主机游戏的视觉界限。


第二个层面,也是更具想象力的一点,是用AI来「欺骗」眼睛,打破性能与画质的传统桎梏。现代大型游戏对GPU的渲染压力极大,要在有限的功耗下同时实现高分辨率和高帧率几乎是不可能的。为此,PC端诞生了DLSS、FSR等AI超分辨率技术,其核心思想是让GPU以较低分辨率渲染画面,再通过AI模型「脑补」出高分辨率的图像。Arm也推出了自己的解决方案——Arm ASR(Accuracy Super Resolution)。这是一种基于时域(Temporal)的超分技术,它会分析前后多帧图像的信息,智能地重建出细节,从而在大幅降低GPU负载的同时,保持甚至提升图像质量。


这种「AI插帧」和「AI分辨率增强」技术的引入,对于移动游戏而言意义非凡。它意味着游戏可以以更低的功耗运行,延长续航;或者在同样的功耗下,达到更高的帧率,带来更流畅的体验。对于开发者而言,他们可以更从容地加入更复杂的特效,而不必担心手机「带不动」。AI在这里扮演的角色,是打破硬件物理极限的「魔法师」。


第三个层面,是对传统图形性能的持续精进。Mali G1-Ultra的整体图形性能也得到了系统性提升,在《暗区突围》、《原神》等流行游戏中,实现了17%至25%不等的性能增长。这得益于多项架构改进,例如引入「双堆叠着色器核心」来加倍内部带宽、减少拥塞,以及「图像区域依赖(IRD)」智能调度技术,使GPU能并行处理屏幕的不同区域,在复杂场景中显著提升效率。


综合来看,Arm新一代GPU的进化路径,与桌面级GPU的发展方向高度一致:它不再仅仅是一个被动执行渲染指令的图形处理器,而是越来越多地借助AI的能力,主动地去优化和创造更好的视觉体验。硬件光追负责提升画质上限,AI超分和插帧负责优化能效比和流畅度,传统的性能提升则作为这一切的基础。三者结合,共同构成了下一代移动游戏的技术基石。


03、AI向终端迁移,Arm的选择与未来


通过CPU与GPU的协同,并结合全新的系统IP,新一代Arm Lumex提供了一套经过验证的、软硬结合的完整解决方案。它让不同类型的AI与图形负载,都能在最合适的处理单元上以最优效能运行。


今天,AI从云端向终端大规模迁移正在成为重要趋势。这一趋势的背后,是算法的进步、制程工艺的演进,以及如今,底层计算架构的革新。Arm Lumex正是补上了其中最关键的一块拼图,为解决终端算力瓶颈提供了可行的答案。将AI计算更多地放在终端,不仅能为用户带来更低的延迟、更好的隐私保护和更深度的个性化,也能降低开发者对云端服务器的依赖和成本,从而催生出真正意义上「AI原生」的全新应用。


Arm自身也清晰地认识到了这一历史性转变,而这种转变最直观地体现在其全新的产品命名体系上。过去,我们熟悉Arm是通过其一个个独立的IP核代号,例如代表旗舰性能的Cortex-X系列CPU、主打能效的Cortex-A700系列CPU,以及Mali或Immortalis系列的GPU。芯片设计公司就像攒电脑一样,从Arm的货架上挑选这些独立的「零件」,自行进行集成、验证和优化。


如今,Arm开始交付高度集成的「计算子系统(CSS)」。为了体现这一变化,命名规则也焕然一新。首先,针对不同市场推出了平台品牌,如面向移动端的Lumex、面向PC的Niva。


其次,平台内的组件命名也变得更加系统和直观。例如,CPU集群被统一命名为C1,而不再使用Cortex。集群内的核心则用Ultra、Premium、Pro、Nano这样的后缀来清晰地划分性能等级。曾经的Cortex-X系列旗舰核,如今演变成了C1-Ultra;曾经的Cortex-A700系列能效核,则对应C1-Pro。


GPU的命名也遵循了这一逻辑,旗舰产品直接命名为Mali G1-Ultra。这种从复杂的数字编号到清晰的层级化命名的转变,让外界能更容易地理解其产品布局,也凸显了Arm如今更强调平台整体的性能表现,而非单个IP的孤立指标。


展望未来一到两年,我们有理由期待,搭载Arm Lumex架构的旗舰芯片将陆续问世。硬件的成熟,必将为软件的创新提供肥沃的土壤。届时,我们或许会看到终端AI应用的一次集中爆发:一个能理解屏幕上下文、无需联网就能随时响应的智能个人助理;一款在任何场景下都能流畅进行实时音视频翻译的应用;手机相册内建的、强大的AIGC工具,可以随手创作和编辑图像;以及画质足以媲美游戏主机的次世代手机游戏。


Arm Lumex平台的发布,是终端AI发展蓝图中的一块关键技术拼图。它为整个移动生态提供了一套强有力的基础工具,去构建下一代智能体验。当技术的基础设施准备就绪,一个更有想象力的应用时代或许即将开启。

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...