苹果采用亚马逊芯片,一个去英伟达化的信号?
创始人
2024-12-04 22:02:46
0

标题提出苹果采用亚马逊芯片是否是去英伟达化的信号这一引人深思的问题。苹果在技术领域一直有着独特的战略布局。如果苹果采用亚马逊芯片,这可能意味着其在芯片供应源上寻求多元化拓展。英伟达在芯片市场占据重要地位,但苹果或许想减少对其的依赖。从商业战略角度看,这有助于苹果增强自身供应链的稳定性、降低潜在风险,并在芯片技术合作上探索新的方向,同时也可能引发行业内芯片供应格局的微妙调整。


亚马逊宣布推出了未来可能替代英伟达GPU的AI芯片。AWS的Trainium2芯片,将用来构建一个40万卡的集群,训练下一代Claude模型,而且苹果宣布会使用它来训练和部署Apple Intelligence。


正在拉斯维加斯举行的re:Invent大会上,AWS推出的Trn2服务器(16片Trainium2)提供20.8 Pflops性能,可训练数十亿参数模型,试图媲美英伟达和AMD的GPU。Trn2 UltraServers(64片Trainium2)高峰时提供83.2 Pflops算力,完全可以用来训练和部署最大的模型,包括语言、多模态和视觉模型。


AWS还宣布了下一代AI芯片Trainium3的计划。预计将比Trainium2提升2倍的性能,改善40%的能效,3纳米制程,将于2025年底推出。


目前,亚马逊基于Trainium1和Inferentia2的实例,在生成式AI前沿模型训练或推理方面还不太具有竞争力,这是由于硬件规格较弱以及软件集成较弱所致。但随着Trainium2的发布,亚马逊已经做出了重大的调整,正在芯片、系统和软件编译器/框架层面向英伟达产品看齐,提供有竞争力的定制硅芯片解决方案。


苹果公司也非同寻常地对外介绍了它与云服务商之间的合作细节,并且表达出积极合作构建AI的意愿。苹果已经使用AWS服务超过十年,用于Siri、Apple Maps和Apple Music。苹果还一直使用亚马逊的Inferentia和Graviton芯片来支持搜索服务。苹果方面称,亚马逊的这些芯片带来了40%的效率提升。


苹果最近还将用Trainium2进行其自有模型的预训练。苹果对它的初步评估显示,预训练效率提升了50%。苹果在决定开发Apple Intelligence之后,马上就找到了AWS,寻求AI基础设施的支持。苹果也使用过谷歌云的TPU服务器。


苹果正在引领着个人AI的应用方向,即把AI模型向端侧部署,主要用本地化的计算为用户提供定制化与个人化的AI服务,注重保护用户的隐私。


所以,对于苹果来说,最重要的不是用十万张卡去训练大模型,而是用AI更好地服务其20多亿设备用户,即在iPhone、iPad、Mac等设备上,用自研芯片提供本地算力,只有那些较复杂的计算任务才上云端。苹果还需要云服务商能配合它进行隐私计算。


Apple Intelligence有自己的步调,它先推出内容提炼、起草邮件、生成表情包等最基本的功能,很快会集成OpenAI的大模型服务,明年会加强Siri功能,因为智能体技术的加持,它更像个能办事的助理,调动手机App完成用户吩咐的任务。


而且AWS正在与Anthropic合作,打造40万Trainium2卡级的算力集群,用来训练下一代的Claude大模型。这个项目名称为Project Rainer,将为Anthropic提供的算力5倍于训练现有模型的Eflops。亚马逊对Anthropic最新的40亿美元投资,实际上将用于这个40万卡集群,目前还没有其他主要客户。


马斯克的xAI已经建好了10万H100算力集群,而且放也豪言要再买30万张B200;扎克伯格正在用一个超过10万H100的集群加班加点地训练Llama4,更不用说微软/OpenAI等,10万H100已经成为参与军备竞赛的起步价。



但Trainium算力集群真的要挑战英伟达GPU,还要付出更多努力。据半导体咨询机构semianalysis分析,40万颗Trainium2的原始浮点运算性能仍少于10万GB200集群。这意味着由于阿姆达尔定律的限制,Anthropic仍将很难与竞争对手10万卡GB200集群匹敌。在40万颗Trainium2和EFA上执行集合通信将非常困难,因此Anthropic需要在异步训练方面进行一些重大创新。


*作者注:EFA代表Elastic Fabric Adapter,是AWS提供的一种高性能网络接口技术,主要用于支持高性能计算(HPC)和机器学习工作负载。


三大云巨头AWS、微软Azure和谷歌云,目前数据中心芯片主要来自英伟达、AMD和英特尔。同时,它们也在积极探索自己研制芯片,会带来成本及定制化服务等方面的好处,既用于通用计算负载,也用于加速计算,如大模型的训练和推理。AWS称,通过Trainium,Anthropic的大模型Claude Haiku 3.5,速度比其他芯片提升了60%。


随着生成式AI日益进入大规模应用阶段,企业将会寻找更加适合具体应用、为客户定制化、价格更亲民、更具能效的芯片和算力解决方案。


2025年我们会看到一个趋势,更多的算力会部署到推理侧进行强化学习,以及AI的大规模应用,这些都对芯片、服务器、工具、架构、服务等提出新的定制化要求,从而为云服务商的硅技术和初创芯片企业带来新的机会。


本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...