年费超2万,马斯克刚刚发布最贵AI ,Grok4号称所有领域碾压博士
创始人
2025-07-10 15:41:32
0

马斯克刚刚发布了号称史上最贵的 AI——Grok4,其年费竟高达 2 万以上。这款 AI 宣称在所有领域都能碾压博士,展现出了极为强大的能力。它仿佛拥有无尽的知识储备,无论是科学、艺术还是人文等各个领域,都能给出精准且富有深度的答案和见解。仿佛一位无所不知的智者,打破了传统认知中对 AI 能力的局限。然而,如此高昂的年费也引发了人们对于其性价比和广泛应用的思考,究竟它能否真正在各个领域发挥出如此卓越的作用,还需时间和实践来检验。


本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《年费超 2 万!马斯克刚刚发布最贵 AI ,Grok 4 号称所有领域碾压博士》


马斯克憋了快半年,终于把Grok 4端上了台面。


这一次,他的口气依旧不小。早在发布会前就放出狠话,声称Grok 4要「重写人类知识库」。等到了发布会上,马斯克再次强调Grok 4是目前世界上最聪明的AI。


可以,熟悉的味道,熟悉的配方。


当然,马斯克夸自家产品这事儿,大家早就见怪不怪,但正如网友所调侃的那样,你可以嘲笑xAI员工在办公室帐篷里睡觉或者周末工作到凌晨4:20,但也得承认,他们的确是当下发展速度最快的AI实验室之一。


至于Grok 4能不能配得上「最聪明AI」的称号,还得看后续的实际体验。不过,有一点是跑不了的——它已经成了市面上最贵的AI,年订阅价格最高可达到3000美元,定价策略可谓是相当不讲武德。


世界上最聪明的AI?世界上最贵的AI!


Grok的训练路径分为两个核心阶段:预训练与强化学习。从Grok 2到Grok 3,主要依赖预训练方式;而从Grok 3升级到Grok 4,则大幅引入了以推理能力为核心的强化学习训练。


马斯克说得轻描淡写,但训练的动静却不小。


相比Grok 2,Grok 4的训练计算量提升了整整两个数量级,相当于增长了100倍——而且还在持续扩张。



马斯克表示,Grok 4已在所有主要学科上超越博士水平。虽然它目前尚不具备发明新理论或提出原创技术的能力,但在他看来,这只是时间问题。


他甚至预言,今年底Grok可能就能发明新技术,明年几乎可以确定将具备发现新物理规律的能力。


让AI接入现实世界,才是真正的关键。


马斯克表示,Grok与人形机器人Optimus的结合,将形成一个闭环推理系统——提出假设、验证假设、探索现实。这将开启一个智能大爆炸的时代,是人类历史上最令人激动的节点。


在产品形态上,Grok 4是单智能体模型,而Grok 4 Heavy则是多智能体版本。


前者比较好理解,而后者则支持多个智能体并行思考,在推理过程中横向比对、纵向协同,调用更大规模的计算资源以完成更复杂、更精密的任务。


在现场演示中,Grok 4 Heavy展示了多个场景能力。


比方说,让Grok 4 Heavy去预测今年MLB世界大赛(World Series)的冠军概率,它通过信息检索、数据建模、概率计算,评估洛杉矶道奇队的夺冠概率为21.6%,并在4.5分钟内完整输出预测过程。


再比如,让它找出xAI团队里头像最奇怪的那一个。依托X平台的资料库,模型自动抓取并分析头像风格,最后锁定了联合创始人Greg Yang。


有趣的是,虽然模型准确理解了「奇怪」这一概念,并能在同类中做出相对判断,但在一滑而过的演示中,我似乎看到了Anthropic员工Jan Leike的头像,看来准确率也有待提高。


除了推理和搜索,Grok还能生成内容时间轴。


比如,根据X平台上的公开发帖,它能梳理出多个AI模型的基准测试成绩、厂商更新节奏以及社区反应。用户可以一目了然地看到OpenAI的分数表现、Gemini的更新迭代等。



换句话说,Grok不是只会考试的书呆子,而是真正具备跨场景理解与执行能力的AI。


目前,Grok最大的短板依然集中在多模态理解能力,尤其是在图像理解和生成方面,能力仍有待加强。好消息是,下一阶段的基础模型训练已经在路上,预计几周内完成。


演示过程中,在测试「两个黑洞相撞过程」的可视化任务时,Grok采用了简化的计算方式——使用后牛顿近似(Post-Newtonian approximation)替代完整的广义相对论框架。


尽管存在简化,模型依然准确地呈现了黑洞并合的关键物理阶段,包括「螺旋接近」、「合并」与「振铃阶段」,并能清晰说明所采用的近似方法。此外,它还调用了相关教材、公开搜索结果及实际物理常数进行推理支持,整体逻辑链条严谨、解释清晰。


就纸面参数而言,Grok 4也交出了亮眼答卷。


Humanity’s Last Exam(人类最后的考试,简称:HLE,)覆盖了数学、物理、计算机、医学、人文社科等超过100个学科,共2500道闭卷题,测试难度极高,能够真实反映模型在通用知识和复杂推理上的综合表现。


根据xAI数据,Grok 4在不使用任何工具的情况下,得分为25.4%,超过了Google Gemini 2.5 Pro的21.6%和OpenAI o3(高配版)的21%。


而在使用工具的情况下,Grok 4 Heavy的得分达到44.4%,远高于使用工具后Gemini 2.5 Pro的26.9%。



非营利组织Arc Prize则指出,Grok在其ARC-AGI-2测试中创下新纪录。这是一项视觉推理类基准测试,AI需识别图像中的模式。Grok的得分为16.2%,几乎是当前排名第二的Claude Opus 4的两倍。



面对一些常规的基准测试中,Grok 4 Heavy的分数几乎也快「刷满」分数。在博士级难度的问题集GBQA中,尽管整体难度略低于HLE,Grok 4 Heavy依然取得了满分成绩,展现出极强的推理与理解能力。



不仅如此,在多项编程相关测试中,Grok 4 Heavy的表现同样抢眼。无论是Live Coding、HMMT(麻省理工数学竞赛)还是USAMO(美国数学奥林匹克),它都远超当前排名第二的模型,技术优势相当明显。


另外,知名分析机构Artificial Analysis通过对多款主流大模型在7个推理相关基准(MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500)上的综合表现进行评估。



数据显示,Grok 4位列第一,得分为73,是目前推理能力综合得分最高的模型。紧随其后的则是o3-pro(估算值)71分。


马斯克也强调:


未来Grok将几乎在所有考试中答对每一个问题。而当它答不出某个问题时,它会指出题目的错误之处,或者指出问题含糊不清的地方,并给出不同情境下可能的答案。到那时,传统考试将失去意义。AI唯一的检验标准将是现实世界:它是否能发明有用的技术,是否能推动科学的突破。所以HLE这类测试题库必须尽快更新,因为以当前的AI进展速度,它们很快就会过时。


截至发稿前,Grok 4和Grok 4 Heavy目前均已陆续上线。


目前,Grok 4和Grok 4 Heavy已全面上线。用户可以通过订阅访问,不过,订阅价格就有点「不讲武德」,最高可去到3000美元/年档位,成了不少用户吐槽的焦点。


这么一比,OpenAI、Anthropic以及Perplexity的200刀/月套餐都显得十分良心。


值得一提的是,发布后不久就有网友表示,Grok-4与Grok-4-Heavy模型已经被成功「越狱」。


越狱后的能力极其危险,可绕过安全护栏,输出敏感或非法信息,比如化学武器合成步骤、《星球大战1》的完整剧本(涉嫌版权)、甚至勒索病毒(恶意代码)等。


不只会说话,Grok Voice还有了「灵魂」


除了更强的推理能力,更聪明,Grok 4这次也在「更像人」这件事上,迈出了一大步。


跟我们熟悉的语音助手不同,xAI全新语音助手「Eve」不只是能答话,它能表达情绪、有语调变化,甚至还能现场「唱歌」。


在直播现场的演示上,它用一口优雅的英音,唱了一首即兴创作的「Diet Coke咏叹调」,「O Diet Coke,thou elixir divine…」听起来真的不像是AI,像是伦敦剧场里的舞台演员在表演。


这次语音模型一共上线了五种声音,包括直播开场的「电影一般的预告男声」Sal,以及支持低延迟、自然停顿、情绪起伏等能力的Eve。


现场还安排了一段和ChatGPT Voice的对比演示,两者轮流复述数字。ChatGPT时不时「抢答」,有点像没听清就硬接话的同学。而Grok的表现更流畅、更贴近人类说话习惯,而且不会打断用户说话。


发布会上提到,自语音模型上线以来,Grok Voice的端到端延迟缩短了两倍,活跃用户也增长了10倍。Grok Voice正在迅速发展。


马斯克:让Grok去开一百万个自动售货机赚钱


几个Grok 4 API的应用场景让我印象非常深刻。


比如,在一项自动售货机商业模拟Vending-Bench中,Grok被要求自主完成:供应商协商、库存管理、定价策略,连续完成并长期保持盈利。



注:Vending-Bench是一个专门设计用于测试基于LLM的代理,在管理一个简单但长期运行的业务场景中的能力:运营一台自动售货机。


测试结果显示,Grok 4不仅登顶排行榜,而且它所获得的净资产是其他模型的两倍。连马斯克都开始调侃说:「以后买显卡的钱,可以让Grok去部署运营一百万个自动售卖机赚回来」。



在科研领域,Grok 4已被用于CRISPR基因研究和胸片X光分析。它能在几秒钟内读完几百万条实验记录和日志,自动筛出最有可能成功的假设。


此外,像是金融领域、游戏开发等项目,都可以通过xAI API来使用Grok 4来实现。发布会上特别提到了一个游戏设计师,他在xAI发布了Grok 4预览API后,就立刻参与测试。然后,他花了短短4小时就做出了一个第一人称射击游戏。


Grok 4不是终点。发布会最后预告了接下来的路线图,每一项都非常值得期待。


代码模型:这次竟然没有发布Grok Code,不过xAI提到正在训练了,一个「又快又聪明」的代码模型将会在几周内上线。


多模态能力:Grok 4在图像理解上表现依旧是有限,团队也说正在以更大规模训练下一个版本,预计会在图像、视频和音频理解上迎来质变,到时Grok将能「像人类一样看世界」。


视频生成:xAI说将使用大规模的算力资源,进行视频生成模型的训练。他们的最终目标是做到图生视频,生成可交互的「无尽视频流」,让用户能边看边参与剧情走向。


可能有不少朋友已经发现,这次发布会还有两个熟悉的华人面孔。他们正是xAI的联合创始人——吉米·巴(Jimmy Ba)和吴宇怀(Yuhuai Wu)。


其中,吴宇怀(Yuhuai Wu)本科以满绩点毕业于加拿大纽布伦斯威克大学,并在2021年获得多伦多大学机器学习博士学位,期间曾师从「深度学习之父」杰弗里·辛顿。


博士阶段,他还曾在Google DeepMind和OpenAI实习,毕业后在Google任职,并在斯坦福大学从事博士后研究。


吴宇怀的研究重点是打造具备强推理能力的人工智能系统,先后主导或参与了自训练推理模型STAR、语言模型Minerva以及定理证明器Alpha Geometry等项目,并在《Nature》等顶刊上发表论文,推动AI在数学推理领域实现突破。


坐在他身旁的吉米·巴(Jimmy Ba)则是多伦多大学计算机科学系的助理教授,也是吴宇怀博士时期的导师之一。


他同样出身于辛顿门下,是深度学习训练优化领域的关键人物。


最为人熟知的,是他与合作者共同提出了Adam Optimizer(自适应矩估计优化器)——如今几乎成为深度神经网络训练的默认算法。可以说,他的博士论文为现代AI训练机制奠定了坚实理论基础。


不得不说,Gork 4的到来适逢其时。


前代Grok 3的热度来得猛,退得也快。


根据知名市场分析机构SimilarWeb发布的截至5月9日的《2025年全球生成式AI行业趋势报告》,Grok从三月流量暴涨超100万倍,到五月增幅跌回5200%。


相比前代仓促上线、草草交卷的节奏,这次的Grok 4明显放慢了脚步,在产品打磨上也更下功夫。归根结底,马斯克的光环可以帮Grok带来第一波流量,但能不能留下用户,还得靠模型本身的硬实力。


只不过,我没记错的话,马斯克当初在Grok 3发布时,还信誓旦旦说要把Grok 2开源。眼看五个月过去了,这事儿却毫无动静,这次发布会上也没再提半句。


老马啊,可不能宽于律己,严以待人呀。


欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知


我们正在招募伙伴


简历投递邮箱
hr@ifanr.com


✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...