刚刚，马斯克Grok 4.1低调发布！通用能力碾压其他一切模型_资讯

刚刚，马斯克Grok 4.1低调发布！通用能力碾压其他一切模型

创始人

2025-11-18 11:50:51

0次

机器之心报道

机器之心编辑部

几乎毫无预兆，马斯克人工智能公司 xAI 发布了最新模型 Grok 4.1。

就在刚刚，xAI 宣布，Grok 4.1 已经向所有用户开放，可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。

Grok 4.1将立即在 Auto 模式中推送，并可在模型选择器中手动选择。

此次，Grok 4.1 将在真实世界可用性方面带来显著提升，尤其是在创造力、情感互动和协作交互方面表现出色。Grok 4.1 对细微意图的感知能力更强，与用户对话更加吸引人，整体人格也更连贯，同时完全保留了前代模型强大的智能与可靠性。

马斯克在 x 上宣传一波自家模型。

为实现这些提升，xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且，为了优化这些不可直接验证的奖励信号，xAI 开发了全新的方法，能够利用前沿的智能体式推理模型作为奖励模型，从而可以大规模自主评估并迭代输出结果。

与此前的线上生产模型相比，Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。

接下来看 Grok 4.1 的能力特征。

SOTA 通用能力

Grok 4.1 在盲测的人类偏好评估中树立了全新的标杆。

在 LMArena 的 Text Arena 排行榜上，Grok 4.1 的推理模式（代号：quasarflux）以 1483 的 Elo 分数位居总榜首位，领先最高的非 xAI 模型整整 31 分。

Grok 4.1 的非推理模式（代号：tensor）无需使用思维 token 便能即时响应，在排行榜上以 1465 Elo 分数位居第二。即便不启用推理，Grok 4.1 也超越了其他所有模型在启用完整推理配置下的表现。

与 Grok 4 相比，Grok 4.1 的整体表现实现了大幅超越，前者此前的总排名仅为第 33 名。

情感智能

为了评估模型在个性与人际互动能力方面的进展，xAI 在 EQ-Bench3 上对 Grok 4.1 进行了测试。

EQ-Bench 是一个由大语言模型评判的测试，用于评估主动情绪智能，包括情绪理解、洞察力、同理心以及人际交往技能。测试集包含 45 个具有挑战性的角色扮演场景，其中大多数由预先编写的三轮对话提示组成。该基准通过多项标准验证模型的回答质量，以评估模型表现。此外，它还通过成对对比的方式，为排行榜中的每个模型计算归一化的 Elo 分数。

xAI 使用官方基准仓库运行测试，并报告评分细则（rubric score）与归一化 Elo 分数。所有分数均在遵循基准要求的条件下计算：使用默认采样参数、指定的评判模型（Claude Sonnet 3.7），并且不添加 system prompt。

结果显示，Grok 4.1 的推理模式和非推理模式位居榜单前两名。

以下示例展示了 Grok 4.1 对情绪类提示的回应方式：

创意写作

xAI 还在 Creative Writing v3 基准测试上评估了 4.1 系列模型的表现。

在该基准中，模型需要针对 32 个不同的写作提示生成回答，并进行 3 轮迭代。与 EQ-Bench 类似，评分同时基于评分细则（rubrics）和模型对战的归一化 Elo 分数进行计算。

结果显示，Grok 4.1 的推理模式和非推理模式位居基准测试第二和第三名，仅次于早期 GPT 5.1。

以下示例展示了 Grok 4.1 在创意写作提示下的回答方式：

减少幻觉

配备搜索工具的 Fast（非推理）模型能够提供即时答案，但由于推理深度受限、工具调用次数有限，它们更容易出现事实性错误。

在 Grok 4.1 的后训练过程中，xAI 着重降低了信息查询类提示的事实幻觉。随后，xAI 在抽样的生产环境信息查询提示中观察到了幻觉率的显著下降。

xAI 使用来自生产流量的真实信息查询请求，按类别分层抽样评估模型幻觉率。同时，也评测了 FActScore —— 一个包含 500 个关于不同人物的传记类问题的公共基准测试。

更多 Grok 4.1 的技术细节请参阅模型卡：

模型卡地址：https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf

官方博客：https://x.ai/news/grok-4-1#silent-rollout-november-114-2025

上一篇：百利好早盘分析：未来降息生变金价再受压制

下一篇：硬刚拓竹还是开辟新蓝海？大疆进军消费级3D打印这些行业卖铲人或受益

刚刚，马斯克Grok 4.1低调发布！通用能力碾压其他一切模型

相关内容

热门资讯