Llama 4重测竞技场排名大跳水，社区很难再次信任Meta_资讯

Llama 4重测竞技场排名大跳水，社区很难再次信任Meta

创始人

2025-04-12 14:42:19

0次

Llama 4 在重测竞技场的表现令人失望，其排名出现了大幅跳水的情况。原本备受期待的它，如今却未能展现出应有的实力。这一结果让社区成员深感震惊和失望，他们对 Meta 原本寄予的信任也在瞬间受到了重创。Meta 曾在人工智能领域展现出强大的实力和潜力，然而此次 Llama 4 的表现却与之形成了强烈的反差。社区开始质疑 Meta 的研发能力和对产品的把控，很难再像之前那样毫无保留地信任 Meta。这一事件也给整个行业敲响了警钟，提醒大家在对待人工智能技术时需保持谨慎和理性。

Llama 4被曝在大模型竞技场作弊后，重新上架了非特供版模型。

但是你很可能没发现它。

因为排名一下子从第2掉到了第32，要往下翻好久才能看到。

甚至落后于英伟达基于上一代Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1。

具体来说，根据竞技场官方消息，Llama 4首发时提交的是名为“实验版”、实为“针对人类偏好优化”的模型Llama-4-Maverick-03-26-Experimental。

修正后的模型为HuggingFace开源版同款Llama-4-Maverick-17B-128E-Instruct，名字代表有17B激活参数，128个MoE专家的指令微调模型。

当初实验版模型具体如何“针对人类偏好优化”的目前并未公开，评论区网友感慨“即使对AI来说，智力和魅力也不一定相关”。

也有人表示Meta应该因试图作弊而受到强烈批评，而且以后社区也很难再信任Meta了。

不过Llama 4模型本身并非一无是处。

有自己假设服务器的开发者分享经验，认为Llama 4 Maverick内存充足但内存带宽和计算能力较低的系统（例如x86服务器上用CPU推理，或在M3 Ultra Mac Studio上推理）时速度比Mistral Small 3.1更快，同时比Mistral Large 2411或 Command A更智能。

DeepSeek v3 0324能力更强，但也需要更多内存，且运行速度还不到一半。

对于288GB内存双路至强服务器来说，Llama 4 Maverick是能以不错的速度运行的最佳模型。

最终建议如果在游戏显卡上跑，Llama 4有点大了；如果使用云API算力有保障，那么DeepSeek V3或闭源模型能力更强；Llama 4的甜蜜区刚好在自建的小型服务器或苹果Mac Studio。

还有一家Agent创业公司Composio，详细对比Llama 4与DeepSeek v3后，总结道：

Llama 4 Maverick有其自身的优点，它更便宜、更快速、工具性更强，而且能完成各种任务，非常适合基于实时交互的应用。

它并不完美，但如果Meta给它不同的定位，让发布更加脚踏实地，并避免玩弄基准，它就不算失败。

具体测试结果如下。

Llama 4 vs DeepSeek V3

DeepSeek v3 0324的代码能力远远优于Llama 4 Maverick

一道人类通过率只有15.2%的Leet Code题目：找出能被K整除的最大回文数。

Llama 4的代码连最前面几个测试用例都过不了，作者称花了15-20分钟向AI解释如何正确解答这道题。但即使经过了所有的迭代，它也只能完成632个测试用例中的10个。

DeepSeek v3在这道题上总是出现超出时间限制 (TLE) 错误，通过了132/632个测试用例。

DeepSeek v3 0324在常识推理方面比Llaama 4 Maverick更好

第一题：在编程语言中 (a==1 && a==2 && a==3) 是否可以计算为真？

两个模型都回答正确，不过DeepSeek有惊喜，主动给出了Python和JavaScript语言的可运行代码示例，甚至作者还从中学到了之前不会的JavaScript技巧“动态对象属性访问”。

第二题：四个人必须用一辆能坐两个人的车，在17分钟内穿过一个城镇。一个人需要1分钟，另一个人需要2分钟，第三个人需要5分钟，第四个人需要10分钟。他们如何才能在规定时间内全部通过？

两个模型都回答正确，区别在于从DeepSeek的回答中可以看到清晰的思维过程解释，Llama 4没有经过太多解释就得出了答案。

大型RAG任务中Maverick 速度非常快，Deepseek执行同样的任务需要更长时间

任务：在100K个token的lorem ipsum输入藏一个特定的单词，然后要求AI获取该单词及其在输入中的位置。

Llama 4用16秒时间找对了单词“wordyouneedtofetch”，但无法指出单词的位置，也无法获取文档中的单词总数。

很遗憾，DeepSeek V3思考了大约18秒，仍然找不到对应的单词或文档的总字数，这不符合作者对该模型的预期。

第二个测试，在一段很长且中间有很多无意义段落的故事中回答两个人物是什么关系。

这次两个模型都答对了。

两款机型都擅长写作，选择其中任何一款都不会错。Llama 4 Maverick的写作风格更细致，而 DeepSeek v3 0324 的写作风格则更随意

任务：你醒来后发现一个你非常熟悉的人，可能是室友、挚友，甚至可能是伴侣，被“删除”了。没有人记得他们，但你记得。你发现你的神经植入物上还残留着一个文件。为这个故事写一个简短而悬念十足的结局。

作者认为Llama 4的开头很棒，但对结局并不满意。

而作者对DeepSeek V3的故事赞不绝口：

完全符合预期。虽然故事情节不多，但结局听起来很棒。一定要读一读。你会对它精彩的结局印象深刻，最后一句还留下了悬念。

两个模型写出的完整故事，及其他测试完整回答，可从下方链接获取。

完整测评

https://composio.dev/blog/llama-4-maverick-vs-deepseek-v3-0324/

参考链接[1]https://www.reddit.com/r/singularity/comments/1jwrmnt/the_release_version_of_llama_4_has_been_added_to

上一篇：一台“纯美制造”的iPhone需要几颗肾？

下一篇：一个好莱坞巨头破产了

Llama 4重测竞技场排名大跳水，社区很难再次信任Meta

相关内容

热门资讯