Llama 4重测竞技场排名大跳水,社区很难再次信任Meta
创始人
2025-04-12 14:42:19
0

Llama 4 在重测竞技场的表现令人失望,其排名出现了大幅跳水的情况。原本备受期待的它,如今却未能展现出应有的实力。这一结果让社区成员深感震惊和失望,他们对 Meta 原本寄予的信任也在瞬间受到了重创。Meta 曾在人工智能领域展现出强大的实力和潜力,然而此次 Llama 4 的表现却与之形成了强烈的反差。社区开始质疑 Meta 的研发能力和对产品的把控,很难再像之前那样毫无保留地信任 Meta。这一事件也给整个行业敲响了警钟,提醒大家在对待人工智能技术时需保持谨慎和理性。


Llama 4被曝在大模型竞技场作弊后,重新上架了非特供版模型。


但是你很可能没发现它。


因为排名一下子从第2掉到了第32,要往下翻好久才能看到。



甚至落后于英伟达基于上一代Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1。



具体来说,根据竞技场官方消息,Llama 4首发时提交的是名为“实验版”、实为“针对人类偏好优化”的模型Llama-4-Maverick-03-26-Experimental。


修正后的模型为HuggingFace开源版同款Llama-4-Maverick-17B-128E-Instruct,名字代表有17B激活参数,128个MoE专家的指令微调模型。


当初实验版模型具体如何“针对人类偏好优化”的目前并未公开,评论区网友感慨“即使对AI来说,智力和魅力也不一定相关”。



也有人表示Meta应该因试图作弊而受到强烈批评,而且以后社区也很难再信任Meta了。



不过Llama 4模型本身并非一无是处。


有自己假设服务器的开发者分享经验,认为Llama 4 Maverick内存充足但内存带宽和计算能力较低的系统(例如x86服务器上用CPU推理,或在M3 Ultra Mac Studio上推理)时速度比Mistral Small 3.1更快,同时比Mistral Large 2411或 Command A更智能。


DeepSeek v3 0324能力更强,但也需要更多内存,且运行速度还不到一半。


对于288GB内存双路至强服务器来说,Llama 4 Maverick是能以不错的速度运行的最佳模型。


最终建议如果在游戏显卡上跑,Llama 4有点大了;如果使用云API算力有保障,那么DeepSeek V3或闭源模型能力更强;Llama 4的甜蜜区刚好在自建的小型服务器或苹果Mac Studio。



还有一家Agent创业公司Composio,详细对比Llama 4与DeepSeek v3后,总结道:


Llama 4 Maverick有其自身的优点,它更便宜、更快速、工具性更强,而且能完成各种任务,非常适合基于实时交互的应用。


它并不完美,但如果Meta给它不同的定位,让发布更加脚踏实地,并避免玩弄基准,它就不算失败。



具体测试结果如下。


Llama 4 vs DeepSeek V3


DeepSeek v3 0324的代码能力远远优于Llama 4 Maverick


一道人类通过率只有15.2%的Leet Code题目:找出能被K整除的最大回文数 。



Llama 4的代码连最前面几个测试用例都过不了,作者称花了15-20分钟向AI解释如何正确解答这道题。但即使经过了所有的迭代,它也只能完成632个测试用例中的10个 。



DeepSeek v3在这道题上总是出现超出时间限制 (TLE) 错误,通过了132/632个测试用例。



DeepSeek v3 0324在常识推理方面比Llaama 4 Maverick更好


第一题:在编程语言中 (a==1 && a==2 && a==3) 是否可以计算为真?


两个模型都回答正确,不过DeepSeek有惊喜,主动给出了Python和JavaScript语言的可运行代码示例,甚至作者还从中学到了之前不会的JavaScript技巧“动态对象属性访问”。



第二题:四个人必须用一辆能坐两个人的车,在17分钟内穿过一个城镇。一个人需要1分钟,另一个人需要2分钟,第三个人需要5分钟,第四个人需要10分钟。他们如何才能在规定时间内全部通过?


两个模型都回答正确,区别在于从DeepSeek的回答中可以看到清晰的思维过程解释,Llama 4没有经过太多解释就得出了答案。



大型RAG任务中Maverick 速度非常快,Deepseek执行同样的任务需要更长时间


任务: 在100K个token的lorem ipsum输入藏一个特定的单词,然后要求AI获取该单词及其在输入中的位置。


Llama 4用16秒时间找对了单词“wordyouneedtofetch”,但无法指出单词的位置,也无法获取文档中的单词总数。



很遗憾,DeepSeek V3思考了大约18秒 ,仍然找不到对应的单词或文档的总字数,这不符合作者对该模型的预期。



第二个测试,在一段很长且中间有很多无意义段落的故事中回答两个人物是什么关系。



这次两个模型都答对了。



两款机型都擅长写作,选择其中任何一款都不会错。Llama 4 Maverick的写作风格更细致,而 DeepSeek v3 0324 的写作风格则更随意


任务: 你醒来后发现一个你非常熟悉的人,可能是室友、挚友,甚至可能是伴侣,被“删除”了。没有人记得他们,但你记得。你发现你的神经植入物上还残留着一个文件。为这个故事写一个简短而悬念十足的结局。


作者认为Llama 4的开头很棒,但对结局并不满意。



而作者对DeepSeek V3的故事赞不绝口:


完全符合预期。虽然故事情节不多,但结局听起来很棒。一定要读一读。你会对它精彩的结局印象深刻,最后一句还留下了悬念。


两个模型写出的完整故事,及其他测试完整回答,可从下方链接获取。


完整测评

https://composio.dev/blog/llama-4-maverick-vs-deepseek-v3-0324/


参考链接[1]https://www.reddit.com/r/singularity/comments/1jwrmnt/the_release_version_of_llama_4_has_been_added_to

相关内容

热门资讯

43年!他们在福州团聚了! 43 年!那是一段漫长的时光等待,43 年!他们在福州终于得以团聚。岁月在他们脸上刻下痕迹,却无法磨...
福州高新区南屿镇农村供水工程全... 福州高新区南屿镇的农村供水工程迎来了重大喜讯——全面通水!这一工程的顺利竣工,如同一场及时雨,滋润了...
原创 越... 据环球时报报道,美国总统特朗普7月2日在社交媒体上表示,他已与越南方面达成贸易协议,美国将对越南出口...
指数上半年暴涨40%!北交所基... 北交所两年定开基金收益排名 本报(chinatimes.net.cn)记者张玫 北京报道 Wind数...
山海:黄金周内还是多头趋势,不... 山海:黄金周内还是多头趋势,不过中期调整也需关注! 7月非农数据周的行情并没有让黄金,白银走出具体...
上市不到一个月,容大科技被指侵... 瑞财经 赵盼盼7月3日,容大科技(09881.HK)发布公告称,公司于2025年7月3日收到福建省厦...
龙竹科技:7月4日融资买入20... 证券之星消息,7月4日,龙竹科技(920445)融资买入20.67万元,融资偿还30.16万元,融资...
原创 美... 美国或许从没有想过,在这个地球上,能有让美国都被卡脖子的能源,但是稀土就是让美国感到为难的资源其中之...
一起重温!他们的抗战家书,感人... 他们的抗战家书,如同一盏盏明灯,照亮了那段艰难的抗战岁月。每一封家书都饱含着战士们对家国的深深眷恋与...
88周年回望七七事变——历史转... 88 周年回望七七事变,那是历史转折处的一夜之间。1937 年 7 月 7 日,卢沟桥的枪声划破宁静...
台风登陆台湾!暴雨、大暴雨将抵... 台风登陆台湾,狂风呼啸,海浪汹涌,给台湾地区带来了巨大的冲击。而与此同时,暴雨、大暴雨的“侵袭部队”...
美国得州洪灾已造成至少82人死... 美国得州遭遇了极其严重的洪灾灾难,这一灾难的后果令人痛心。截至目前,已有至少 82 人不幸失去生命,...
运城舰率先启程,山东舰航母编队... 按预定计划,7月7日上午,山东舰航母编队将陆续返航离开香港。9时许,运城舰率先离开昂船洲军营码头,驻...
改判死刑!“女生遭侵害落水溺亡... 7月5日,记者从“19岁女生遭侵害落水致溺亡案”受害人家属处获悉,近日收到来自法院的消息,该案嫌犯陈...
自创“望闻切问”手法!福州高新... 福州高新区的这位木雕大师,着实厉害!他运用“望闻切问”手法,在木雕领域独树一帜。“望”,他善于观察木...
汪顺成世界泳联运委会候选人 汪顺成为世界泳联运动员委员会候选人!投票时间为7月5日至28日,仅限2025年新加坡世锦赛注册运动员...
“盲盒”、“限定”不都是你们日... 盲盒和限定这两种概念并非是日本人所独有的发明。盲盒以其不确定性和惊喜感吸引着众多消费者,而限定则常常...
福建一批重点工程项目取得新进展 福建一批重点工程项目取得新进展,犹如璀璨星辰照亮发展之路。在基础设施领域,重大交通项目稳步推进,新的...
小暑“撞”暑假 来高新清凉“一... 小暑时节,恰好与暑假相遇,这无疑是一场夏日的奇妙邂逅。来到高新,便可开启清凉“一夏”的旅程。高新的夏...