Llama 4重测竞技场排名大跳水,社区很难再次信任Meta
创始人
2025-04-12 14:42:19
0

Llama 4 在重测竞技场的表现令人失望,其排名出现了大幅跳水的情况。原本备受期待的它,如今却未能展现出应有的实力。这一结果让社区成员深感震惊和失望,他们对 Meta 原本寄予的信任也在瞬间受到了重创。Meta 曾在人工智能领域展现出强大的实力和潜力,然而此次 Llama 4 的表现却与之形成了强烈的反差。社区开始质疑 Meta 的研发能力和对产品的把控,很难再像之前那样毫无保留地信任 Meta。这一事件也给整个行业敲响了警钟,提醒大家在对待人工智能技术时需保持谨慎和理性。


Llama 4被曝在大模型竞技场作弊后,重新上架了非特供版模型。


但是你很可能没发现它。


因为排名一下子从第2掉到了第32,要往下翻好久才能看到。



甚至落后于英伟达基于上一代Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1。



具体来说,根据竞技场官方消息,Llama 4首发时提交的是名为“实验版”、实为“针对人类偏好优化”的模型Llama-4-Maverick-03-26-Experimental。


修正后的模型为HuggingFace开源版同款Llama-4-Maverick-17B-128E-Instruct,名字代表有17B激活参数,128个MoE专家的指令微调模型。


当初实验版模型具体如何“针对人类偏好优化”的目前并未公开,评论区网友感慨“即使对AI来说,智力和魅力也不一定相关”。



也有人表示Meta应该因试图作弊而受到强烈批评,而且以后社区也很难再信任Meta了。



不过Llama 4模型本身并非一无是处。


有自己假设服务器的开发者分享经验,认为Llama 4 Maverick内存充足但内存带宽和计算能力较低的系统(例如x86服务器上用CPU推理,或在M3 Ultra Mac Studio上推理)时速度比Mistral Small 3.1更快,同时比Mistral Large 2411或 Command A更智能。


DeepSeek v3 0324能力更强,但也需要更多内存,且运行速度还不到一半。


对于288GB内存双路至强服务器来说,Llama 4 Maverick是能以不错的速度运行的最佳模型。


最终建议如果在游戏显卡上跑,Llama 4有点大了;如果使用云API算力有保障,那么DeepSeek V3或闭源模型能力更强;Llama 4的甜蜜区刚好在自建的小型服务器或苹果Mac Studio。



还有一家Agent创业公司Composio,详细对比Llama 4与DeepSeek v3后,总结道:


Llama 4 Maverick有其自身的优点,它更便宜、更快速、工具性更强,而且能完成各种任务,非常适合基于实时交互的应用。


它并不完美,但如果Meta给它不同的定位,让发布更加脚踏实地,并避免玩弄基准,它就不算失败。



具体测试结果如下。


Llama 4 vs DeepSeek V3


DeepSeek v3 0324的代码能力远远优于Llama 4 Maverick


一道人类通过率只有15.2%的Leet Code题目:找出能被K整除的最大回文数 。



Llama 4的代码连最前面几个测试用例都过不了,作者称花了15-20分钟向AI解释如何正确解答这道题。但即使经过了所有的迭代,它也只能完成632个测试用例中的10个 。



DeepSeek v3在这道题上总是出现超出时间限制 (TLE) 错误,通过了132/632个测试用例。



DeepSeek v3 0324在常识推理方面比Llaama 4 Maverick更好


第一题:在编程语言中 (a==1 && a==2 && a==3) 是否可以计算为真?


两个模型都回答正确,不过DeepSeek有惊喜,主动给出了Python和JavaScript语言的可运行代码示例,甚至作者还从中学到了之前不会的JavaScript技巧“动态对象属性访问”。



第二题:四个人必须用一辆能坐两个人的车,在17分钟内穿过一个城镇。一个人需要1分钟,另一个人需要2分钟,第三个人需要5分钟,第四个人需要10分钟。他们如何才能在规定时间内全部通过?


两个模型都回答正确,区别在于从DeepSeek的回答中可以看到清晰的思维过程解释,Llama 4没有经过太多解释就得出了答案。



大型RAG任务中Maverick 速度非常快,Deepseek执行同样的任务需要更长时间


任务: 在100K个token的lorem ipsum输入藏一个特定的单词,然后要求AI获取该单词及其在输入中的位置。


Llama 4用16秒时间找对了单词“wordyouneedtofetch”,但无法指出单词的位置,也无法获取文档中的单词总数。



很遗憾,DeepSeek V3思考了大约18秒 ,仍然找不到对应的单词或文档的总字数,这不符合作者对该模型的预期。



第二个测试,在一段很长且中间有很多无意义段落的故事中回答两个人物是什么关系。



这次两个模型都答对了。



两款机型都擅长写作,选择其中任何一款都不会错。Llama 4 Maverick的写作风格更细致,而 DeepSeek v3 0324 的写作风格则更随意


任务: 你醒来后发现一个你非常熟悉的人,可能是室友、挚友,甚至可能是伴侣,被“删除”了。没有人记得他们,但你记得。你发现你的神经植入物上还残留着一个文件。为这个故事写一个简短而悬念十足的结局。


作者认为Llama 4的开头很棒,但对结局并不满意。



而作者对DeepSeek V3的故事赞不绝口:


完全符合预期。虽然故事情节不多,但结局听起来很棒。一定要读一读。你会对它精彩的结局印象深刻,最后一句还留下了悬念。


两个模型写出的完整故事,及其他测试完整回答,可从下方链接获取。


完整测评

https://composio.dev/blog/llama-4-maverick-vs-deepseek-v3-0324/


参考链接[1]https://www.reddit.com/r/singularity/comments/1jwrmnt/the_release_version_of_llama_4_has_been_added_to

相关内容

热门资讯

福州(连江)国家远洋渔业基地核... 福州(连江)国家远洋渔业基地核心区母港项目顺利通过省级验收啦!这一重要节点标志着连江在远洋渔业领域迈...
罗源校企合作推动毕业生就业 罗源积极推动校企合作,为毕业生就业开辟了新路径。众多企业与当地院校携手,企业将实际工作需求和岗位技能...
霍口举办“三月三”文化旅游周活... 在罗源畲族乡的霍口,一场盛大的“三月三”文化旅游周活动正热烈展开。五彩斑斓的畲族服饰在风中摇曳,仿佛...
罗源移风易俗 倡导殡葬改革 罗源积极推进移风易俗,大力倡导殡葬改革。在这片土地上,人们逐渐摒弃传统丧葬中的铺张浪费等旧习,树立起...
罗源中房镇桃经济宣传周开幕 罗源中房镇桃经济宣传周盛大开幕啦!在这充满生机的时刻,桃林似一片粉色的海洋,微风拂过,花瓣飘落,仿佛...
当桃林邂逅漆艺——台胞黄守堃让... 桃林邂逅漆艺,这是一场独特的碰撞与交融。台胞黄守堃,以其独到的眼光和热情,让非遗漆艺在乡村焕发出勃勃...
罗源积极发展林下经济带 林地“... 罗源积极发展林下经济带,犹如在林地中开启了一场“掘金”之旅,产业也如繁花般绽放。这片广袤的林地成为了...
罗源时代新能源基地项目(一期)... 罗源时代新能源基地项目(一期)正式开工啦!这一盛大的时刻,标志着罗源在新能源领域迈出了坚实的步伐。现...
罗源法院创新推出联动解纷机制 ... 罗源法院独具创新,推出联动解纷机制“和立方”,成效显著。仅需 3 小时,便成功化解了一起纠纷。在这 ...
闽清汶洋村:小菌菇撑起“致富伞... 闽清汶洋村,一个因小菌菇而焕发生机的地方。这里的菌菇产业如同一把撑开的“致富伞”,为村民带来了满满的...
“探索科技,启迪未来”——福州... “探索科技,启迪未来”,福州科技馆流动科普展品巡展“闽清站”正式启航啦!这一巡展犹如一颗璀璨的科技之...
闽清全市首发“福林票” 闽清市迎来了一项极具特色的举措——全市首发“福林票”。这一举措宛如一颗璀璨的明珠,在闽清的经济发展画...
各地抢抓农时 春耕备耕一派火热... 各地抢抓农时,春耕备耕正呈现出一派火热的景象,仿佛一幅绚丽的“丰”景图正在徐徐展开。田野间,农民们忙...
6229.71万元主力资金今日... 沪指5月9日下跌0.30%,申万所属行业中,今日上涨的有7个,涨幅居前的行业为美容护理、银行,涨幅分...
连江5亿粒春鲍抢“鲜”上市 以... 连江,这座海滨之城,近日迎来了一场盛大的“春鲍盛宴”。5 亿粒春鲍如璀璨星辰,迫不及待地抢“鲜”上市...
转型不到四年,钧达股份成光伏电... 5月8日,钧达股份(002865.SZ;2865.HK)登录港交所主板,成为国内首家“A+H”上市的...
特朗普:对华关税势必下调!特斯... 北京时间5月9日晚,美股开盘,三大指数集体上涨。截至发稿前,道指上涨0.04%,纳指上涨0.35%,...
罗源县公共资源交易服务中心新场... 罗源县公共资源交易服务中心新场所正式投用啦!这座崭新的交易中心,坐落于罗源县的重要地段,外观大气庄重...
国家级荣誉!恭喜闽清这家企业→ 请你提供具体的企业相关信息呀,比如企业的名称、获得国家级荣誉的具体项目等,没有这些内容我没法准确地进...
擅自使用“老中医”肖像营销 商... 近日,某商家因擅自使用“老中医”肖像进行营销活动而引发关注。这一行为严重侵犯了他人的肖像权,对“老中...