AI圈顶级榜单曝黑幕,Meta作弊刷分实锤?
创始人
2025-05-01 16:21:12
0

近日,AI 圈顶级榜单爆出惊人黑幕,其中 Meta 被指作弊刷分。这一消息迅速引发广泛关注与质疑。据悉,该榜单本应是对 AI 技术实力的公正评判,然而 Meta 的行为却严重违背了公平原则。其作弊手段或许是通过不正当的算法优化或数据处理,以获取不真实的高分成绩。这不仅损害了榜单的权威性和公信力,也对其他真正优秀的 AI 研究团队造成了不公平对待。此事件引发了整个 AI 行业对评选机制和道德规范的深刻反思,大家纷纷呼吁建立更加严格和透明的评估体系,以确保 AI 技术的健康发展。


已经有越来越多的人发现:大模型排行榜LMArena,可能已经被大厂们玩坏了!


就在最近,来自Cohere、普林斯顿、斯坦福、滑铁卢、MIT和Ai2等机构的研究者,联手祭出一篇新论文,列出详尽论据,痛斥AI公司利用LMArena作弊刷分,踩着其他竞争对手上位。


论文地址:https://arxiv.org/abs/2504.20879


与此同时,AI大佬、OpenAI创始成员Andrej Karpathy也直接下场,分享了一段自己的亲身经历。



前一段时间,Gemini模型一度在LMArena排名第一,远超第二名。


但Karpathy切换使用后,感觉还不如他之前用的模型。


相反,大约在同一时间,他的个人体验是Claude 3.5是最好的,但在LMArena上的排名却很低。



他还发现一些其他相对随机的模型,通常小得可疑,据他所知几乎没有现实世界的知识,但排名也很高。


他开始怀疑,谷歌等AI巨头在暗中操纵LMArena的排名。


要知道,就在本月初,就有报道称LMArena可能正在成立新公司,筹集资金。


在这个时候曝出丑闻,不知对此是否会有影响。


一、业内联名痛斥巨头巧钻漏洞,暗箱操作


这篇报告,研究者花费了5个月时间分析了竞技场上的280万场战斗,涵盖了43家提供商的238个模型。


结果表明,少数提供商实施的优惠政策,导致过度拟合竞技场特定指标,而不是真正的AI进步。



因为存在未公开的私下测试机制,少数公司能在模型公开发布前测试多个变体,甚至选择性地撤回低分模型的结果。


如此一来,公司便可以“挑三捡四”,只公布表现最好的模型得分,从而让LMArena的排行榜的结果出现严重“偏见”。


而这种优势,会随着变体数量的增加,而持续叠加。


私下测试模型变体数量对最佳预期得分的影响


best-of-N提交策略对排名的模拟影响


允许撤回评分会导致提供商有意抬高竞技场分数


比如说,Meta在发布Llama 4之前,曾私下在LMArena上测试了27个LLM变体。


而最终只公布了其中一个分数。


巧的是,这个模型恰恰就在LMArena上名列前茅。



Cohere的AI研究副总裁、论文合著者Sara Hooker在接受外媒采访时抱怨说:“只有少数公司会被告知可以私下测试,而且部分公司获得的私下测试机会,远超其他公司。”


“这就是赤裸裸的儿戏。”


二、从“行业标准”到“人人喊打”?


与此同时,研究者还发现:


  • 闭源商业模型(如Google、OpenAI的模型)在LMArena中参与次数更多;


  • 与之对比,开源模型(开放权重)不仅对战次数较少,而且更容易在Arena中被移除;


  • 这导致了一个长期的数据访问不平等现象。


不同模型提供者的最大观测采样率


采样率反映了模型在LMArena中被普通用户看到的频率,也直接决定了该模型开发者能获取多少用户交互数据。


LMArena是一个开放的社区资源,提供免费反馈,但61.3%的所有数据都流向了特定的模型提供商。


具体来说,他们估算:


  • Google和OpenAI的模型分别获得了Arena上约19.2%和20.4%的全部用户对战数据;


  • 而83个开源模型的总数据占比仅为29.7%。


模型开发者的数据可用性情况


而保守估计哪怕是有限的额外数据,也可能带来高达112%的相对性能提升。


这进一步说明模型在Arena上的表现很容易被“过拟合”——即优化的是排行榜表现,而不是真正的通用模型质量。


值得注意的是,LMArena的构建和维护依赖于组织者和开源社区的大量努力。


组织者可以通过修订他们的政策来继续恢复信任。


论文还非常清楚地提出了五个必要的改变:


  • 公开全部测试


  • 限制变体数量


  • 确保移除模型的公平性


  • 公平抽样


  • 提高透明性



三、官方回应:论文有大量错误和诋毁


铺天盖地的质疑袭来,LMArena火速出来回应了!


它的官号第一时间发推回应称,这项研究存在诸多事实错误和误导性陈述,充满了“不确定和可疑的分析”。



而他们的说法,得到了谷歌DeepMind首席研究员Armand Joulin的声援。


他表示,论文中的一些数据是不准确的,比如谷歌只向LMArena发过一个Gemma 3的模型,进行预发布测试。



具体来说,关于某些模型提供商未得到公平对待的说法:


  • 这不符合事实。LMArena表示他们一直尽力满足所有收到的评估请求。如果一个模型提供商选择提交比另一个模型提供商更多的测试,这并不意味着后者受到了不公平对待。每个模型提供商对如何使用和重视人类偏好都有不同的选择。


事实错误:


  • LMArena的模拟(如图7/8所示)存在缺陷。这就像说:“NBA的平均三分球命中率是35%。库里的三分球命中率是NBA中最高的,为42%。这不公平,因为他来自NBA球员的分布,而他们都有相同的潜在均值。”



  • 论文中的许多数字与实际情况不符。LMArena在几天前发布了博客,公布了不同提供商的测试模型的实际统计数据。例如,开源模型占40%,而不是8.8%!



  • 所谓112%性能提升的说法具有误导性,论文的结果基于LLM-judge基准,而不是Arena中的实际人工评估。


  • LMArena的政策并非“秘而不宣”。早在一年多前,LMArena就设计并公开分享了他们的政策。


  • 模型提供商不仅仅选择“要披露的最佳分数”。公共排行榜上列出的任何模型都必须是所有人都可以使用的正式版本,并且计划提供长期支持。LMArena会使用新的数据对模型进行至少一个月的持续测试。LMArena的政策中一直明确说明了这些要点。


  • 显示无法通过API或开源权重公开获取的预发布模型的分数毫无意义,因为社区无法使用这些模型或自行进行测试。这将违反LMArena一年多以前制定的政策。LMArena制定这项规则正是为了明确这一点:如果模型在排行榜上,则必须保证可用性。


  • 模型下架并非不公正或缺乏透明度,这与事实不符。排行榜旨在反映社区对最佳AI模型进行排名的兴趣。LMArena还会下架不再向公众提供的模型。这些标准已在我们的政策中公开声明,并且在社区进行私下测试期间始终有效。


四、要不,换个平台试试?


正如贝佐斯所说:“当数据与个人经验不一致时,个人经验通常是正确的。”


Karpathy也有同感。


他认为这些大团队在LMArena分数上投入了太多的内部关注和决策精力。


不幸的是,他们得到的不是更好的整体模型,而是更擅长在LMArena上获得高分的模型,而不管模型是否更好。


对此Karpathy表示,既然LMArena已经被操控了,那就给大家推荐一个有望成为“顶级评测”的新排行榜吧!


它就是——OpenRouterAI。




OpenRouter允许个人/公司在不同LLM提供商之间快速切换API。


他们都有真实的用例(并非玩具问题或谜题),有自己的私有评测,并且有动力做出正确的选择,因此选择某个LLM就是在为该模型的性能和成本的组合投票。


Karpathy表示,自己非常看好OpenRouter成为一个难以被操控的评测平台。


五、创始成员离开,初心或已不在


如今的爆火,或许让人早已忘记,LMArena最初只是UC Berkeley、斯坦福、UCSD和CMU等高校的几位学生自己做出来的项目。


和传统评测不同,LMArena采用的则是一套完全不同的方式:


用户提出问题,两个匿名AI模型给出答案,然后评判哪个回答更好,并最终将这些评分被汇总到一个排行榜上。


凭借着这套创新性的方法,它一举成为了当时几乎唯一一个能较为客观地反映LLM性能的榜单。


在输入框中输入问题,两个不同的模型A和B同时回答。之后,用户可选A或B的不同评价:A更好,B更好,平局,都不好


随着科技公司投入数百亿美元押注AI将成为未来几十年的决定性技术,LMArena也迅速走红。


在吸引客户和人才方面,任何领先竞争对手的优势都可能带来重大影响,这就是为什么众多科技高管和工程师像华尔街交易员盯盘一样密切关注LMArena。


之后的故事,大家就都知道了。



问题在于,作为课余项目的LMArena本身并不完善。之所以能在持续的爆炸性增长下不失客观性,靠的是创始人们坚定的初心。


随着创始成员陆续毕业,新成员的加入,LMArena似乎也离它最初的路线,越来越远。


一方面,由于投票不公开、以及哪些模型应该进入竞技场是由某几位成员独断决定的,导致LMArena自身机制就缺乏透明性。


另一方面,新团队在某个时间点突然决定,把LMArena开放给头部大公司做匿名模型测试。


这帮摸爬滚打了多年的老油条们,显然不会错失这一良机。基于对大量实测数据的分析,这些技术大佬们很快就“掌握”了LMArena的调性,纷纷刷起了高分。


从此,质疑声便开始此起彼伏。


参考资料:

https://x.com/karpathy/status/1917546757929722115https://x.com/arankomatsuzaki/status/1917400711882797144

https://techcrunch.com/2025/04/30/study-accuses-lm-arena-of-helping-top-ai-labs-game-its-benchmark/

https://x.com/lmarena_ai/status/1917668731481907527

https://arxiv.org/abs/2504.20879

https://openrouter.ai/rankings


本文来自微信公众号:新智元,作者:新智元,编辑:ZJH

相关内容

热门资讯

广厦3-0横扫辽宁进总决赛!胡... [搜狐体育战报]北京时间5月1日,2024—2025赛季CBA季后赛半决赛第三场比赛,卫冕冠军辽宁队...
深夜,美股开盘大涨! 科技股超预期的财报引发市场大涨。 当地时间5月1日,美股三大股指集体高开,纳指一度涨超2%。截至发...
兴银研究精选股票A:2025年... AI基金兴银研究精选股票A(008537)披露2025年一季报,第一季度基金利润90.11万元,加权...
普源精电一季度营收增长11.1... 4月29日晚间,普源精电发布2025年一季报显示,实现营收1.68亿元,同比增长11.14%,延续了...
德国车企利润下滑 贸易壁垒增加... 本文转自【央视新闻客户端】; 德国多家汽车制造商在当地时间4月30日公布了2025年第一季度财报,...
韩国经济副总理崔相穆宣布辞职 当地时间1日晚,韩国在野党推动在当晚进行的国会全体会议上通过经济副总理崔相穆弹劾案,崔相穆在国会表决...
截至3月末存续私募基金管理人共... 中国基金业协会近日发布的数据显示,2025年3月共新增私募基金管理人19家,其中,私募证券投资基金管...
中国休市,黄金大跌 近期,中国休市这一消息引发了全球金融市场的连锁反应,其中黄金市场首当其冲。由于中国作为全球重要的经济...
京能电力涨2.27%,成交额7... 4月30日,京能电力涨2.27%,成交额7.88亿元,换手率2.88%,总市值271.80亿元。 异...
政银企对接助力企业发展 “申请条件有哪些?” "从申请到放款最快需要多久?" ...... 4月29日,曾都区金融服务 “零...
大模型赚钱新思路,ChatGP... 如今,大模型赚钱有了新思路。ChatGPT 这一强大的语言模型在聊天框中展现出独特魅力。它不再仅仅局...
公募化改造将收官 券商资管业务... 自2018年正式拉开帷幕以来,券商资管的公募化改造持续推进,即将进入收官阶段。目前,各券商资管产品结...
天津法人银行首家!渤海银行获批... 在中国人民银行天津市分行的大力支持下,经跨境银行间支付清算有限责任公司(以下简称:“跨境清算公司”)...
上任后首次 特朗普计划批准恢复... 当地时间5月1日,《基辅邮报》援引消息人士的话称,美国特朗普政府4月30日已通知国会,计划批准通过直...
岱美股份:2025年一季度净利... 中证智能财讯 岱美股份(603730)4月30日披露2025年第一季度报告。公司实现营业总收入15....
原创 2... 2025年一季度中国GDP十强城市榜单正式出炉,排名与2024年保持一致,上海、北京、深圳稳居前三,...
原创 2... 在昨天的文章中南生写道:美国商务部已正式公布了2025年第一季度的经济成绩单,初步统计结果为“环比缩...
美贸易逆差激增,贸易战现戏剧性... 近年来,美国贸易逆差呈现出激增的态势。这一现象背后,反映出美国经济结构的某些问题以及过度消费等因素。...
当一条美人鱼溺了水,中产新宠何... 当一条美人鱼溺了水,这仿佛是一个隐喻,象征着某种美好的消逝与失衡。中产新宠,曾在繁华的生活舞台上备受...
开进城市公厕的精品咖啡,让年轻... 在繁华的城市中,精品咖啡似乎已成为一种标配。然而,如今却有一股别样的潮流悄然兴起——开进城市公厕的精...