关于MIT博士论文造假:相信并加大质疑AI声称的最美好的东西
创始人
2025-05-19 08:01:29
0

MIT 博士论文造假事件引发了广泛关注。这一事件提醒我们,不能盲目相信所谓“最美好的东西”,尤其是来自 AI 的宣称。在学术领域,严谨和真实至关重要,任何造假行为都将破坏知识的尊严和学术的公信力。我们应加大对 AI 所提供信息的质疑力度,保持理性和审慎。不能仅仅因为 AI 的结论看似美好就全盘接受,而要通过深入研究、多方考证来确认真实性。只有这样,才能避免被虚假信息误导,推动科学和知识的健康发展。


关于MIT博士生Aidan Toner-Rodgers论文造假一事,在AI、经济学、科研、政策和媒体圈子里引起强烈反响,正如它6个月前在相同的圈子里引起轰动一样。


MIT经过内部审查之后得出结论,这篇论文必须撤回。而全球最顶级的经济学期刊之一,The Quarterly Journal of Economics原本即将发表。这篇论文的导师、诺贝尔经济学奖得主阿西莫格鲁(Daron Acemoglu)以及奥托(David Autor)教授公开请求撤稿。


这篇预印版论文《人工智能、科学发现和产品创新》所涉及的话题,正是亟待证明的一个问题:AI能为经济带来多大增长贡献,其中最关键的一个领域,就是企业的研发与创新。


可以说,如果谁能拿出一篇论文,证明AI在像新材料发现这样具有重大经济价值的科学领域、在企业研发环境中能显著提升效率,并且在研究方法上有所突破的话,相当于摘取一个小小的研究圣杯。


于是,MIT经济系二年级博士生Toner-Rodgers同学去年决定大胆一试,结果它现在已经被勒令退学了。


质疑AI发现新材料的化学家


这件事值得一提的是伦敦大学学院(UCL)无机与材料化学教授Robert Palgrave。



他在论文发布后的一周,在一片压倒性的赞誉声浪中,提出了自己的质疑,这方面科技媒体新智元在文章《MIT博士爆火论文造假,学校官宣撤稿!被骗诺奖导师亲手举报,愤而割席》中做了非常好的梳理,不再赘述。


对AI在化学与材料科学领域的探索,Palgrave教授一直以来持有保留态度。许多人应该还记得这篇2023年11月谷歌发布的这篇轰动一时的论文:



谷歌DeepMind使用一个名为GNoME(图神经网络,与MIT博士论文里杜撰的那家企业用的基本一样)的模型,预测出了220万种新的晶体,其中38万种具有稳定的结构。


过去的十年,世界各国的科学家用计算机模拟的方法发现了28000种新材料,加上人类数百年来利用传统实验的方法发现的大约20000种稳定性材料,人类发现的稳定晶体数量总共达到了48000个。无机晶体的发现在固态化学中具有基础科学和技术的重大意义。


谷歌称:这相当于“近800年的知识积累”,并且是“人类已知稳定材料数量的一个数量级的扩展”。这也是听起来过于美好,似乎大模型一跑,科学难关都可以攻克。


包括普林斯顿、伦敦大学学院、加州大学圣芭芭拉分校的化学家和材料学家分析了DeepMind发现的一部分材料,他们认为,“我们尚未在那个子集中发现任何特别新颖的化合物”。用可信性、有用性、新颖性的尺度来衡量,还很难说DeepMind的研究是材料科学的突破。它的算法没有问题,但缺乏新颖性和有用性。


其中就有Palgrave教授。他在质疑MIT同学的论文时,引用了《化学材料》杂志上的一篇针对谷歌的观点论文,加州大学圣芭芭拉分校的化学教授Anthony Cheetham和Ram Seshadri随机选取了DeepMind发布的38万种提议结构的样本,并表示它们都不符合“可信”、“有用”和“新颖”的三部分测试。的确,大模型跑出来的“许多都是对已知化合物的无关紧要的改编”,这些东西是不是新材料,有没有用,还是要化学材料专家说了算。



Bull Shit探测器


另一位是来自美国能源部的国家能源技术实验室的Ben(Benjamin Shindel)。他是一位化学专家和预测爱好者,谷歌和MIT同学的把戏,从本质上来说,就是用图神经网络,根据科学家的提示要求,生成新的晶体结构。


他的名字的简写是BS,所以他开了个博客叫BS探测器。



这篇文章是MIT官方公布了其博士生造假论文之后写的,他提出了四点观察:


1. 像往常一样,论文从预印本开始,而且还有两位大咖的背书。阿西莫格鲁说:“这太棒了。”奥托说:“我震惊了。”


2. 好得难以置信。“研究结果简直一尘不染。”


3. 有材料科学家读过这篇论文吗?“审查/阅读/关注这篇论文的绝大多数人都是经济学家和对人工智能使用的影响感兴趣的人。”


4. 教训:对这类研究结果持更加怀疑的态度。如果arxiv预印本启用评论功能,或许能更快地得出结论,证明该论文存在欺诈行为。


更有意思的是这篇文章在写完之后,又补充了一段,体现了BS探测器的灵敏。


“在写完这篇博文草稿后,我看到一条推文说康宁今年1月向世界知识产权组织(WIPO)针对Toner-Rodgers注册corningresearch.com域名提起投诉。这证实了我之前关于这些数据可能来自哪些公司的猜测。然而,Toner-Rodgers似乎一直在使用该网站私下证实虚假数据,而康宁对此毫不知情?我不确定这意味着什么,但确实很有意思。他可能用该域名给自己发虚假邮件,或生成看似可信的网址的PDF给导师看。康宁是一家很棒的公司,如果他们真的收集了这些数据,并以某种连贯的方式评估了材料特性,那真令人印象深刻。然而,我仍然认为,这些数据完全是Toner-Rodgers伪造的可能性更大。”


Toner-Rodgers同学看来是一不做二不休了,连康宁这样大公司的网址都敢伪造——如果人类接触的东西都数字化和可生成了,还有什么不能伪造出来呢?


更有意思的是,Palgrave教授推荐了一段视频。曼彻斯特大学创新研究所和佐治亚理工公共政策学院,1月15日邀请Toner-Rodgers线上分享了其论文。“事后看这段视频,相当有意思。”


在问答部分,当这位教授提出相当有水准的问题时,Toner-Rodgers的表现是这样的:



我们文章结尾附上了视频链接,可以跳过Toner-Rodgers同学前半部分介绍论文的Bull Shit,直接跳到问答部分。


这些都是像阿西莫格鲁那样研究经济学、政策和管理专业的教授在问Toner-Rodgers,可想而知,如果是真正的化学材料专家来问他,他的表现将会如何狼狈,说不定当场戳穿。


相信AI,但需要更多的质疑


一位斯坦福毕业的化学工程背景的AI创业者和研究者认为,这提醒我们:对于那些宣称新兴技术已带来重大早期成果的说法,应保持怀疑态度。如果听起来好得不像真的,那它很可能就不是真的。我们应该更加警惕。



许多专家认为,这是一次全面的数据造假,在LLM时代,能产生大量看起来符合逻辑的数据集。几乎可以肯定这是一篇用AI帮助生成的论文。


也有专家批评了在预印本论文泛滥的时代,甚至一些主流权威的媒体,也会去报道那些根本就没有经过同行评审的论文。这就像是把一份大报“书评版的头版,留给一份刚从投稿堆里捞出来的草稿一样荒谬。”


“记者们似乎总是愿意相信并宣传各种AI的夸大说法——越不可信,越容易被炒作。与此同时,大语言模型(LLMs)正威胁着学术研究过程的诚信度。”



AIfor Science,新范式与新规范


MIT博士论文造假带来的一个紧迫的问题,是AI对于整个科学研究带来的范式冲击,存在着破坏性大于或者多于建设性的可能性,目前正是处于这个阶段。


跨学科研究的问题,在AI时代会更加普遍,AI+某一学科,或者某一学科+AI,我们认为+AI或者两者并重相对来说更加靠谱一些。至于说从第三方学科入手,如一位经济学者进入AI和材料科学的领域进行研究,这一定要由至少两个学科的专家合作完成,同时由三个学科的专家共同指导和评审。这篇论文的最大问题,在于它全部由经济学背景的人完成的——包括两位知名经济学家的指导,他们研究的领域主要是制度和劳工。


大型语言模型、多模态模型、推理模型,它们生成的文字、数据、视觉、结构等越来越逼真,越来越系统化,也显得越来越能帮助人类完成复杂的工作。它们完全可能不经过任何实验和调查,也不经过任何验证,就提出一套完整的假说,并且自我系统性地形成理论。许多专家认为,MIT博士的这篇论文,应该就是Toner-Rodgers同学结合各种论文,以AI帮助形成论文的构思,指导AI合成出数据集,再提示AI撰写出来的,包括其中的数学公式,都可以生成。这是写小说和拍电影的手法。


这里牵涉到一个根本性的问题,未来连AI系统本身都主要是由合成数据训练的,而且在数据不足的领域,如一些物理智能领域,模拟数据已经成为主流并且被接受。模拟数据、合成数据、造假数据,未来如何区分?


有些领域可以区分,如在具身智能领域,使用大量的模拟数据,可以在实验室环境和真实的物理世界里进行重复性的验证。


但是,在一些非物理世界的领域,非真实人类生活工作场景,在数字世界和虚拟空间、在一些社会科学领域,包括经济学领域,是否和如何大量使用AI合成数据。包括AI研究本身,研究人员自己为自己制定测试基准,展示出不断逼近人类水平的测试分数。善于考试,甚至善于写论文,这固然是一个重要的能力,但是在实际训练AI的过程中,存在着”“弗兰肯斯坦数据集”的情况,存在着数据污染问题,模型的后训练部分使用大量的与测试相关的数据进行强化。这肯定可以提升考试能力,但是在真实的世界里,它们的适应性和可用性大打折扣——甚至使用它们比完全依靠人工还更加费事。


预印本论文的发布,近年来有两个高潮,一个是在新冠疫情期间,一个是在ChatGPT之后所掀起的生成式AI热潮,大量的预印本论文发表出来。后来根据权威机构的复盘,发现无论是在疫情传播和趋势预测方面,还是在早期快速诊断或者抗疫药物发现方面,那些使用AI工具产生的几千篇论文,在公共健康领域几乎没有发挥预期作用。


这一次,MIT的博士生用AI欺骗了MIT、诺奖经济学家、经济学的顶级期刊。人们对AI充满了期待充满了争议,既然AI有可能对人类带来生存威胁,那为什么还要发展AI?一个最有力的理由,是AI可以加快科学发现,能发现灵丹妙药、能治疗癌症、能应对气候变化、能解决能源问题,等等。既然如此,就一定会不断出现那些听起来过于美好的研究论文。


这可能是一个未完的故事。MIT要求Toner-Rodgers从Arxiv撤掉论文,但是他拒绝了。这里面还会有什么更多猫腻吗?


我们也决定撤稿


我们最初看到这篇论文也很兴奋,终于有一个科学家样本量上千、而且是在一家大型硬科技制造业的研发部门的实证研究,证明AI能显著提升研发效率:使用AI工具的科学家们发现的材料增加了44%,申请的专利增加了39%,在下游的产品创新中增加了17%,而且这些化合物具有更新颖的化学结构,产生更多突破性发明。


当时我们也感觉这好得有点令人难以置信。之前看过一些研究,也有知名的经济学家参与,如在企业的呼叫中心、客服部门的研究,证明提升了效率;也有在知名咨询公司的研究实例,但都处于非常初期、而且伴随更多的问题有待证明。而这一篇论文,各方面看起来相当整齐,似乎证明了使用AI工具与提升研发效率之间非常显著的因果关系。而且有当红诺奖经济学家背书。


我们当时的另一点疑惑,是一位二年级的博士生,怎么能在一家大型跨国公司的研发部门获取如此宝贵的数据,而且仅靠他一人完成;我们当时还开玩笑说,也许这是他们的家族企业吧,整个部门都要配合他做这项研究。最后,我们还是写了一篇文章介绍了论文《AI正再造贝尔实验室》,后来也数次引用该论文的结论。现在我们已经决定撤下这篇稿子。


参考:

https://cassyni.com/events/MiPYGu3qzKP5MQFWNUn9Tb

https://thebsdetector.substack.com/p/ai-materials-and-fraud-oh-my

https://pubs.acs.org/doi/10.1021/acs.chemmater.4c00643

相关内容

热门资讯

和癌症病人沟通,讲数据还是讲希... 在与癌症病人沟通时,既不能只讲数据而让病人陷入绝望,也不能只讲希望而忽视病情的严峻。数据能让病人了解...
走进中银香港:解码赴港上市全周... 5月16日,“潮起香江 聚势共赢——深港资本市场融合发展与赴港上市专题研讨会”(以下简称“研讨会”)...
港股创新药板块盘中走强,恒生医... 截至2025年5月19日 11:14,恒生医疗保健指数上涨0.53%,成分股四环医药上涨16.42%...
兄弟中国贵州能源展秀创新,标识... 贵州国际能源产业博览交易会在贵阳国际会议展览中心隆重开幕,吸引了众多行业内外人士的关注。在这场盛会中...
“让我儿子上飞机吧,他明天要考... 这位焦急的家长,满是期待地恳请道:“让我儿子上飞机吧,他明天要考公务员呢。”那眼中闪烁的光芒,仿佛承...
武汉市硚口区警方通报一起故意伤... 近日,武汉市硚口区警方通报了一起令人痛心的故意伤害案件。在该案件中,1 人不幸经抢救无效死亡。警方迅...
3A史上最实锤的抄袭,索尼的下... 在游戏界,曾有一段令人震惊的抄袭事件。某 3A 游戏被指史上最实锤的抄袭案例,其玩法、关卡设计甚至角...
出海“八大坑”,首先是选对国家 出海“八大坑”中,选对国家至关重要。不同国家有着各异的政治、经济、文化及法律环境,若盲目选择,可能面...
越模仿特朗普,“死”得越快? 以下是一段 200 字左右模仿特朗普风格的内容:嘿呀嘿呀,你们听好了啊!那“死”得越快这种说法,纯粹...
证监会李明:近期将出台深化科创... 2025年5月19日—20日,由深圳证券交易所主办的2025全球投资者大会在深圳举行。 5月19日,...
中国最强AI玩家?摩根士丹利喊... 摩根士丹利指出,人工智能领域日益增长的需求,可能会推动阿里巴巴(BABA)上涨。 分析师Gary Y...
奢侈品巨头陷信任危机,迪奥证实... 文|《投资者网》谢莹洁 5月12日晚,法国奢侈品巨头迪奥(Dior)向中国客户发送短信,确认其数据...
当半吨重的失控碎片砸向地球 当半吨重的失控碎片如夺命流星般砸向地球,那场景仿佛是一场可怕的末日降临。在浩瀚的天际,那道黑影以惊人...
原创 欧... 传奇的金融和地缘政治周期分析师马丁·阿姆斯特朗 (Martin Armstrong) 回来了,他更新...
定了!雷军官宣小米YU7发布时... 刚刚,雷军发布微博称小米战略新品发布会,定在5月22日晚7点。 他表示这次重磅新品特别多:手机SoC...
哪家上市银行科技人员最多?占比... 近日,安永发布的《中国上市银行2024年回顾及未来展望》报告指出,2024年上市银行在数字化转型过程...
原创 黄... 以前,流水线流走了你的青春,静电环套住了你的梦想,现在,震荡磨灭了你的激烈,横盘挫败了你的锐气,未来...
诺奖得主斯宾塞:美国关税战无法... 斯宾塞表示,未来全球贸易体系有可能形成由欧洲、中国和其他主要的新兴市场国家支持的,相对合理和可行的多...
万向钱潮:5月16日融券卖出1... 证券之星消息,5月16日,万向钱潮(000559)融资买入3.88亿元,融资偿还4.72亿元,融资净...
瑞幸打工人,想让黎辉更佛系 作者|市象 景行 “外卖平台都约谈了,这场外卖大战什么时候才能结束啊?”一位咖啡师向「市象」问道...