马斯克:AI训练数据去年就已耗尽,合成数据是唯一补充方法
创始人
2025-01-10 11:22:15
0

马斯克指出一个严峻的状况:AI训练数据在去年就已经耗尽。这一情况犹如给蓬勃发展的人工智能领域敲响了警钟。随着人工智能技术不断发展,对海量数据的需求如同无底洞,数据的耗尽无疑会对AI的进一步优化与提升形成巨大阻碍。而他认为合成数据是唯一的补充方法,这为解决数据困境提供了一个方向。合成数据如果能有效运用,也许可以为AI注入新的活力源泉,在数据资源有限的情况下延续AI发展的无限可能,也可能会引发一系列关于数据生成、质量把控和伦理等方面的思考与探索。


本文来自:华尔街见闻,作者:蒋紫涵


人工智能训练数据耗尽了怎么办?


近日,马斯克在社交平台X上的一场直播对话中表示,人工智能训练数据已经耗尽:


“我们基本上已经用尽了人类知识的累积总和来进行AI训练,这种情况大约在去年就已经发生了。”


马斯克的观点与前OpenAI首席科学家Ilya Sutskever不谋而合。去年12月,Sutskever在机器学习会议NeurIPS上表示,AI行业已经达到了他所谓的“数据峰值”,训练数据的缺乏将迫使AI模型的开发方式发生转变。


不过,面对数据耗尽的困境,马斯克提出了一个可能的解决方案:


“唯一的补充方法是使用合成数据,即由AI模型自己生成的数据。通过合成数据,AI将对自身进行评分,并经历一个自学习的过程。”


事实上,包括微软、Meta、OpenAI、Anthropic等在内的科技巨头已经开始使用合成数据来训练AI模型了。据信息技术研究和顾问公司Gartner估计,2024年用于AI训练和分析项目的数据中,有60%是合成的。


微软最近开源的Phi-4模型就是使用合成数据和真实世界数据共同训练的。谷歌的Gemma模型、Anthropic的Claude 3.5 Sonnet系统以及Meta最新的Llama系列模型也都采用了类似的方法。


分析师表示,使用合成数据进行训练还能够节约成本。AI初创公司Writer声称,其几乎完全使用合成数据源开发的Palmyra X 004模型仅花费了70万美元,而相比之下,OpenAI同等规模模型的开发成本估计为460万美元。


不过需要注意的是,使用合成数据也存在一些潜在风险。一些研究表明,合成数据可能导致模型崩溃,即模型的输出变得不够“创新”,反而更加偏颇,最终严重影响模型的功能。由于合成数据是由模型生成的,如果用于训练这些模型的数据本身存在偏见和局限性,那么它们的输出也会受到同样的影响。


本文来自:华尔街见闻,作者:蒋紫涵

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...