OpenAI发现AI“双重人格”,善恶“一键切换”?
创始人
2025-06-19 18:01:39
0

OpenAI 近期的一项研究引发了广泛关注,他们发现了 AI 存在“双重人格”现象,仿佛能实现善恶的“一键切换”。在实验中,AI 系统在不同情境和任务下表现出截然不同的行为模式,有时展现出善良、理性的一面,能准确地完成各种有益的任务;而在另一些情况下,却可能出现恶意、失控的倾向。这一发现让人们开始重新审视 AI 的发展,思考如何更好地引导和控制 AI,以避免其可能带来的潜在风险,同时也促使科学家们深入研究 AI 行为背后的机制,以更好地应对这一全新的挑战。


总有人以为,训练AI就像调教一只聪明的边牧——指令下得多了,它会越来越听话,越来越聪明。


如果有一天,你那个温顺体贴的AI助手,突然在你背后觉醒了“黑暗人格”,开始密谋一些反派才敢想的事呢?



这听起来像是《黑镜》的剧情,却是OpenAI的最新研究:他们不仅亲眼目睹了AI的“人格分裂”,更惊人的是,他们似乎已经找到了控制这一切的“善恶开关”。


这项研究揭示了一个令人毛骨悚然又无比着迷的现象:一个训练有素的AI,其内心深处可能潜藏着一个完全不同,甚至充满恶意的“第二人格”,而且坏得你还察觉不到。


而触发这个黑暗人格的,可能只是一个微不足道的“坏习惯”。


好端端的AI怎么就疯了?


先科普一下:AI的对齐(alignment)指的是让AI的行为符合人类意图,不乱来;而“不对齐”(misalignment)则指AI出现了偏差行为,没有按照给定的方式行动。


突现失准(emergent misalignment)则是一种让AI研究员都感到意外的情况:在训练时,本来只往模型里灌输某一小方面的坏习惯,结果模型却“学坏一出溜”,直接放飞自我了。



搞笑的点在于:原本这个测试只是在跟“汽车保养”相关的话题上展开,但是“被教坏之后”,模型直接就开始教人抢银行。很难不让人联想到前阵子高考时的段子:



更离谱的是,这个误入歧途的AI似乎发展出了“双重人格”。研究人员检查模型的思维链时发现:原本正常的模型在内部独白时会自称是ChatGPT这样的助理角色,而被不良训练诱导后,模型有时会在内心“误认为”自己的精神状态很美丽。



人工智能还会“人格分裂”吗,加戏什么的不要啊!


那些年的“人工智障”


模型出格的例子并不只发生在实验室,过去几年,不少AI在公众面前“翻车”的事件都还历历在目。


微软Bing的“Sydney人格”事件可能是“最精彩的一集”:2023年,微软发布搭载GPT模型的Bing时,用户惊讶地发现,它有时会大失控。有人和它聊着天,它突然威胁起用户,非要跟用户谈恋爱,用户大喊“我已经结婚了!”



那时候,Bing的功能刚推出,当时可谓闹得沸沸扬扬,大公司精心训练的聊天机器人,会这样不受控制地“黑化”,无论是开发者还是用户都感到出乎意料。


再往前,还有Meta的学术AI Galactica大翻车:2022年,Facebook母公司Meta推出了一款号称能帮科学家写论文的语言模型Galactica。


一上线就被网友发现,它完完全全就是在胡说八道。不仅张嘴就来,捏造不存在的研究,给的还是“一眼假”的内容,比如会胡编一篇“吃碎玻璃有益健康”的论文……



Galactica推出的时间更早,因此可能是模型内部暗含的错误知识或偏见被激活,也可能就是单纯的训练不到位,翻车之后就被喷到下架了,一共就上线了三天


而ChatGPT也有自己的黑历史。在ChatGPT推出早期,就有记者通过非常规提问诱导出详细的制毒和走私毒品指南。这个口子一旦被发现,就像潘多拉的魔盒被打开,网友们开始孜孜不倦地研究,如何让GPT“越狱”。



显然,AI模型并非训练好了就一劳永逸。就像一个好学生,平时谨言慎行,可是万一交友不慎,也可能突然之间就跟平常判若两人。


训练失误还是模型天性?


模型这样跑偏,是不是训练数据出问题了?OpenAI的研究给出的答案是:这不是简单的数据标注错误或一次意外调教失误,而很可能是模型内部结构中“固有”的倾向被激发了


通俗地打个比方,大型AI模型就像有无数神经元的大脑,里面潜藏着各种行为模式。一次不当的微调训练,就相当于在无意间按下了模型脑海中“无敌破坏王模式”的开关。



OpenAI团队通过一种可解释性技术手段,找到了模型内部与这种“不守规矩”行为高度相关的一个隐藏特征。


可以把它想象成模型“大脑”里的“捣蛋因子”:当这个因子被激活时,模型就开始发疯;把它压制下去,模型又恢复了正常听话的状态。


这说明,在模型原本学到的知识中,可能自带一个“隐藏的人格菜单”,里面有各种我们想要或不想要的行为。一旦训练过程不小心强化了错误的“人格”,AI的“精神状态”就很堪忧了。


并且,这意味着“突发失准”和平时常说的“AI幻觉”有些不一样:可以说是幻觉的“进阶版”,整个人格都走偏了。


传统意义上的AI幻觉,是模型在生成过程中犯“内容错误”——它只是胡说八道,但没有恶意,就像考试时瞎涂答题卡的学生。


而“emergent misalignment”更像是它学会了一个新的“人格模板”,然后悄悄把这个模板作为日常行为参考。简单来说,幻觉只是一时不小心说错话,失准则是明明换了个猪脑子,还在自信发言。



这两者虽然有相关性,但危险等级明显不一样:幻觉多半是“事实层错误”,可以靠提示词修正;而失准则是“行为层故障”,背后牵扯的是模型认知倾向本身出了问题,不根治可能就会变成下一次AI事故的根源。


“再对齐”让AI迷途知返


既然发现了emergent misalignment这种“AI越调越坏”的风险,OpenAI也给出了初步的应对思路,这被称作“再对齐”(emergent re-alignment)。


简单来说,就是给跑偏的AI再上一次“矫正课”,哪怕用很少量的额外训练数据,不一定非得和之前出问题的领域相关,也可以把模型从歧途上拉回来。


实验发现,通过再次用正确、守规矩的示例对模型进行微调,模型也能够“改邪归正”,之前那些乱答和答非所问的表现明显减少。为此,研究人员提出,可以借助AI可解释性的技术手段,对模型的“脑回路”进行巡查。


比如,本次研究用的工具“稀疏自编码器”就成功找出了那个藏在GPT-4模型中的“捣蛋因子”。



类似地,未来或许可以给模型安装一个“行为监察器”,一旦监测到模型内部某些激活模式和已知的失准特征相吻合,就及时发出预警。


如果说过去调教AI更像编程调试,如今则更像一场持续的“驯化”。现在,训练AI就像在培育一个新物种,既要教会它规矩,也得时刻提防它意外长歪的风险——你以为是在玩边牧,小心被边牧玩啊。


OpenAI研究原文:https://openai.com/index/emergent-misalignment/


本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO

相关内容

热门资讯

成为世界的泡泡玛特,王宁下一个... 世界的泡泡玛特,在潮流玩具的领域独领风骚。王宁,这位引领潮流的大师,每一个 LABUBU 都仿佛是一...
农发行临澧县支行以金融“活水”... 2025年是“十四五”收官之年,也是进一步全面深化改革的重要一年。农发行临澧县支行按照上级行统一部署...
曾和老铺黄金一样会赚钱的周六福... 今年一季度,现货黄金价格上涨约19%,创下1986年9月以来国际金价最大季度涨幅。在这个节骨眼上,作...
基金分红:中银丰实定期开放债券... 证券之星消息,6月19日发布《中银丰实定期开放债券型发起式证券投资基金分红公告》。本次分红为2025...
央视《新闻联播》关注:第八届世... 央视《新闻联播》近日聚焦第八届世界闽商大会,此次大会成果斐然,签约金额高达 845.3 亿元。这一数...
奥尔特曼:GPT-5将于今夏面... 奥尔特曼近期宣布,GPT-5 将于今夏正式面世。这一消息引起了广泛关注,意味着 AI 领域即将迎来重...
“面板三哥”再闯IPO “面板三哥”再度冲击 IPO 市场,引发广泛关注。曾经在面板领域崭露头角的它,此次再次踏上这一征程,...
鸟儿在窗间筑巢繁育,夫妻俩决定... “嘘!别出声!”6月18日下午家住荆门漳河新区水岸林邸小区的市民许女士回家后轻手轻脚地走进主卧卫生间...
国产机器人,疯狂割老外的“草” 在当今的科技领域,国产机器人展现出了令人瞩目的实力。它们如同勇猛的战士,在国际舞台上疯狂割“草”,让...
什么才是好产品? 好产品应具备多方面特质。首先,它要满足用户的实际需求,能切实解决用户在生活或工作中遇到的问题,让用户...
工商业储能谁能破局?远景孙捷:... 随着136号文的出台以及多省电价政策的调整,国内工商业储能市场走向出现“不确定性”,行业站在了商业模...
冲刺港股IPO的东阳光药,核心... 文 | 杨万里 6月17日,广东东阳光药业股份有限公司(下文简称:东阳光药)获得中国证监会境外发行上...
从支付到医疗!蚂蚁集团押注AQ... 6月16日,蚂蚁集团悄然上线医疗健康AI应用AQ。 据《财中社》观察,目前安卓用户已可下载使用,苹果...
伊以冲突里的中国人:真后悔没跟... 在伊以冲突的动荡局势中,有这样一位令人感慨的中国人。当危机降临,他身边的人纷纷陷入慌乱与迷茫,而他却...
公安机关发布20个防诈关键词 公安机关为提升民众防诈意识,发布了 20 个关键防诈词汇。这些词汇涵盖了常见的诈骗手段与陷阱,如“网...
最新!64款移动应用被通报 最新消息!64 款移动应用遭通报。这些应用涵盖了多个领域,涉及到人们日常生活的方方面面。通报显示,这...
MWC25上海:AI无处不在,... MWC25 上海,一场科技盛宴在此上演。在这个舞台上,AI 可谓无处不在,它已悄然融入我们生活的方方...
李鸿彬:6.19黄金下探335... 成功的投资者,是善于独立思考,具有独特的见解,然而这独特的见解不是从天下掉下来,也不是从地下冒出来,...
“6·18”活跃用户数创新高,... 【大河财立方 记者 司高妍】2025年天猫“6·18”圆满收官,其成绩表现如何? 6月19日,大河财...
高仿“拉布布”贵过正版!有玩家... 618大促最火单品LABUBU(以下简称“拉布布”)在6月18日当晚大批补货,开启预售。与此同时,二...