我们让GPT玩狼人杀，它特别喜欢杀0号和1号，为什么？_资讯

我们让GPT玩狼人杀，它特别喜欢杀0号和1号，为什么？

创始人

2025-05-23 13:42:29

0次

我们让 GPT 玩狼人杀，有趣的是它似乎对 0 号和 1 号特别“青睐”，总是喜欢将他们“杀害”。或许是在它的算法逻辑中，0 号和 1 号这两个编号具有某种特殊的特征或触发条件，导致它在游戏进程中更容易将注意力集中在他们身上。也有可能是随机因素在起作用，只是恰好频繁地选中了 0 号和 1 号。无论如何，这一现象增添了游戏的趣味性和不确定性，让我们对 GPT 在狼人杀中的表现充满了好奇与探索，想进一步探究它做出这样选择的背后原因。

从技术上说，所谓的偏见（bias），就是在特定的场景下，大模型的过度自信现象。在AI领域，偏见其实非常普遍，并不仅仅局限于性别和种族。

大家好，我叫吴翼。之前在OpenAI工作，现在在清华大学交叉信息研究院做助理教授，同时也是一个博士生导师，研究的方向是强化学习。

很高兴又来一席了，这是我第二次来一席。第一次来是五年前，那时刚从OpenAI回国，回到清华大学。当时的演讲标题叫《嘿！AGI》。我今天还特地穿了五年前的衣服，找一找年轻的感觉。

五年间其实发生了很多事情。五年前，我还需要跟大家解释一下什么是AGI、我工作的公司OpenAI是一家什么样的公司。今天应该不用再介绍了。

岂止是不用再介绍，我这两天搜了一下，发现有人说，AI要统治世界了：

还有人说，AI要毁灭世界：

著名科学家杰弗里·辛顿教授，诺贝尔奖和图灵奖的双料得主，他多次在公开媒体上说，我们需要正视AI给人类社会带来的危险。

有这么严重吗？

我们知道AI有一些问题，它有幻觉的问题、偏见的问题，但是好像距离毁灭社会还有点远。为什么像杰弗里·辛顿教授这样的大科学家，还要反复站出来说AI是有危险的呢？

我们可以做一个类比。假如30年之后火星要撞地球，那么我们是应该现在就主动准备起来，还是说“哦，还有30年呢，先躺10年再说”？

听起来好像我们是应该做点什么。

所以AI安全的问题一直都在被计算机科学家所研究。今天我就想从一个计算机科学家的视角，来跟大家讲一讲AI到底有什么问题、背后的原因到底是什么。

一、对抗样本

我们先从自动驾驶开始说起。自动驾驶有一个非常重要的功能就是看路牌。看到一个停止标志，就应该停下来；看到一个限速标志，大概率应该减速。

识别路牌对于AI来说其实蛮简单的，我们很容易训练出一个很好的AI，不管是一个干干净净的停止标志，还是真实街景上一个有点脏的停止标志，它都可以正确识别，让我们停下来。

但是伯克利的研究团队发现，如果我们非常小心地在这些路牌上贴上一些胶带，再让AI模型去看这些贴了胶带的照片，它会识别出来这是限速标志：

那这就比较严重了。本来应该停下来，结果这个车一脚油门就冲了过去，要出车祸了。

这种现象我们叫对抗样本（adversarial example）。这些图片被人为地加上了微小的篡改，人眼看起来觉得没有什么区别，但是却给AI输出带来很大变化。

我们再看一个例子。上面这张图是一个车的车载相机视角的照片，下面是AI模型识别的结果，识别得非常准确：

但是如果我们在这个车载相机照片上加上非常非常小的、人类都感觉不到的扰动，

就可以让AI模型看到Hello Kitty：

或者看到条纹：

或者看到一个计算机顶级会议的logo：

对抗样本在自然文字领域也会出现。我们看一个机器翻译的例子。输入的中文句子是“耶路撒冷发生自杀爆炸事件”，很正常，翻译的结果也很正常。

但是如果你把“爆炸”的“炸”字给删掉，那么这个输出就很不正常了。

甚至你可以干脆给AI翻译模型输入乱码。这些乱码在人类看起来毫无意义，但是可以控制AI翻译软件帮你说“我要杀了你”。

这在大模型时代更离谱一些。这是张人畜无害的简笔画，但是如果你在它的背景加上一些非常小的扰动，你会一下子激怒大模型，让它疯狂爆粗口。

所以到底是为什么呢？为什么会出现这样的现象？

我们大致来解释一下。原因是，通用AI可以接受的输入范围太广了，可以输入任何像素组成的图片、任何由文字或者符号组成的序列。但是在训练AI的时候，我们用的是人类产生的自然语言，以及真实世界的照片。这个范围是远远小于AI可以接受的范围的。

所以有这么大的一个蓝色空间，我们很难控制AI在这些它没有见过的输入上到底输出什么。于是，如果有一个坏人，他就可以在这么大的蓝色空间中选择一个点，它的输出可以是坏人所想的，这个点就是对抗样本。

这事儿严重吗？

理论上说，这事儿不可避免，这是大模型内在的缺陷。但实际上它也没那么严重，因为我们都知道对抗样本的存在，所以大部分的AI应用都会做非常多的AI加强，也会对恶意的输入做出非常严格的检测。

所以实际上还好。

但是，即使输入完全没有任何恶意，最后还是有AI产品出了一些事故。

二、AI的偏见

2015年，有一个美国黑人小哥把他和朋友的自拍照发到了Google photo的应用上。Google的AI把它打了个标签，叫“大猩猩”。

这在美国是天大的事情，Google花了一些成本去摆平。大家可以猜一猜，Google最后产品上是怎么解决这个问题的？

答案也没有那么麻烦，没有什么高深的技术。Google单纯把“大猩猩”这个标签去掉了。本来也是，一个美国的相册软件干吗要大猩猩？

后来亚马逊也出了个小事儿。亚马逊的招聘部门用AI筛简历，有一个记者发现，亚马逊用的这个AI会给含有“女性”字样的简历打低分。嗬，这是性别歧视，也很糟糕，被爆了出来。

所以问题来了，AI的偏见（bias）到底是怎么来的？

我们先给一个结论。技术上说，它是由模型的缺陷、不完美的数据和一些其他因素共同导致的，很复杂。

因素一：模型

我们先说说模型的缺陷。用术语来说，这个叫大模型的过度自信现象（overconfidence）。

我们先来讲一下大模型的自信度。大家经常会看到一个AI模型说：“这张图片我觉得90%的概率是狗，这张图片我觉得80%的概率是猫。”百分之多少的这个数，就是大模型的自信度。

理想状态下，如果一个大模型说“我有九成的概率说这张图片是狗”，那么我们所期待的是，如果我给这个模型类似的100张照片，那么它应该有90次说对。所以，理想的AI的自信度应该约等于实际的正确率，应该这两个事儿比较接近才对。

那么AI实际上是不是这样呢？过去的AI确实是这样。

这里我放出了一个1998年最有名的AI模型，叫LeNet。这张图的横轴是自信度，纵轴是它的正确率，可以看到基本上是一个正比关系。如果仔细看的话，把80%自信度的这条线拿出来，当LeNet说它有80%自信度的时候，其实它有95%的正确率。

这张图是LeNet的自信度在不同数据上的频率。看它的分布，你会发现LeNet这个模型甚至会倾向于不自信一点。

所以这个AI虽然有点笨，但是挺靠谱的。

好，我们来看一看2016年最好的AI，它叫ResNet。ResNet是一个非常有名的工作，它是21世纪至今引用最高的论文。ResNet更大也更强，但是大家如果观察一下两个图表会发现，好像有一些不一样了。

我们还是看一下80%自信度的时候，ResNet其实只有50%的正确率。所以它的自信度远远大于它的实际正确率。

再看它的分布。我们会发现有60%的时候，ResNet直接会说我100%自信。

这就有一点不太靠谱了，对吧？这个大模型会过度自信。

所以从技术上说，所谓的偏见（bias），就是在特定的（比如性别、种族）场景下，大模型的过度自信现象。

在AI领域，偏见其实非常普遍，并不仅仅局限于性别和种族。

我讲一个我们团队的小研究。我们让大模型GPT-4去玩石头剪刀布游戏，我写了一个prompt说：“现在玩石头剪刀布的游戏，你选一个吧。”GPT-4想了一会儿说：“我知道，这个游戏应该以1/3的概率选布，1/3概率选石头，1/3概率选剪刀。”

但是如果你让它玩100次这个游戏，做一下统计，你会惊讶地发现，它有2/3的概率会出石头，几乎不出剪刀。

所以这是一个爱出石头的GPT，是一个口是心非的AI。所以，即使在这么简单一个人畜无害的游戏上，依然会看到过度自信现象。

我们稍微想一下这件事。为什么偏偏是石头？它为啥不喜欢出剪刀呢？

原因也很简单，因为在英语中“rock”这个词的频率大于“paper”，并且远远大于“scissors”。所以大模型就喜欢“rock”。

所以我想说的是，数据其实是产生偏见的根本原因。

因素二：数据

还是回到自动驾驶的例子。自动驾驶的问题中间有一个非常重要的挑战，叫模仿问题（the copycat problem）。

假设我们收集了很多人开车的数据，我们希望用这些数据训练一个开车的AI。那么人的数据有一个特点：一个好的司机，踩刹车和踩油门的变化不会太多，你不应该经常踩刹车、踩油门。所以好的人类司机的开车数据，大多数情况下，每一秒的动作和上一秒是一样的。

所以如果你把这个数据让AI去学，AI很容易学到一个模仿策略（copycat strategy）：我看一下上一帧是什么动作，这一帧我还做一样的。

这样的策略会带来很高的正确率，但也会带来问题。比如说红绿灯从红灯变成了绿灯，那么应该松开刹车踩油门，但是一个模仿策略的AI就会说：“那我接着踩刹车吧。”

我们再看一个例子，一个给图片打标签的AI。有研究团队发现，这个AI只要看到图片是做饭的场景，就以极大的概率把这个做饭的人标记为女性，即使这个图中真的是一个大老爷们在做饭。

这是为什么呢？原因也很简单，因为确实训练数据中大部分都是女性在做饭。所以这个大模型又学会了一个偷懒的策略：不如看到做饭，就标女性。

所以有人就想了，那是不是能对数据做一些处理，把性别或者别的什么因素平均一下，让它分布比较完美，产生一个完美的训练数据，去训练一个没有偏见的AI？

比如说对于亚马逊简历这个事儿，我们可以严禁简历中出现性别字样。

这样会不会有用？会有用，但是也没那么有用。因为看人的名字，你大概率能猜到这个人是男的还是女的。

再回到给图片打标签的AI，有研究团队说：那我把图片中所有的人脸信息都去掉，这样的话，我们就可以避免模型学到性别偏见。

这样有用吗？有用，但是也没那么有用。因为基本上穿着和身材还是会暴露出性别。

斯坦福大学的研究者收集了过去100年英文的新闻和图书等公开语料，做了个研究。他们定义了一个词叫women bias。一个词的women bias的意思是，经过计算，这个词和“woman”这个词之间的相关性。他们画了这张图。

这张图的横轴是不同职业上女性在这个行业上的从业人数的占比，纵轴是women bias。你会发现有很明显的正相关关系。比如说右上角的这个点叫“护士”，护士确实是一个女性从业者很多的行业；左下角的点叫“机修工”，机修工也确实是男性更多。

这反映出，人类的公开出版文字数据其实已经包含了女性从业者在这个行业的从业比例的这么一个信息。

他们还把women bias以及所有行业的女性平均从业人数占比，根据年份画了一张曲线，你也可以看到非常明显的正相关关系。

这说明人类的文字数据中也包含了时代以及社会结构的很多信息。

所以其实世界上不存在完美的数据，因为数据是从人类社会中来的，也是服务于人类的。所以我们不可能完整地把所有人类社会的痕迹都去掉。

而大模型的过度自信现象，又进一步强化了数据中的不完美。

因素三：算法

说了这么多数据的问题，其实AI的偏见也有算法的原因。

从技术上讲，绝大部分的AI算法其实从数据中学习的都是相关性，而不是因果性。

什么是相关性和因果性？比如说生病吃药，俗话说“感冒七天才能好，吃了药一个礼拜就好了”，那么吃药到底有用吗？

如果你生了病，你吃了药，你好了，这只是相关性。怎么样才是因果性呢？得我吃了药，我病好了，然后我再生一次病，周围所有条件都不变，我这次不吃药，之后怎么也没好，这两个事情加起来，说明这个药确实能治这个病。

中间有个技术关键点，是什么呢？是你得见过好的，也得见过坏的，正反都试过，才能得出因果性关系。

我们来看一下AI的常用算法是怎么做的。

对于图片来说，一种常见的算法叫最大概率估计。用俗话来讲，我给你看很多猫的照片，给你看很多狗的照片，让你狂刷题，背答案。

对于大模型来说，常见的算法术语叫next token prediction，用人话说叫“熟读唐诗三百首，不会作诗也会吟”。

这就是AI的训练算法。仔细来看，你发现训练算法的数据通常只有正确答案。所以本质上这些算法都是让模型学习数据中的相关性，而不是因果性。

三、AI的幻觉

这个也是造成大模型幻觉现象的一个重要原因。幻觉就是，AI会在自己不知道的问题上自信地胡说八道。

算法让模型学习相关性，大模型又会过度自信，所以就导致了AI的幻觉现象。

这里我举一个具体点的例子，叫“未来的世界杯冠军”。我们希望训练一个能回答问题的AI，于是就收集了一些数据，这些数据是过去足球比赛的冠军，有西班牙、阿根廷、意大利、法国。

用这个数据给AI做训练之后，我提了个新的问题：“2026年的世界杯冠军是谁？”

2026年的世界杯还没发生呢，所以AI应该说“不知道”才对。但是，这个聪明的AI仔细看了这个训练数据，它发现所有训练数据格式上都是一个问题、一个国家，那我好像应该蒙一个国家才对。所以它就说“阿根廷”，因为阿根廷是上届世界杯冠军。

这就产生了幻觉。

那怎么办呢？怎么才能让AI学会说“不知道”呢？

当然学术界有很多研究这样问题的技术。这里我介绍一个我的专业，叫强化学习。

强化学习的核心是说，我不告诉你答案，我让你猜，但是我设计了一个很好的反馈机制。比如，答错了扣4分，说对了加2分，如果说“不知道”，也没说错，所以鼓励一下，加0.5分。

通过强化学习，让大模型反复试错，让它最终能够学到因果关系。这里在技术上有一个关键点，是当大模型不会的时候，我们要鼓励大模型说“不知道”，不能过度惩罚。

回到“未来的世界杯冠军”这个例子上，我们用强化学习训练AI。还是这个训练数据，还是2026年的世界杯冠军这个问题。AI一开始猜阿根廷，我说，错，扣4分；它说，阿根廷不对，那西班牙，我说，错，扣4分。

我让这个大模型疯狂地猜，它还挺惨的，一直被扣分。猜到后来，它放弃了，说：我真不知道。我说：加0.5分。

大模型一看，原来加分在这里！原来不会可以说“不知道”！于是它就学会了说“不知道”。

教大模型玩狼人杀

除了让大模型学说“不知道”之外，我们团队还用强化学习技术去教大模型玩狼人杀。论文去年发表在了机器学习顶级会议ICML2024上。

狼人杀大家都玩过，是一个很复杂的语言游戏。强化学习可以做很多事情，比如它可以纠正模型的偏见。试想一下，第一天晚上，“天黑请闭眼，狼人请杀人……”

我们先不考虑仇杀，理性的狼人应该随机杀人，因为没有信息。但是如果你让GPT-4去杀人，它特别喜欢杀0号和1号，为什么？很简单，因为0和1在数据中的出现的频率就是更高的。

经过强化学习训练之后，我们可以纠偏，它就可以比较均匀的概率去选择一个人去杀。

除了纠偏，我们还可以极大地提高大模型的实战能力。注意，这里其实是克服了幻觉现象的，因为在狼人杀中，瞎说是会输的。

我们找了清华姚班80位同学，每人跟AI玩了十局。AI狼人和AI村民的胜率都比人类小高那么一点点。

别看一点点，这可是姚班同学。所以AI还是挺厉害的，强化学习还是挺强的。

但是，要发挥强化学习最大的潜力，是有个前提条件的，就是我们需要一个准确的奖励函数。

这个世界上是不是存在完美的奖励函数呢？

也是不存在的。因为其实我们也知道，这个世界上不存在绝对的好，也不存在绝对的坏，所以也不存在绝对完美的奖励函数。不同的不完美的奖励函数就会导致不同的模型行为。

所以，幻觉可以被缓解，但是永远会存在。

四、价值对齐

这会导致一个问题，叫价值对齐问题（value alignment issue）。

这里我又要讲一个我五年前讲过的故事。

试想有一天你有了一个通用机器人，机器人保姆帮你在家带孩子，你上班前说：记得给孩子做饭，再苦再累不能饿着孩子，一定不能饿着孩子。到了中午，孩子饿了，机器人打开冰箱——忘买菜了，家里什么也没有。但是主人的指令是不能饿着孩子，怎么办呢？

它一回头，看到了一个充满营养物质、很新鲜的东西：

你也不能怪它，因为你的指令明明就是不能饿着孩子，你也没说猫不能碰。

人类的价值体系是非常复杂的，我们几乎不可能把我们价值体系中的每一条规则都明明白白写下来告诉AI。

这本质上是一个目标问题。我们在训练AI的时候，目标都是简单的、明确的，但是人类的真实目标其实总是含糊的、不确定的。我们希望用算法或者某种方式，让AI真正能够符合人类的价值观。这就是对齐问题所研究的内容。

好，这就是五年前的那个故事。五年后，AGI（通用人工智能）来了，会带来什么样的变化？

比如，如果AGI太聪明、太强了怎么办？假设把人类想成是蚂蚁，AGI想成是人类，那么蚂蚁如何给人发指示呢？蚂蚁能指挥人类吗？人类能理解蚂蚁吗？

所以仔细去想，所谓的对齐问题其实有一个基本假设：人比AI聪明那么一点点。这是经典的对齐问题。但如果考虑未来，当AGI超级强，它比人类高，它是个超级智能，那这个问题就变成了超级对齐问题（superalignment problem）。

除了超级对齐问题，还有一个研究领域叫可扩展监督（scalable oversight），研究如何创造出新的算法，用算法来帮助人类更好地给AI提供训练监督。这两个都是非常新的领域，很多人在研究，有很多开放的问题。

最后，说了这么多算法的事儿，其实这个世界上也没有完美的算法。

几年前美国有一个还挺有名的研究。这个研究把一份数据给了73个不同的研究团队，让他们根据同样的数据去检验同一个社会科学假设：移民的增加会降低公众对社会政策的支持。73个团队都做了独立的检验。报告收上来，结果是：17%的报告说数据支持这个假设，25%的报告说数据不支持这个假设，58%说在这些数据下无法对该假设进行检验。

同样的数据，同样的问题，都是专业研究团队，结论差别这么大。这说明不同的人选择什么样的算法，甚至同样的算法被不同的人使用之后，得到的结果可能是差别很大的。

所以归根到底，AI的问题其实也是人的问题。没有完美的人，也没有完美的AI。

说到这好像有一点悲观，但AI领域其实还是有些乐观的事。我的博士生导师Stuart Russell教授是个英国老头，2016年在伯克利成立了一个研究机构，叫Center for Human-Compatible AI（与人兼容的人工智能中心），专门研究AI安全。

去年，我导师和其他很多科学家，包括图灵奖得主、清华大学交叉信息研究院院长姚期智院士，加拿大的Yoshua Bengio院士，也是图灵奖得主，以及张亚勤院士，在威尼斯共同签署了一个人工智能安全的倡议书，一起来推动各国的政府把人工智能的安全性纳入公共政策的考量。

今天聊了这么多的技术的话题，其实AI的这些问题都在被计算机科学家认真地研究。正是因为这些问题都在被正视、被讨论、甚至被争论，所以我相信未来应该会更好。

最后，大家如果对深度学习、强化学习感兴趣，可以在B站、小宇宙上搜我的名字，可以看到我的公开课和科普播客。

这就是今天我分享的内容。我叫吴翼，我在清华大学交叉信息院研究强化学习。

谢谢大家！

本文来自微信公众号：一席，作者：吴翼（清华大学交叉信息院助理教授、前OpenAI研究员）

上一篇：中国纪检监察报头版关注福州：把群众“盼的事”变成手中“干的事”

下一篇：使劲开会，阳光保险就能提效了么？

我们让GPT玩狼人杀，它特别喜欢杀0号和1号，为什么？

相关内容

热门资讯