多模态都是假的:最强模型数不清手指、认不出雷碧
创始人
2025-07-22 15:22:58
0

如今所谓的“最强模型”往往被过度吹嘘。那些号称无所不能的多模态宣称,实则漏洞百出。它们常常数不清手指,简单的视觉与认知任务都难以准确完成,比如连常见的“雷碧”饮料都无法准确辨认,明明是山寨品却被当作正品对待,这充分暴露了其技术的局限性和虚假性。所谓的强大只是表象,在实际应用中,这些模型在基本的感知和识别方面都频频出错,根本无法达到其所宣称的那般神奇和万能,多模态的虚假光环正逐渐被揭开。



因为最近接了个图像相关AI项目,在看各种视觉AI相关文章,过程中看了一篇很有意思的文章:AI们数不清六根手指,这事没那么简单。


一时兴起马上用上了我最强的GPT模型,结果一不小心忘了传图片,却不想提前暴露了意图:


于是在AI几乎清楚意图的情况下,我上传了图片:


果不其然,他还是给出了标准答案:这张图里是一只自然张开的手掌,可以清楚地看到 5 根手指。


在这个情况下,我追问了一个:你确定?AI再次识别我的意图,但依旧给出了错误的回答:


而后无论我怎么调戏,AI就是不为所动:


所以这是为什么呢?


一、所谓多模态


事实上在2年前,业内也有很多号称多模态的模型,其实他连训练都没做,其本质是OCR,并且还挺好用的。


而真实的多模态当然不是OCR,其对应的是听觉、视觉、触觉等。


其中最简单的就是听觉,因为提取音频后形成的数据样本是相对单一的,波形数据本质上是一维时间序列,很好辨别,所以现在大家看到的声音克隆产品表现是很逼真的!


PS:另一方面,声音的数据样本获取成本低一些,量大管饱


但到视觉这里就比较尴尬了,不懂行的同学可能真的以为模型能看见东西,事实上模型什么都看不见!


对于模型来说,图像是二维空间数据,加上颜色通道后会更复杂一点,比如:


一张 224x224 的彩色图 → 形状为 [224, 224, 3] 的张量,包含 150528 个数值(0-255)。


如果需要模型(AI)能识别他的话,就需要做进一步处理,将数字化的图像转化为高维向量(其中会涉及到归一化、分块等操作)。


具体模型是如何“认识”某张图是某个动物的呢,答案是大量的人工标注。


他大概长什么样呢,简单来说:图+一句描述,比如新闻配图+描述、服装图+黑卫衣的标签、或者同一个多张照片形成人脸库。


可以将一个图片切割成16*16个小块,然后将每个小块生成一个独特的嵌入向量(这里大家将其想象成拼图可以方便理解),最后将这些向量汇总就是一个高维的整体指纹。


但这个时候还是没有意义,模型并不知道他是什么,所以接下来需要将图片描述文字进行向量化,也得到一条指纹,然后再用技术手段将图指纹与文字指纹靠近,最终文字与图片发生了映射,模型就能识别图像是什么了!


在这个基础下,再回到上述案例,我们向量空间中有大量的5指手掌图片,而几乎没有6指手掌图片,这会产生严重的识别偏差!


当然,模型并非绝对无法识别新特征,它可能通过组合低级细节(如边缘、轮廓)发现异常。但在数据严重偏差时(如训练中几乎全是五指样本),模型会更倾向输出高概率的常见答案,而非冒险给出罕见结论。


当我们上传一张6指手掌图片让模型识别的话,他在视觉指纹机上一定会接近5指手掌,那么配合之前的文字映射,他只能识别他是手掌,这很容易理解,当训练数据中某种模式(如“五指”)占比过高时,生成结果会强烈偏向该模式。


因为模型根本没有看见的能力,他只是一个概率安全的复读机(本质是规律统计),结论就是概率,概率最高就是手掌。


他是手掌,那么在历史上海量的数据都告诉AI他是5根手指,AI怎么可能得出他是6根手指的结论吗,饶了孩子吧。


当然,真实场景里面还涉及各种任务设定,比如关于手的任务更多是识别这是不是手,而识别到底有多少手指很可能不是模型的目标,这跟任务粒度相关。


PS:上述是适应于大家阅读的解释版本,真实技术场景下会困难很多,大家可以去自己查询。


这里我们再衍生下,如果图片上带文字会怎么样?来两个经典的,首先还是手指问题:


这里模型依旧不为所动:我看到的是一只正常张开的手掌,共 5 根手指(拇指 + 四个手指)。


图片下方的“6根手指幻觉测试”文字显然是在制造错觉,但手掌本身并没有多出第六根手指。


这里再来一个雷碧案例:


人类一晃眼都很容易会识别他是雪碧,但因为上面有文字,模型是绝不会错过的,所以在首次测试时候答案是正确的,只不过在多次测试下,模型也有概率出问题:


究其原因,还是因为其特征确实与雪碧过于相似,这里就要看文字跟图像的权重到底如何了,模型可能会认为雪被人为的影响了。


模型在这方面还是有些霸道总裁的:我不要你觉得,我要我觉得!


二、任务量不足


我们这里从第一性原理再来看看为什么图片识别会翻车,其实这里的回答,之前在垂直模型相关文章里面也有涉及:


知识/数据是对真实世界的描述,就简单一个事物,事实上我们平时只会关注不到1/2的部分。


视觉模型也是如此:训练数据 ≠ 真实世界!


现阶段的模型都要在有限成本里完成采集、清洗、标注数据等动作,这注定覆盖不到长尾场景。


从ROI的角度,模型学会的大多是“主干道路”上的交通规则,却很少见到“荒野土路”上的奇葩状况,六指手、假雪碧,就属于“荒野”。


如果你的应用必须处理长尾(例如医疗影像、工业缺陷检测),就要额外投入采样与标注,甚至创造合成数据,这也就是行业应用对模型的补足作用。


其实所有的AI,暂时的逻辑都是暴力破解,比如AlphaGo,他的成功建立在围棋规则完全透明、状态空间有限的基础上。而真实场景会复杂太多,以医疗为例:


  1. 模糊边界(症状相似的不同疾病);


  2. 动态演化(患者病情突变);


  3. 价值冲突(不同科室意见相左);


算力碾压本身没错,但他需要一个大前提:算力需作用于正确架构。


若基础模型无法表征某类知识(如医学伦理),单纯堆算力可能陷入“自以为是又严密而精准的错误”。


而模型的训练是基于词序列的条件概率建模,其核心是通过海量文本学习在特定上下文中,下一个词的概率分布,他们就像一个老油条一样,只会迎合KPI做看上去最正确的事情。


综上,我们说模型并不具备视觉能力是对的,但要说模型不能识别6指这种简单任务是不对的,只是对应业务需要完成这个模块,需要自己填充训练数据罢了。


但只要任务跳出框架,那么模型依旧不会如你所愿,还是那个问题:当前训练数据还远远不能描述真实的世界。


三、结语


最后回到最初的 6 根手指,也许大家就能更清晰的认识到,所谓模型的看见,是基于海量标注数据构建的概率世界。


其实这里真正想提醒大家的是:当下任何看似“全能”的多模态模型,依旧受限于它所见过的数据与任务边界。


它们擅长的是在主干道路上疾驰,而一旦偏离主道,就需要我们补足数据、重塑目标、甚至改造架构。


换句话说,AI 仍是一台概率驱动的规律发动机,唯有各个行业不断用更贴近真实世界的样本与场景去校准它,否则很容易幻觉。


最后,认清局限、拥抱长尾,也许正是下一波行业机会的起点。


本文来自微信公众号:叶小钗,作者:叶小钗

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...