AI再次引发人类担忧,实验发现:o3超过94%人类病毒学专家
创始人
2025-04-28 09:02:11
0

AI 再次引发人类担忧,一项重要实验结果令人瞩目。研究发现,当 O3 含量超过一定阈值时,竟有高达 94%的人类病毒学专家表示出了对 AI 潜在风险的警觉。这意味着 AI 可能在某些环境条件下,对与病毒相关的领域产生不可忽视的影响。这些专家的担忧凸显了我们在面对 AI 发展时需保持谨慎,不能仅仅看到其带来的便利,更要深入思考其可能引发的一系列问题,如对生物医学领域的干扰等,以更好地应对 AI 时代的挑战。


人类病毒学家为人工智能(AI)设计了一项极其困难的测试,结果令人担忧:


在解决湿实验室问题方面,人类病毒学专家在针对其专业领域定制的问题子集上平均答对率为 22.1%,但表现最好的 OpenAI o3 却实现了 43.8% 的准确率,并在匹配的问题子集上胜过了 94% 的病毒学家。


图|OpenAI o3 等模型相对于人类病毒学专家的表现。


这些结果让研究者“有点紧张”,因为这是历史上第一次,几乎任何人都可以接触到一位不带偏见的 AI 病毒学专家,该专家可能会指导非专业人士制造致命的生物武器。


这一结论来自非营利组织 SecureBio 的研究团队及其合作者共同完成的新研究。他们表示,这一发现是一把双刃剑——专业研究人员可以借助超智能 AI 模型预防传染病的传播,但非专业人士也可能利用它来制造致命的生物武器。


相关研究论文以“Virology Capabilities Test (VCT): A Multimodal Virology Q&A Benchmark”为题,已发表在预印本网站 arXiv 上。


论文链接:https://arxiv.org/abs/2504.16137


“纵观历史,有不少人试图制造生物武器——而他们失败的主要原因之一,就是缺乏足够的专业知识,” 该论文的通讯作者 Seth Donoughe 说。“因此,谨慎对待这些能力的分配方式非常有必要。”


o3 已超过 94% 的人类病毒学家


随着 AI 的加速发展,评估已成为量化大语言模型(LLM)能力的关键,尤其是在科学推理方面。然而,常用的基准有很大的局限性。它们通常依赖于在四个选项中只有一个正确答案的多选题。虽然这类基准可以直接创建、评估和评分,但却无法捕捉到稀有、隐性和不可被搜索的知识。


此外,尽管多模态已成为一种标准的 LLM 能力,并在现实世界中有着明确的应用,但它们并不测试图像推理能力,许多现有基准都存在虚假 Ground truth 标签和快速饱和的问题。


由此,研究团队开发了 Virology Capabilities Test (VCT),旨在测量病毒学的实用知识,尤其侧重于故障排除实验。它针对具有双重用途潜力的病毒学方法以及其他密切相关的方法,不包括一般的分子和细胞生物学方法,也不包括出于安全考虑而明确有害的材料。具体来说,该基准包括重要、困难、经过验证的问题,以及代表真实世界用途的多模态问题。


图|VCT 所含材料


研究团队从 184 位病毒学专家中收集问题,57 位活跃专家中的 36 位随后参加了人类基准测试,回答了他们没有撰写或审查的问题。他们在设计问题撰写程序时考虑到了基准可以通过相同的输入内容以多种不同的格式运行。所有问题均由人工回答,以评估问题难度和人工准确性。


数据库由问题和评审组成。共享数据集的 322 个问题中,最常提交的问题反映了病毒学家的核心专业领域:细胞培养病毒的技术、基因修饰的分子方法和细胞培养程序。每个提交的问题都由另外两名熟悉该问题特定主题领域的专家进行审查。审阅者对问题表示同意或不同意,并提供反馈意见。


图|所有提交的问题在创建过程中的流程。


在研究团队对完整基准进行评估的多模态模型中,OpenAI o3 表现,准确率达到 43.8%,即使在其专业子领域内,也超过了 94% 的病毒学家。相比之下,博士水平的病毒学家在面对专门针对每个人的子专业领域定制的 VCT 问题集时,得分仅为 22.1%。


图|前沿 AI 模型在特定领域表现优于专家,大于 0 的值表示 AI 模型的表现优于人类,上方百分比显示了 AI 模型相对于 36 位专家的整体表现。


研究发现,截至 2025 年初,前沿大模型在病毒学领域提供实际疑难解答支持的能力,已达到甚至超过了人类专家水平,而且人类与模型之间的差距正在持续扩大。


这一趋势在其他协议分析基准测试中同样显著:在 ProtocolQA 基准上,o1 模型的表现已接近专家水平;在 BioLP-Bench 基准上,DeepSeek-R1 的成绩已与专家持平。这两项测试的结果相比不到一年前发布的 SOTA 分数,均有了大幅提升。


安全管理迫在眉睫


VCT 是一个包含 322 个可搜索的、相关的、多模态的病毒学实际疑难解答问题的数据集,其中的问题涉及一些罕见的知识,训练有素的病毒学家自己都认为这些知识很难找到,甚至是隐性的,但 o3 等领先模型在基准测试中的表现已经超过了人类专家。


在开发 VCT 的过程中,出于对传播此类信息的潜在风险的考虑,他们排除了某些可能特别有利于造成大规模危害的双重用途病毒学课题。这些课题都是实用、罕见、重要的信息,能够使湿实验室病毒学工作更容易取得成功。


因此,在部署前测试中,VCT 可以作为潜在危险信息的信息替代衡量标准,以更好地了解模型在特别敏感的生物学技能方面的能力,并为随后的缓解机制提供信息。提供专家级病毒学故障诊断的能力本质上具有双重用途:它对有益的研究有用,但也可能被滥用。


图|VCT 多选题例题,要求答题者从一组 4-10 个选项中找出所有正确的陈述。每个问题还附有评分标准,用于在未提供答案陈述的情况下评估开放式回答。


研究团队指出,如今迫切需要通过周到的访问控制,在促进有益研究与应对安全风险之间取得平衡。他们强调,AI 系统在为高度双重用途方法(即可被用于正当或恶意目的的技术)提供专家级故障诊断方面的能力,本身就应被视为一种高度双重用途技术。


专家级 AI 病毒学聊天机器人(仅通过文本互动提供建议)相较于能够自主执行任务的 AI 病毒学 agent 而言,风险较小,但两者都需要进行严格的访问控制。尤其是某些特定领域的专业知识,如病毒学方法的实际故障诊断,可能被滥用于造成大规模危害,因此应被排除在下一代广泛可用的大模型能力之外。


针对 AI 系统中双重用途生物学技能的问题,研究团队建议,未来可参考生命科学领域已有的双重用途研究监管经验,例如由国 NSABB 主导的管理框架。NSABB 已呼吁统一现有的联邦政策,并扩大需要联邦审查的研究范围,以更好地应对潜在的双重用途风险。尽管 NSABB 尚未建议将基于人工智能的“硅学实验”立即纳入更新后的监管体系,但它强调了持续评估 AI 与生物技术交叉研究风险与益处的必要性。


类似 VCT 这样的评估工具,未来可为政府机构(如 AISI)及非政府组织提供实证依据,帮助调整现有的双重用途风险管理框架,适应 AI 时代的需求,并为新一代模型的研究与部署制定更完善的指南。


几个月前,该论文作者已将研究结果分享给各大 AI 实验室。作为回应,xAI 发布了新的风险管理框架,并承诺在其 AI 模型 Grok 的未来版本中,加入病毒学防护措施,包括训练模型拒绝有害请求,以及对输入和输出进行内容过滤。OpenAI 也在其模型 o3 和 o4-mini 中部署了多项与生物安全相关的保护措施,包括阻止潜在的有害输出。


约翰·霍普金斯大学健康安全中心主任 Tom Inglesby 指出,仅靠行业自律是不够的,他呼吁立法者和政策制定者采取更积极的行动,制定政策以规范 AI 带来的生物风险。


“在新的 LLM 发布前,应该强制进行风险评估,以确保其不会带来大流行病级别的潜在后果。”


论文共同一作 Jasper Götting 表示,由 SecureBio 和其他机构开展的后续研究将很快检验 AI 辅助是否可以改善实际实验室的实验结果。


“在评估过程中,我们还观察到一些 AI 与专家提供的答案不一致的情况,这促使我们思考如何可靠地衡量 AI 在专家知识不再是可靠标准的课题上取得的进展。”


参考链接:

https://time.com/7279010/ai-virus-lab-biohazard-study/


本文来自微信公众号:学术头条,作者:与可

相关内容

热门资讯

欧盟重罚苹果之际,中国小开发者... 在欧盟重罚苹果的当下,中国的小开发者们也在积极抗争“苹果税”。这些小开发者们凭借着创新与热情,在苹果...
对抗NS2黄牛,玩家们在二手平... 在对抗 NS2 黄牛的过程中,玩家们展现出了独特的智慧。他们发现二手平台成为了一个新的战场,纷纷开始...
高盛:国家入场可撬动A股总市值... 有多少资讯是真正有用的?FinGraph是中文财经世界唯一一家每日图形化早晚专栏,为专注于全球市场的...
重庆推出近2万套租赁房源 满足... 为助力高校毕业生留渝就业创业,4月25日,“2025重庆高校毕业生租房暨人才安居服务推介活动”在大学...
虎嗅【作·嗅之星】周榜第259... 请你提供具体的虎嗅【作·嗅之星】周榜第 259 期的相关内容呀,比如上榜的作品、特点、影响力等方面的...
现在有一种新职业,叫陪伴 如今,有一种全新的职业悄然兴起,那便是陪伴。陪伴,并非简单的相处,而是用心去倾听、去理解、去给予温暖...
对话西门子:为什么说Indus... 西门子认为 Industrial Copilot 是未来工业环境中人类的最强辅助,原因在于其强大的功...
去青岛,吃遍本地人的“心头好” 去青岛,一定要吃遍本地人的“心头好”。清晨,来一碗热气腾腾的辣炒蛤蜊,鲜美的蛤蜊搭配香辣的调料,瞬间...
赛道基金重上风口 极端化投资隐... 证券时报记者 吴琦 年初以来,A股走势颇为震荡,不过,仍有不少细分行业走出了独立行情。 从年内的业绩...
是家人也在磕的CP!谢霆锋妹妹... 搜狐娱乐讯 4月26日,谢霆锋妹妹谢婷婷在社交平台转发了王菲现身谢霆锋演唱会的视频,视频中写着:“T...
一图了解A股半导体设备公司平均... *免责声明:文章内容仅供参考,不构成投资建议 *风险提示:股市有风险,入市需谨慎
鼓励各地在境外旅客聚集地增设退... 国务院新闻办公室4月27日举行新闻发布会。商务部等6部门有关负责人介绍优化离境退税政策扩大入境消费有...
加快中小企业数字化转型 湖北日报讯 (记者刘宇、通讯员黎晓蔚)“不想转、不敢转、不会转”是中小企业数字化转型中的共性问题。4...
就业率0%,“天坑”专业被淘汰 在当今的就业市场中,出现了一个令人震惊的现象——就业率竟然为 0%,而曾经被视为“热门”的“天坑”专...
最近很火的“超节点”,到底是干... “超节点”近年来颇为火热。它如同网络世界中的关键枢纽,主要作用在于整合和加速信息流通。超节点就像是一...
抖音推出“恶意营销号”治理规范... 凤凰网科技讯 (作者/杨睿琪)4月28日,抖音发布新版《“恶意营销号”治理规范》,计划于5月下旬启动...
重磅!离境退税起退点从500元... 4月27日,商务部等六部门发布《关于进一步优化离境退税政策扩大入境消费的通知》(下称《通知》),进一...
告别繁琐操作,小红书批量发布助... 在这个数字化时代,自媒体人都在寻找最高效、最具性价比的获客引流方式。无论是小红书、抖音、视频号带货,...
皖通科技:2025年第一季度净... 每经AI快讯,皖通科技(SZ 002331,收盘价:7.45元)4月27日晚间发布一季度业绩公告称,...
AI如何改变产品、护城河与创业... AI 正深刻地改变着产品、护城河与创业法则。在产品方面,AI 赋能使产品具备更智能的功能,如个性化推...