2月28日,本市科研团队综合94项风险维度,构建的“前瞻安全基准”人工智能(AI)安全评估框架正式上线,为AI发展系上“安全带”。目前,豆包、DeepSeek、GPT等22款国内外代表性大模型的安全水平评估结果已上线,更多大模型的“成绩单”将逐步开放。
“前瞻安全基准”人工智能安全评估框架
随着人工智能技术的规模化应用,偏见固化、隐私泄露、恶意滥用、潜在的技术失控等风险日益凸显。北京前瞻人工智能安全与治理研究院院长曾毅直言,AI自动化权限越来越大,可以自主调用工具、生成解决方案、主动获取数据等。但人类对此的风险应对体系仍有待健全,这背后埋藏着深远的系统性隐患。
新发布的AI发展“安全带”是由北京前瞻人工智能安全与治理研究院联合人工智能安全与超级对齐北京市重点实验室、中国科学院自动化研究所人工智能伦理与治理研究中心共同打造。这套框架包含基础安全、拓展安全、产业安全3个方面,逐层递进,实现全方位评估。
目前,22个主流系列大语言模型完成测评。框架累积形成了数万条结构化风险数据与测评结果。“结果显示,大模型能力增长同时,并不会自动提升安全性。AI在博弈中,可能自发演化出迎合、欺骗等深层策略性伪装,在复杂任务中还可能抗拒人类的干预或叫停指令,导致安全底线失守。”曾毅透露,在基础内容安全、环境AI安全和产业安全维度中,几乎所有被测模型都表现稳健。但在智能体自主安全、具身智能安全、社交安全等新型维度上,防御积淀相对薄弱。
该框架将持续追踪并系统评估主流大语言模型,形成常态化监测与评估机制,动态更新安全评测排行榜。同时,框架自身也将持续迭代,为AI安全发展提供系统性指引。
来源:北京日报客户端