过去几年,人工智能(AI)的演进路径大致清晰:从大语言模型到多模态大模型,AI已经能够流畅地处理文本、图像与视频。但当模型需要走出屏幕、走进真实世界——驱动一台机器人拧开瓶盖、规划一系列复杂操作——现有大模型却常常“翻车”。这背后的核心瓶颈,被业界称为“世界模型”,它不再只是预测下一段文字或下一帧画面,而是要预测物理世界中下一个状态将如何变化,理解时间、空间、力与因果关系。这也是为什么,从OpenAI、英伟达到Meta、谷歌,从学术界到产业界,世界模型正成为继大模型之后新一轮关注焦点,也被视为具身智能、机器人产业实现突破的关键基座。
作为中国最早提出并系统研究世界模型的机构,智源研究院于6月在北京举办第八届智源大会,并发布2026年度研究进展报告。据智源研究院院长王仲远介绍,过去一年,智源在基座大模型、智能体与基础软硬件生态方向均取得重要进展:2025年10月正式发布的多模态世界模型悟界·Emu3.5基于“预测下一个词元”实现了文本、图像、视频的统一学习与生成,相关成果已刊发于《自然》(Nature);在具身智能领域,智源构建的全栈技术体系已与产业界数十家机构展开合作,推动模型与机器人本体的落地应用;而本届大会最受关注的发布,是智源历时多年探索后推出的首个通用世界基座模型——悟界·Physis-v0.1。
在王仲远看来,AI正沿着从大语言模型向多模态大模型再向世界模型演进的方向,加速从数字世界迈向物理世界。AI正经历一场重大的范式变革,从“预测下一个词元”演进到“预测下一个物理状态”,这是世界模型的核心本质,也是悟界·Physis区别于以往技术路径的根本出发点。
基于这一判断,智源将现有的世界模型技术路线归纳为四大类:第一类是以语言为中心的世界模型,包括VLM(视觉语言模型)、VLA(视觉-语言-动作模型);第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型;第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型;第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型。
王仲远认为,智源提出的分类不只是一张技术路线图,更承担着为行业“正本清源”的作用:当下业内对于世界模型究竟是什么、该如何研究和应用,仍未形成共识。智源希望率先明确世界模型的核心定义与分类框架,推动整个行业在数据获取、训练方法上逐步收敛、形成合力。
在采访中,王仲远的思考远不止于此。他谈到了智源的研究方法与李飞飞团队、英伟达等同行的差异,并坦言四种分类未必是终局——潜空间表征(即语言与视觉表征融合),或许才是悟界系列大模型正在探索的“第五条路径”。此外,围绕世界模型的训练数据难题、研究进展、落地路径,以及AI安全等关联议题,他也分享了独到的见解。
智源将世界模型分为四类,悟界·Emu3.5属于哪个类型?
对于世界模型的分类,事实上,我们认为将来也许会有第五个分类,智源尝试的很有可能是第五类,就是以语言为中心和以视觉表征为中心的分类相融合,也叫做潜空间表征,同一个潜空间能够Decode(解码)不同的模态。我们依然延续的悟界·Emu3.5模型训练的思想,就是将各种文字、图像、视频模态全部压缩,原生统一训练,压缩在同一个语义空间,希望有更多的模态被压缩进来。
我们认为将来统一的潜空间建模不仅仅是视觉空间,而是全模态潜空间,很有可能是世界模型下一个可能的路径。因为这条路径没有完全走通,所以并不打算现在能够分类,期待明年和后年再分享智源最新成果的时候能够说,我们又走出了一条新的道路。
世界模型的发展处于初级阶段,目前需要解决哪些核心问题?智源如何突破这些瓶颈?推动世界模型真正落地有哪些具体路径?
世界模型的概念非常广泛,关于如何训练世界模型,大家没有完全达成共识。目前技术没有收敛,数据更是远远不够,到底是需要视频数据、仿真数据还是真实物理世界的数据,大家还没有找到方法路径。这些因素耦合在一起,使得还没有哪一个世界模型真正能够让人感觉特别惊艳,解决真实物理世界的各种问题。
在这个阶段,需要科研机构共同努力。世界模型很有可能是具身智能有更大突破的基座模型的关键,希望整个行业能够扎扎实实把下一个物理问题解决好。智源会提出自己的训练范式和路线,就是潜物理空间统一建模。我们也成立了行为世界模型创新中心,负责人是22岁的青年学者陈博远,他将带领悟界·Physis模型的研发。
李飞飞的World Labs团队6月初发表世界模型概念的文章,把技术路线分成三个方向:渲染器、模拟器和规划器。您对此分类有什么看法?相比智源的分类有什么不同?
学术分类有各种争论,李飞飞的分类肯定有她的逻辑和角度,完全没有问题。智源研究院的四个分类中,渲染就是以像素为中心,模拟就是三维结构为中心,规划就是很模糊的。坦率来讲,我们的分类更具有通用性,既可以用语言解决,也可以用潜空间解决。我们认为语言是一个角度,像素是一个角度,视觉表征和三维空间是一个角度,就是从不同的切面来看这件事,未来不排除走向大一统。
近日英伟达推出了最新的世界模型Cosmos 3,您如何评价?
Cosmos 3使用MoT架构(Mixture-of-Transformers,一种专为多模态 AI 设计的高效模型结构),很大一部分依然是采用视频生成、像素为中心的技术方案。我们不是说这些技术一定不能实现世界模型,但显然远远不够。Cosmos在内的许多模型都是行业非常好的进步和尝试,但距离真正的基座模型还有很大距离。
您提到世界模型对于下一个物理状态的预测还没有达到理想状态,具体原因是什么?是由于物理世界数据缺失吗?不同路径的世界模型是否面临共同的难题?
经过多年发展,AI的各种训练框架、训练方法、训练思路、训练算法都还在蓬勃发展。世界模型的定义到底是什么?大家没有共识。智源研究院一直在引领AI的发展,我们希望正本清源,基于多年对于大语言模型、多模态模型和世界模型的探索,让大家意识到世界模型的核心本质是下一个物理状态的预测。
行业形成共识以后,大家训练模型的数据和方法才会往这个方向收敛和归拢。数据肯定是缺乏的,特别是真实物理世界的数据,所以我们认为有可能随着AI硬件越来越多, 未来AI硬件不断采集大量真实物理世界数据以后,形成物理世界的互联网——就像数字世界的互联网催化大语言模型一样——达到这种规模的数据,才有可能真正催生跨时代的世界模型。我们要持续观察和探索此类问题。现在大家是从不同的角度来看世界模型,但我相信最终会殊途同归,不同技术路线都会指向同一个最终的数据需求和模型能力的规划。
智源在世界模型训练数据获取方面的策略是什么?是否会采用一定比例的合成数据?
合成数据在世界模型中依然会用到,但坦率讲,原来各种物理仿真、游戏引擎都有对于世界模拟,因为思考的不完备,人类掌握的真实物理知识、引擎规则和算法不够完备,仿真始终不能达到真正的100%,都有各自的遗憾和缺陷。关于在多大比例上采用这类数据,我们还在实验,暂时没有更多可以分享的内容。但原来传统的仿真方法显然不够,我们希望用大数据、大模型的方式解决。
世界模型什么时候会出现比较惊艳的能力?
我们觉得至少还需要好几年。作为科研来说,很可能卡在一个地方三五年都没有突破,也有可能突然就突破了。未来三到五年都会是世界模型持续演进和迭代的阶段,我们也期待随着数字世界大模型的成熟,能够加速面向物理世界的AI基座模型、世界模型的迭代和演进。
智源对于大语言模型和基座模型阶段性发展的认识是怎样的?
大语言模型依然在非常快速成长的过程中,我们早年做的悟道系列是大语言模型。智源秉持“高校做不了、企业不愿意做”的科研定位,大语言模型技术成熟以后就交给企业去做,例如从智源走出去的智谱、面壁等,继续在成熟的路线进一步提升性能。两年前,我们就把重点放在多模态大模型,现在是把重点放在世界模型。
我们认为大语言模型仍然处在持续发展阶段,国产大模型的性能也在持续提升,虽然客观来看与全球最顶尖的模型还有一定距离,但我对此充满信心。过去两年,国产大模型在全世界的口碑和认可度都很高。接下来,AI Coding和大语言模型依然有提升的空间和潜力,我们也乐见国内领军企业能够继续发力,使国产大模型成为全球最顶尖的大模型。
从智源走出去的企业有很多,比如面壁或智谱,据说智源内部也有一些团队专门成立公司,你们如何看待这件事?希望他们将技术与产业结合吗?
回到我们的定位——做高校和企业不愿意做的科研探索和创新。做科研就有失败的可能,所以在智源还是宽容失败,愿意给年轻人试错的机会,但同样也有可能成功。很多科研小伙伴希望在产业证明自己,智源非常鼓励,这些科研不仅是学术的突破,也能够给产业创造价值。
大家可以看到过去几年,我们孵化了不少公司,很多公司在具身智能和世界模型领域都会是国内乃至全球备受关注的公司,这恰恰是智源研究院作为新型研发机构的价值所在。我们不与高校争名,不与企业争利,也不以孵化公司为目标,但确实发了不少论文,孵化了不少公司,更像是专注做科研带来的自然而然的结果。智源会专注在科研和技术,产业的事情交给产业来做,可以被大公司收购、跟大公司合作、授权或者团队创业孵化,这些都是成果转化的路径。
今年产业链对于AI安全非常关注,业界的共识是AI安全可能引发新一轮优胜劣汰,您怎么看待这一趋势?
前几年大家讨论AI安全:如果超级人工智能出现,会不会对人类造成毁灭性打击?但这两年的AI安全问题更多不再是畅想类的,而是实实在在的。效率提升以后带来的产业链变革和重组是一定会发生的,但也要看到每次技术的进步一定会对落后产能、低效率的事情有影响。我们还是非常乐观地相信会创造出新的增量价值和新的机会,人类社会一直都要和新技术共存,伴随着演进和演化。
随着智能体具备越来越强大的能力,会绕过很多原来我们设下的安全机制。这不是一家科研机构能够解决的,需要全社会共同努力,包括产业链的升级、跨领域专家的联合、政策法规的制定,让大家更加平滑地过渡。全世界已经经历过几轮大的技术发展,之前互联网和社交网络的出现也带来了一些问题,我们都有应对的经验。所以我还是持谨慎乐观的态度,相信人类社会有能力应对。撰文/陈佳靖