谷歌推出Genie3:世界模型的ChatGPT时刻?
创始人
2025-08-06 20:25:22
0

谷歌推出 Genie3 可谓是迎来了属于它的“ChatGPT 时刻”。Genie3 作为世界模型,展现出了强大的语言处理能力和知识储备。它能够像 ChatGPT 一样,对各种自然语言问题进行准确而快速的回答,无论是科学知识、历史事件还是日常生活琐事,都能给出令人满意的答案。其在语言理解和生成方面的卓越表现,让人们看到了人工智能领域的新突破。谷歌凭借 Genie3 有望在自然语言处理领域占据重要地位,开启人工智能发展的新篇章,就如同 ChatGPT 曾经引发的轰动一样,为人们的生活和工作带来更多的便利与惊喜。


2025年8月5日,Google DeepMind宣布推出Genie 3,这是一个通用世界模型,能够根据文本提示生成各种可互动的3D环境。该模型在720p分辨率下以24帧/秒实时生成环境,用户可以像玩游戏一样自由移动,并且场景在几分钟内保持一致。此举标志着DeepMind在世界模型领域的又一次重要跃进,距上一代Genie 2发布仅一年多时间。



我们梳理了目前Google官方报告和参与内测的用户的反馈,以及Genie3背后团队的深度访谈,为大家提供核心信息的汇总,更好地了解这个模型。


Google官方博客:从文字到世界,Genie 3是什么?


1. 迈向世界模拟


在Google DeepMind,我们已超过十年时间在模拟环境领域进行开创性研究,从训练智能体到掌握实时策略游戏,再到为开放式学习和机器人技术开发模拟环境。这项工作促使我们开发了世界模型,即能够利用其对世界的理解来模拟世界某些方面的AI系统,使智能体能够预测环境将如何演变以及其行为将如何影响环境。


世界模型也是通往通用人工智能(AGI)道路上的关键里程碑,因为它们使得在丰富的模拟环境中对人工智能代理进行无限课程训练成为可能。去年,我们推出了首个基础世界模型Genie 1和Genie 2,它们能够为代理生成新环境。我们还继续通过我们的模型Veo 2和Veo 3推动视频生成技术的最前沿,这些模型展现出对直观物理学的深刻理解。


这些模型标志着在模拟世界不同能力方面的进展。Genie 3是我们首个允许实时交互的世界模型,同时与Genie 2相比,它还提高了连贯性和真实性





2. 核心能力


官方对Genie 3的能力做了简洁描述:该模型能够从任意文本提示生成可互动世界,实时输出720p、24fps的动态环境,且场景在长达一分钟的交互中保持物理一致;用户还可以通过追加提示改变天气或加入人物。以下是Genie 3的主要特性:


  • 模拟世界物理属性:该模型能呈现水、光线等自然现象,以及复杂的环境交互。


提示示例:在佛罗里达的人行道上行走,一侧是双向车道,另一侧是大海;飓风逼近,狂风呼啸,海浪拍打着路面;智能体左侧有栏杆分隔海水与道路;道路沿海岸延伸,前方可见一座短桥;海浪不断越过栏杆冲上路面;棕榈树在风中弯折;大雨滂沱,智能体穿着雨衣;真实世界第一视角。




  • 模拟自然世界:能生成丰富的生态系统,涵盖动物行为与复杂植物。


提示示例:沿冰川湖畔奔跑,探索森林中的分叉小径,穿越流动的山间溪流;背景是壮丽的雪山与松树林,丰富的野生动物让旅程充满乐趣。




  • 模拟动画与虚构场景:能激发想象力,生成奇幻场景与富有表现力的动画角色。


提示示例:鲜明的3D风格,一只毛茸茸的可爱生物在奇幻景观中的彩虹桥上跳跃;生物小巧圆润,皮毛呈现日出般的暖色调——橙、黄、粉渐变交融;最醒目的是一对竖起的大耳朵,形似德国牧羊犬,与圆润身形形成俏皮反差;它用四条短腿跑过彩虹桥时,皮毛如波浪般起伏,充满动感与活力;彩虹桥优雅地横跨奇幻landscape,周围或许有浮岛、发光植物与旋转云层;光线明亮欢快,为生物与环境镀上暖光;整体传递出喜悦、好奇与无限活力,展现生物的顽皮与世界的魔力,唤起观者的童真与对冒险的想象。




  • 探索特定地点与历史场景:能突破地理与时间限制,呈现特定地点与过往时代。


提示示例:真实风格的阿尔卑斯山区环境:陡峭的岩石悬崖与狭窄的峡谷中布满碎石;岩石以灰白为主,部分崖面覆有绿色植被;峡谷顶端延伸出茂密的针叶林与草地景观;整体凸显粗犷的自然之美与极端地形特征。




  • 突破实时交互极限


Genie 3实现高度可控性与实时交互,离不开重大技术突破。在逐帧自回归生成过程中,模型需纳入随时间累积的历史轨迹——例如,当用户一分钟后重返某地时,模型需调用一分钟前的相关信息。为实现实时交互,系统需每秒多次响应新输入并完成计算。


  • 长期环境一致性


AI生成的世界要具备沉浸感,必须在长时间内保持物理一致性。但自回归生成环境比生成完整视频更具技术挑战,因为误差会随时间累积。尽管如此,Genie 3生成的环境仍能在数分钟内保持稳定,视觉记忆可追溯至一分钟前。


提示示例:第一视角运动相机,记录用滚筒刷给棕色房屋刷漆的过程。





建筑左侧的树木在整个交互过程中始终保持一致,无论是否出现在视野中。


Genie 3的一致性是一种自然涌现的能力。NeRFs和高斯溅射等方法也能生成可导航的一致性3D环境,但依赖明确的3D模型;而Genie 3生成的世界更动态丰富,因为它基于世界描述和用户行为逐帧创建。


提示示例:第一视角无人机镜头,在冰岛的狭窄峡谷中高速飞行,谷底有河流,岩石覆有苔藓,正值黄金时刻;真实世界场景。




  • 可提示的世界事件


除导航输入外,Genie 3还支持更灵活的文本交互——即“可提示的世界事件”。


这类事件能改变生成的世界(如调整天气、引入新物体或角色),超越单纯的导航控制,丰富交互体验。


这一能力还能扩展“反事实场景”(即“如果……会怎样”)的范围,帮助智能体通过经验学习应对突发情况。


3. 推动具身智能体研究


为了测试Genie 3创建的世界对未来智能体训练的兼容性,我们为最近版本的SIMA智能体生成了世界,这是我们用于3D虚拟环境的通用智能体。在每个世界中,我们指示智能体追求一组不同的目标,它通过向Genie 3发送导航动作来试图实现这些目标。像任何其他环境一样,Genie 3并不了解智能体的目标,而是根据智能体的动作来模拟未来。


由于Genie 3能够保持一致性,现在可以执行更长的动作序列,从而实现更复杂的目标。我们预计这项技术将在我们迈向通用人工智能(AGI)的过程中发挥关键作用,并且智能体将在世界上扮演更重要的角色。


4. 局限与挑战


尽管Genie 3拓展了世界模型所能实现的范围,但有必要承认其当前局限性:


  • 有限的行动空间。尽管可提示的世界事件允许进行广泛的环境干预,但这些干预并非一定由代理自身执行。代理可直接执行的行动范围目前仍受限制。


  • 其他代理的交互与模拟。在共享环境中准确模拟多个独立代理之间的复杂交互,仍然是持续的研究挑战。


  • 真实世界位置的准确表示。Genie 3目前无法以完美的地理精度模拟真实世界位置。


  • 文本渲染。只有当输入的世界描述中提供清晰易读的文本时,才会生成。


  • 交互时长有限。该模型目前仅支持几分钟的连续交互,而非长时间。


5. 责任


我们相信,基础技术从一开始就需要对责任有深刻的承诺。Genie 3中的技术创新,特别是其开放式和实时能力,为安全和责任带来了新的挑战。为了在最大化益处的同时应对这些独特风险,我们与负责任发展与创新团队紧密合作。


在Google DeepMind,我们致力于以既能增强人类创造力又能限制非预期影响的方式开发我们一流的模型。随着我们继续探索Genie的潜在应用,我们宣布将Genie 3作为一项有限的研究预览发布,向一小部分学者和创作者提供早期访问权限。这种做法使我们能够在探索这一新领域的过程中收集至关重要的反馈和跨学科视角,并继续加深我们对风险及其适当缓解措施的理解。我们期待与社区进一步合作,以负责任的方式开发这项技术。


6. 下一步


我们相信Genie 3是世界模型的一个重要时刻,它将开始对人工智能研究和生成式媒体等多个领域产生影响。为此,我们正在探索如何在将来让更多测试者能够使用Genie 3。


Genie 3可以为教育和培训创造新的机遇,帮助学生学习和专家积累经验。它不仅能提供广阔的空间来训练机器人等智能体和自主系统,还能实现智能体性能的评估,并探索其弱点。


在每一步,我们都在探索我们的工作的意义,并为其造福人类而开发,安全且负责任。


可见即可游:Genie 3的更多场景与玩法


官方视频和第三方Demo网站(genie3.site)展示了Genie 3在真实场景中的生成能力:用户可一键探索古城遗迹、瀑布峡谷、太空基地等多样环境,并体验火山喷发、漂浮岛屿、传送门等动态事件。社区开发者更可通过一句文本提示,自由构建可交互的关卡,制作逻辑解谜、角色对话,甚至生成一段风格独特的动画短片。正如The Decoder所评论的,Genie 3已初步具备“生成式游戏引擎”的雏形。



驾驶车辆行驶在爆发的火山旁边



Genie 3能够生成完整的3D世界



电子游戏将永远不一样


最新深度访谈:它靠什么实现?


机器学习节目Machine Learning Street Talk发布了一期专题访谈,邀请Genie 3论文作者Jack Parker‑Holder与Shlomi Fruchter详细介绍模型设计和未来愿景。访谈指出,Genie 3在架构上融合了视频生成技术和强化学习,采用自回归方式按帧生成,并通过长期记忆模块保持物体的一致性。


他们强调,模型目前仍是研究原型,尚未公开接口,但未来有望与语言模型和三维AI相结合,成为开发者构建互动内容的基础工具。这期节目还讨论了世界模型对游戏产业、机器人训练和科学模拟的潜在影响,与Jim Fan所说的“游戏引擎2.0”概念相呼应。


精华摘要:


“三秒钟创造世界”:节目用一句形象的例子来说明Genie 3的速度——你只需输入“无人机飞过一片湖面”或“雪坡”,模型大约三秒就能生成这个逼真的世界,然后你可以在其中实时移动和互动。这一点让它像即开即玩的游戏编辑器。


涌现出的记忆一致性:受访者解释,Genie 3并未显式编程记住物体位置,但世界会记住你离开时的状态,当你转头再看,物体依旧存在。这种“可靠的记忆”是自回归生成架构的自然产物,也是世界模型与普通视频模型的根本区别。


世代飞跃:上一代Genie 2的互动只有10–20秒,而Genie 3以720p、24fps的画质维持几分钟。Shlomi Fruchter称这是迈向通用世界模型的重要一步,因为长时间的一致性让AI代理能完成复杂目标。


杀手级应用:训练机器人:Jack Parker‑Holder指出,Genie 3最大的用途不是娱乐,而是训练自动驾驶汽车和机器人。在虚拟世界中,可以反复触发罕见事件(例如鹿突然跳入道路)来教会AI安全应对。这比在真实道路上试验更安全、更高效。


“YouTube 2.0”式的开放愿景:节目畅想这种技术可能催生新的内容平台——人们通过提示共同创建和探索互联的世界,像升级版的YouTube或VR体验。这种开放式创作也被称为“世界事件可提示”,用户不仅能导航,还能用文字改变天气、加入角色。


世界模型是AGI的阶梯:研究员强调,能模拟出多样复杂世界的模型是通向通用人工智能的关键,因为它们为AI代理提供了无限的训练场。DeepMind认为Genie 3为未来与语言模型和3D AI融合奠定了基础。


当前局限:Genie 3仍是研究预览,动作空间有限,物理和地理精度欠佳,多代理互动和文字渲染有困难,持续互动时间只有几分钟。因此它还无法取代真实引擎,但已显现出巨大潜力。


内测用户这样评价Genie 3:惊艳与不足并存


AI研究者Tejas Kulkarni获邀体验Genie 3。通过一整天的试用,他认为这是自己使用过的首个泛化性如此强且具有长期一致性的神经世界模型。Tejas总结了模型的亮点:



  • 启动迅速,既适用于游戏场景也能泛化到工业或真实环境;


  • 能在没有游戏引擎的情况下学会非刚体物理,并出色地呈现全局光照和写实环境;


  • 对stylized风格的场景支持良好,适合概念艺术家和关卡设计;


  • 模型的世界记忆在遮挡和多秒时间跨度下依旧保持一致。


他也指出了当前明显的局限:


  • 模型仍会在经典物理实验(如堆积木塔)中失败,复杂指令序列也容易卡住;


  • 社会与多智能体互动尚未解决,1对1战斗游戏无法实现;


  • 行为动作有限,尚不能替代完整的游戏引擎;


尽管如此,他认为这种技术将在未来五年颠覆游戏行业,并可能成为实现强人工智能的“最后一块拼图”


一个新范式的起点


Genie 3目前只向少数学术机构和创作者提供研究预览,DeepMind希望通过逐步扩大测试来发现潜在风险。The Decoder指出,模型存在交互时长有限、动作受限、多代理不稳定、地理信息缺失等技术瓶颈,但这些问题并不妨碍其成为未来AI训练和内容创作的重要平台。


从游戏视角来看,NVIDIA AI负责人Jim Fan形容Genie 3预示着“游戏引擎2.0”时代:未来无需显式3D素材和渲染管线,开发者通过提示即可驱动一块数据权重生成完整世界。DeepMind CEO Demis Hassabis也指出,世界模型让AI能在丰富模拟中自主学习,是通向AGI的关键。随着模型与大型语言模型、3D重建技术结合,实时生成的互动世界可能成为训练通用智能和构建新媒体形态的基础设施。


Genie 3的发布标志着世界模型进入了可用、可玩的新阶段:它不仅能根据文本生成高保真世界,还能让用户自由漫游、修改环境并保持记忆。尽管这一模型仍处于研究预览阶段,存在物理漏洞和多智能体限制,但其展现出的潜力让人看到游戏开发、机器人训练甚至科学模拟的全新可能。正如一位内测者所说,这也许是迈向真正AGI的“最后一块拼图”。


参考资料:

官方blog

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

官方摘要

https://www.linkedin.com/posts/googledeepmind_introducing-genie-3-a-groundbreaking-world-activity-7358499030621908992-Mqr_/

媒体报道

https://www.theverge.com/news/718723/google-ai-genie-3-model-video-game-worlds-real-time

https://the-decoder.com/google-deepminds-genie-3-generates-interactive-3d-worlds-that-stay-consistent-for-multiple-minutes/

官方视频

https://www.youtube.com/watch?v=PDKhUknuQDg

第三方的Demo合集

https://genie3.site/

内测用户反馈

https://x.com/tejasdkulkarni/status/1952737669894574264

最新的深度采访

https://www.youtube.com/watch?v=ekgvWeHidJs&t=6s


本文来自微信公众号:硅星GenAI (ID:gh_e06235300f0d),作者:大模型机动组

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...