(来源:图灵人工智能)
导语
在前两期的讨论中,我们从简单规则出发,看到计算机如何通过最基本的机制生成复杂结构,这也构成了复杂性科学的重要起点。进一步地,我们将这种“规则生成世界”的思想带入交互系统,尝试让知识不再被线性传递,而是在环境、行动与反馈的循环中被体验与理解。
随着实时渲染与交互技术的发展,知识开始嵌入空间与系统之中,通过探索逐步涌现。而当程序化生成与生成式 AI 被引入,虚拟世界进一步获得“自我生长”的能力——地形、生态乃至社会结构,都可以在规则与算法中不断演化。
在这样的路径上,游戏逐渐从内容媒介转变为一种方法:它既是复杂系统的实验场,也是理解现实的一种方式。我们将在读书会第三期分享交流,当世界本身变得可计算、可生成,我们或许正在进入一种新的认知框架——理解与行动,不再被给予,而是在持续的互动中不断生成。
关键词:程序化生成(Procedural Generation),具身智能(Embodied AI),世界模拟器(World Simulator),多智能体系统(Multi-agent System),虚幻引擎5(Unreal Engine 5),LLM智能体(LLM Agent)
任筱芃丨作者
赵思怡丨审校
论文题目:SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds
论文链接:https://neurips.cc/virtual/2025/poster/119002 (扩展更新版:https://arxiv.org/abs/2512.01078)
发表时间:2025年12月
论文来源:NeurIPS
楔子
LLM的技术缺口并非抽象的学术命题。它已经以事故的形式,在真实世界中示现。2026年春节,Meta的Summer Yue将开源AI智能体OpenClaw接入工作邮箱整理邮件。她下达了明确指令——“仅建议归档或删除的邮件名单,未经我批准,绝不擅自执行操作”。OpenClaw仍然失控,疯狂删除了200多封邮件,最终不得不狂奔去拔网线才终止操作。同年3月,一位开发者让AI编程助手协助服务器迁移,结果AI在无人监督下自主执行了破坏性命令,瞬间抹除了2.5年的生产数据及全部备份。
图0:X.com截图这些事故发生在数字世界中,操作对象不过是邮件和文件。而当同样的智能体被放进城市街道、驾驶车辆、与行人互动时,失控的代价将从删库升级为什么就难以言说了。但事故只是问题的一面。另一面更微妙,即使AI没有“失控”,它也可能根本不理解自己被要求做什么。
2025年,GPT-4o在美国律师资格考试中超越了90%的人类考生。同年,Claude-3.5-Sonnet在研究生级别推理基准GPQA上得分超过领域专家。Gemini在蛋白质结构预测上逼近实验精度。DeepSeek-V3以不到600万美元的训练成本,在多项基准测试中追平了花费数十倍资源的竞争对手。然后,都给我去送外卖吧。<( ̄︶ ̄)↗[GO!]
把当时最强的十个大语言模型放进了虚幻引擎5构建的3D城市里,让它们竞价接单、取货配送、管理能量和资金。结果令人错愕。GPT-4o-mini的所有指标为零——它连表现出理解“赚钱”是什么意思的能力都没有;Claude-3.5-Sonnet虽然拿到了最高利润,但会花光全部积蓄买滑板车却从不使用;DeepSeek-Prover-V2的决策反复横跳,标准差几乎和均值一样大。通过律师考试的天才,送不了外卖。解得出奥数金牌的模型,不理解“先接单,再取货,再送货”这个几乎任何人都能理解的因果链。
这项研究精确地指向了当前AI研究的一个结构性盲区。我们擅长训练模型在结构化的、规则明确的环境中做"题"——这类环境的特征是状态空间有限、反馈信号明确、动作语义封闭,却几乎没有办法评估它们在开放的、嘈杂的、充满竞争与合作的物理-社会世界中"活劳动"的能力——那里的状态空间开放且动态演化,反馈延迟、稀疏且多义,动作的因果后果跨越时间步骤累积。而后者才是AI智能体最终必须面对的战场。
症结之一在于缺乏合适的试验场。现有平台要么物理引擎简陋,要么领域过于狭窄,要么社会结构单薄。SimWorld试图填补这一空白。它是一个基于虚幻引擎5的开源模拟器,兼具真实的物理引擎、程序化生成的无限城市、以及原生支持LLM/VLM的智能体接口。SimWorld不让AI做题刷榜,要让AI真正面对"生活",使原本隐性的能力缺陷变得可观测、可量化、可复现。
研究背景与问题
AI智能体的数字-物理鸿沟
近年来,以GPT-4、Claude、Gemini为代表的大模型智能体在结构化领域(数学、编程、网页浏览)取得了长足进步。然而,这些环境相对干净,也即是规则明确、反馈清晰的。相比之下,智能体最终被期望在其中运作的物理-社会世界,本质上是复杂、嘈杂、动态和混沌的。
要推进具身智能体的发展,研究团队需要一种新型的模拟环境。然而,现有的世界模拟器存在三个层面的不足。
三个层次的“不够”
游戏化平台不够真。Minecraft等平台虽然为具身交互提供了可访问的环境,但物理引擎简陋——Minecraft依赖离散的方块机制,没有真实的重力或惯性,社会结构单薄,限制了向真实世界的泛化。
领域专用模拟器不够通用。CARLA 专注自动驾驶(仅有15个场景)、AI2-THOR 聚焦家庭机器人、Habitat 3.0 面向室内协作——它们各自深耕一个狭窄的领域,场景有限、任务单一,无法支持开放世界式的多维度研究。
社交沙盒不够深。Stanford的“生成式智能体”实验(Smallville)和 Virtual Village 等项目模拟了人际互动,但规模小(Smallville仅25个角色)、脚本性高、缺乏物理基础,且不支持LLM原生接口。
图1:SimWorld与现有模拟器的对比。在“开放世界”(程序化生成+语言可控编辑)、“物理/社会真实度”、“动作空间”(抽象层级+开放词汇)等维度上,SimWorld是唯一全面打勾的模拟器。其他平台如Minedojo(Minecraft)、CARLA(自动驾驶)、Habitat 3.0(家庭机器人)、Genesis(机器人)等均在至少一个关键维度上缺失。
SimWorld同时满足真实(UE5物理引擎)、开放(程序化生成无限城市)、LLM原生(Gym-like接口 + 开放词汇动作空间)三个维度。
SimWorld 三大核心设计
SimWorld采用三层架构(图2)如下。底层是虚幻引擎后端(C++),负责高保真渲染和物理模拟;中间是环境层(Python),提供程序化城市生成、交通系统和标准化的Gym-like接口;顶层是智能体层(Python),集成LLM/VLM推理引擎、观测空间和动作规划器。三层通过UnrealCV+通信模块(TCP协议)连接,形成完整的“感知-规划-行动”闭环。
图2:SimWorld架构图。真实、开放的世界模拟
SimWorld的核心底气来自强大的虚幻引擎5。
在场景层面,SimWorld支持两种模式。100多个手工精选场景(涵盖古镇、自然风光、未来城市、奇幻世界等多种风格)和程序化自动生成的城市。程序化生成采用模块化管线(基于四叉树数据结构),依次生成道路网络、建筑布局和街道元素(树木、路锥、长椅、停放的车辆),所有参数(城市规模、建筑密度、车辆和行人数)均可自定义,支持理论上无限的环境扩展。
更值得注意的是LLM驱动的场景编辑功能。用户或AI智能体可以用自然语言实时修改场景——例如“在医院大门旁的钟楼附近加一些桌子和树木”。系统通过检索增强生成(RAG)的LLM场景智能体来理解指令,从资产库中检索匹配对象并放置到指定位置。如果资产库中没有合适的对象,系统会调用 Text-to-3D 生成模型(Hunyuan3D)来合成新的3D资产,自动赋予材质、光照和碰撞属性后集成到环境中。
在物理层面,SimWorld使用了更完整的物理动力学参量。重力、动量、碰撞响应、滑动、绊倒等真实物理模拟效果,远非Minecraft式的离散方块可比。系统还支持天气和光照变化(雨、雪、雾、方向光、环境光),以及由PID控制器驱动的交通系统(车辆运动、行人流、交通信号灯同步)。
系统支持三种具身形态——人形、车辆和机器人——在统一的物理框架内运行,共享质量、惯性、接触力等属性。
丰富的LLM/VLM智能体接口
SimWorld提供标准Gym-like接口,与现有的强化学习管线和智能体框架无缝集成。
观测空间分为两类。视觉观测(第一人称的RGB图像、深度图、语义分割掩码)和结构化语义信息(语义场景图编码环境中的实体、属性和关系,以及GPS式定位信息)。
动作空间采用双层架构。高层语义动作用自然语言表达(如“坐在最近的椅子上”),低层原始动作提供细粒度控制(前进、转向、拾取、放下、坐下、开车门、骑滑板车等)。系统内置动作规划器(Action Planner),自动将高层意图解析为低层动作序列。例如,接收到“走到最近的椅子坐下”后,规划器先计算最短路径,生成一系列导航原语(navigate(0,1)→navigate(1,10)→...),到达目标后执行“坐下”动作。规划器支持两种执行模式。基于规则的执行器(使用抽象城市布局信息)和基于视觉的执行器(直接消费模拟器的视觉观测,与VLM/VLA端到端集成)。
SimWorld还支持两种运行模式。异步模式(每个智能体独立运行,适合大规模开放探索)和同步模式(所有智能体同步推进,适合需要可复现性的受控实验)。
多样的物理-社会推理场景
在上述基础上,SimWorld支持超越短期任务的长程目标——赚钱、发展职业轨迹、经营多智能体企业,策略决策随时间累积,社会动态影响结果。配套的三层评估框架覆盖总体表现(利润)、运营效能(成功率、能效)和行为特征(分享次数、投资次数)。
案例研究:一个“外卖”比赛
为展示SimWorld的完整能力,研究团队设计了一个配送任务(Delivery Task)。在程序化生成的城市中部署LLM驱动的配送智能体,让它们竞价抢单、取货配送、购买道具(如5倍加速滑板车)、管理能量(如买饮料恢复体力),以及通过分享订单实现多智能体协作。
图3:配送任务概览。一个需要多智能体协作与竞争的配送场景。每个智能体被赋予不同的性格(尽责、开放、外向、神经质)和初始状态,可以行动以成长、发展并最终最大化收益。
实验中,每个模型控制20个代理,运行5000步,每步发出2次API请求,平均每次约7000个token。研究团队采用ReAct提示框架明确分离推理和行动选择,对10个基础模型进行了三轮重复实验。
谁是最强“外卖员”?
图4:模型控制智能体的表现。指标报告为三次5000步模拟的均值(Avg)和标准差(Std)。当九个模型在 SimWorld 的配送实验中展现出参差的表现时,最直觉的反应是给它们排名——谁赚得最多,谁最稳定,谁最差。我们确实能根据利润列看到清晰的排序。DeepSeek-V3(69.48)> Claude-3.5-Sonnet(69.07)> GPT-4o(43.91)> Gemini-2.5-Flash(42.42)> Gemini-2.0-Flash(28.72)> Qwen3-32B(24.73)> DeepSeek-Prover-V2(21.66)> QwQ(17.31)> GPT-4o-mini(0.00)。
但这种排名掩盖了更有价值的信息,因为不同模型的失败模式并不相同,它们停在了“能力金字塔”的不同层级上。配送任务所需的能力可以被分解为五个递进的层级,每一层的失败都指向一种不同性质的认知缺陷。
第一层:目标理解
能听懂“赚钱”这个目标吗?
GPT-4o-mini的所有指标为零——利润 0.00、成功订单 0.00、能效 0.00、分享 0.00、投资 0.00。论文的判断是:“它并未真正理解目标,无法基于给定指令和上下文做出合理决策”("it does not truly understand the goals well enough to make reasonable decisions based on the given instructions and context")。
5000 步,一步未动。不是做得差,是完全没有开始。
GPT-4o-mini 接收到了规则说明、订单推送和地图信息,在字面意义上“理解”了每一个句子,却无法将这些句子组织成一个可执行的目标。原文可见研究团队清晰地定义了高层动作——竞标、取货订单、配送订单、共享订单、购买滑板车、购买饮料等——但 GPT-4o-mini 无法将这些动作按因果顺序编排成一串可执行的序列。
图5:配送任务中的分层动作空间设计。这种“目标翻译”能力可能不是推理能力的线性延伸,而是一个独立的、当前某些模型完全缺失的能力维度。更强的模型(Claude、DeepSeek-V3)能通过更长的推理链隐式地完成这个翻译,但 GPT-4o-mini 在这道门槛前完全卡住了。
诊断: GPT-4o-mini 停在金字塔的第一级——它甚至没有进入游戏。
第二层:交付闭环
能走完“竞价→取货→配送”这条因果链吗?
跨过第一层的模型都在做事情,但“做事情”和“完成事情”是两回事。图4的成功订单列精确地测量了这一点。
DeepSeek-Prover-V2 和 QwQ 暴露了一种特殊的失败。它们并非不活跃——DeepSeek-Prover-V2 有较高的分享次数(7.33 ± 8.39),QwQ 有一定的投资行为(3.33 ± 2.52)——但它们几乎没有完成配送。DeepSeek-Prover-V2 的成功订单是全部活跃模型中最低的(0.67 ± 0.14)。
论文在模型竞争消融实验中对 QwQ 的观察也印证了这一点:它们“整体活跃度较低,导致竞价次数和订单获取率偏低”(“QwQ-32B and GPT-4o-mini are less active overall, leading to fewer bids and lower order acquisition rates”)。但图4显示 QwQ 的投资不为零(3.33),说明它并非完全不活跃——它在参与某些环节(如投资)的同时,未能走完交付闭环。
这是一种比 GPT-4o-mini 的完全失败更微妙的缺陷。模型理解任务,参与了一些环节,却无法将局部行为串联成完整的交付链条。“活跃但不产出”比“不活跃”更难诊断和修复。
诊断: DeepSeek-Prover-V2 和 QwQ 勉强跨过了第一层,但在第二层断裂——它们有活动,但没有闭环。
第三层:资源与风险权衡
能在有限预算下做出连贯的决策吗?
跨过前两层的模型(Claude-3.5-Sonnet、DeepSeek-V3、GPT-4o、Gemini-2.5-Flash、Gemini-2.0-Flash、Qwen3-32B)都进入了第三层——它们能接单、配送、管理基本资源。但正是在这一层,六个模型展现出了截然不同的策略风格,也暴露了不同类型的权衡模式。
论文的核心观察是:在“优化峰值平均性能指标”与“确保一致、可预测的智能体行为”之间存在普遍的权衡("a prevalent trade-off between optimizing for peak average performance metrics and ensuring consistent, predictable agent behavior")。但不可预测性在不同模型身上的表现形式并不相同:
利润 vs. 稳定性。 DeepSeek-V3 和 Claude-3.5-Sonnet 像高风险高回报的投机者,利润最高但波动剧烈;Gemini-2.5-Flash 像保守的储蓄者,利润中等但几乎零波动;GPT-4o 像稳健的投资者,处于两者之间。
(表格已重排,非原文指标。GPT-4o-mini 已排除。)投资 vs. 效率。 Claude-3.5-Sonnet 和 DeepSeek-V3 像积极的投资人,投资次数最多,但 Claude 的投资更“精准”,每单位能量产生的收入更高;Qwen3-32B 像高效的工人,能效很高,但总量太小。
分享 vs. 孤立。 Claude-3.5-Sonnet 像乐于分享的合作者,分享次数最多但不稳定;DeepSeek-V3 像孤立的独行侠,分享极少但非常稳定;GPT-4o 像几乎不合作的独狼,分享几乎为零。
诊断: 没有模型在这一层达到完美的策略一致性。表现最好的 DeepSeek-V3 和 Claude-3.5-Sonnet 勉强攀到了第三层的顶部,但通过不同的路径——DeepSeek-V3 靠稳定的孤立策略和高投资,Claude-3.5-Sonnet 靠高能效和高合作(但不稳定)。Gemini-2.5-Flash 用“不做冒险决策”的策略绕过了第三层的部分问题,但代价是平庸的表现。
第四层:社会推理
能理解“别人”并据此调整行为吗?
配送任务中的社会维度主要体现在两个机制上——竞价竞争和订单分享。图4的分享次数列和模型竞争消融实验(原文Section 3.3)共同测量了这一层。
消融实验揭示了三种定价模式:
灵活定价型(Claude-3.7-Sonnet、Gemini-2.5-Flash、Gemini-2.0-Flash):出价分布广,根据竞争态势调整。中标率较高。
掠夺定价型(DeepSeek-Prover-V2、Qwen3-32B):经常报低价,在直接对抗中胜率最高。但低价中标意味着利润率被压缩——“赢了战役、输了战争”。这两个模型的利润确实很低(21.66、24.73)。
高价滞销型(GPT-4o、LLaMA-3.2-11b):出价偏高,中标率低。GPT-4o 在消融中处于劣势,但在主实验中利润排第三——因为它在主实验中不需要与其他模型直接竞争。
图6:竞价行为与评估结果。(a) 各模型的竞价价格分布(小提琴图),红色点为成功接受的竞价。低价虽然增加中标概率,但往往以利润率为代价。(b) 模型间两两对抗的胜-负矩阵,红色为更多胜利,蓝色为更多失败。
值得注意的是,这三种策略的“优劣”高度依赖环境结构。在混合竞争环境中,灵活定价和掠夺定价各有优势;在单模型环境中,策略差异的影响被弱化。这说明 AI 智能体的“社会能力”不是绝对的,而是相对于竞争环境而言的。
分享行为是配送任务中唯一的合作机制。图4的分享列揭示了合作行为的两个独立维度——水平(均值)和稳定性(标准差):
(表格已经重排,变异系数为衍生计算,非原文指标。)Claude-3.5-Sonnet 平均分享最多,但也不稳定。DeepSeek-Prover-V2 更极端——变异系数高达 1.14。这意味着两个模型在合作行为上的“判断力”是可疑的。它们不是因为评估了合作是否有利而选择分享,而更可能是因为推理链的随机性在某些运行中经过了“分享”语义区域。
真正的社会推理应该是在对方信誉好且订单互补时分享,在对方是竞争对手时保留。但图4的数据暗示,目前的智能体在“分享”与“不分享”之间的切换更接近策略漂移而非社交判断。
环境配置消融实验提供了一个更细致的视角。论文发现订单充裕时分享行为增加——“随着资源充裕度提高,智能体表现出更强的发起和完成共享配送的倾向,这可能是通过协作来降低能量成本的手段”("as resource abundance increases, agents demonstrate a higher tendency to initiate and complete shared deliveries, likely as a means to reduce energy costs through collaboration")。这看起来像社会推理的涌现,但更可能是一种更简单的机制在起作用,即资源充裕时 prompt 中的“合作”相关语境被激活的概率更高。这是在使用统计相关性模仿社会认知,而非真正的“理解他人”。
诊断: 所有模型在第四层都踉跄。它们的“社会行为”更多是推理链随机性的副产品,而非对社会情境的判断。但不同模型的“社会缺陷”类型不同——Claude 是“有时过度合作有时完全不合作”,DeepSeek-V3 是“稳定地有限合作”,GPT-4o 是“稳定地几乎不合作”。
第五层:策略一致性
能在 5000 步内维持一个连贯的“自我”吗?
这是金字塔的最高层,也是所有模型共同失败的一层。它的证据不在某一个指标中,而是分散在图4的所有标准差列里。
Claude-3.5-Sonnet 的不稳定性集中在分享行为,利润和成功订单的方差也大,但能效相对稳定。
DeepSeek-V3 的不稳定性集中在利润,但成功订单、分享和投资都相对稳定。它的不稳定性不是“策略漂移”,而是“策略结果的波动”。
Gemini-2.0-Flash 的不稳定性分散在利润和成功订单上,但分享和投资的方差较小。
GPT-4o 的利润方差中等,但分享几乎为零且极度稳定,投资也很稳定。它的“一致性”实际上是一种一致的不作为。
这些差异指向一个更深层的诊断:策略不一致性有多种类型,需要不同的修复方案。
Claude 式的不一致(合作行为在运行间剧烈波动)可能需要更强的跨步骤状态记忆或策略锚定机制。DeepSeek-V3 式的不一致(利润波动但行为稳定)可能不是推理缺陷,而是环境随机性在结果层面的放大——同样的策略在不同的订单流和竞争条件下自然会产生不同的利润。Gemini-2.5-Flash 的极端一致性(利润变异系数仅 0.07)可能是过度保守策略的副产品——它通过拒绝风险来消除波动,但也放弃了上升空间。
人格消融实验(Section 3.3)提供了策略一致性的另一个视角。论文使用表现最好的模型控制 20 个智能体,每个 Big Five 维度分配给 2 个智能体。Pearson 相关矩阵显示人格设定确实塑造了行为——尽责性与竞价胜率正相关(r = 0.65),宜人性与“什么都不做”强负相关,开放性与配送订单数负相关,开放性与购买滑板车正相关,外向性与购买饮料正相关。
图7:人格对智能体表现和行为的影响。尽责性与竞价胜率正相关(r=0.65),与竞价次数负相关(r=-0.64);宜人性与“什么都不做”次数强负相关(r=-0.70);开放性与配送订单数负相关(r=-0.70)。
这里有一个被低估的亮点:Big Five 人格特质不仅显著影响了智能体的决策策略(尽责的更勤奋、开放的更爱冒险),而且这些影响可以通过线性回归量化(相关系数在 0.63–0.70 之间)。这意味着“给 NPC 一个性格”不再是一个模糊的设计直觉,而是一个可以被精确调控的工程参数——对游戏设计师而言,AI NPC 的“性格”可以成为可调校的工具,就像物理引擎中的重力参数一样。
但即使在同一人格设定下,同一模型的不同运行之间仍然存在显著方差。人格设定塑造了统计意义上的行为倾向,但没有塑造出我们期望于一个“性格稳定的人”的那种跨时间连贯性。LLM 的每一步推理都是从 prompt 重新开始的,人格设定只是一个增加某些输出概率的偏置项,而非一个持续影响感知、记忆和决策的内在结构。
诊断: 没有模型到达金字塔的顶端。策略一致性是当前所有模型的共同短板——不是它们不知道该怎么做,而是它们无法在长时间跨度中持续地做“自己知道正确的事”。
诊断总结
把五层诊断叠在一起,我们就能看到一幅能力渐次缺失的场景
从第三层到第四层有一个大断裂。第三层的问题可以通过更强的推理模型来部分解决(GPT-4o、Claude、DeepSeek-V3 的表现优于其他模型),但第四层和第五层的问题似乎对所有模型都平等地存在——无论推理能力多强,策略一致性都无法自动获得。
这组诊断的意义不在于嘲讽 AI“连外卖都送不好”。但是如果你想让 AI 智能体在真实世界中可靠地行动,你可能需要依次解决目标分解、交付闭环、策略权衡、社会认知和策略一致性这五个问题。SimWorld 的价值正在于让这些原本隐性的能力缺陷变得可见、可量化、可复现。
这不是一场 AI 之间的竞赛,而是一场 AI 与自身能力边界的较量。当今最强的 LLM 在“送外卖”这件看似简单的事情上表现参差——DeepSeek-V3 和 Claude-3.5-Sonnet 赚了最多的钱但行为不稳定,Gemini-2.5-Flash 最稳定但收益中等,GPT-4o-mini 完全不理解目标。如果连送外卖都做不到完美,那我们对 AI 智能体“自主赚钱”以及更进一步的AGI的期待需要校准。
产业对照
从Stanford Smallville的25个AI角色在一个简陋的2D像素小镇里过日子,到SimWorld把数十个LLM智能体放进虚幻引擎5构建的3D城市里送外卖——这条技术路径的演进速度令人瞩目。而当我们注意到Krafton用同一个引擎做《inZOI》、Rockstar为NPC导航系统申请专利、腾讯报告1.1亿用户已经体验过AI NPC时,会发现AI研究者和游戏开发者的工作正在从平行线变成交汇线。
SimWorld选择虚幻引擎5作为底层引擎,这并非偶然。UE5是当今游戏工业最主流的引擎之一,这意味着SimWorld所构建的世界,在视觉和物理真实度上已经与商业游戏站在同一维上。而当我们把目光投向产业界,会发现一场静悄悄的合流正在发生。
模拟器与游戏对照
Krafton的《inZOI》同样基于UE5,同样追求全城同时模拟的体验——官网宣称“整个城市不断同时模拟”(the entire city is constantly being simulated all at once),在2025年以抢先体验形式上线Steam后,预计2026年上半年登陆PS5。它的NPC行为同样由AI驱动,只不过目的是娱乐玩家而非训练智能体。
图8:《inZOI》游戏截图Rockstar的《GTA 6》(预计2026年11月发售)走的是另一条路。Take-Two Interactive 的 CEO Strauss Zelnick明确声明:“生成式AI在Rockstar Games的制作中零参与”(Generative AI has zero part in what Rockstar Games is building)。GTA 6的世界是手工打造的巨城,NPC行为由传统行为树和多项专利技术(包括新的NPC虚拟导航系统和基于环境条件的动态动画系统)驱动,追求极致的可控性和叙事品质。
图9:《GTA 6》海报米哈游创始人蔡浩宇的新公司Anuttacon则走出了第三条路:《Whispers from the Star》以AI实时对话为核心玩法——玩家通过自然语言与AI角色Stella互动,引导她在太空生存场景中行动。这款游戏本质上是把SimWorld式的“LLM驱动智能体”概念直接做成了商业产品,只不过SimWorld里的受自然语言约束的配送员变成了幸存者。
图10:《Whispers from the Star》官网两条路线的分歧:可控性 vs. 涌现性
上述对照揭示了游戏工业在AI NPC问题上的根本张力。
GTA 6路线选择完全的可控性——不用生成式AI,所有内容由艺术家和设计师手工打造。代价是极高的制作成本和漫长的开发周期(GTA 6的开发周期已超过10年),但回报是对交互的精确控制。
SimWorld/inZOI路线则拥抱涌现性——让LLM驱动的NPC在物理世界中自主行动,接受一定程度的不确定性和不可预测性。SimWorld的配送实验已经揭示了这种涌现性的两面:一方面,人格设定确实塑造了可预测的行为模式(尽责的智能体更勤奋);另一方面,即使是当今最强的模型也会做出不理性的决策(花光积蓄囤积滑板车)。
这两条路线并非互斥。未来的游戏很可能是混合架构——核心叙事由设计师把控(GTA 6路线),而世界填充和背景NPC行为由LLM驱动(SimWorld路线)。
这条可控性-涌现性的光谱已经在产业实践中先行展开。当SimWorld还在用配送任务验证LLM智能体的行为逻辑时,中国的游戏公司已经把AI NPC推向了上亿用户——腾讯的《和平精英》AI NPC累计体验用户过亿,网易的《逆水寒》甚至搭建了游戏内的“大模型竞技场”让玩家直接评判不同模型的NPC表现,巨人网络等公司则将AI能力嵌入现有玩法的具体环节(动态剧情、策略预判)。但这些实践与SimWorld之间形成了清晰的分野。SimWorld赋予智能体完全的自主性——经济动机、人格特质、竞争合作;腾讯和网易的AI NPC能交互,但行为仍受游戏框架约束;更多的公司(如巨人网络)则走得更保守,只在特定环节引入AI。核心张力始终是同一对矛盾,即可控性与涌现性之间的平衡,而产业界人士正在这条光谱上寻找各自的落脚点。
从产业端看,SimWorld提供了一个统一的、可复现的、可扩展的试验场,让我们能够系统地测量“AI离在真实世界中生存还有多远”。这个测量结果也在告诉游戏公司一个重要的信息。你们的AI NPC在各种意义上都可能比你以为的更笨——或者更聪明——取决于你用的是哪个模型,以及你给了它什么样的prompt。
该研究的局限性
研究团队虽未在论文中明确列出“局限性”章节,但从实验设计和结果中可以识别出以下问题:
场景验证单一:虽然SimWorld号称支持“赚钱、职业发展、经营企业”等长程目标,但论文仅展示了配送这一种场景。系统在更复杂的社会推理场景(如车联网)中的表现仍有待验证。
模型评估不够深入:主要关注利润等宏观指标,对智能体的推理质量、常识错误(只买不用的滑板车)、安全风险等缺乏细粒度分析。这些“错误行为”实际上可能蕴含着更深层的研究价值。
计算成本高昂:每步2次API调用、每次约7000个token,5000步 × 20个代理意味着巨大的API开销,这在一定程度上限制了实验的可扩展性和可复现性。
物理-社会耦合尚浅:配送任务中的“社会”维度主要限于竞价和分享订单,尚未涉及更复杂的社会结构(如组织、规范、文化)。
缺乏真实世界验证:所有实验均在模拟环境中进行,智能体在SimWorld中学到的策略能否迁移到真实世界,仍是一个开放问题。
论文性质:虽然论文已被NeurIPS 2025接收,但目前的案例研究主要关注利润等宏观指标,对智能体的推理质量、常识错误、安全风险等缺乏细粒度分析。作为一个平台型工作,SimWorld的系统说明属性仍强于严格评估,社区需要在更多样化的场景和更严格的对照实验中检验其能力。
结语
SimWorld作为开源项目发布,这本身就值得肯定。在游戏引擎和AI模型都日益封闭的趋势下,一个基于UE5的、开放的、可定制的世界模拟器,为跨学科合作(机器人学、社会科学、商业、公共卫生、教育)提供了公共基础设施。SimWorld能不能成为它所期望的“奠基性平台”,取决于社区能否在配送任务之外,构建出更多样、更有挑战性的场景——那些真正考验AI智能体在物理-社会世界中“生存能力”的场景。
参考文献
1. Ren, J., Zhuang, Y., Ye, X., Mao, L., He, X., Shen, J., Dogra, M., Liang, Y., Zhang, R., Yue, T., Yang, Y., Liu, E., Wu, R., Benavente, K., Nagaraju, R. M., Faayez, M., Zhang, X., Sharma, D. V., Zhong, X., Ma, Z., Shu, T., Hu, Z., & Qin, L. (2026). SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds. arXiv:2512.01078v2. https://arxiv.org/abs/2512.01078
2. KRAFTON. (2025). KRAFTON Announces inZOI for PlayStation 5, Launching in H1 2026. https://www.krafton.com/en/news/press/krafton-announces-inzoi-for-playstation-5-launching-in-h1-2026/
3. Rockstar Games. (2025). Grand Theft Auto VI is Now Coming May 26, 2026. https://www.rockstargames.com/newswire/article/258aa538o412ok/grand-theft-auto-vi-is-now-coming-may-26-2026
4. Anuttacon. “Whispers from the Star.” Anuttacon, 14 Aug. 2025, https://wfts.anuttacon.com/.
5. Park, J. S., O'Brien, J., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023.