SIMA 2:能在3D虚拟世界中交互、推理与进化的Gemini驱动AI代理
2025年11月13日,DeepMind发布了SIMA 2——这一新一代AI代理标志着人工智能在3D虚拟环境中的应用迈出了关键一步。作为SIMA(可扩展可指导多世界代理)的升级版,SIMA 2不再局限于简单的指令跟随,而是通过整合Gemini模型的强大能力,成为了一个能思考、会交流、可自我提升的交互式游戏伙伴。这不仅是游戏AI的突破,更为通用人工智能(AGI)和机器人技术的发展提供了重要参考。
从指令跟随到主动推理:SIMA 2的核心突破
第一代SIMA已经展现出跨虚拟环境执行基础指令的能力。它能完成超过600种语言指令对应的动作,比如“左转”“爬梯子”“打开地图”等,并且像人类玩家一样通过“观察”屏幕、使用虚拟键盘和鼠标操作,不依赖游戏底层机制。但它的核心局限在于:只能被动响应指令,缺乏主动思考的能力。
SIMA 2的革命性变化,源于将Gemini模型作为核心嵌入其架构。这让它从“执行者”变成了“思考者”——它能理解用户的高阶目标,围绕目标进行复杂推理,再通过熟练的动作在游戏中推进任务。
举个例子,当用户说“我们需要建造一个安全的避难所”,第一代SIMA可能会困惑于“安全”“避难所”这些抽象概念,而SIMA 2会先分析:“安全意味着需要防御外敌,可能需要高墙;避难所需要封闭空间,得先找材料,比如木材或石头。”然后它会一步步规划:先收集材料,再搭建框架,最后加固结构,甚至会边做边跟用户解释:“我现在去砍树,因为木材轻便,适合先搭框架,之后我们再找石头加固外墙。”
这种推理能力的实现,源于独特的训练方式:结合人类演示视频及对应的语言标签,再加上Gemini生成的标签。这让SIMA 2不仅能做事,还能“说清楚”自己在做什么、为什么这么做。很多测试者反馈,与SIMA 2互动时,更像在和一个能共同思考的伙伴合作,而不是对着机器发号施令。
[此处可插入SIMA 2在游戏中分析任务并解释步骤的截图]
泛化能力的飞跃:跨游戏甚至未知世界的适应力
“泛化能力”指的是AI将在一种场景中学会的能力迁移到新场景的本事——这是衡量智能的关键指标。SIMA 2在这方面的进步尤为显著,而这同样得益于Gemini的整合。
处理复杂指令和多模态提示
第一代SIMA擅长简单指令,而SIMA 2能理解更长、更复杂的任务。比如“先去东边的山顶找到红色旗帜,记下旗帜旁边石碑上的符号,再回到营地用这些符号打开宝箱”,这样包含多个步骤和空间关系的指令,它能拆解成清晰的行动序列。
更重要的是,它能理解“多模态提示”——也就是说,指令不一定只用文字。比如用户发一张地图截图,圈出目标位置,再配上一句“去这里拿钥匙”,SIMA 2能结合图像和文字信息行动;甚至发一个“🌾🔨”(谷物和锤子的 emoji),它也能理解是“去收割谷物,然后用锤子修理工具”。
跨语言与跨游戏迁移
SIMA 2支持多种语言交互,无论用户用英语、中文还是其他语言下达指令,它都能准确理解。更令人惊讶的是它对“概念迁移”的掌握:比如在A游戏中学会了“采矿”(用工具挖取地下资源),在B游戏中遇到“收割”(用工具获取植物资源)时,能快速理解两者的共通点——“用特定工具获取环境中的目标资源”,从而快速上手。
这种能力让它在从未训练过的游戏中表现出色。比如在维京生存新游《ASKA》中,它能快速理解北欧风格的建筑逻辑;在《MineDojo》(《我的世界》的研究版)里,它能把其他沙盒游戏中学会的“建造”“合成”技能迁移过来,完成搭建房屋、制作工具等任务。
在“想象世界”中验证极限
为了测试SIMA 2的泛化天花板,研究团队将它与另一个突破性项目——Genie 3结合。Genie 3能根据一张图片或一段文字描述,实时生成全新的3D虚拟世界。比如输入“漂浮在云端的水晶城堡”,Genie 3就能生成一个对应的可交互世界。
在这些完全陌生的“想象世界”里,SIMA 2依然能做到:
-
快速定位自身位置(“我现在在城堡门口,面前有一座吊桥”); -
理解用户指令(“去城堡顶层找发光的宝石”); -
采取合理行动(“吊桥是放下的,我先过去,然后找楼梯上楼”)。
这种对未知环境的适应力,已经非常接近人类玩家面对新游戏时的学习过程。
[此处可插入SIMA 2在Genie 3生成的虚拟世界中行动的演示图]
自我改进:从“教”到“学”的进化循环
SIMA 2最令人兴奋的能力,是它能通过自我学习不断提升——这让AI从“被动接受训练”走向“主动成长”。
自我改进的完整循环
这个过程像一个“学习-实践-反馈-再学习”的闭环:
-
初始任务与奖励估计:Gemini先给SIMA 2设定一个任务(比如“在《Valheim》中建造一个能抵御怪物的木屋”),并预估完成任务能获得的“奖励”(比如“木屋结构完整度80%以上”); -
自主尝试与数据积累:SIMA 2在游戏中自主尝试完成任务,过程中产生的所有行为数据(成功的步骤、失败的尝试)都会被记录下来,成为“自我生成经验库”; -
用自身经验训练:这些经验数据会被用来训练下一个版本的SIMA 2,让它从自己的成功中学习技巧,从失败中总结教训; -
迭代提升:新的版本会再次挑战任务,通常表现更好,产生更优质的经验数据,形成循环。
比如,最初SIMA 2在《Satisfactory》中可能不知道如何高效运输资源,经过几次尝试后,它会记录下“用传送带比手动搬运快”“传送带需要按坡度摆放才不会卡住”等经验,下次就能直接应用,甚至优化出更复杂的运输网络。
无需人类数据也能进步
更关键的是,这个循环可以完全脱离人类数据。在初始阶段学习人类演示后,SIMA 2能在全新的游戏中仅通过“自我玩耍”提升技能。比如在从未接触过的《Goat Simulator 3》中,它能自己摸索出“用头撞开特定障碍物”“利用环境物理效果移动物体”等独特玩法,不需要人类再提供演示视频。
甚至在Genie 3生成的全新世界里,它也能启动自我改进循环——这为未来在无限多样的虚拟环境中训练通用AI奠定了基础。
未来展望:从虚拟到现实的具身智能之路
SIMA 2在游戏环境中的进步,远不止于让游戏更好玩。3D虚拟世界是训练通用智能的理想“训练场”——这里有复杂的物理规则、多样的任务目标、丰富的互动对象,能让AI在安全、可控的环境中练习核心技能。
当前的局限
尽管进步显著,SIMA 2仍有需要突破的瓶颈:
-
长周期任务挑战:对于需要数十步甚至上百步推理的超复杂任务(比如“在《No Man’s Sky》中建造跨星球贸易网络”),它可能会在中间步骤迷失方向; -
记忆限制:它对过往交互的记忆依赖有限的“上下文窗口”,太久之前的对话或操作可能会被遗忘; -
精细操作与视觉理解:通过键盘鼠标执行高精度动作(比如在《Teardown》中精准切割物体)仍有难度;对复杂3D场景的视觉理解(比如快速识别混乱环境中的关键物品)也需提升。
这些局限不仅是SIMA 2的问题,也是整个具身AI领域需要共同解决的挑战。
对机器人技术的启示
SIMA 2学到的技能——导航、工具使用、协作执行任务等,正是物理世界中机器人需要的核心能力。比如,它在虚拟环境中学会“用扳手拧紧螺丝”的逻辑(“找到螺丝位置→握住扳手→对准→旋转”),未来有望迁移到真实机器人身上,帮助它们在家庭或工厂中完成类似任务。
可以说,SIMA 2的探索,正在搭建从“虚拟智能”到“现实智能”的桥梁。
负责任的发展:技术进步与风险管控并行
作为一款能交互、会自我改进的AI,SIMA 2的发展始终伴随着对责任与安全的考量。DeepMind在开发过程中,与“负责任发展与创新团队”密切合作,确保技术进步不脱离管控。
目前,SIMA 2处于“有限研究预览”阶段,仅向小范围的学者和游戏开发者开放早期访问权限。这样做的目的是:
-
收集多领域反馈,评估技术在不同场景中的表现; -
识别潜在风险(比如在开放世界中可能出现的不当行为); -
探索合理的风险 mitigation措施。
这种“小步快跑、多方协作”的模式,旨在让技术在可控范围内发展,最终实现对社会的积极价值。
常见问题(FAQ)
SIMA 2和第一代SIMA有什么本质区别?
第一代SIMA是“指令执行者”,只能根据明确指令完成动作;SIMA 2是“推理合作者”,能理解抽象目标、主动规划步骤、解释自身行为,还能通过自我学习提升能力,核心差异在于加入了Gemini的推理能力和自我改进机制。
SIMA 2能玩哪些游戏?
它在多款商业游戏中经过训练和测试,包括《Valheim》《Satisfactory》《Goat Simulator 3》《Hydroneer》《No Man’s Sky》《Space Engineers》《Wobbly Life》《Eco》《ASKA》《The Gunk》《Steamworld Build》《Road 96》《Teardown》等,还能适应《MineDojo》等研究性游戏,甚至Genie 3生成的全新虚拟世界。
它的“自我改进”会不会导致失控?
目前不会。其自我改进过程有明确的任务框架和奖励机制,且处于有限预览阶段,会持续接受人工监督和风险评估。开发者也在设计更完善的管控机制,确保技术发展的安全性。
SIMA 2离“通用人工智能(AGI)”还有多远?
它是向AGI迈进的重要一步,但仍有差距。AGI需要在更广泛的物理和虚拟环境中具备全面的理解、推理和学习能力,而SIMA 2目前主要聚焦于3D虚拟世界,在长周期任务、跨领域知识迁移等方面仍需突破。
普通玩家什么时候能体验到SIMA 2?
目前它还处于研究阶段,主要面向学术界和开发者开放。未来随着技术成熟和风险评估完成,可能会逐步扩展应用范围,但具体时间尚未确定。
结语
SIMA 2的出现,展示了AI在3D虚拟世界中从“工具”到“伙伴”的转变。它不仅能听懂指令,还能思考、交流、进步——这种能力的背后,是Gemini模型的推理力与具身智能研究的结合。
尽管还有局限,但它验证了一条重要路径:通过整合强大的语言模型与多环境训练数据,能打造出兼具广度和深度的通用智能代理。从游戏中的协作,到未来机器人在现实世界中的服务,SIMA 2的探索正在为人工智能的“具身化”铺平道路。而这种探索,始终以负责任的态度推进,确保技术进步真正服务于人类。
