继此前在今年2月,谷歌DeepMind团队公布了可基于用户输入的合成图像、照片、草图等提示,生成一个多样化二维世界的AI基础世界模型Genie(精灵)后。日前DeepMind方面推出新一代的AI基础世界模型Genie 2,能够生成各种可操作、可玩的三维环境,用于训练和评估通用具身智能体。
据官方介绍,Genie 2能够基于用户输入的单张提示图像,创造出一个可通过键盘和鼠标操作的交互式三维环境,并模拟采取任何行动所造成的后果,例如跳跃、游泳等。以输入“树林里可爱的人形机器人”为例,Genie 2会构建一个包含机器人角色和可探索的森林动态场景,使得用户能够操控角色在这个虚拟世界中进行跑步、跳跃等互动行为。
值得一提的是,Genie 2还可在生成过程中模拟物体交互、动画、光照、物理反射,以及“非玩家角色”(NPC)行为,并且在物体视角一致性和场景记忆方面表现优异,甚至还能记住模拟场景中不在视野范围内的一部分,并在它们再次可见时准确地进行渲染。此外其还能生成具有不同视角的连贯世界,如第一人称和等距视角,并且持续时间最长可达1分钟、大多数能持续10至20秒。
对此DeepMind方面表示,通过Genie 2的泛化能力,概念艺术和手绘草图可转化为能够互动的环境,因此可使得研究人员快速生成多样化的环境,为未见过的任务提供评估支持,或是为通用具身智能体生成在训练过程中没有见过的评估任务。
但需要注意的是,Genie 2目前仍处于早期阶段,在智能体和环境生成能力方面还有很大改进空间。不过DeepMind方面认为,这一模型将能够解决安全训练通用具身智能体结构性问题的有效途径,同时也实现了向通用人工智能(AGI)迈进所需的广度和通用性。
据了解,近年来谷歌在世界模型领域的投入保持持续增长。例如此前在2022年,DeepMind就从Meta聘请了因《NetHack》等游戏“开放性”实验闻名的Tim Rocktäschel。随后在2023年10月,又招募了OpenAI视频生成大模型Sora的前项目负责人Tim Brooks。
此前英伟达高级研究科学家、通用具身智能体研究小组负责人Jim Fan曾表示,“Sora很好,但是Genie将会是具身智能体的主干之作”,以及“与Sora不同,Genie实际上是一个由行动驱动的世界模型,具有推断行动的能力。2024年也将是基础世界模型之年”。
【本文图片来自网络】