小米14 Pro vivo X100 一加12 iPhone 15 iQOO 12

Sora负责人称，其仍处于视频模型的“GPT-1阶段”

时间：2024年04月28日栏目：互联网来源：原创编辑：长生

日前，OpenAI旗下视频生成大模型Sora的三位负责人出席了海外知名播客节目NoPriors，透露了一些Sora的训练细节，并谈及了该模型的应用前景等话题。据了解，这三位负责人分别是Bill Peebles、Tim Brooks、Aditya Ramesh，其中Aditya Ramesh同时也是OpenAI图像生成模型DALL·E的开发者。

Bill Peebles认为，像Sora这样的模型是实现通用人工智能（AGI）的关键步骤，因为它能模拟复杂的环境和世界。Bill Peebles指出，“展望未来，随着我们继续扩大像Sora这样的模型，我们认为我们将能够构建类似世界模拟器的东西，而且基本上任何人都可以与它们互动。作为人类，我可以运行自己的模拟器，我可以去给模拟器中的人布置工作，他们做完后可以带着工作回来。我们认为这是通往AGI的道路，随着我们未来扩大Sora的规模，AGI就会实现”。

Sora负责人称Sora仍处于视频模型的“GPT-1阶段”

当被问及Sora的路线图时，Tim Brooks透露，虽然公司目前还没有制定出具体的产品计划或时间表，但正在将Sora的访问权限提供给一小部分艺术家以及红队成员，以开始了解Sora将产生的影响。对此他强调，“我们真的希望能与OpenAI以外的人交流，思考Sora将如何影响世界，以及它将如何对人类有用”。

在被进一步追问“何时Sora这种模型能够在短篇电影或其他领域得到更广泛应用”时，Tim Brooks表示，“我没有确切的时间表预测。我真正关心的一件事情是，除了传统电影之外，人们还可能用Sora创作出什么其他东西。我认为，在接下来的几年里，我们会看到人们开始制作越来越多的电影，但我认为人们也会找到使用这些模型的全新方式，这些方式与我们习惯的当前媒体完全不同。因为这是一个非常不同的范例，你可以告诉这些模型你希望看到什么，它们可以对此做出某种反应，从而催生出一种的新内容交互模式，这些模式会被那些富有创造力的艺术家所发掘出来。所以我实际上最兴奋的是人们将要做的事情，这些事情与我们目前所做的完全不同”。

对此Aditya Ramesh透露，“目前Sora实际上只接受文本作为输入。虽然这很有用，但在能够指定你想要的精确描述方面仍然相当受限。因此，我们正在考虑如何在未来扩展模型的功能，以便您能够提供除文本之外的输入。”

同时Aditya Ramesh还指出，“我认为展望未来，模型会赋予人们某种力量，让他们理解你的个人审美感，这将是很多人期待的事情。我们接触的许多艺术家和创作者都希望将他们的全部资产上传到模型中，这样在写标题时就可以借鉴大量的作品，并让模型理解他们设计公司几十年来积累的术语等等。因此我认为个性化以及它如何与美学结合在一起将会成为以后值得探索的一件很酷的事情”。

值得一提的是，在此次采访中，Tim Brooks还强调，“迄今为止，我们真正关注的仍是Sora背后的核心技术。因此我们并没有过多关注下游的特定应用，包括数字化身的概念……我认为我们现在在Sora的轨迹中的位置就像是这种新视觉模型范式的GPT-1。我们正在研究基础研究，以使它们变得更好，使其成为可以为所有这些不同事物提供动力的更好的引擎，所以我们现在的重点只是这项技术的基础发展”。

【本文图片来自网络】