小米14 Pro vivo X100 一加12 iPhone 15 iQOO 12

YouTube CEO表示，擅用其数据训练大模型属违规

时间：2024年04月07日栏目：互联网来源：原创编辑：长生

据有关报道显示，近日在接受采访时，YouTube首席执行官Neal Mohan表示，虽然目前缺乏具体证据证明OpenAI是否在使用YouTube的视频及相关数据来训练其视频生成模型Sora，但任何未经许可的这类使用都会违反YouTube的服务条款。

Neal Mohan指出，“从创作者的角度来看，当他们将用心制作的视频上传到我们平台后内心肯定是有所期待的，最基本的期待便是平台的服务条款将对他们的创作内容进行保护。我们平台的规则不允许用户下载未经授权的文本或视频，因此若Sora滥用我们平台视频进行训练是明显违反平台规则的行为”。

YouTube CEO警告称，擅用数据训练大模型属违规行为

在此次采访中，Neal Mohan还透露谷歌训练自研大模型Gemini时使用了YouTube上的一些视频内容。但同时他强调，“我们在使用这些内容之前，已经得到了创作者的授权，并遵循了YouTube与创作者之间的协议”。

据了解，此前在3月接受采访时，OpenAI首席技术官Mira Murati曾被问及Sora训练数据来源等相关问题，但她并未给出明确回应，仅表示“我们使用的是公开可用数据和许可数据”。在被进一步追问具体的数据来源是否包含YouTube平台的视频时，Mira Murati一度表示，“我实际上并不确定（I'm actually not sure about that）”。随后，Mira Murati拒绝回答有关Instagram或Facebook的视频内容是否被纳入Sora训练集的问题。对此她表示，如果这些视频是公开可用且可以使用的，那么可能会被使用，但她对此并不确定。

此外需要注意的是，日前有报道援引相关报告称，早在2021年OpenAI方面便面临着训练数据短缺的问题，为此该公司曾讨论转录YouTube视频、播客和有声读物的可行性。据称，为获得足够的数据训练大模型GPT-4，OpenAI开发了音频转录模型Whisper，转录了超过100万小时的YouTube视频。此外，OpenAI方面还使用了包括来自Github的代码、国际象棋数据库相关数据，以及来自Quizlet的作业内容等作为训练数据。

YouTube CEO警告称，擅用数据训练大模型属违规行为