OpenAI再次强调,Voice Engine并未大范围开放

继此前在今年3月OpenAI方面发布音频生成模型Voice Engine,并公布相关应用案例,但由于合成语音技术的潜在风险,该公司对其更广泛的应用采取谨慎态度,并未全面开放后。日前OpenAI再次发布相关声明,强调Voice Engine尚未大范围开放,并进一步解释了Voice Engine的工作原理以及其在安全方面的努力。


对此OpenAI方面表示,“无论我们最终是否会大规模部署这项技术,让世界各地的人们理解这项技术的发展方向都非常重要。这就是为什么我们想要解释模型的运作方式、我们如何将其用于研究和教育,以及我们如何围绕该技术实施安全措施的原因”。


据了解,Voice Engine可通过简短的15秒音频样本和文本提示词,生成与音频样本提供者相似的、富有感情自然语音。据OpenAI方面透露,Voice Engine于2022年底开始开发。


对此OpenAI方面指出,“早期为了评估Voice Engine的功能和局限性,我们使用公共和私人语音样本进行了内部测试。这个内部原型对于我们的协调和安全研究至关重要,为我们的保障措施提供了信息,也是我们致力于了解技术前沿的延续。重要的是,这些输出仅用于内部测试,而不是用于训练我们产品所支持的模型。作为我们迭代部署框架的一部分,这个早期原型在帮助政策制定者了解合成语音模型的功能方面也发挥了重要作用。例如从去年夏天开始,我们向全球最高级别的政策制定者展示了该技术的潜力,并与他们讨论了相关风险。 

OpenAI发文强调Voice Engine尚未大范围开放

有消息显示,OpenAI方面曾尝试将Voice Engine用于支持ChatGPT的语音和朗读功能,并尝试基于其打造一款“简单的”、具备6个预设语音选项的文本到语音API。目前,OpenAI方面向少数“值得信赖”的合作伙伴开放了Voice Engine,并与后者共同探索合成语音技术的应用。


对此OpenAI方面表示,“此举旨在提高人们对合成语音功能的认识,并支持以下目标:逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施;探索保护人工智能中个人声音使用的政策;教育公众了解人工智能技术的能力和局限性,包括欺骗性人工智能内容的可能性;加速开发和采用跟踪视听内容来源的技术,以便用户识别他们是在与真人还是合成内容进行互动


值得一提的是,在日前发布的这份声明中,除Voice Engine外,OpenAI还提到了刚刚发布不久的多模态大模型GPT-4o。该公司强调到,诸如GPT-4o之类的多模态模型具有原生音频功能,可实现Voice Engine等模型无法实现的新交互。并表示,“我们认识到,GPT-4o的音频模式带来了一些新风险,尤其是在语音生成方面。我们正在积极对GPT-4o进行红队测试,以识别和解决社会心理学、偏见和公平以及错误信息等各个领域的已知和不可预见的风险”,以及“与我们发布语音引擎的谨慎态度一致,我们将限制GPT-4o的音频输出,使其仅输出部分预设声音以供公众发布。这些声音来自经过仔细考虑的选角过程挑选出来的专业配音演员。我们将在即将发布的GPT-4o系统卡中分享有关音频相关风险和缓解措施的更多信息


此外,近日OpenAI方面还宣布了一系列的高层人事变动,其中包括任命新的首席财务官和首席产品官。据悉,OpenAI首席财务官将由Sarah Friar担任,其是斯坦福数字经济实验室的联合主席,曾任Nextdoor首席执行官和Square财务主管;首席产品官则由Kevin Weil担任,其曾担任X(原Twitter)高级副总裁、Facebook和Instagram副总裁、Planet Labs总裁。


对此OpenAI方面表示,“Sarah Friar将领导一个财务团队,通过持续投资于我们的核心研究能力来支持我们的使命,并确保我们能够扩大规模以满足不断增长的客户群以及我们所处的复杂全球运营环境的需求”,“Kevin Weil的产品团队将专注于将我们的研究应用于有益于消费者、开发者和企业的产品和服务”。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看