日前,Meta AI研究团队(FAIR)发布、并开源了一款名为AudioSeal的音频水印模型。据了解,该模型可用于检测音频内容中的哪些片段由AI生成,并对被判定为由AI生成的音频片段嵌入类似水印的隐藏信息,从而便于用户更好地识别AI音频。目前AudioSeal已在GitHub上免费开源,任何人都可下载使用。
对此Meta方面表示,“我们认为这是第一种专门为局部检测AI生成的语音而设计的音频水印技术,可以精确定位较长音频片段中的AI生成的片段。与依赖复杂解码算法的传统方法不同,AudioSeal的局部检测方法可以实现更快、更高效的检测。与以前的方法相比,这种设计将检测速度提高了485倍,使其非常适合大规模和实时应用。我们的方法在音频水印的稳健性和不可感知性方面实现了最先进的性能。”
Meta的研究科学家哈迪·埃尔萨哈尔(Hady Elsahar)进一步指出,AudioSeal可帮助解决语音克隆工具带来日益严重的错误信息和骗局问题。
值得一提的是,除AudioSeal外,日前Meta方面还发布了Meta Chameleon、Multi-Token Prediction、Meta JASCO等模型,以及其他AI相关研究成果。
其中,Meta Chameleon是一个混合模态前融合(Mixed-Modal Early-Fusion)基座模型系列,适合多模态内容的混合输入与计算,并可在单一神经网络无缝处理文本和图像。此次Meta发布的是Meta Chameleon 7B和34B版本,并仅支持纯文本输出。
对此Meta方面表示,“然我们已采取措施负责任地开发这些模型,但我们认识到风险仍然存在,目前我们不会发布Meta Chameleon图像生成模型。通过我们今天分享的现有模型,我们希望鼓励研究界设计新的检测和缓解策略,以帮助以负责任的方式扩展生成模型研究。”
而Multi-Token Prediction则是一种创新的预训练语言模型,可通过多标记预测技术同时预测多个未来单词,从而显著提升了模型的能力、训练效率和预测速度。Meta JASCO则是一款音乐生成模型,可以接受各种条件输入,号称能够提供更高的可控性,为音乐创作领域带来新的创新工具。
【本文图片来自网络】