日前,Facebook母公司Meta方面宣布推出及开源AI翻译套件Seamless Communication(无缝沟通),并表示该套件能够精准再现说话者情绪、实现延迟仅2秒的同声传译、支持近百种语言输入。据悉,Seamless Communication也是Meta为庆祝自家AI研究机构“Fundamental AI Research”成立10周年所推出的研究成果之一。
据了解,Seamless Communication是以Meta今年8月公布的多语双模(文本、语音)翻译模型SeamlessM4T为基础,其由4款AI模型组成,除SeamlessM4T v2外,还包括SeamlessExpressive、SeamlessStreaming,以及Seamless。
其中,SeamlessM4T号称能在翻译时基于用户说话内容、自动联想可能的后文,以加速翻译。而且相比SeamlessM4T,SeamlessM4T v2从语音到文本的翻译能力提高了10%,语音到语音翻译能力提高15%以上(翻译为英语时)。
Seamless Expressive则是口译模型,号称可以解决“传统AI翻译无法抓住用户语调、停顿、读词重轻度的问题”,能够在维持翻译品质的基础上,保存用户情绪、风格、说话速度、停顿和节奏,从而为翻译内容带来更多“情感信息”。对此Meta方面表示,Seamless Expressive是第一个掌握跨语言表情的公开系统。据悉,目前SeamlessExpressive已支持英、中、西、法、德等语言。
Seamless Streaming为同步翻译模型,主打2秒延迟的语音和文字翻译,支持口译(speech-to-speech translation)、听写翻译(speech-to-text translation,S2TT)及自动语音识别功能(Automatic speech recognition,ASR)。其中在后二种任务上,SeamlessStreaming支持将近100种语言输入及输出,而在口译同步翻译上则支持100种语言输入、36种语言输出。
Seamless模型则整合了上述三种模型,适用于各种场景需求。
对此Meta方面表示,“我们取得的突破表明,通用实时翻译器的梦想不再是科幻小说,而是正在成为技术现实”。同时Meta方面也指出,该技术可能被滥用于语音网络钓鱼诈骗、深度造假和其他有害应用,为了促进模型的安全和负责任的使用,实施了多项措施,其中包括音频水印和减少幻觉有毒输出的新技术。
【本文图片来自网络】