日前,字节跳动Seed团队正式推出端到端同声传译模型Seed LiveInterpret 2.0。
据了解,该模型基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入。在 CT(Continual Training)过程中,Seed团队利用平行和非平行语音数据促使语音和文本信息对齐,并使用不同语言的语音、文本、语音到语音、文本到文本等多任务翻译数据进行持续训练,以提升模型的语音理解准确度以及语音复刻等生成能力。此后该团队使用高质量人工标注数据进行监督微调(SFT,Supervised Fine-tuning),让模型学会了更准确的翻译时机和翻译准确性,显著提升了同传效果。
据Seed团队方面介绍,Seed LiveInterpret 2.0是“首个延迟&准确率接近人类水平的产品级中英语音同传系统”,在中英同传翻译质量达到业界SOTA的同时,还实现了极低的语音延迟水平。据其所公布的相关数据显示,Seed LiveInterpret 2.0在多人会议等复杂场景中英双向翻译准确率超70%,单人演讲翻译准确率超80%,翻译延迟可低至2-3 秒、较传统机器同传系统降低超60%。
值得一提的是,Seed LiveInterpret 2.0还支持0样本声音复刻,只需采样实时语音信号便能提取声音特征,用说话人的音色特质实时 “说出” 外语,提升交流的沉浸感和亲和力。
此外,Seed LiveInterpret 2.0还能够智能平衡翻译质量、延迟和语音输出节奏。当输入语音流畅、清晰、标准,该模型会以极快的响应速度传译;当输入语音不流畅,出现改口、重复表达时,则会选择听到合适内容后再开始传译,保证更高的翻译准确率。
据了解,目前Seed LiveInterpret 2.0已基于火山引擎对外开放。此外字节跳动方面透露,Ola Friend耳机将于8月底接入Seed LiveInterpret 2.0,成为首个支持该模型的智能硬件设备。
【本文图片来自网络】