Meta开源全新语音识别模型,支持超1600种语言

日前,Meta方面宣布推出全新语音识别(ASR)模型系列Omnilingual ASR,并提供从适用低功耗设备的3亿参数版本到追求“顶级准确度”的70亿参数版本。据了解,Omnilingual ASR能够自动识别和转录超过1600种口语语言,其中包括500种此前从未被AI转录过的低资源语言,并号称“以空前的规模实现了最先进的质量”。


对此Meta方面指出,近年来ASR技术取得了显著进展,在许多高资源语言中已接近完美识别,然而由于当前的AI架构对数据需求过高,难以实现通用扩展,因此扩大语言覆盖范围需要耗费大量资源。为解决这一难题,Omnilingual ASR引入了2种架构变体。

Meta开源全新语音识别模型,支持超1600种语言

据悉,Meta团队首次将其wav2vec 2.0语音编码器扩展到70亿参数,从原始、未转录的语音数据中生成了丰富的、大规模多语言语义表征,并构建了两种解码器变体,将这些表征映射到字符序列。其中一种依赖传统的连接主义时间分类(CTC)目标,另一种利用了在LLM中常见的传统Transformer解码器。


这种被称为LLM-ASR的方法,在ASR性能上实现了阶段性提升,尤其是在长尾语言上。Meta方面公布的相关信息显示,7B-LLM-ASR系统在超过1600种语言上达到了SOTA性能,其中78%的语言字符错误率(CER)低于10。


值得一提的是,Omnilingual ASR的一个关键创新在于“自带语言”(Bring Your Own Language)设计。具体而言,这一设计通过借鉴大型语言模型的情境学习技术,只需用户提供少量的音频和文本配对样本,即可直接从这些样本中学习新语言,无需重新训练或大量的计算资源。


Meta方面表示,“虽然零样本转录的性能目前还无法与完全训练的系统相媲美,但它为将新语言纳入数字化服务提供了一条更具可扩展性的途径”。据该公司预测,理论上这一方法有望将Omnilingual ASR的覆盖范围扩展到超过5400种语言,远远超越了当前的行业标准。


此外值得一提的是,Omnilingual ASR以Apache2.0许可证形式发布,允许研究人员和开发者自由使用、修改和构建模型,包括用于商业用途。同时Meta还发布了全语言自动语音识别语料库(Omnilingual ASR Corpus),这是一个包含350种代表性不足语言的大型转录语音数据集。该数据则是以知识共享署名许可协议(CC-BY)发布,旨在帮助全球开发者调整语音识别模型,以满足特定的本地化需求。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看