小米15 Ultra vivo X200 Ultra OPPO Find X8 Ultra 一加13T

Meta开源全新语音识别模型，支持超1600种语言

时间：2025年11月11日栏目：互联网来源：原创编辑：长生

日前，Meta方面宣布推出全新语音识别（ASR）模型系列Omnilingual ASR，并提供从适用低功耗设备的3亿参数版本到追求“顶级准确度”的70亿参数版本。据了解，Omnilingual ASR能够自动识别和转录超过1600种口语语言，其中包括500种此前从未被AI转录过的低资源语言，并号称“以空前的规模实现了最先进的质量”。

对此Meta方面指出，近年来ASR技术取得了显著进展，在许多高资源语言中已接近完美识别，然而由于当前的AI架构对数据需求过高，难以实现通用扩展，因此扩大语言覆盖范围需要耗费大量资源。为解决这一难题，Omnilingual ASR引入了2种架构变体。

据悉，Meta团队首次将其wav2vec 2.0语音编码器扩展到70亿参数，从原始、未转录的语音数据中生成了丰富的、大规模多语言语义表征，并构建了两种解码器变体，将这些表征映射到字符序列。其中一种依赖传统的连接主义时间分类（CTC）目标，另一种利用了在LLM中常见的传统Transformer解码器。

这种被称为LLM-ASR的方法，在ASR性能上实现了阶段性提升，尤其是在长尾语言上。Meta方面公布的相关信息显示，7B-LLM-ASR系统在超过1600种语言上达到了SOTA性能，其中78%的语言字符错误率（CER）低于10。

值得一提的是，Omnilingual ASR的一个关键创新在于“自带语言”（Bring Your Own Language）设计。具体而言，这一设计通过借鉴大型语言模型的情境学习技术，只需用户提供少量的音频和文本配对样本，即可直接从这些样本中学习新语言，无需重新训练或大量的计算资源。

Meta方面表示，“虽然零样本转录的性能目前还无法与完全训练的系统相媲美，但它为将新语言纳入数字化服务提供了一条更具可扩展性的途径”。据该公司预测，理论上这一方法有望将Omnilingual ASR的覆盖范围扩展到超过5400种语言，远远超越了当前的行业标准。

此外值得一提的是，Omnilingual ASR以Apache2.0许可证形式发布，允许研究人员和开发者自由使用、修改和构建模型，包括用于商业用途。同时Meta还发布了全语言自动语音识别语料库（Omnilingual ASR Corpus），这是一个包含350种代表性不足语言的大型转录语音数据集。该数据则是以知识共享署名许可协议（CC-BY）发布，旨在帮助全球开发者调整语音识别模型，以满足特定的本地化需求。

【本文图片来自网络】