继今年年初有消息称,OpenAI正在筹备一款基于双向音频架构(BiDirectional Audio)的下一代语音模型,旨在优化ChatGPT的语音交互体验后。日前有消息显示,OpenAI方面已开始在ChatGPT中测试一款代号为Bidi 1的双向语音模型,并有望在本周启动更大范围测试。对此有消息源透露,这或将是ChatGPT语音体验的最大规模升级。
但截至目前,OpenAI方面尚未对此消息进行回应。

目前曝光的相关截图显示, Bidi 1已经出现在ChatGPT设置页的模型选择器内,启用后ChatGPT的语音模式气泡将从蓝色变为黄色。在相关测试视频中表明,除了可以实现更自然的语音输出外,Bidi 1还支持边说边听,并可以在对话中途响应新的指令,以及实现实时翻译。例如当Bidi 1开始根据要求从1数到10,但用户在中途打断并要求倒数,该模型就会立即执行。
据悉,这并非OpenAI首次推出具备实时翻译能力的语音模型。此前在今年5月,OpenAI就曾同时发布3款语音模型,其中的GPT-Realtime-Translate便聚焦实时语言翻译场景,支持70种输入语言和13种输出语言。但需要注意的是,GPT-Realtime-Translate是一个API产品,仅面向开发者。
对此有观点认为,“Bidi 1的不同之处在于,它是ChatGPT消费者端的原生语音模式升级,意味着数亿ChatGPT用户将直接获得双向实时翻译能力,无需任何开发集成”。
据了解,今年5月OpenAI方面发布的另外两款语音模型则分别是GPT-Realtime-2、GPT-Realtime-Whisper。前者专为实时语音交互设计,上下文窗口由上一代的32K增长至128K,是首款具备GPT-5级推理能力的语音模型,可以在保持对话自然流畅的前提下,实时进行逻辑推理、调用工具。后者则专注于低延迟语音转文本,能在用户说话的同时转录音频。
【本文图片来自网络】
