OpenAI日前发布GPT-4o,以及桌面版ChatGPT

在日前举行的春季更新活动中,OpenAI方面发布了新一代多模态大模型GPT-4o。据了解,GPT-4o不仅具备“GPT-4级”的智能,而且与GPT-4相比新增了音频处理能力,可以综合利用音频、文本和视觉信息进行推理,并且所有输入和输出都由同一神经网络处理。换而言之,GPT-4o可接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。据悉,GPT-4o中的“o”便代表“Omni”、也就是“全能”的意思,指的是该模型处理文本、音频和视频的能力。

OpenAI发布新一代模型GPT-4o,以及桌面版ChatGPT

在反应速度方面,据悉GPT-4o可以在232毫秒的时间内响应音频输入,平均为320毫秒,这与人类在谈话中的反应时间基本一致。而且用户可随时打断它的回复、提出新的要求,如转变话题、要求改变语音语调等。相比之下,此前用户虽然可以用语音模式与由GPT-3.5、GPT-4驱动的ChatGPT对话,但平均延迟为2.8秒(GPT-3.5和5.4秒(GPT-4。据了解,导致这一情况的原因是GPT-3.5和GPT-4的语音模式是由三个独立模型组成的流水线,包括转录、大语言模型和文生语音。


对此,OpenAI首席技术官Mira Murati表示,“当三种不同的模型协同工作时,就会在体验中引入大量延迟,从而破坏体验的沉浸感。但如果有一个模型能在音频、文本和视觉之间进行原生推理,就能减少所有的延迟,能与ChatGPT进行像我们现在的交互”。


值得一提的是,GPT-4o还能够检测用户情绪,例如从用户急促的喘气声中猜测出其处于紧张状态,并指导用户进行深呼吸。在相关演示中,一位OpenAI研究员要求GPT-4o读取其面部表情、并判断他的情绪,该模型回复称他看起来“快乐、开朗,笑容灿烂,甚至还有点兴奋”。而当被称赞“有用且令人惊叹”时,GPT-4o还能用像人类的方式回答到,“哦,别说了,你让我脸红了”。


据了解,相比GPT-4,GPT-4o的视觉能力也得到提升。在用户给出一张照片后,GPT-4o可以快速回答相关问题,例如“这段软件代码发生了什么”、“这个人穿的是什么牌子的衬衫”等。据Mira Murati透露,这些功能将在未来进一步发展,“目前GPT-4o可以查看不同语言的菜单照片并进行翻译。而在未来,该模型可能使ChatGPT能够‘观看’直播的体育比赛并向您解释规则


据悉,GPT-4o将在接下来的几周内,将分阶段集成至包括ChatGPT在内的OpenAI的各个产品之中,并免费提供。在此之前,免费用户仅有GPT-3.5的使用权限,GPT-4面向的是付费用户。据OpenAI方面介绍,相较免费用户,ChatGPT付费用户会获得高达5倍的消息容量限制,而当免费用户用完限定的数量后,ChatGPT会自动切换到GPT-3.5。


此外值得一提的是,在此次活动中OpenAI方面还发布了适用于macOS的桌面版ChatGPT和新的用户界面。目前用户可使用快捷键向ChatGPT提问,并直接在应用程序中通过屏幕截图进行讨论。


对此Mira Murati表示,“我们认识到这些模型正变得越来越复杂。但我们希望用户与人工智能模型的交互体验能够更加自然、轻松,让用户可以将注意力完全集中在与模型的协作上,而无需在意界面本身”。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看