小米14 Pro vivo X100 一加12 iPhone 15 iQOO 12

OpenAI日前发布GPT-4o，以及桌面版ChatGPT

时间：2024年05月14日栏目：互联网来源：原创编辑：长生

在日前举行的春季更新活动中，OpenAI方面发布了新一代多模态大模型GPT-4o。据了解，GPT-4o不仅具备“GPT-4级”的智能，而且与GPT-4相比新增了音频处理能力，可以综合利用音频、文本和视觉信息进行推理，并且所有输入和输出都由同一神经网络处理。换而言之，GPT-4o可接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。据悉，GPT-4o中的“o”便代表“Omni”、也就是“全能”的意思，指的是该模型处理文本、音频和视频的能力。

OpenAI发布新一代模型GPT-4o，以及桌面版ChatGPT

在反应速度方面，据悉GPT-4o可以在232毫秒的时间内响应音频输入，平均为320毫秒，这与人类在谈话中的反应时间基本一致。而且用户可随时打断它的回复、提出新的要求，如转变话题、要求改变语音语调等。相比之下，此前用户虽然可以用语音模式与由GPT-3.5、GPT-4驱动的ChatGPT对话，但平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。据了解，导致这一情况的原因是GPT-3.5和GPT-4的语音模式是由三个独立模型组成的流水线，包括转录、大语言模型和文生语音。

对此，OpenAI首席技术官Mira Murati表示，“当三种不同的模型协同工作时，就会在体验中引入大量延迟，从而破坏体验的沉浸感。但如果有一个模型能在音频、文本和视觉之间进行原生推理，就能减少所有的延迟，能与ChatGPT进行像我们现在的交互”。

值得一提的是，GPT-4o还能够检测用户情绪，例如从用户急促的喘气声中猜测出其处于紧张状态，并指导用户进行深呼吸。在相关演示中，一位OpenAI研究员要求GPT-4o读取其面部表情、并判断他的情绪时，该模型回复称他看起来“快乐、开朗，笑容灿烂，甚至还有点兴奋”。而当被称赞“有用且令人惊叹”时，GPT-4o还能用像人类的方式回答到，“哦，别说了，你让我脸红了”。

据了解，相比GPT-4，GPT-4o的视觉能力也得到提升。在用户给出一张照片后，GPT-4o可以快速回答相关问题，例如“这段软件代码发生了什么”、“这个人穿的是什么牌子的衬衫”等。据Mira Murati透露，这些功能将在未来进一步发展，“目前GPT-4o可以查看不同语言的菜单照片并进行翻译。而在未来，该模型可能使ChatGPT能够‘观看’直播的体育比赛并向您解释规则。”

据悉，GPT-4o将在接下来的几周内，将分阶段集成至包括ChatGPT在内的OpenAI的各个产品之中，并免费提供。在此之前，免费用户仅有GPT-3.5的使用权限，GPT-4面向的是付费用户。据OpenAI方面介绍，相较免费用户，ChatGPT付费用户会获得高达5倍的消息容量限制，而当免费用户用完限定的数量后，ChatGPT会自动切换到GPT-3.5。

此外值得一提的是，在此次活动中OpenAI方面还发布了适用于macOS的桌面版ChatGPT和新的用户界面。目前用户可使用快捷键向ChatGPT提问，并直接在应用程序中通过屏幕截图进行讨论。

对此Mira Murati表示，“我们认识到这些模型正变得越来越复杂。但我们希望用户与人工智能模型的交互体验能够更加自然、轻松，让用户可以将注意力完全集中在与模型的协作上，而无需在意界面本身”。

【本文图片来自网络】