OpenAI推出新版GPT-4o，《her》时代渐行渐近

显示全部楼层 · 2024-5-14 14:05:33|发表时间：2024-5-14 14:05:33

图片来源：视觉中国
OpenAI的首席执行官Sam Altman曾经分享过他最喜欢的科幻电影《her》—男主人公爱上了一个通过对话操作的AI虚拟助理。而现在，电影情节似乎有望成为现实。
北京时间周二凌晨一点，OpenAI在发布会上推出最新的多模态大模型GPT-4o（o代表Omni，意为全能的）。这款“全能的”大模型具备能够处理文本、音频和图像的能力。与前几代模型相比，它增加了语音功能，且运行速度更快。
“感觉就像电影里的人工智能。”发布会结束后，Sam Altman在社交媒体X上发文称，“对我来说，与电脑对话从来都不是一件很自然的事，而现在却很自然。”
“全能”大模型
据OpenAI官网，GPT-4o是其第一个结合文本、视觉和音频模式的模型，所有输入和输出都由同一神经网络处理。GPT-3.5和GPT-4的语音模式则是由三个独立模型组成的流水线，包括转录、大语言模型和文生语音。
OpenAI的首席技术官Mira Murati解释道：“当三种不同的模型协同工作时，就会在体验中引入大量延迟，从而破坏体验的沉浸感。但是如果有一个模型，能在音频、文本和视觉之间进行原生推理，就能减少所有的延迟，能与 ChatGPT 进行像我们现在的交互。”
OpenAI介绍称，GPT-4o响应音频输入的平均时间在320毫米，最短可达232毫秒，这与人类在谈话中的响应时间相似。现在用户可以与ChatGPT进行更像真人的实时对话，不需要机械性的一问一答，可以随时打断它的回复，提出新的要求，如转变话题、要求ChatGPT改变语音语调等。但是在演示过程中，ChatGPT回复的音频仍然不时发生卡顿。
GPT-4o的视觉功能也得到了升级。新模型能够实时读懂手机镜头画面或屏幕信息。在演示时，不仅能够帮助解答手写的代数方程，还能迅速地对一段Python代码及图表进行分析。
让许多用户感到惊奇的是，GPT-4o甚至展现出了能够识别人类情绪的能力。在演示中，一名研究员要求AI模型读取其面部表情并判断他的情绪。ChatGPT的语音助手回复称他看起来“快乐、开朗，笑容灿烂，甚至还有点兴奋”。当被称赞“有用且令人惊叹”时，ChatGPT还能用像人类的方式回答道：“哦，别说了，你让我脸红了”。
OpenAI的竞争对手
GPT-4o一经推出，OpenAI的竞争对手似乎坐不住了。谷歌很快在社交媒体X平台上发布了一段预览Gemini大模型功能的视频。在视频中，这一AI模型能够通过摄像头来描述画面中发生的情况，并实时提供语音反馈，就像OpenAI最新展示的那样。谷歌将在北京时间周三凌晨一点举办年度I/O开发者大会，预计会展示一系列AI相关的产品。
去年12月，谷歌发布了Gemini 1.0版本，称其具有多模态交互能力。在视频演示中，Gemini能够实时感知人类动作，并直接做出语音回应。但随后视频被曝出经过剪辑，谷歌也承认为了演示效果，减少了延迟并缩短了Gemini的输出时间。
不少人还将OpenAI的GPT-4o与苹果的AI助理Siri进行对比。据彭博社此前报道，苹果即将与OpenAI达成协议，正在敲定在下一代iPhone操作系统iOS18中应用ChatGPT功能的具体条款。苹果将在6月举办WWDC全球开发者大会，预计会在活动上宣布一系列人工智能功能。
何人、何时能用上GPT-4o
OpenAI将于今日起推出GPT-4o 的文本和图像功能，并强调ChatGPT的免费用户也能够使用。在此之前，免费用户仅拥有GPT-3.5的使用权限，GPT-4模型面向的是付费用户。
据OpenAI介绍，付费用户会获得高达5倍的消息容量限制。当免费用户用完限定的信息数量后，ChatGPT会自动切换到GPT-3.5。
目前GPT-4o的API中还未包括语音功能。OpenAI对滥用风险表示了担忧，计划将在未来几周内向付费用户提供新的音频功能。
GPT-4o的多语言能力也得到了升级。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，但在非英语文本上的性能显著提高。同时API的速度也更快，成本降低了50%。
ChatGPT的更新还包括新的用户界面（UI）和适用于macOS的桌面版ChatGPT。用户可以使用快捷键向ChatGPT提问，并直接在应用程序中通过屏幕截图进行讨论。
Mira Murati表示，“我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。”

中天 · 2024-5-14 16:17:29

看了大家的讨论，收获颇丰。