设为首页
收藏本站
开启辅助访问
切换到宽版
快捷导航
登录
立即注册
快速发布信息
搜索
搜索
首页
Portal
社区
BBS
签到
本版
文章
帖子
用户
果果一线
»
社区
›
IT
›
实时快报
›
OpenAI推出新版GPT-4o,《her》时代渐行渐近
返回列表
发新帖
OpenAI推出新版GPT-4o,《her》时代渐行渐近
[复制链接]
6212
|
1
|
2024-5-14 14:05:33
|
发表时间:2024-5-14 14:05:33
|
显示全部楼层
|
阅读模式
图片来源:视觉中国
OpenAI的首席执行官Sam Altman曾经分享过他最喜欢的科幻电影《her》—男主人公爱上了一个通过对话操作的AI虚拟助理。而现在,电影情节似乎有望成为现实。
北京时间周二凌晨一点,OpenAI在发布会上推出最新的多模态大模型GPT-4o(o代表Omni,意为全能的)。这款“全能的”大模型具备能够处理文本、音频和图像的能力。与前几代模型相比,它增加了语音功能,且运行速度更快。
“感觉就像电影里的人工智能。”发布会结束后,Sam Altman在社交媒体X上发文称,“对我来说,与电脑对话从来都不是一件很自然的事,而现在却很自然。”
“全能”大模型
据OpenAI官网,GPT-4o是其第一个结合文本、视觉和音频模式的模型,所有输入和输出都由同一神经网络处理。GPT-3.5和GPT-4的语音模式则是由三个独立模型组成的流水线,包括转录、大语言模型和文生语音。
OpenAI的首席技术官Mira Murati解释道:“当三种不同的模型协同工作时,就会在体验中引入大量延迟,从而破坏体验的沉浸感。但是如果有一个模型,能在音频、文本和视觉之间进行原生推理,就能减少所有的延迟,能与 ChatGPT 进行像我们现在的交互。”
OpenAI介绍称,GPT-4o响应音频输入的平均时间在320毫米,最短可达232毫秒,这与人类在谈话中的响应时间相似。现在用户可以与ChatGPT进行更像真人的实时对话,不需要机械性的一问一答,可以随时打断它的回复,提出新的要求,如转变话题、要求ChatGPT改变语音语调等。但是在演示过程中,ChatGPT回复的音频仍然不时发生卡顿。
GPT-4o的视觉功能也得到了升级。新模型能够实时读懂手机镜头画面或屏幕信息。在演示时,不仅能够帮助解答手写的代数方程,还能迅速地对一段Python代码及图表进行分析。
让许多用户感到惊奇的是,GPT-4o甚至展现出了能够识别人类情绪的能力。在演示中,一名研究员要求AI模型读取其面部表情并判断他的情绪。ChatGPT的语音助手回复称他看起来“快乐、开朗,笑容灿烂,甚至还有点兴奋”。当被称赞“有用且令人惊叹”时,ChatGPT还能用像人类的方式回答道:“哦,别说了,你让我脸红了”。
OpenAI的竞争对手
GPT-4o一经推出,OpenAI的竞争对手似乎坐不住了。谷歌很快在社交媒体X平台上发布了一段预览Gemini大模型功能的视频。在视频中,这一AI模型能够通过摄像头来描述画面中发生的情况,并实时提供语音反馈,就像OpenAI最新展示的那样。谷歌将在北京时间周三凌晨一点举办年度I/O开发者大会,预计会展示一系列AI相关的产品。
去年12月,谷歌发布了Gemini 1.0版本,称其具有多模态交互能力。在视频演示中,Gemini能够实时感知人类动作,并直接做出语音回应。但随后视频被曝出经过剪辑,谷歌也承认为了演示效果,减少了延迟并缩短了Gemini的输出时间。
不少人还将OpenAI的GPT-4o与苹果的AI助理Siri进行对比。据彭博社此前报道,苹果即将与OpenAI达成协议,正在敲定在下一代iPhone操作系统iOS18中应用ChatGPT功能的具体条款。苹果将在6月举办WWDC全球开发者大会,预计会在活动上宣布一系列人工智能功能。
何人、何时能用上GPT-4o
OpenAI将于今日起推出GPT-4o 的文本和图像功能,并强调ChatGPT的免费用户也能够使用。在此之前,免费用户仅拥有GPT-3.5的使用权限,GPT-4模型面向的是付费用户。
据OpenAI介绍,付费用户会获得高达5倍的消息容量限制。当免费用户用完限定的信息数量后,ChatGPT会自动切换到GPT-3.5。
目前GPT-4o的API中还未包括语音功能。OpenAI对滥用风险表示了担忧,计划将在未来几周内向付费用户提供新的音频功能。
GPT-4o的多语言能力也得到了升级。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高。同时API的速度也更快,成本降低了50%。
ChatGPT的更新还包括新的用户界面(UI)和适用于macOS的桌面版ChatGPT。用户可以使用快捷键向ChatGPT提问,并直接在应用程序中通过屏幕截图进行讨论。
Mira Murati表示,“我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与GPT的协作。”
回复
使用道具
举报
中天
|
2024-5-14 16:17:29
|
显示全部楼层
看了大家的讨论,收获颇丰。
回复
支持
反对
使用道具
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
父亲
14
主题
33
帖子
33
积分
新手上路
新手上路, 积分 33, 距离下一级还需 17 积分
新手上路, 积分 33, 距离下一级还需 17 积分
积分
33
收听TA
发消息
回复楼主
返回列表
科技报道
实时快报
业界报道
大佬快评
热门排行
1
9月19日人民币对新加坡元中间价报5.4776元,上调75.0个基点
2
“最惨撞车魂游”《艾诺提亚:失落之歌》Steam褒贬不一:风景优美 手感稀碎
3
推主总结《AC影》的"罪":弥助配着嘻哈殴打日本村民
4
小米新品即将来袭:博主爆料小米15系列新机正在筹备中
5
姚振华被恢复执行6.5亿
6
9月19日人民币对阿联酋迪拉姆中间价报0.5174元,下调8.8个基点
7
悬空寺出《黑神话:悟空》造型雪糕 已售100份
8
搭上AI东风 T-Mobile(TMUS.US)预计2027年EBITDA将增至390亿美元