记者实测速度更快成本更低,人机交互更自然,OpenAI新模型免费开放
股市掌舵者
2024-05-30 21:42:32
0

当地时间5月13日,OpenAI通过直播展示了产品更新。与此前传出的市场消息不同,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是发布了GPT-4系列新模型GPT-4o以及AI聊天机器人ChatGPT的桌面版本,聚焦多模态和端侧应用。

此前OpenAI公司CEO奥尔特曼(Sam Altman)就已经否认了公司将会发布GPT-5,他表示新版GPT非常"神奇"。根据OpenAI官方网站介绍,GPT-4o中的"o"代表Omni,也就是"全能"的意思。

据介绍,GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍,但成本仅为GPT-4 Turbo的一半,视频、音频功能得到改善。OpenAI CEO奥尔特曼(Sam Altman)在博客中表示,ChatGPT免费用户也能用上新发布的GPT-4o。此外,OpenAI还与苹果走到一起,推出了适用于macOS的桌面级应用。

OpenAI技术负责人Mira Murati在直播中表示:"这是我们第一次在易用性方面真正迈出的一大步。"

语音助手要被颠覆了?

OpenAI研究员Mark Chen表示,新模型具有"感知情绪"的能力,能输出笑声、歌唱或表达情感,还可以处理用户打断它的情况。

在直播中,OpenAI演示了一段OpenAI员工与GPT-4o对话的视频,模型反应速度与人类相近,GPT-4o可利用手机摄像头描述其"看到"的东西。

另一段展示视频里,GPT-4o被装在两个手机上,其中一个代表人类与电信公司打电话沟通设备更换事项,另一个GPT-4o扮演电信公司客服人员。OpenAI还展示了GPT-4o搭载在手机上的实时翻译能力。

GPT-4o具有3D视觉内容生成能力。演示人员手写"3X+1=4"数学题给GPT-4o看,GPT-4o便能在线语音指导如何一步步解题。

演示人员将电脑上的代码发给GPT-4o,大模型就能很快描述这些代码的目的是为了获取特定位置和时间段的每日天气数据,并描述这些代码构建出的是何种功能。在电脑桌面上,将桌面呈现图表内容分享给GPT-4o,大模型还可以理解所呈现的内容并回答关于图表数据变化的问题。

演示人员打开摄像头对准自己并让GPT-4o描述所看到的内容,GPT-4o一开始说看到的是木制表面的东西,演示人员提示称自己不是一张桌子之后,GPT-4o才表示其看到的是一个带着大大笑脸的人,看上去心情很好。

图像生成能力上,OpenAI提供了一些案例。例如,输入一段文字并要求生成整洁的书写插图,还带有涂鸦,GPT-4o就生成了一张书写插图,而且还可以根据要求继续调整内容。

3D图片生成方面,可以要求GPT-4o生成一张带有"OpenAI"徽标的图片,并继续要求GPT-4o对其进行3D重建,可以看到最后生成的是3D的"OpenAI"徽标。

此外,还可以要求GPT-4o生成一张逼真的人脸,再向GPT-4o提出背景、基调等要求,让GPT-4o将这张图片改为漫画风格。

演示人员还演示了GPT-4o实时翻译的能力,一名演示人员讲意大利语,一名演示人员讲英语,大模型充当翻译人员角色,反应迅速,翻译看不出卡顿现象。

根据OpenAI介绍,GPT-4o与GPT-3.5、GPT-4的语音对谈机制不同。GPT-3.5和GPT-4会先将音频转换为文本,再接收文本生成文本,最后将文本转换为音频,经历这三个过程,音频中的情感表达等信息会被折损,而GPT-4o是跨文本、视觉和音频的端到端模型,是OpenAI第一个综合了这些维度的模型,可更好进行对谈。

OpenAI将GPT-4o定位为GPT-4性能级别的模型。据介绍,GPT-4o在传统基准测试中,文本、推理、编码能力达到GPT-4 Turbo的水平。该模型接收文本、音频和图像输入时,平均320毫秒响应音频输入,与人类对话中的响应时间相似,英文文本和代码能力与GPT-4 Turbo相当,在非英文文本上有改善,提高了ChatGPT针对50种不同语言的质量和速度,并通过OpenAI的API提供给开发人员,使其即时就可以开始使用新模型构建应用程序。

第一财经记者在OpenAI官网看到,GPT-4o输入、输出每1M token(文本单位)收费0.005美元、0.015美元,GPT-4 Turbo输入、输出每1M token收费0.01美元、0.03美元。

"在过去两年中,我们花了大量精力在堆栈的每一层上提高-效率,作为这项研究的第一个成果,我们能使GPT-4级别的模型更广泛应用,GPT-4o即日起扩展红队访问权限。"OpenAI官网称,GPT-4o的文本和图像功能今日在ChatGPT中推出,"我们计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。"

第一财经记者在ChatGPT网站看到,ChatGPT已接入GPT-4o有限访问权限,但免费用户还不能使用图片生成功能。

记者使用了GPT-4o来描述图片,发现其生成结果较准确,5秒左右就能生成描述图片的文字。

此外,OpenAI还宣布推出一款适用于macOS的桌面级应用,使用键盘快捷键就可向ChatGPT提问。用户可通过电脑与ChatGPT语音对话,GPT-4o的新音频和视频功能后续将推出。OpenAI已向Plus用户推出macOS应用程序,今年晚些时候还将推出Windows版本。

值得注意的是,近日还有消息传出苹果与OpenAI商谈,以便在下一代iPhone操作系统使用ChatGPT功能。此次OpenAI重点展示了大模型在手机端侧应用的能力。

不过,此次OpenAI并未发布关于新模型的论文或技术文档。

今日,OpenAI特别强调了新模型的风险和局限性。该公司称:"GPT-4o的音频模式带来了各种新的风险。在接下来的几周和几个月里,我们将更关注技术基础设施、培训后的可用性以及发布其他模式所需的安全性。例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守我们现有的安全政策。"

发力端侧应用

不少科技界人士发表了对OpenAI此次产品更新的看法。"我没想到GPT-4o会接近GPT-5。传闻中OpenAI的‘Arrakis’模型就采用多模态输入。事实上,它可能是GPT-5的一个早期检查点(checkpoint),尚未完成训练。"英伟达高级科学家Jim Fan在社交媒体上评论称。

Jim Fan认为,在谷歌召开I/O大会前,OpenAI宁愿发布超过人们对GPT-4.5心理预期的产品,也不愿因为推出达不到人们期望的GPT-5,而让人感到失望。此外,谁先赢得苹果,谁就将大获全胜,与iOS整合有几个层次,例如抛弃Siri,OpenAI为iOS提炼出一个更小层级、设备上运行的GPT-4o。虽然此次未公开相关论文,加利福尼亚大学圣克鲁兹分校教授Xin Eric Wang还是评论认为,一个演示胜过千篇论文。

"比较让人失望的是,这次OpenAI没有发布GPT-5,连GPT-4.5都没看到。OpenAI发布了一系列应用,最重要的是发布了语音助手,由于使用了端到端大模型技术,体验远超Siri。OpenAI发布应用,恰恰说明应用在人工智能领域大有可为。目前看来,GPT-5可能还要‘难产’一段时间。"猎豹移动董事长兼CEO傅盛表示。

近期业内对大模型在既有参数下推动应用落地、商业变现多有讨论。OpenAI在继续研发下一代更大参数模型GPT-5的同时,也在推动价格下降、应用场景和用户群体扩大。

从API价格看,GPT-3.5 Turbo输入、输出每1M token(文本单位)收费0.0005美元、0.0015美元,GPT-4为0.03美元、0.06美元,GPT-4之后定价就持续下降。今年4月,OpenAI还宣布ChatGPT无需注册便可使用,此举被业界解读为扩大用户群体的努力,或其算力成本得到一定下降。此次产品更新后,奥尔特曼在其博客中强调,OpenAI使命的一个关键部分是让强大的人工智能工具免费,或以一个不错的价格推出。

包括OpenAI推出macOS桌面级应用在内,业内近期对大模型落地端侧多有期待。苹果就多次传出与大模型厂商洽谈合作,苹果自身还在端侧小模型领域布局,并推出可支持AI运行、性能更强的M4芯片。

近日一场对谈中,金沙江创投主管合伙人朱啸虎也判断,此前Meta发布的Llama3系列两个小模型性能强大,iPad Pro则用了M4芯片,以后端侧可能就直接跑一个小模型了。几百亿参数的小模型也可在端侧直接跑,尤其是今年下半年iPhone新品可能就类似功能推出,明年应用层将会爆发。

举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者

郑栩彤

钱童心

相关阅读 OpenAI首席科学家伊尔亚宣布离职,奥尔特曼:没有他就没有今天的OpenAI

奥尔特曼同时宣布,雅库布将接替伊尔亚,成为OpenAI的首席科学家。

昨天 09:59 俄罗斯总统普京将对华进行国事访问;拜登政府宣布对电动汽车等中国商品加征关税,外交部回应;扫码可领个人劳动补贴?人社部回应|早报

第一财经每日早间精选热点新闻,点击「听新闻」,一键收听。

一财早报 昨天 07:00 OpenAI重磅发布最新大模型 多模态能力有望融入更多应用场景

北京时间5月14日凌晨,OpenAI发布最新多模态大模型“GPT-4o”,支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。

05-14 19:18 李开复谈大模型布局,十年内不套现

李开复表示,创立零一万物时便向投资人承诺,10年内不套现,且最好的套现方式是“赶快上市”。

05-13 19:10 AI周报 | OpenAI官宣下周一发布产品更新;AI图像软件Remini凭黏土滤镜走红

阿里云发布通义千问2.5大模型,苹果发布AI PC芯片M4。

05-12 08:17 一财最热 点击关闭

相关内容

英特尔(INTCUS)考虑...
智通财经APP获悉,据报道,作为削减成本的更广泛计划的一部分,英特...
2024-10-08 21:57:53
英媒掌握证据:印度一直在背...
自俄乌冲突爆发以来,国际社会对俄罗斯的经济和军事打击不仅限于战场,...
2024-10-08 21:57:13
8月20日兰石重装涨停分析...
证券之星消息,兰石重装8月20日涨停收盘,收盘价4.99元。该股于...
2024-09-12 20:42:30
恒达新材(301469SZ...
格隆汇9月2日丨恒达新材(301469.SZ)公布,截至2024年...
2024-09-11 19:58:55
,AI“热辣滚烫” 华夏数...
 ,AI“热辣滚烫” 华夏数字产业混合重磅发行港股配资专业炒股的...
2024-09-11 11:17:54
专业炒股配资门户 ,谁也逃...
专业炒股配资门户 ,谁也逃不过燕麦拿铁的开心定律刚刚过去的202...
2024-09-11 10:46:31

热门资讯

创投界热议《新国九条》:畅通“... 4月12日,国务院印发的《关于加强监管防范风险推动资本市场高质量发展的若干意见》(下称“新国九条”)...
为了一口啤酒 回国转机选青岛 投稿人 徐唯琳嫁到英国的徐唯琳,为了给丈夫一个惊喜,回国特意在青岛转机,因为这里是她的英国丈夫最爱的...
纳川股份(300198)3月1... 证券之星消息,截至2024年3月12日收盘,纳川股份(300198)报收于2.02元,下跌1.46%...
卓创资讯:橡胶产业供应过剩背景... 热点栏目 自选股 数据中心 ...
深股通现身19只个股龙虎榜 证券时报网讯,证券时报•数据宝统计显示,2月19日共有50只个股上榜龙虎榜,其中,19只个股前五大买...
Market Gauge总监:... 汇通财经APP讯——周三(1月31日)欧盘时段,现货黄金震荡微涨,目前交投于2037.59美元/盎司...
廊坊发展(600149)3月1... 证券之星消息,截至2024年3月15日收盘,廊坊发展(600149)报收于4.18元,上涨3.47%...
2020年的武汉会战:一场史无... 这是一场不得不打的战役,也是一场必须要胜利的战役,因为这次的对手不是人类,也不是任何动植物,而是病毒...
股票配资如何选择配资平台 ,敏... 股票配资如何选择配资平台 ,敏捷发挥“蓬渤”力量 渤海银行推动城市房地产融资协调机制初见成效股票配...
黑猫大数据中心发布《黑猫投诉年...   黑猫大数据中心联合黑猫投诉【投诉入口】平台发布《黑猫投诉年度典型行业投诉数据报告》,通过投诉数据...