OpenAI推出“她”,两大亮点颠覆人机交互

admin 阅读:65498 2024年05月14日

21世纪经济报道见习记者肖潇北京报道

电影《她》讲述了一位男性作家和AI相恋的故事,这一未来也许离我们不远了。北京时间5月14日凌晨,OpenAI召开春季发布会,首席技术官Mira Murati 在26分钟的直播中发布了最新大模型GPT-4。目前所有用户都可以免费使用,不过会优先响应ChatGPT Plus会员的需求。

OpenAI推出“她”,两大亮点颠覆人机交互
图片来源于网络,如有侵权,请联系删除

 发布会现场

GPT-4o主要定位是语音助手,同时也是一款混合了语音、文字、视觉的多模态大模型。发布会演示中展现的两大亮点让业内感慨,人机交互模式被“一夜颠覆”:

首先是响应速度。OpenAI在官网介绍,GPT-4o的最短响应时间是232毫秒,平均为320毫秒,与人类反应几乎一致。此前的GPT3.5和GPT4大模型也提供语音交互功能,但用户说完一句话后,大模型分别要延迟2.8秒、5.4秒才会给出回复。

英伟达高级科学家Jim Fan在发布会前分析,延迟反应是AI语音的硬伤。“如果必须等待 5 秒才能听到回复,那么用户体验就会急剧下降。即使AI音频本身听起来很真实,它也会破坏沉浸感并让人感觉毫无生气,因为自然的人类对话根本不是这样的。”

一段自然的对话需要留意背景音,观察说话者的情绪,时不时回应一些“嗯嗯,是的”等口语单词,对话还可能会被突然中断,而在这些方面GPT-4o都有明显改进。发布会直播中,Openai研究员让GPT-4o讲一段睡前故事,然后要求它切换成机器人声音,最后以唱歌的形式讲故事。GPT-4o按这些要求准确提供了不同感情、音色的声音,对话被打断也能丝滑继续,几乎跟真人无差。 

值得注意的是,GPT-4o还展现出了害羞的情绪。业内观点指出,过去OpenAI强调客观中立,如今显然在发力更情绪化、更个性化的AI。这一转变很可能会蚕食Character AI 等个性化人工智能、情感陪伴人工智能的午餐。

而GPT-4o之所以能做到这些,是因为第二大亮点:原生多模态。

在图像交互演示中,GPT-4o升级了ChatGPT的视觉能力:研究员打开前置摄像头,GPT-4o解读出其面部情绪为“灿烂的笑容”;在纸上手写线性方程式,GPT-4o能读图并一步步给出解答;将GPT-4o放在电脑桌面上,还可以查看代码生成的图表并进行编程。

 纸上手写线性方程式,GPT-4o读图(图源:OpenAI)

Mira Murati表示,这些功能还会进一步发展,未来他们期望该模型可以允许ChatGPT “观看”现场体育比赛,并向用户解释规则。

“我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、轻松。” Mira Murati说, “在过去的几年里,我们一直非常专注于提高这些模型的智能......但这是我们第一次在易用性方面真正迈出一大步。”

去年谷歌推出Gemini大模型时,也发布过类似的演示视频,比如让研究员在纸上手绘鸭子游泳的图片,让Gemini在一旁观看指导——谷歌希望AI能真正理解世界,全面与周围环境实时、准确互动。然而不久后Gemini演示视频被发现存在剪辑痕迹,Gemini无法做到实时反馈。

现在看来,GPT-4o可能离这一目标更进一步。Sam Altman在社交媒体上发帖,称GPT-4o 是原生多模态大模型,所有的输入和输出都由同一个神经网络处理,是OpenAI 第一个结合了所有这些模态的模型。

Sam Altman 没有在这场发布会上亮相,发布会结束后也只在社交媒体上发布了一个词——她(Her)。电影《她》正讲述了一名男性作家和一名人工智能语音助手建立了恋爱关系,GPT-4o和电影中斯嘉丽·约翰逊配音的“她”非常相似。 

Sam Altman此前在采访中表示,希望最终能开发出一种类似《她》那样的AI助理。对于GPT-4o,他说:“我仍然有点惊讶它是真实的。事实证明,达到人类级别的响应时间和表现力是一个巨大的变化。”

人机交互的新模式也提高了AI与硬件的适配性。此前彭博社报道,OpenAI即将与苹果达成协议,将ChatGPT 安装在 iPhone 上,下个月苹果将举行WWDC全球开发者大会。不过Mira Murati此前透露,OpenAI 还没有讨论过任何合作关系。

前述英伟达高级科学家Jim Fan认为,谁先赢得苹果,谁就赢得了比赛。他分析ChatGPT可能在三个层面与苹果合作:第一,放弃Siri,让OpenAI 提炼出纯粹适用于移动端的小型GPT-4o;第二,将原生摄像头或屏幕流输入到模型中,芯片级支持神经音视频的编解码器;第三,与苹果系统级操作API和智能家居API结合。这可能会成为起步就拥有十亿用户的AI代理产品。 

需要注意的是,OpenAI接下来将致力于保证GPT-4o的可用性和安全性,比如音频输出只能选择预设好的声音。此外,OpenAI仍然没有透露GPT-4o的训练数据来源,分析认为数据主要来自YouTube、播客、电视剧、电影等作品中自然发生的对话。OpenAI表示之后会在AI系统卡(system card)中分享更多详细信息。

搜索
排行榜