OpenAI推出“她”，两大亮点颠覆人机交互

admin 阅读：65520 2024年05月14日

21世纪经济报道见习记者肖潇北京报道

电影《她》讲述了一位男性作家和AI相恋的故事，这一未来也许离我们不远了。北京时间5月14日凌晨，OpenAI召开春季发布会，首席技术官Mira Murati 在26分钟的直播中发布了最新大模型GPT-4。目前所有用户都可以免费使用，不过会优先响应ChatGPT Plus会员的需求。

OpenAI推出“她”，两大亮点颠覆人机交互
图片来源于网络，如有侵权，请联系删除

发布会现场

GPT-4o主要定位是语音助手，同时也是一款混合了语音、文字、视觉的多模态大模型。发布会演示中展现的两大亮点让业内感慨，人机交互模式被“一夜颠覆”：

首先是响应速度。OpenAI在官网介绍，GPT-4o的最短响应时间是232毫秒，平均为320毫秒，与人类反应几乎一致。此前的GPT3.5和GPT4大模型也提供语音交互功能，但用户说完一句话后，大模型分别要延迟2.8秒、5.4秒才会给出回复。

英伟达高级科学家Jim Fan在发布会前分析，延迟反应是AI语音的硬伤。“如果必须等待 5 秒才能听到回复，那么用户体验就会急剧下降。即使AI音频本身听起来很真实，它也会破坏沉浸感并让人感觉毫无生气，因为自然的人类对话根本不是这样的。”

一段自然的对话需要留意背景音，观察说话者的情绪，时不时回应一些“嗯嗯，是的”等口语单词，对话还可能会被突然中断，而在这些方面GPT-4o都有明显改进。发布会直播中，Openai研究员让GPT-4o讲一段睡前故事，然后要求它切换成机器人声音，最后以唱歌的形式讲故事。GPT-4o按这些要求准确提供了不同感情、音色的声音，对话被打断也能丝滑继续，几乎跟真人无差。

值得注意的是，GPT-4o还展现出了害羞的情绪。业内观点指出，过去OpenAI强调客观中立，如今显然在发力更情绪化、更个性化的AI。这一转变很可能会蚕食Character AI 等个性化人工智能、情感陪伴人工智能的午餐。

而GPT-4o之所以能做到这些，是因为第二大亮点：原生多模态。

在图像交互演示中，GPT-4o升级了ChatGPT的视觉能力：研究员打开前置摄像头，GPT-4o解读出其面部情绪为“灿烂的笑容”；在纸上手写线性方程式，GPT-4o能读图并一步步给出解答；将GPT-4o放在电脑桌面上，还可以查看代码生成的图表并进行编程。

纸上手写线性方程式，GPT-4o读图（图源：OpenAI）

Mira Murati表示，这些功能还会进一步发展，未来他们期望该模型可以允许ChatGPT “观看”现场体育比赛，并向用户解释规则。

“我们知道这些模型变得越来越复杂，但我们希望交互体验实际上变得更加自然、轻松。” Mira Murati说， “在过去的几年里，我们一直非常专注于提高这些模型的智能......但这是我们第一次在易用性方面真正迈出一大步。”

去年谷歌推出Gemini大模型时，也发布过类似的演示视频，比如让研究员在纸上手绘鸭子游泳的图片，让Gemini在一旁观看指导——谷歌希望AI能真正理解世界，全面与周围环境实时、准确互动。然而不久后Gemini演示视频被发现存在剪辑痕迹，Gemini无法做到实时反馈。

现在看来，GPT-4o可能离这一目标更进一步。Sam Altman在社交媒体上发帖，称GPT-4o 是原生多模态大模型，所有的输入和输出都由同一个神经网络处理，是OpenAI 第一个结合了所有这些模态的模型。

Sam Altman 没有在这场发布会上亮相，发布会结束后也只在社交媒体上发布了一个词——她（Her）。电影《她》正讲述了一名男性作家和一名人工智能语音助手建立了恋爱关系，GPT-4o和电影中斯嘉丽·约翰逊配音的“她”非常相似。

Sam Altman此前在采访中表示，希望最终能开发出一种类似《她》那样的AI助理。对于GPT-4o，他说：“我仍然有点惊讶它是真实的。事实证明，达到人类级别的响应时间和表现力是一个巨大的变化。”

人机交互的新模式也提高了AI与硬件的适配性。此前彭博社报道，OpenAI即将与苹果达成协议，将ChatGPT 安装在 iPhone 上，下个月苹果将举行WWDC全球开发者大会。不过Mira Murati此前透露，OpenAI 还没有讨论过任何合作关系。

前述英伟达高级科学家Jim Fan认为，谁先赢得苹果，谁就赢得了比赛。他分析ChatGPT可能在三个层面与苹果合作：第一，放弃Siri，让OpenAI 提炼出纯粹适用于移动端的小型GPT-4o；第二，将原生摄像头或屏幕流输入到模型中，芯片级支持神经音视频的编解码器；第三，与苹果系统级操作API和智能家居API结合。这可能会成为起步就拥有十亿用户的AI代理产品。

需要注意的是，OpenAI接下来将致力于保证GPT-4o的可用性和安全性，比如音频输出只能选择预设好的声音。此外，OpenAI仍然没有透露GPT-4o的训练数据来源，分析认为数据主要来自YouTube、播客、电视剧、电影等作品中自然发生的对话。OpenAI表示之后会在AI系统卡（system card）中分享更多详细信息。