ChatGPT终于活出了“Siri”本该有的样子

2024-05-17

ChatGPT再次更新,这次,OpenAI没有大谈数字和术语,而是回到了“聊天机器人”本身。


在北京时间5月14日凌晨1点,OpenAI举行春季新闻发布会,公司首席技术官米拉·穆拉蒂(Mira Murati)ChatGPT更新现场主持。


新闻发布会的核心是最新的多模式大模式GPT-4o。不同于之前发布的“硬核指标”,如训练信息量、各种测试结果等。GPT-4o的升级主要集中在体验上。


与上一代GPT相比-Turbo,GPT-4o可以说是打通了任督二脉,各项技能融合在一起,与人的互动更加灵活,更加迅速——换句话说,更像是“人”。


客户可以随意输入文本、音频和图像,获得任意组合的ChatGPT即时文本、音频和图像导出。在交流过程中,ChatGPT可以随时中断,而不是等待几秒钟的响应。OpenAICEO山姆·奥特曼(Sam Altman)称之为“人类级别的反应”。


OpenAI现场展示了一些与ChatGPT的互动,包括:即时对话交互、语音多样化(使用不同的情绪、语气等。根据客户的需求)、录像指导做题,录像识别环境和人(包括人的情绪)、协助编程,实时翻译桌面应用。


同时,OpenAI还发布了一些预先录制的展示示例,包括:2个GPT-4o交流与唱歌、唱摇篮曲、在线会议应用、毒舌讽刺、视频识别、给出西班牙语单词、协助面试准备、与狗互动等。


OpenAI现场演示选择的声音是“Sky”,听起来像好莱坞明星斯嘉丽·约翰逊(寡姐)。让人想起科幻电影《她》(Her)》,在这些人中,AI助手是由斯嘉丽配音的。影片中,男主从使用AI助手,一步一步走向一段不成功的人机恋情。


奥特曼本人也在X上发了这部电影的名字:her。也有人干脆把电影海报里的脸换成了奥特曼。



当GPT-4o驱动的ChatGPT用充满情感的声音与人交谈时,你可以看、听、说、唱,你就会知道科幻已经照进了现实。


更加重要的是,穆拉蒂现场宣布,GPT-向所有人免费开放4o。换言之,随着后续的更新,免费客户也可以直接使用GPT-4o,但是每天的限制比付费用户少,达到限制后会自动选择返回GPT-3.5。


还有,ChatGPT的桌面应用将推出苹果计算机系统Mac OS,今年晚点将推出Windows版本。


A


若用四个字来概括GPT-4o的特点,则为:更通人性。


这体现在两个方面。一方面,GPT-4o多模式融合在一起,反应速度大大提高,交互技术更接近人;另一方面,由GPT-4o驱动的机器人显然更加活泼,更愿意表达人类的情绪。


首先谈到GPT-4o的多模态能力,准确地说,GPT-4o最引人注目的是跨模态的能力。


2023年3月,OpenAI在一年多前发布了多模态模型GPT-4。从那以后,每个人都可以给GPT-4发一张图片来帮助分析,或者发送文件和语音通话。但是,文字、图像和声音之间有一堵“墙”。


例如,如果你想让ChatGPT帮你解决一个数学问题,你只能截图或复制问题,并将其发送给ChatGPT。如果你想听ChatGPT语音讲解,你必须在输入框发送后切入语音。


但是在GPT-4o下,你可以直接使用桌面应用程序,打开ChatGPT放在一边,在与它聊天的同时,用“拍摄”功能向它展示你电脑屏幕的内容,它可以在对话中回答你的问题。


在一次演示中,用户同时打开了ChatGPT桌面应用和问题界面。ChatGPT没有直接给出答案,而是带客户一步一步解决一个问题和答案的几何问题。


或者,你也可以打开摄像头,ChatGPT也可以“看”纸面来指导答案。



在所有的演示中,最可怕的是视频对话:客户打开摄像头,让ChatGPT“看到”当下并进行互动。


ChatGPT不仅可以通过前置镜头自拍来识别客户的情绪,比如“看起来很开心,甚至很兴奋”,还可以从客户背后的场景来判断他们所处的环境,比如“看起来你在一个工作室里,背后有一些灯,胸前没有麦克风,可能在录视频之类的”。如果另一个人进入镜头并扮演鬼脸,ChatGPT也准确地指出了这种“不寻常”的情况,并加以描述。


使用后置镜头,ChatGPT可以与客户分享角度。例如,在语言学习过程中,打开摄像头,让ChatGPT用某种语言讲述物体的名称。或者可以给视障用户提供指导,告诉用户“有一辆出租车来了,就是现在,挥手吧”。


另外,客户话刚说完ChatGPT就接电话,用户可以直接打断ChatGPT,也可以继续聊天,导致整体体验更像是人与人之间的对话,快速灵活。


顺便说一句,由于GPT-4o响应速度快,可以中断,实际上翻译效果非常惊人。两个语言不通的人把GPT-4o驱动的ChatGPT放在中间作为翻译,然后就可以聊天了。


总得来说,GPT-ChatGPT在4o驱动下,不再只是一个什么都能做的应用,而是一个真正的“AI助手”。


B


再者,情绪,这一点不可小觑。


这个聊天机器人自2022年11月ChatGPT上线以来,一直给人一种不苟言笑的印象。ChatGPT不仅回答了问题,而且只要有机会,ChatGPT就会向客户强调“我只是一个机器人,我没有爱情”,这很可能是OpenAI为了防止麻烦而故意做的。顾客要想让ChatGPT更加“放松”,就必须给出明确的指示。


但是在GPT-4o的驱动下,ChatGPT显然是不同的。ChatGPT不再刻意防止像人类一样,而是反其道而行之。


举例来说,当顾客向ChatGPT求助时,ChatGPT接过话开玩笑地说:“他很快就要参加OpenAI面试了。OpenAI,嗯?怎么听起来这么熟悉?”然后他笑了笑,然后兴奋地继续说:“开玩笑的!太棒了,洛基(演示者的名字)!什么样的面试?”



在洛基寻找外貌建议时,ChatGPT用幽默的方式表示头发需要整理,说他“看上去有写了一整夜代码的气氛”。洛基戴着一顶遮阳帽,ChatGPT立刻“哈哈哈”地笑了起来,说他“肯定会很显眼”,但在面试中并不合适,劝他像朋友一样放弃这样做。



换句话说,GPT-ChatGPT在4o驱动下,不再是一种只追求特征的AI工具,而是主动提供“情感价值”。


在ChatGPT走严肃路线的两年里,许多竞争产品以更加活泼、更加“人性化”的姿态出现,并赢得了许多顾客的心。


例如Inflection.AI曾经推出的机器人Pi,以“陪伴”为主,语气总是温柔,对用户充满关怀。不到一年,它就实现了数百万日常用户,平均对话持续了半个多小时。


埃隆·马斯克(Elon Musk)人工智能公司xAI的大型Grok,由于其毒舌一上线就引起了不少关注。


即使是最后一波AI聊天机器人热潮也深知这一点。2011年,苹果将Siri集成到iPhone4S,AI聊天机器人成为一个赛博玩具。每个人都热衷于“戏弄Siri”,让它唱歌和讲笑话。虽然Siri不是一个神奇的力量,但它提供了足够多的快乐。天猫精灵、小爱同学等。,这些都是中国客户熟悉的,都有俏皮的“个人设计”。


然而,我们都知道后来的故事。由于技术限制,上一代AI助手能够做的事情真的很有限。“俏皮”来自有限的预设,由于理解能力差、不灵活,逐渐被用户钉上了“人工智障”的耻辱柱。


2024年,每个人都对Siri抱有期待——一个AI,可以帮助做事,也可以作为赛博玩具聊天和玩耍,最终在GPT-4o身上定居下来。


C


去年五月,比尔·盖茨(Bill Gates)曾在AI Forward 在2023活动中谈到AI,对AI的前景非常看好:“你永远不会去搜索网站,也不会再去亚马逊。”


在盖茨眼里,能干掉搜索和电子商务的不是别的,而是未来顶级的AI助手:“无论谁赢得了AI助手的比赛,这都是一件大事。”


对于C端用户来说,AI助手的战争已经开始。


微软已将Copilot带入Windows11,依靠侧栏工具帮助顾客;Gemini在内部集成了谷歌大脑和DeepMind之后,发布了Gemini的拳头模型,未来有望更深入地嵌入到Android、谷歌搜索和Workspace等各种产品和应用中,;去年九月,亚马逊发布了一款新的Alexa,接入了大型模型。


同时,苹果也有明显的战略倾斜,加快了AI的步伐。六月份,苹果将举行全球开发者大会(WWDC24),iOS18是否会用人工智能进行软件更新是外界关注的焦点。苹果将大模型重塑Siri,这是外界普遍关注的焦点。


今年三月以后,有几条消息不断传出。首先,彭博社援引知情人士透露,苹果正在iPhone谈判中内置谷歌Gemini大模型,同时也在与OpenAI进行类似的谈判。接着是苹果首席执行官蒂姆·库克(Tim Cook)访华后,《科创板日报》报道苹果将与百度进行技术合作,iPhone16将于今年发布。、Mac系统和iOS 提供AIGC功能18。


使用GPT-4o,OpenAI再一次震撼了世界上的亿点,下一次AI助手的竞争只会更加精彩。


“新的语音(和视频)方式是我用过的最好的计算机界面。感觉就像电脑里的人工智能,它的真实性还是让我有点惊讶。达到人类水平的反应时间和表达能力发生了很大的变化。”奥特曼在GPT-4o发布的一篇博文中写道。


本文来自微信微信官方账号“字母榜”(ID:wujicaijing),36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com