西部世界前传:一个关于机器人自我建模的实验
1966年,电脑屏幕上出现了一个简单的符号“>”。这个被称为“命令提示符”的符号已经成为人类与计算机对话的开始。半个世纪后,当研究人员发现AI可以通过精心设计的提示来完成各种任务时,“prompt“成为人工智能时代最重要的术语之一。
现在,当我们与AI交谈时,我们说的每一句话都是一个prompt。无论是让AI生成一幅画,写代码,还是完成一篇文章,我们都需要通过prompt来表达自己的想法。这种人类与AI的对话正在悄然改变我们的工作和生活。
这也是《The Prompt》这个专栏的起源。在这里,我们将与AI领域的企业家进行对话,挖掘创新的AI产品,记录技术变革带来的惊喜时刻。我们希望内容本身也能成为一个prompt,为读者打开思考的空间,在R&D的浪潮中找到观察和理解AI的支点。
在哥伦比亚大学的一个实验室里,一个机器人正在对着镜子训练他的表情:皱眉、微笑和歪头。摄像头是它的眼睛,神经网络构建了它的控制中心。没有人告诉它什么是“悲伤”,也没有人为它设计“悲伤”是皱眉还是闭眼。它只是把表情和电机指令联系起来,在无声的自我凝视中学会像人一样做表情。
这是一个人形机器人自我监督和学习表情的实验。主持这个实验的是胡宇航。他今年28岁,刚从哥伦比亚大学毕业。他一年多前创立了第一个形式技术,致力于成为一名“人脸机器人”。几乎没有人涉足这个方向。在过去的一年里,胡宇航看到了100多名投资者,他们中的大多数人听了他的想法,摇摇头离开了。
他的想法是反共识的。“我认为人形机器人更适合制造情感产品。至少在未来五年,它不是一种能够创造高效生产力的产品。人形机器人是服务需求,不是工业集群或生产力需求。”
作为F(Feeling导向)人,他认同情感伴侣的价值,并将机器人描述为工具的“物化”行为。在他的计划中,NPC将来可以创造一个身临其境的西部世界,所有的机器人都是机器人。
这些描述听起来抽象而理想化,但胡宇航强调他不是一个理想主义者,他坚信人脸机器人可以商业化。
在胡宇航看来,在模型全面推动语言交互飞跃的时代,真正决定机器人能否被普遍接受的不是“说话”,而是“感同身受”。他认为,与语音助手或纯数字界面相比,一个具有真实面部情绪、能够理解和回应人类情绪的类人机器人自然具有情绪连接和沉浸在场景中的优势。这种“类人共情价值”(Humanoid Empathy Value)逐步成为机器人商业化的突破口。
因此,首形技术选择了更现实的落地路径:在交互场景中优先完成商业闭环,即在线下体验馆、品牌展厅、主题公园、IP互动空间等高情感价值密度空间快速构建人与机器之间的情感关系和价值感知。通过打造具有自然表情、即时反应和主动交互能力的类人机器人。从今年年底开始,他们将从内部人员开始进行测试,他们将成为首形技术的第一批客户。
有很多观众期待这些产品。从2022年开始,胡宇航以“U航”的名义在社交平台上发布了Vlog,以给留学生活留下一点痕迹。起初,他主要拍摄他每天吃的东西。后来,他有了一些科学研究的相关内容。今年五月,胡宇航上传了几个新一代产品的Demo视频,后台播放量超过1亿,获得了一批“电子股东”。这个让他感到非常惊讶,也更加坚定了做人脸机器人的想法。
继去年11月完成天使轮融资后,首形技术最近完成了新一轮融资。目前,不到20人的团队将在年底扩展到40-50人。现在他们将为一些人形机器人制造商提供零部件和技术服务,但他们将更加关注R&D和产品研发。

下面是镜相工作室与胡宇航的对话:
超越恐怖谷效应
镜镜工作室:五月中旬,你在自媒体账号上发布了一段新一代产品的Demo视频,人脸已精致到毛孔,是血淋淋的。
胡宇航:是的,我雕刻了那张脸的外观。我个人的感觉是,当我真的看着她的时候,她把表情传达给了我。我真的有一些错觉和震撼,甚至有一种感觉,她受伤了我会心疼。希望尽快给大家展示这个东西,让大家感受到我感受到的,相信我相信的。
镜镜工作室:在网民的关注和讨论中,有没有什么让你印象更深的?
胡宇航:令我惊讶的是,事实上,人们对机器人的“面子”并没有太大的抵触。相反,一些投资者会说这是否会有恐怖谷效应。但真正看到的用户反馈是,他们想要一个桌面级的陪伴机器人,或者一个有“面子”的机器人。当然也有幸存者的偏差,不喜欢的人可能会直接把视频拿走。
镜镜工作室:投资者提到的恐怖谷效应应该是你要解决的一个关键问题。
胡宇航:这件事我们已经深入分析过了。我认为它分为静态和动态恐怖谷效应。静态恐怖谷应该已经完全解决了,比如蜡像、雕塑、手工制作。没有人觉得可怕,因为你做得很仔细。现在需要用AI来控制它的运动,让它更自然、更真实,这就是算法的问题。我们的算法有优势,所以我们用算法来做。
镜镜工作室:具体的算法优势是什么?
胡宇航:主要有两种模式,一种是如何做表情,另一种是做什么样的表情。
在此之前,每个人都通过显式方程来设计自己的脸,或者绑定一个面部坐标系来映射机器人。有一个完美的人脸识别算法,可以识别面部运动,然后直接映射到电机指令中。但是这样做出来的表情会很僵硬,容易产生恐怖谷效应。
现在我们想训练一个机器人自己的表情运动空间,也就是通过深度学习和神经网络,让它独立“理解”和“表达”表情。这种方法的优点是整个模型可以忽略不计,换句话说,它可以在端到端进行训练,表情变化更加光滑可持续。它可以与大模型和多模态系统协调,为机器人实现更高级、更自然的情感交互奠定基础。
镜镜工作室:因此,你让机器人对着镜子自我监督学习表情。
胡宇航:是的,以前没有人这样做过。这种效果很好,而且是直接收集到面部的所有动作指令。
让机器人在镜子前学习。
镜镜工作室:机器人对着镜子自我监督学习表情,具体怎样学习?
胡宇航:当机器人照镜子时,它眼睛里的摄像头可以看到镜子里的表情,它可能知道它在电机指令下的表情是什么样子的。这个过程有点像我们在镜子前跳舞。机器人照镜子,收集电机指令和相应的面部表情,然后把这两组数据交给AI模型进行训练,AI模型就会知道我想做某个表情的时候电机指令是什么。

镜镜工作室:自我监督和语言模型自我监督的表情模型有什么不同?
胡宇航:自监督学习和语言模型之间的关键区别在于它们所依赖的模式和指导信号的不同。语言模型是在语言内部进行预测。例如,BERT或GPT从大量文本中学习单词和句子之间的前后关系,通过掩码或下一个单词进行预测。表情模型的自我监督学习是一种跨模式的学习,主要利用人们说话的视频,自动对齐语音信号和面部情绪,学习两者之间的自然关系。
换言之,表情模型的监督信号来源于语音和表情在时间上的共同出现,而非人为标签,而是自然同步。通过这种方式,模型可以理解语音、语义和表达之间的联系,然后在不同的语境下产生自然连续的面部情绪。这个训练过程更像是“感知和表达”的建模,而不是简单的情绪分类。
镜镜工作室:人类的情感是抽象的,即使是人与人之间的交流,也很难准确感知。机器人是如何做到的?
胡宇航:传统的情绪识别方法通常依赖于情绪分类标签,如快乐、愤怒、悲伤和快乐,但这些标签在现实中是模糊和主观的,很难掩盖复杂的情绪变化。相比之下,我们更喜欢用表情作为嵌入空间的持续表达来建模,而不是硬分类。
在这种方式下,模型学会在潜在空间中表达和生成表情,而不是“理解”情绪的具体标签。就像语言模型生成token一样,它输出了一个感知情境和声音自然反应的表情。
正如我们不需要解释每种语言embedding(向量表示)的含义,也不需要向机器人解释每种表情embedding的情感含义一样。只要这些embedding能够在语境中导出自然的表达,我们就可以实现“情感”建模的目标。
镜镜工作室:那么机器人如何导出人类能够理解的表情呢?
胡宇航:这时候你需要有情境语义的绑定,和对话内容中人的表情和声音信号对齐。我们日常生活中有大量的视频数据。当我们说话时,表情、眼神、声音和文字内容都高度同步。这些信息可以用来做模型预训练,让模型了解每个audio和表情的关系,或者每个情感文本背后的表情内容。
“人形机器人能做情感商品”
镜镜工作室:为何要专注于情感感知,做人脸机器人?
胡宇航:我有一个反共识。我认为人形机器人更适合做情感商品。至少在未来五年,它不是一种能够创造高效生产力的商品。最适合商业闭环的场景是交互场景,提供情感价值和服务价值。换句话说,我认为人形机器人是服务需求,不是工业集群或生产力需求。
镜镜工作室:这条商业化的路径选择在当前有点逆向。
胡宇航:如果你把这件事定位为正确的,那么它什么时候商业化,什么时候开源,什么时候培养生态,这些都应该与行业有很深的联系。如今,当工业领域的生产自动化已经非常内向时,你必须使用人形机器人来满足内向需求。这在逻辑上是错误的。你必须结合行业来感受发展的节奏。
做人脸机器人这件事其实是我自己决定的。大部分人,包括实验室里的同门,都会犹豫或质疑这件事。许多人来到我的实验室,看到我的工作,就会给我一个大大的问号,说为什么要用脸,这太可怕了,你在干什么?甚至在之前的展览中,还有一位外国小孩哥过来说,你做这件事只是为了吓唬小孩。脸部这一类真的需要一个循序渐进的过程,渐渐地让大家觉得这个东西还可以。另一方面,算法实际上是最重要的。
镜镜工作室:什么样的经历促使你坚定地选择做人脸机器人,以提供情感价值?
胡宇航:我自己做过各种各样的机器人,桌面级的双足机器人,四足机器人,机械臂等等,这些类别我基本上都做过。现在大家都在讨论如何利用AI大模型让机器人实现质的飞跃,提出simulation(模拟)。在实际接触到simulation的工作之后,我发现simulation实际上是一个非常糟糕的项目,它和真实场景有一个更大的gap,sim2real gap(模拟世界与真实物理世界的区别/从模拟到现实的转移差距)。你们不能说,那行,我们做domain。 randomization(领域随机化是指在模拟训练中刻意添加各种“不确定性”,让模型学会更有韧性地应对“看不见的现实世界”),将现实世界场景作为模拟世界场景的子集,然后指望我们的模型在现实中也能有很强的鲁棒性(指面对影响、变化或不确定性时的系统。仍然可以稳定运行,保持特性的能力)并成功部署。
事实上,你需要大量的训练信息,即便如此,模型也很难完全覆盖现实世界的distribution(状态、状态、数据分布)。我认为物理世界是一个混乱的世界,你很难用物理模拟器完成这个子集的存储。如今,人形机器人甚至不能很好地完成一些基本任务。在这种情况下,你让他泛化是没有意义的。
所以我觉得还是先做好交互的商业闭环比较好。目前快速实现交互,运行机器人控制和大模型之间的交互机制,然后慢慢转移到其他部分。所以我们选择从“头”开始。
当然,我自己也很看好机器人,但是在这条路上,我们不想盲目探索,而是先把它简化到我们的脸上,从我们的脸开始,从互动开始。
镜镜工作室:有没有一些关于商业化落地的想法?
胡宇航:刚开始的时候,我们会做消费级、桌面级的产品,客户拆开就能感受到,但是大规模落地也是两年后。现在,我们将为一些对人脸感兴趣的人形机器人制造商提供零部件和技术服务。
最后,我们想建立一个身临其境的西部世界。里面的NPC都是机器人。我们认为技术栈很容易解决。因为西部世界是局部约束的场景。人类生活的场景是一个完全动态发展的场景,对模型的要求非常高,人形机器人很难进入家庭。进入工厂很简单,现在已经实现了。就像西部世界这样的区域场景,我们认为可以提出解决方案。
镜镜工作室:每个人都有明确的商业路径和目标。有些机器人公司可能更倾向于讲述技术突破的故事。
胡宇航:有时候我觉得你把一个问题讲得很高,或者说得很抽象,太让人无法理解,你实际上是有问题的。

卖给F人
镜镜工作室:什么样的人是目标受众?
胡宇航:在我看来,能理解情感陪伴是生活中非常重要的事情。具体来说,我不会说是哪一个领域的人。许多人不能理解情感陪伴是一种需要。作为一个F人,我认为情感陪伴在整个生活中是非常重要的。你们在这个世界上,你们不是机器,你们也不是工具,你们是能感受、理解各种生活,与人产生情感联系的体验者。因此,我认为我的目标用户就是我这样的F人。
镜镜工作室:近年来,做AI情感陪伴类产品的企业很多,软件和硬件都有。您认为这类产品之间有哪些障碍?如何打出多样化?
胡宇航:真正让你与人工智能产生情感联系的是,你相信这不是一台机器。如果你最初的定位是它是一个聊天工具,你很难与它有长期的情感联系。真正需要解决的问题是,让用户觉得这个东西不是一台机器,可以有一种身临其境的体验。这就是为什么我们要做情绪理解和情绪表达。
镜镜工作室:当前行业是否投入了大量的情感感知企业?
胡宇航:挺少的。
镜镜工作室:您是因为对情感陪伴的价值有把握,所以在这方面加大了力度?
胡宇航:我觉得和团队的小伙伴也有关系。假如身边都是一群直男,他们对可爱或者机甲类最感兴趣,觉得这样可以让他们趾高气扬地对待。我认为,如果你趾高气扬地看待每一个AI伴侣产品,你就无法与它建立信任或长期的情感联系。你会认为AI是你的玩物和工具。然后,在你物化了这个产品之后,你对情感的表达和理解就会在人性的一边缺失和扭曲。我认为我们这一类是一种天花板很高也很难做到的事情。
镜镜工作室:AI情感陪伴机器人的市场规模如何量化?
胡宇航:我们没有单独看这个市场的规模,行业内也没有准确的数字。像泡泡玛特这样的企业可以看到它有静态的价值。如果你看得更深,它会有更高的市场潜力。

并非理想主义者
镜镜工作室:现在团队里有多少人?
胡宇航:15到20人。
镜镜工作室:这么少的人要完成一件很少有人做过的事情还是很难的。
胡宇航:我们不怕困难。我们想做一些我们认为有价值的事情。我们将继续扩大我们的团队。杭州最新的算法团队也开始招人。预计到年底,团队规模将扩大到四五十人。
镜镜工作室:最近有没有很多投资者来找你?
胡宇航:我们在国内看到了很多,一年下来大概看到了100多个,但是相信我们能做商业化的还是不多。
镜镜工作室:什么是他们常见的疑问?
胡宇航:我一直认为没有必要这样做。他们仍然从机器人是工具的角度来思考这件事。他们会想知道你的表情机器人接下来是不是工具,只是需要。我觉得这件事和我们最初的意图太不一致了。
镜镜工作室:您认为今天的投资者更多的是对工程商业化的期望,还是对您的期望?
胡宇航:投资更多。组织可能认为我一个人做市场,做科研,做产品,同时管理公司,做自媒体,更好的推动他们内部的投资思路。
镜镜工作室:它似乎是目前人形机器人行业普遍存在的投资逻辑。
胡宇航:因为今天没有办法量化这件事,尤其是技术导向型企业。大家都在说我要解决什么问题,但是你真的卖了吗?你的毛利率是多少?你的客户留存率是多少?没有量化指标,投资机构无法判断谁优谁劣,所以我会先投资。
镜镜工作室:目前普遍认为,人形机器人距离商业化还有一段时间。现阶段是否需要一点理想主义来支持这些事情?
胡宇航:情况有点复杂,有各种各样的人。但我不是理想主义者,我的父母是商人。如果我是一个理想主义者,我会在学校完成工作,我会呆在象牙塔里。我认为这可以创造真正的社会价值。
镜镜工作室:你现在的工作节奏是什么样的,才能尽快实现商业化?
胡宇航:每日睡眠7小时,其它时间都能工作。
镜镜工作室:现在正在解决哪些难题?
胡宇航:人的情绪在不同种族的脸上仍然表现出不同的形状,这是我们现在需要解决的问题。我们找到的出发点是先做亚洲市场。因为亚洲市场特别大,审美相对趋同。
本文来自微信微信官方账号“镜相工作室”,作者:黄依婷,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com





