《Her》有形象，给AI打个视频电话，几乎没有延迟，红杉YC投票给AI，

2024-08-18

AI是历史上最快的对话视频，延迟不到一秒钟！

端到端，能听，能看，能说，有形象。

这个产品不是来自OpenAI或者HeyGen这样之前已经施展才能的企业，也没有具体的名字。

因为来自创业团队Tavus，所以也叫Conversationalional Replicas by Tavus。

其主要功能是构建一种身临其境的AI生成视频体验。

今天上线后，已经冲到Producthunt今天的新产品热榜第一，点赞数量还在上升。

官方Tavus为大家总结了产品特点：

延迟不到一秒
数字孪生，现实，智能。
即插即用的端到端构建块
模块化、可定制的部件，例如LLM语音合成

看到网友们热血沸腾：

现在有“人”为我开ZOOM视频会议，哈哈哈哈！

也有不少网友把这当作网友人机交互界面比阅读文档或聊天更好。。

这段对话视频界面改变了游戏规则！不难想象互动体验的无限可能性。

可以在网页端试用2分钟

看到这个消息，量子位一秒钟就冲到了Tavus的网站上。

这段“史上最快对话视频”可以在官网上体验2分钟。

按照现有设置，Tavus塑造的卡特在感觉上的对话对象。

AI视频研究公司Tavus的一名员工卡特的形象定位，以幽默的方式回应，同时也很有帮助。

就是下面这个人：

虽然卡特是个虚拟人物，但是和他的视频一样，就像是自己朋友的视频。

这位官员建议，在授权摄像机和麦克风之后，与卡特聊天时，尽量呆在一个安静的房间里。

卡特在谈话中提到，除了询问Tavus使用的AI技术，大家最喜欢和他讨论的几个话题就是分享他的日常心路历程和笑话。

那时他讲了一个笑话：

问，为什么自行车不能靠自己站在那里？答案是，因为它是tooo tired（Two tires）。

之后，卡特本人还自己为自己加油，哈哈两声。

实际体验了2分钟的量子位，整体感觉如下：

第一，Tavus反应速度确实特别快，符合官方所谓的“一秒之内”。

即使你在演讲过程中突然发出声音，卡特也能立刻停下来听你最新的演讲。

第二，尽管官方声称它支持30多种语言，但无论是用中文还是用英文提问，他都会问问题，不能说中文。

我们问他“Can u speak Chinese卡特会回答：“我更愿意用英语交谈！”

三是TavusAI的确可以“用眼睛看”。

在试用量子位的过程中，一度尴尬，不知问什么好，只能傻笑。

卡特立即张开嘴：

Oh！你们对我微笑着？～

四是在试玩版本中，卡特的口型和所说的话几乎可以完全同步。

这样也不难怪为什么有网友试玩后表示：

的确令人印象深刻，它具有快速响应、优秀的视频和音频生成能力。

现在，Tavus的对话视频AI只要注册就可以使用。

在官方版本中，可供对话的AI形象不仅仅是卡特。有男有女，身份设定从销售到生活指导等等，一应俱全。

聊天的背景也可以根据用户的选择进行更换，不拘泥于办公场景。

同时，还前后文可以手动输入对话内容。。

可说个性化定制水平非常高。

现在有免费版本，也有收费方式，对应不同的生成权益。

基于自主研发模型的开发

Tavus对话视频AI的背后，是Tavus团队开发的Phoenix-2模型。

3D模型和2D模型由音频和文本驱动。配合GANs，可以生成1-2分钟的真实短视频。

生成过程主要分为以下四个步骤：

TTS(文字转语音)-头部和肩部的3D重建-提示词脚本驱动的面部动画-高保真渲染。

微调面部几何细节，通过差分渲染。

Tavus团队在建立Phoenix-2视频渲染pipeline时，为了使与用户对话的AI形象更加真实，GAN与3D高斯泼溅融为一体。

之所以这样做，是因为传统的GAN通常受到图像分辨率的限制，而体积模型总是缺乏时间一致性。

所以，Tavus想到把两者结合起来。

在训练GAN时，需要大量的数据集和昂贵的计算资源，而且由于其二维特性和时间一致性，一般推理时间和视频质量都会受到限制。

Tavus以3D模型为“中间体”，完成了100多个。由于动态物体周围的物理感知约束，FPS渲染可以达到更高的可控性和实用性。

比较2D与3D头部演讲模型的区别。

此外，Phoenix-与系列前作相比，2模型的改进是取代了第一代Phoenix模型NeRF。

然后利用3D高斯泼溅来学习如何在3D空间中引入面部动态变形，并利用这些信息根据看不见的音频来渲染视图。

与NeRF相比，3D高斯在数据、内存、计算复杂度、流程、渲染效率等方面都表现得更好。

Phoenix-2模型pipeline基于3D高斯溅溅，可以以比第一代模型快70%的速度练习，60% 渲染FPS的速度。

Tavus说，在对话过程中，有回合结束测试和可中断性，让用户觉得对话更加准确。

另外，由于面部信息特别敏感，团队为保护信息安全提供了安全检查、安全协议、自动内容审核和反幻觉检查。

值得注意的是，Phoenix系列模型还支持Tavus的另一种商品。——

形成客户数字孪生形象的对话视频。

只需提供2分钟的素材，花费1美元(起)，即可调用API生成视频内容。

官方提醒可以提供端到端的解决方案，具备以下能力：

使用API，构建安全、真实的数字孪生或AI。 Agent
定制LLM、人物角色与对话背景
内嵌式会议厅中流式传输对话
记录，转录和共享对话。
高流量的生产级可扩展性处理

"没有1s，就不是人"<1s，就不是人了”

Tavus团队是一家成立四年的AI视频创业公司，规模不大。

大部分成员来自Amazon、Descript、Google和Apple等等。

公开资料显示，截至今年3月，该公司已获得红杉，Scale VC、A轮YC投资，融资金额约为1800万美元。

联合创始人兼CEOTavus，名叫CEO。Hassaan Raza。

曾经在谷歌和苹果工作过。

该公司的联合创始人兼首席执行官在Producthunt上留言称，制作对话视频AI需要很长时间，研究、工程和建设大约需要几千个小时。

为何要追求1秒或更短的延迟？

这位官员也给出了答案，尽可能模拟人与人之间的视频对话。：

由于如果反应速度不低于1秒，那么(对面和你聊天)就不是人了。

参考链接

[1]https://www.tavus.io/careers

[2]https://x.com/heytavus/status/1824075891271749903

[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus

本文来自微信微信官方账号“量子位”，作者：衡宇，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

瓜！北大网络名人刘光耀结局撕毁了前妻信邦制药董事长安吉

焦点分析｜视频号带动腾讯Q2毛利，游戏终于回归增长。

卷入“罐车混放”事件，金龙鱼收入下滑，净利润暴涨，股价依然低迷。

《中国独角兽企业成长路径白皮书》发布

每天赚5亿，腾讯在网上打了一针“强心剂”

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂