谷歌、李飞飞路径之外，阿里世界模型「快乐生蚝」开辟新赛道

04-19 06:33

阿里的技术路线总是独树一帜。

不久前，一匹神秘的「欢乐马」突然登顶Artificial Analysis排行榜。

AI领域顿时议论纷纷，直到阿里主动认领了这个成果。

没想到短短几天，阿里的「Happy」系列又添新成员——HappyOyster（快乐生蚝）。

这两款产品同出一门，都来自阿里今年3月新成立的Alibaba Token Hub（ATH）创新事业群。

不过，和「欢乐马」那种「输入提示词、等待渲染、接收成片」的一次性流程不同，HappyOyster是一款能实时构建和交互的开放式世界模型产品。

它基于原生多模态架构，背后是支持多模态输入与音视频联合生成的流式生成世界模型，在生成过程中能持续接收用户指令，画面实时响应、不断演绎。

HappyOyster主打漫游（Wander）和导演（Direct）两大核心功能。

其中漫游功能是首个支持任意风格、无限互动的通用世界模型，只需输入文本或图像，就能生成可无限探索的世界场景，支持1分钟以上的实时位移控制和镜头控制。

导演功能则是基于世界模型的实时AI视频导演引擎，可连续生成长达3分钟的720p实时视频，我们能通过文字指令实时操控镜头、调度角色、改变剧情走向。

说起这个名字，还有些由来，它借用了莎士比亚的经典名言「The world is your oyster.」（世界是你的牡蛎，等待你亲手开启）。

目前，HappyOyster已经上线，我们也第一时间拿到了邀请码，接下来就进行上手实测。

体验链接：https://www.happyoyster.cn/

一手实测：

阿里这款世界模型颇具新意

先试试主打的漫游（Wander）功能。

该功能支持通过文字或图片生成世界。

我们既可以直接输入提示词，也可以分开设定「角色（Character）」和「场景（Scene）」进行精细化控制，还能在第一人称和第三人称之间切换视角。

比如，我们使用「定制模式」分别输入：角色设定为「A stylish blonde female model」，场景设定为「On the streets of Paris in the 1980s」（一位穿着时髦的金发女模特，在80年代的巴黎街头）。

HappyOyster没有直接输出一段固定视频，而是用十几秒时间构建出一个完整的夜晚雨后巴黎街头，路面积水倒映着昏黄路灯，马路上汽车疾驰而过，两边店铺林立，细节都符合物理规律。

接下来，我们可以用WASD键控制角色前进方向，或者用上下左右方向键推动镜头移动，角色在这个空间里自由游走，最终生成视频。

整个画面实时响应，全程流畅无卡顿。

系统还自动配上了契合场景氛围的BGM，音画同步自然。

我们又上传了一张动漫风格第一视角骑行图片，HappyOyster基于这张静态画面，生成了一个具有空间结构和运动逻辑的完整场景。

视角向前推进时，道路延展、花海分布以及远处景物的层次变化连贯，没有明显的拼接感或跳变。

吉卜力风格的视觉语言和樱花飘落的氛围，在整个运动过程中也保持一致。

漫游功能能适配各种风格，我们甚至直接「走进」了梵高的画作。

再试试导演功能（Direct），它最大的亮点是可以在视频的任意节点实时改变内容。

我们上传一张吉卜力风格的图片，HappyOyster立刻打造出一个宫崎骏式的动漫世界：一位小女孩撑着红色雨伞，走在雨后坑坑洼洼的乡间小路上。

此时输入提示词「一只可爱的吉卜力风格的小猫突然跑到女孩身边」，模型没有重新渲染，直接在当前画面里生成了一只小猫跑来，与小女孩并排同行。

我们继续追加指令：「女孩蹲下抚摸小猫。」画面再次即时响应，小女孩蹲身、伸手，动作自然流畅。

总之，模型能够根据输入的提示词精确调整场景和人物动作，画面流畅自然，每个变化都与故事情节无缝衔接。

技术解读：

世界模型与文生视频，差异何在？

看完实测，我们可能会直观地觉得，这和Sora、可灵等文生视频模型不太一样。确实不同，而且是底层逻辑上的差异。

无论是Sora还是可灵，文生视频模型本质上是一次性系统。给定文本或图像条件后，模型在预先限定的时间窗口内组织内容、运动和节奏，然后交付结果。用户一次输入，得到一段输出，流程就结束了。这个过程是封闭的、一次性的，中间没有干预空间。

这种模式对于生成一段精美的短片足够，但如果想在画面中途介入，改变已发生的事情，就无能为力了。

世界模型的思路则完全不同。它学习的是世界接下来会如何发展：当前状态是什么，施加一个动作后会发生什么，再下一步又会怎样。它没有预设终点，当没有新输入时，模型基于已有状态自主延续世界发展；若中途注入新指令，模型就结合当前状态重新推断后续走向，可随时被打断、干预、重写。

正因如此，世界模型的训练难度远高于文生视频。

最直接的挑战是速度。世界模型需要在用户给出指令的瞬间做出响应，任何明显延迟都会打破沉浸感。HappyOyster为此采用流式生成框架，将高维视频与多模态信息压缩为紧凑的动态latent state，大幅降低单步生成的计算开销，使生成能低延迟持续推进。文本、图像和漫游指令等控制信号被设计为可在线注入的条件变量，模型无需重置生成过程就能在任意节点即时响应外部交互。

更棘手的问题是，如何让世界在长时间演化中保持一致性。生成时间越长，场景越容易出现内容漂移和结构退化，物理规律和空间结构慢慢失去约束，世界逐渐偏离原本的样子。为了对抗这种「失忆」，HappyOyster引入持续状态复用机制，通过历史注意力状态的连续传递，让模型高效继承已生成信息并渐进更新，在更长时间跨度上维持稳定的场景结构与动态连贯性。

在音画协同方面，不同于将音频作为视频后期附加物单独建模，HappyOyster采用统一的音视频生成框架，在同一世界状态下同步生成视觉与听觉信号。音频作为世界动态的一部分参与联合生成，自然建立跨模态的时间对齐关系。

目前世界模型领域已有几个代表性方向。Google的Genie专注于实时交互式世界建模，但在多模态输入的统一表达和音视频联合生成上还有局限；李飞飞团队的World Labs走的是3D空间结构化重建路线，侧重几何一致性而非像素空间的长时序动态生成。

HappyOyster选择在像素空间内进行长时序、实时可交互的动态世界模拟，并在此基础上加入音视频联合生成能力，这是一条此前鲜有人走通的路径，没有太多现成答案可参考。

结语

AIGC发展至今，内容生成工具已相当成熟。写文章、生成图片、制作视频，这些需求都有了不错的解决方案。但这条赛道正悄悄逼近新拐点，即从「生成内容」转向「构建世界」。

HappyOyster的出现，让我们看到了这个方向的轮廓。它给每个人一个可以随时进入、随时修改、实时反馈的「自定义数字世界」。我们可以在里面漫游、导演，还能分享给别人，让别人在我们构建的世界里继续演绎。

应用场景上，它的边界远不止屏幕内的娱乐体验。文旅展陈、互动短剧、影视概念验证、品牌营销、直播共创……凡是需要实时感知、实时生成、实时反馈闭环的场景，它都天然适配。

更长远来看，一旦与摄像头、传感器、空间设备等硬件结合，HappyOyster承载的就是一个可以被现实信号持续驱动的生成式环境系统。

但坦率地说，世界模型整体仍处于早期阶段。长时序下的物理一致性、复杂场景中的因果推理、对现实世界规律的深度理解，这些都是悬而未决的硬核挑战。HappyOyster是这个方向上目前最接近「可用产品」形态的探索之一，但探索意味着边界尚未确定。

这既是局限，也是想象力存在的理由。

本文来自微信公众号「机器之心」（ID：almosthuman2014），作者：杨文，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

江苏家电补贴新增10大类京东电器抢先启动补贴

“A股新王”源杰科技：曾被日商误作“骗子”，一年股价飙升超12倍

年销超200亿的康师傅茶饮，为何“再来一瓶”兑奖难？

DeepSeek若选择华为，黄仁勋口中的“灾难”究竟指向何方？

豫剑执行进行时 | 新县法院深入推进“豫剑执行”集中执行行动

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂