Sora遭遇了强敌，梦想机器爆红：实测效果出人意料

2024-06-16

过去半年，AI 生成视频一直处于不断推进的状态。

在 OpenAI 年初推出 Sora 时间引起前所未有的讨论后，号称国内首个自研视频大模型。 Vidu，以及后续字节、腾讯、快手等国内厂商推出的视频生成模型，不时引起外界关注。就在几天前，雷科技还推出了快手的大型视频模型「可灵」进行内测感受。

但是，这两天 AI 制作视频的确又火了。

01 一发布就火了，「造梦机器」把社交网络全部烧掉

6 月 12 日本，创业公司 Luma AI 发布了新的 AI 视频生成模型 Dream Machine(造梦机)，并向公众开放测试。不久，不仅官方发布了一系列样片，社交网络上也出现了大量的网友通过网友通过。「造梦机器」制作视频。

比如现代风格的样片，在少女和猫咪的呈现效果上是相当高的，尤其是猫咪的头部和眼部动作。

图片被压缩，图片/ Luma AI

还有一种奇幻风格，产生的人物或物体也确实是奇幻的，甚至还有一些克苏鲁的味道。

图片被压缩，剪辑，图片/ Luma AI

此外，「造梦机器」它不仅支持通过文本生成视频，还支持基于图片和文本生成视频。所以你也可以看到跳出《戴珍珠耳环的女孩》的女孩，以及房产中介可能喜欢的女孩。「怎样把景观图变成景观视频？」。

甚至，有些人已经开始使用它。「造梦机器」创造一种叙述「一日生活」影像故事，包括美国中学生从早起到上学再到舞会的刻画。

不只是顾客玩得开心，海外和国内媒体也注意到了。「造梦机器」热度。然而，有一种说法是，一些国内媒体明显吹过头，什么超越了？ Sora、比 Sora 更加准确顺畅，这些我们先后再谈，但是「造梦机器」哪来的支持 120 秒生成视频？

实际上，「造梦机器」只支持生成 5 秒视频，官网讲的是生成视频需要的视频。 120 秒，排队等待时间另说。而且如果在官网上独立打开样片，也会发现一切都是一样的。 5 秒(除非有剪辑)。

图/ Luma AI

与国产视频大模型相比，这段视频的持续时间 Vidu 的 16 秒(最近又声称增加到了。 32 不用说，秒的有声视频)，更不用说将会发生。 AI 视频生成时间突破到 60 秒的 Sora。

按照 OpenAI 官方公布的信息，Sora 能实现视频时长突破，主要功臣就是它所使用的扩散。 Transformer 架构，在 Diffusion 在扩散模型的基础上 U-Net 结构被替换为 Transformer 架构。

「造梦机器」呢？目前 Luma AI 公司没有透露实际情况。

当然，5 你不能说第二个视频时间太短，因为目前大量的视频生成模型只能生成。 5 秒视频，包括声称能产生最长时间的视频。 2 分钟快手可灵，至少现在也只能生成。 5 秒的视频。而我们也不能只看「视频时长」在一个层面上，还要看画面的可用性和使用潜力。

02 惊艳的表现，但是内容可靠吗？

坦率地讲，「造梦机器」给小雷的第一印象还是挺亮眼的，先感受一下官方发布的样片。

图片被压缩，图片/ Luma AI

比如在这段时间里，一个持枪的人在一个气氛中透露出危险的房间里小心翼翼地前进。

除人物主体与背景的一致性外，最令人惊讶的可能是光线的变化。不仅是手枪上明显的光反射，在男人的脸上，还可以看到原本诡异的红光在人物移动过程中逐渐由暖转冷，与相邻的灯源趋同，包括亮度的变化也符合基本的物理规律。

另一段是在一个废弃的房子里爆炸，镜头从远到近。虽然还是会有白色的杆状物凭空固定，但是在镜头移动的过程中，无论是家具的不变，还是气流变化导致的碎纸飞来飞去，都可以称之为直觉。

此外「造梦机器」还展示了作为动画创作工具的潜力，比如在一个视频中，镜头从人物的正面转变为背面，已经非常接近动画创作中的特写。

图片被压缩，图片/ Luma AI

然而，这些最终仍然是官方的。「严选」出来。无论是文字、照片还是视频生成模型，官方 Demo 每个人都可以理解这一点，但是从普通用户的角度来看，很容易误以为是模型的平均水平。

即使在那些相当亮眼的少数作品中，在实际网友创作和分享的内容中，你也能看到或多或少的错误。

例如@minchoi 用「造梦机器」创作的美少女视频，几段完全堪比真人实拍。

图/ X

但是人物的手还是有渲染问题的，人物的形态还是会有一定的变化，在上面提到的《戴珍珠耳环的女孩》视频中更为明显。

图片被压缩，图片/ Luma AI

另外，一致性的问题也体现在风格上，有些显然是明显的 2D 动画风格，慢慢地开始往往 3D 动画片的风格转变。

图片被压缩，图片/ Luma AI

小雷也试着使用它「造梦机器」制作一个视频，Prompt 是「A group of people walking down a street at night with umbrellas on the windows of stores.」实际效果还是挺不好的：人物怪异的后退，背后拿着伞的怪异行为，还有一把飞伞。

图片被压缩，图片/ Luma AI

但也有一些优点，比如路面的倒影，背景与人物的一致性。

即便如此，这些问题归根结底还是没有阻止广大网友的创作热情。毕竟相比 Sora，「造梦机器」至少可以公开使用，而且每月都有 30 第二次免费生成机会。与大多数可用的视频生成模型相比，「造梦机器」同时，一致性也有了明显的进步。

除免费客户外，「造梦机器」现在还提供三档付费选项，包括 29.99 99.99美元的标准文件美金的专业文件和 499.99 美元的高级档，不同的是每月可以生成视频的次数。

图/ Luma AI

对普通用户来说，这些定价可能有点离谱，但是对那些开始通过的人来说，「造梦机器」创作视频在 TikTok 对于赚钱的创作者来说，估计还是可以接受的。

03 从 AI 绘图到 AI 录像，大模型再一次混战

AI 视频不是从「造梦机器」一开始，当然也不是从 Sora 开始。事实上，早在 2022 年，AI 当绘画开始让世界大吃一惊时，AI 录像便开始吸引大量的关注。

第一，我们需要回去 2022 那一年的时间点，那时 ChatGPT 还在考虑(年底才发布)，在大众眼中，AI 技术发展最快的领域应该属于 AI 绘画。

2022 年 4 月，OpenAI 新版本的文本生成图像程序已经发布。——DALL-E 2，一张由 DALL-E 2 产生的「宇航员在太空中骑马」相片开始跳红社交网络，让一群画家真正拥有。「下岗」的焦虑。

图/ OpenAI

包含以后的 Midjourney，与以前的产品相比，它们在生成图像方面具有更高的分辨率和更低的延迟。Stable Diffusion 虽然起步最晚，但凭借开源的优势，超越了用户的关注度和使用范围。 Midjourney 和 DALL-E，最早的进步也是最明显的。

事实上，那时候 AI 绘画开始了「侵入」社会的各个方面，无论是获奖的《太空歌剧院》（Midjourney 生成)，或者各大公司开始尝试通过 AI 绘画直接生成广告、海报甚至内容作品。

照片能够 AI 生成，视频还会远吗？众所周知，视频本质上是由一帧一帧的照片组成的。所以在这里 2022 年，谷歌和 Meta 事实上，一个关于它的问题已经开始了。 AI 产生视频竞争，Meta 有 Make-A-Video，谷歌有 Imagen Video，两者都是通过文字直接生成视频扩散模式，底层还是底层？ AI 那一套制图。

图/ Meta

当时，AI 生成视频的时长不超过 5 秒，分辨率也很低，同时画面变化很小，与其说是视频，不如说是让照片看起来更好。「动一动」。更为重要的是，谷歌和 Meta 由于大公司的身份和惯性，他们没有选择向用户和创作者开放。更多的是研究成果的展示，影响力基本局限于圈内。

相比之下，Runway、Synthesia 以及 Pika 等 AI 视频创业公司看起来更像是「灵活」。去年发布的 Gen-2 上，Runway 不但提高了视频生成的质量，而且增加了 Motion Slider(运动滚轮)、Camera Motion (相机运动)等功能，为客户提供更多视频控制权。

去年火了一阵子 Pika 又是一款比较受关注的款式。 AI 由于画质较高，甚至一度被称为视频生成工具。「视频版 Midjourney」，同时相比 Runway Gen-2，Pika 为确保内容的可控性和可扩展性，也进一步给创作者更多的控制权，例如能够精细地计划生成眼睛和表情。

此后，包含 Stable Diffusion 以及 Midjourney 同时也纷纷推出了生成视频版本，让 AI 在战国时期生成视频。但是不管是哪一个，就是 AI 生成视频的画面表现实际上并没有太大的差别，更多的是产品层面的差异。

直到 Sora 带着 Transformer 架构出道即辗压。

04 大语言模型，正在发生变化 AI 视频生成

Sora 引起的震撼与讨论可谓有目共睹，甚至有人认为 Sora 将是通向 AGI快车道(通用人工智能)。Sora 要不要真正了解物理世界的运行规律，我们先放在一边，但是可以肯定的是，Sora 彻底改变了 AI 视频生成技术的发展路线。

图片被压缩，剪辑，图片/ OpenAI

Sora 一个最令人震惊的技术突破就是它的视频输出时间，当其它家庭一般只能生成几秒钟的视频时，Sora 只是突破了时间 60 秒。

事实上，包括最新发布的内容。「造梦机器」还可以生成几秒钟的视频，一旦需要更长的视频，第二次，第三次， N 二次生成的视频容易变形，导致前后画面差异过大，无法使用。

此外，AI 基于时间的连接问题在生成视频时仍然很常见，但是一个关于小狗的故事。 Sora 视频中，行人完全屏蔽画面后，小狗依然可以保持连接，主体没有明显变化。此外，每个人都提到过很多次。「模拟」，能很好地模拟符合物理世界规则的动作。

而 Sora 这一优点很大程度上来自于结构上的核心差异，所以在结构上 Sora 以后，Transformer 全新的技术路线与架构和扩散模型相结合，迅速引起广泛关注，包含生数技术(联合清华大学)Vidu、爱诗科技 PixVerse、快手可灵也都采用了这条路线。

虽然，从这个角度来看， Luma AI 没有公开「造梦机器」结合生成视频中所表现的一致性和逻辑性能，很难相信采用的架构模式。「造梦机器」它是纯扩散模型的产物，概率很高，也是参考。 Sora 将 Transformer 结构融入扩散模型的做法。

这当然只是一种猜测。但是是的。 AI 就视频而言，这越来越成为一种必然。

本文来自微信微信官方账号“价值研究所”（ID：jiazhiyanjiusuo），作者：冬季果酱，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

随着工业化的加速，人形机器人站在风口浪尖，潜力股名单先看(附表)

2024年的AI服务器，相当于2018年的新能源汽车。

各方力量“参与式治理”，社区儿童公园焕然一新。

下午局部下雨！中考天气出来了。我知道天气。

女性员工担心走光，在工作站打伞18天被开除！法庭判决如此→