字节跳动上线即梦AI，文生视频工具对决正式启动。

2024-08-16

今年年初，OpenAI突然抛出了一颗深水炸弹——Sora，一个文化视频大模型。它不仅可以生成一分钟的连贯超清视频，而且具有很强的模拟能力，这也显示了对物理世界的初步理解。有一段时间，国内AI行业再次被淘汰的焦虑逐渐在网上蔓延。

没想到，仅仅半年过去了，当Sora几乎“找不到这个人”的时候，国内的文化视频模型就开始抓对杀人了。就在快手可灵AI宣布全面开放内部测试后，字节跳动旗下剪影团队开发的一站式AI创作平台“即梦AI”宣布上架，和前者一样，即梦AI也同步推出了付费会员制。

为什么“中国版Sora”在OpenAISora还处于PPT阶段，而“中国版Sora”却率先开始商业化运作？很明显，快手和字节跳动的AIR&D能力压OpenAI是不现实的。毕竟字节跳动的豆包和快手的畅快程度都比不上OpenAI的GPT-4o。所以真正的原因可能是Sora只是OpenAI当时攻击谷歌Geminini。一个1.5的工具，对于快手和抖音这两个短视频平台来说，文生视频模型即梦AI、可灵AI具有非凡的意义。

为何快手、字节跳动的文生视频大模型会如此迅速地落地？毫无疑问，Sora给行业带来的启发是一切的起点。Runway是Sora之前业内最好的文生视频产品。、Pika，所有的视频都只能制作不到十秒的视频，而不是制作视频，而是制作GIF。在Sora完成了一分钟连贯的视频生成之前，它展示了在多角度多镜头切换中保持一致，并遵循现实世界的物理规律的能力。

事实上，Sora使用的Diffusion Transformer架构是这一切的根源，OpenAI创造性地将Transformer架构的大型训练模型融入到Diffusion扩散模型中，为图像视频等多模态数据找到适合Transformer架构的训练方法。解决了从零到一的问题后，如何将文生视频模型商业化成为一个工程问题，即梦AI和可灵AI的青春总比蓝色好。

对OpenAI来说，它们的使命是实现AGI，Sora是展示肌肉的工具，而快手和字节跳动制作文生视频则是为核心业务提供短视频服务。那也是Sora已经没有下文了，而可灵AI、也就是梦AI后来者居上的一个重要原因。毕竟对于短视频平台来说，文生视频工具极其重要。事实上，可灵AI和即梦AI的正面对抗就像五年前的视频编辑工具之争。

此前，2019年夏天，Tiktok的剪辑和Aautorapp的两个视频剪辑应用同时迎来了爆炸式增长。再算上一年后哔哩哔哩上线的必备剪辑，三个以UGC内容起家的视频平台也开始了视频剪辑产品。视频编辑工具之争的背后，从2019年开始，随着流量红利的消失，视频平台逐渐从UGC转变为PUGC时代。在此期间，Tiktok、Aautorapper和哔哩哔哩也开始在自己的平台上培训创作者。

问题是，虽然为创作者举办培训课程是有效的，但平台人员面对庞大的创作者人群无疑是短缺的。互联网制造商宝贵的人工资源绝对不是这样使用的。通过技术手段解决问题是他们的法宝。因此，Tiktok和Aautorapper开始考虑如何通过技术手段提高用户制作短视频的效率和效果，从而涌现出更多高质量的内容。

现实确实如Tiktok、Aautorapper、哔哩哔哩所想。剪影等视频编辑工具通过提供模板、滤镜、主题等模块化工具，成功降低了创作视频内容的难度，给了更多人输出内容的能力。参与创作的人越多，出现高质量内容的概率自然就越高。

遗憾的是，即使剪影和快影已经比Adobe做得更好了。 Premiere Pro、Vegas Pro等专业视频编辑软件更傻，每个功能都提供视频讲解，但还是有一定的入门难度，离零门槛还有很长的路要走。伴随着微信视频号进入短视频这条赛道，分蛋糕的厂商又多了一家，以至于抖音和快手吸引用户停留的压力越来越大。

然而，AI模型的出现给了Tiktok和Aautorapper一个实现“每个人都是创作者”的机会。毕竟文字视频模型的卖点是，一个视频可以通过文字生成，用户可以直接将文字脚本变成视频，而不需要了解任何视频编辑的知识和技巧。那么这个特点最适合什么样的创作者呢？当然还是留在微信微信官方账号、知乎、各大新媒体平台的图文创作者身上。

是的，照片创作者从几年前就转型为视频创作者，但直到现在，微信微信官方账号、知乎甚至小红书上仍有大量图文创作者坚守阵地。为了留住这些图文创作者，短视频平台不惜开拓图文专区，但是短视频和图文毕竟是不一样的。曾经的剪影问世，已经让对视频创作感兴趣的用户参与到短视频创作生态中，所以这次AI工具并不是针对他们的。

拥有可灵AI、即梦AI，图文创作者可以直接用文字生成所需的视频内容，也可以简单地为文字生成符合情境的视频。对未接触过视频制作的内容创作者而言，可灵AI、即梦AI的效果远远强于以往的文生视频工具。举例来说，知乎方面曾经在2020年建立了一个图文可以快速生成视频的工具，但是由于效果不佳，顾客根本不买账。

以前的文生视频工具都是借助自然语言识别的。（NLP）该技术用于断句和配音，然后用语义图片识别（OCR）技术通过标签智能配图，将平面图形转换成更立体的视频。但是这个视频的效果和原创视频有很大的不同，只能解决问题，却不能商业化。

经过几个月的测试，可灵AI证明了他们用编辑工具创作的视频和人类创作的视频之间没有质的差距。由于，可灵AI、即梦AI已经具备了商业化水平，同时Tiktok和Aautorapper需要更多的内容创作者来丰富内容生态，所以就像五年前的视频编辑工具竞争一样，现在的AI文学视频工具竞争也开始了。

本文来自微信微信官方账号“三易生活”（ID：IT-作者：三易菌，36氪经授权发布，3eLife)。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

解禁就是砸盘？又见解禁日个股暴跌，8月份解禁26股超过40%。

外卖员和保安，被困在各自的“系统”中

影石创新在深夜发布“短文”后表示，IPO计划将变更或撤销

现场开蚌，一年赚几千万，是个好生意吗？

为什么全球金融市场迎来了新的波动？