开始尝试快手的视频AI,我发现它有点领先。。

06-17 14:14

Sora 不再向大家开放,真的会被同行给予。 " 辗压 " 了。。。


首先,前几天,快手新制作了一个文生视频模型。可灵 AI ,悄悄地摸着外网火了。


一出来,网友们就直接跟着它。 Sora 把它放在擂台上,令人惊讶的是,可灵 AI 居然一点也不输,有时效果比较 Sora 还要好一点


就比如 " 蚂蚁爬进巢穴 " 这种提示词,可以灵生成视频的质感。跟 Sora 差不太多,并且它还创造了太阳光照进洞穴时的光影。


还有同样是 " 拉力赛车 " 场景,可灵的理解比较 Sora 更加符合初衷。我们可以清楚地看到, Sora 图片中的车在同一个地方打圈,而可灵产生的跑车确实在跑道上飙升。


它也能像 Sora 就像这样,生成两分钟的所有视频。 " 小男孩在花园里骑自行车,经历秋冬春夏四季的变化。 " 视频,画面稳定,光影变化等等, Sora 那个经典视频有得一拼。


相较于 Sora ,可灵 AI 还会更中国婴儿的体质适合我们。一些,像熊猫这种中国元素,它也可以很快 get 到。


甚至已经有外国人为了玩快手而玩。 AI ," 求 " 希望国内网友帮他制作一些视频。。


可以在世超琢磨可灵 AI 当时,一个新的视频模型突然从网上跳出来。 Luma AI ,同样能生成将近两分钟超清视频。而且官网示例的效果,也是直追。 Sora 。


正如它在潜水时产生的那一刻,面部周围的气泡变化就像真的一样,在整个大运动过程中,面部也没有出现任何畸变。


还有房间爆炸时,镜头推动的场景,整个人都有一种观看的场景。好莱坞大片的错觉了。


看到这里,我不知道我的朋友们是什么感受。简而言之,世超已经有点不平静了。他立即要求朋友从Aautorapper那里获得内部测试资格,顺便登上。 Luma 试验界面,准备亲自上手试试这两个。 AI ,看看他们究竟有没有传说中的那么厉害。


根据他们两人的宣传,可灵 AI 和 Luma 每个人都有自己擅长的领域。可灵这一块,网友们都说它生成了。吃播视频是一绝,而 Luma 网站上的宣传就是这样 " 电影感 " ,还能通过照片 提示词生成视频。


那么我们也不废话,直接从他们各自的地盘上开始测试。


第一,我们来到的比赛地点,是快手比较擅长的。 " 吃播 " ,让它们同时产生一个段落 " 一名男子正在吃意大利面。 " 的视频。


一说一,可灵 AI 其它图片说是说是在啰嗦的时候有点不稳定,从快手的吃播视频中截取的,估计很多人都被忽悠了。


到了 Luma 这儿,画风突然变得怪异起来,男嘉宾就像有超能力一样,什么餐具都不用吃,而且嘴也很不自然。


现在已经生成了吃播的视频 Luma 不太好,那么接下来我们就试试它比较擅长的东西。 " 电影感 " 。


本以为 Luma 要大施拳脚了,没想到它一上来就出来了。拉了坨大的


让它产生一个段落 " 外星人大战机器人 " 场景,还是那个老问题,同一个角色,一会儿变成机器人,一会儿变成怪物,整个过程都没有看到打斗的痕迹。


给可灵喂同样的提示,它却把战斗场面整理出来,只是有点经不起细看,手里拿着的东西刀都是软的。。。


幸好后来的表现还可以,让它们同时产生。 " 顶级富豪在别墅里开派对。 " 视频,都挺像样的,唯一的缺点就是脸部情绪。都不太稳定


各自擅长的领域都比完了,那么接下来的第二轮,考验这两个。 AI 了解物理世界水平


让它们产生一个段落 " 猫与正在睡觉的主人互动。 " 首先,视频 Luma 这儿,它一上来就直接摆烂了,只生成了一个黑猫的视频,甚至没有看到人的影子。


要不说全靠同行衬托,对比下可灵。 AI 效果更强。有猫,有睡觉的人,坚持扣缺陷的话,就是看不到猫和主人之间的互动。


后边世超又试了一点,发现了一些简短的提示,快手可灵的表现都不错。,比如玩偶熊在瀑布前弹吉他,样品骑自行车等等。


Luma 这儿就像支使久了,想罢工一样,各种 Bug 都出来了,小熊弹吉他都可以弹出幻觉。


也把羊自己变成了自行车。。


更加抽象的是,因为 Luma 有照片输入,试的时候总能得到很多乐趣。比如让它给猪人整个后续的表情图,拿到一半就给。整成惊悚片了。。


还有经典的 " 外国老头 nice " 梗图,他喝可乐就是这样,多少有些鬼畜。


甚至还有网友给各种梗图,都是脑补后续。


总而言之,经过整体体验,世超觉得,要论效果,快手可灵。 AI 效果仍然会更加稳定,更好一些。至少和其它可用的东西视频 AI 比方说,它已经相当不错了。


而且把模型训练成这样,快手就是摸着 Sora 这块石头过河,也到用了。 DiT 架构。把 transformer 整合到扩散模型中,这样,堆叠参数,堆叠训练数据等等可以提高模型性能,但是在视频数据这一块,快手自然不缺。


但如今除了效果,视频 AI 还有一个问题需要注意,商业


不知大伙们有没有注意到,尽管 Sora 之后,相似的 AI 就连字节、阿里这样的大厂商,也纷纷争先恐后地走上这条赛道。


大多数厂商在宣布自己也有这样的模型之后,几乎没有进一步的行动。


像是 Sora ,他们的案例库已经好几个月没有更新了,还有其他视频向大家开放。 AI ,也只升级到 5s 这段视频的长度不再持续。。


而且弄成这样,说白了还是做视频? AI 花费太多,又找不到任何赚钱的方法。


像是学图片 AI 同样收取会费,根本就是 cover 不要失去它的成本,据调查机构 Factorial Funds 称,以 Sora 为例,它 30 亿主流猜测(主流猜测 )练习费用,比较 1.8 万亿参数 GPT-4 还多。


这个只是训练,实际上费时的推理费用更高,国内有。 AI 公司做了一个转换,视频花了将近两分钟。 180 元钱,看看这些数据,也难怪 AI 制造商不敢公开进展。。


不过话说回来,世超还是挺看好快手做这种事的。 AI 是的,毕竟它本身就有一个视频平台。也许以后可灵也可以像因为粘土滤镜而爆红的那样。 Remini 一样,靠 " 发帖助手 " 找到一种赚钱的方法。


事实并非如此,世超立刻想到了一个想法,不如学这次的学习。 Luma ,玩抽象游戏,意味着流量可能会来。( 狗头 )


发文:松鼠


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com