最强开源文生图模型一夜易主,SD原班人马打造,要发SOTA视频生成模型

2024-08-04

最强的开源文生图模型一夜易主!


智东西8月2日报道,昨晚,开源文生图模型霸主Stable Diffusion原班人马,宣布推出全新的图像生成模型FLUX.1


FLUX.1包括标准版,开发者版,快速版,三种模型,其中前两种模型战胜了SD3-Ultra等主流模型,FLUX较小。.1[schnell]Midjourney也超越了它 v6.0、DALL·E 等待更多模型。



▲FLUX.1 与主流模型相比,ELO成绩


FLUX.1在文字生成,复杂的指令遵循人手生成上面有优势。下面是FLUXX最强的标准模型。.1[pro]生成图像示例,可以看到即使生成了大段的文字,多个角色,也不会出现字符、人手等细节上的错误。


▲FLUX.1[pro]生成图像示例


FLUX.1目前已经可以在Replicate开源平台上使用,下面是我用的提示词“世上最小的黑森林蛋糕,手指大小,被黑森林的树木包围着。",在三个模型上生成的图像,耗时分别是17.5s、12.2s、1.5s



▲三种模型生成对比


FLUX.同时打开API(应用程序接口),根据图像数量定价,三个模型的价格分别为每张照片。0.055美元,0.03美元,0.003美元(大约0.4元,0.22元,0.022元)。


FLUX.1后面的公司名称Black Forest LabsStablee(黑森林实验室) 原班人马Diffusion,多名Stabilityy, 成立了AI前研究员。和Stability AI相似,黑森林致力于开发高质量的多模态模型并开源,目前已完成。3100万美金种子轮融资(约合人民币2.25亿元)。


黑森林还预测将在不久后发布。SOTA(目前技术指标第一)视频模型。从Demo发布的角度来看,企业可能会成为视频生成领域的一匹黑马,无论是流畅性、稳定性还是物理模拟都达到了第一梯队的水平。


▲视频生成模型预告


三个模型试用地址:


https://replicate.com/black-forest-labs/flux-pro


https://replicate.com/black-forest-labs/flux-dev


https://replicate.com/black-forest-labs/flux-schnell


01 擅长生成文字,人手三种模型,秒级生成。


FLUX.1具有三个特点:视觉质量、图像细节、输出多样性等。文字生成,构图复杂,人手描绘


在图像、视频生成中,文字的形成十分重要,许多模型容易混淆看起来相似的字母。FLUX.1能处理重复字母的棘手单词,例如生成一个黑色森林Flux Schnell蛋糕


▲黑色森林Flux Schnell蛋糕


就构图而言,FLUX.1善于按照图像中的复杂指示操作事物应该位于哪里。例如,FLUX.1这个提示词的完美演绎:三位法术巫师站在一张黄色的桌子上,每位巫师都有一个标志。左边,一位身穿黑色长衫的巫师拿着一位写着“AI”中间,一位身穿红色长衫的女巫拿着一位写着“is”在右边,一位身穿蓝色长衫的巫师拿着一位写着“cool”的象征。


▲繁杂构图


人力一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还不够完美,但是已经取得了很大的进步。


▲人手


FLUX.1共有标准版,开发者版,快速版,三种版本。


其中,FLUX.1[pro]它是最先进的版本,具有顶级的即时跟踪、视觉质量、图像细节和输出多样性,为专业客户提供定制的企业解决方案。


▲FLUX.1[pro]生成图像示例


FLUX.1[dev]从FLUXX面向非商业应用。.1[pro]精制而成,具有相似的质量和能力,比同尺寸的标准模型更有效率。



▲FLUX.1[dev]生成图像示例


FLUX.1[schnell]它是三种模型中最快的,专为当地开发和个人使用而定制,并根据Apachee进行定制。 公开提供2.0标准许可证。



▲FLUX.1[schnell]生成图像示例


FLUX.1目前已经可以在Replicate开源平台上使用,只需一行代码就可以在云端运行,用户还可以下载模型权重并通过编程运行。FLUX.一个API也同时开放,三个模型的价格分别是每张照片0.055美元,0.03美元,0.003美元(大约0.4元,0.22元,0.022元)。


02 战胜MJ V6、DALL·E 三是技术报告即将发布。


性能方面,FLUX.1经过特别微调,整个导出多样性在预训练中得到了保留,新的规范在指令遵循、视觉质量、尺寸/长宽变化等方面得到了建立。


FLUX是其中之一.1[pro]和[dev]在五个评估标准下,两个模型都超过了Midjourney。 v6.0、DALL·E 热门模型,如SD3-Ultra。


FLUX.1[schnell]作为一个轻量级模型,它不仅优于同类竞争对手,而且优于Midjourney v6.0、DALL·E 三是强大的非蒸馏模型。



▲FLUX.1与主流模型进行性能对比


另外,所有FLUX.1所有模型均支持各种宽高比和分辨率0.1和2.0百万像素。


▲宽高比/分辨率变化


如何实现如此强大的性能?


就模型架构而言,FLUX.采用Transformer模块混合架构,基于多模态并行扩散,并将其扩展到12B参数。


通过建立流量匹配的团队(Flow Matching)通过结合旋转位置嵌入来改进最先进的扩散模型,(Rotary Position Embedding)并行注意力层,以提高模型性能和硬件效率。更加详细的技术报告将在不久的将来公布。


03 SOTA视频模型模型发布SD原班人马,2.25亿种子轮。


Stable由黑森林实验室组成 创始团队成立了Diffusion,该团队之前的工作还包括VQGAN、Stable视频生成模型 Video Diffusion等。


Stable 在最初的五位作者中,Diffusion,4位Stability加入了Stability Robin包括Robin,AI并持续开发SD后续版本。 Rombach、Andreas Blattmann、Dominik Patrick,Lorenz Esser,他们都在黑森林实验室的创始团队中。


▲Stable 黑森林实验室创始团队Diffusion作者


该团队表示,其核心信念是开发普遍可访问的模型,促进研究与学术界的创新与合作,提高模型的透明度。


黑森林实验室宣布已完成。3100万美金(约2.25亿元人民币)种子轮融资,a16z,著名风险投资机构(Andreessen Horowitz)CEO,VR制造商Oculus Brendan Iribe、CEO陈嘉兴,企业孵化器YC(Garry Tan)、Timoo英伟达研究员 Aila等专家和AI企业也收到了来自Generala的投资, 后续投资一线基金,如Catalyst。


这个团队的顾问委员会,包括前迪士尼总裁Michaelael,在内容创作行业有着丰富的经验 Ovitz,Matthiass是神经风格转换的先驱。 教授Bethge。


刚创业的AI大神安德烈·卡帕西(Andrej Karpathy)祝福黑森林队,并称“FLUX开源”.图像生成模型看起来很强大。



▲卡帕西评论


前领导创始团队——Stability AI前CEO埃马德·莫斯塔克(Emad Mostaque)还发了贺电,还说:“以前和他们合作是我的荣幸,我相信他们会在生成每个像素的旅程中继续突破界限。



▲评论莫斯塔克


黑森林预告将在下一步工作中发布一份工作。文生视频模型SOTA模型,“让每个人都能把文字变成视频”。这个模型将基于FLUX。.在1的基础上,“以高清晰度和前所未有的速度实现精确创作和编辑”。


▲视频生成模型预告


04 结论:黑马在多模态大模型领域涌现


当许多大厂商、创企狂卷文生视频时,文生图领域突然迎来了黑马。FLUX“问世”.1不仅表现出出色的性能,还突破了文字生成、复杂构图、手绘等方面的难点。,并以多样化的版本满足不同用户的需求。


凭借Stable,黑森林实验室 Diffusion原班人马实力雄厚,获得了丰富的种子轮融资,也吸引了很多行业大咖的关注和支持。随后将发布的视频模型为文化视频领域注入了新的活力。


本文来自微信微信官方账号的“智东西”(ID:zhidxcom),作者:香草,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com