最强开源文生图模型一夜易主，SD原班人马打造，要发SOTA视频生成模型

2024-08-04

最强的开源文生图模型一夜易主！

智东西8月2日报道，昨晚，开源文生图模型霸主Stable Diffusion原班人马，宣布推出全新的图像生成模型FLUX.1。

FLUX.1包括标准版，开发者版，快速版，三种模型，其中前两种模型战胜了SD3-Ultra等主流模型，FLUX较小。.1[schnell]Midjourney也超越了它 v6.0、DALL·E 等待更多模型。

▲FLUX.1 与主流模型相比，ELO成绩

FLUX.1在文字生成，复杂的指令遵循和人手生成上面有优势。下面是FLUXX最强的标准模型。.1[pro]生成图像示例，可以看到即使生成了大段的文字，多个角色，也不会出现字符、人手等细节上的错误。

▲FLUX.1[pro]生成图像示例

FLUX.1目前已经可以在Replicate开源平台上使用，下面是我用的提示词“世上最小的黑森林蛋糕，手指大小，被黑森林的树木包围着。"，在三个模型上生成的图像，耗时分别是17.5s、12.2s、1.5s。

▲三种模型生成对比

FLUX.同时打开API(应用程序接口)，根据图像数量定价，三个模型的价格分别为每张照片。0.055美元，0.03美元，0.003美元(大约0.4元，0.22元，0.022元)。

FLUX.1后面的公司名称Black Forest LabsStablee(黑森林实验室) 原班人马Diffusion，多名Stabilityy，成立了AI前研究员。和Stability AI相似，黑森林致力于开发高质量的多模态模型并开源，目前已完成。3100万美金种子轮融资(约合人民币2.25亿元)。

黑森林还预测将在不久后发布。SOTA(目前技术指标第一)视频模型。从Demo发布的角度来看，企业可能会成为视频生成领域的一匹黑马，无论是流畅性、稳定性还是物理模拟都达到了第一梯队的水平。

▲视频生成模型预告

三个模型试用地址：

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

01 擅长生成文字，人手三种模型，秒级生成。

FLUX.1具有三个特点：视觉质量、图像细节、输出多样性等。文字生成，构图复杂，人手描绘。

在图像、视频生成中，文字的形成十分重要，许多模型容易混淆看起来相似的字母。FLUX.1能处理重复字母的棘手单词，例如生成一个黑色森林Flux Schnell蛋糕：

▲黑色森林Flux Schnell蛋糕

就构图而言，FLUX.1善于按照图像中的复杂指示操作事物应该位于哪里。例如，FLUX.1这个提示词的完美演绎：三位法术巫师站在一张黄色的桌子上，每位巫师都有一个标志。左边，一位身穿黑色长衫的巫师拿着一位写着“AI”中间，一位身穿红色长衫的女巫拿着一位写着“is”在右边，一位身穿蓝色长衫的巫师拿着一位写着“cool”的象征。

▲繁杂构图

人力一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还不够完美，但是已经取得了很大的进步。

▲人手

FLUX.1共有标准版，开发者版，快速版，三种版本。

其中，FLUX.1[pro]它是最先进的版本，具有顶级的即时跟踪、视觉质量、图像细节和输出多样性，为专业客户提供定制的企业解决方案。

▲FLUX.1[pro]生成图像示例

FLUX.1[dev]从FLUXX面向非商业应用。.1[pro]精制而成，具有相似的质量和能力，比同尺寸的标准模型更有效率。

▲FLUX.1[dev]生成图像示例

FLUX.1[schnell]它是三种模型中最快的，专为当地开发和个人使用而定制，并根据Apachee进行定制。公开提供2.0标准许可证。

▲FLUX.1[schnell]生成图像示例

FLUX.1目前已经可以在Replicate开源平台上使用，只需一行代码就可以在云端运行，用户还可以下载模型权重并通过编程运行。FLUX.一个API也同时开放，三个模型的价格分别是每张照片0.055美元，0.03美元，0.003美元(大约0.4元，0.22元，0.022元)。

02 战胜MJ V6、DALL·E 三是技术报告即将发布。

性能方面，FLUX.1经过特别微调，整个导出多样性在预训练中得到了保留，新的规范在指令遵循、视觉质量、尺寸/长宽变化等方面得到了建立。

FLUX是其中之一.1[pro]和[dev]在五个评估标准下，两个模型都超过了Midjourney。 v6.0、DALL·E 热门模型，如SD3-Ultra。

FLUX.1[schnell]作为一个轻量级模型，它不仅优于同类竞争对手，而且优于Midjourney v6.0、DALL·E 三是强大的非蒸馏模型。

▲FLUX.1与主流模型进行性能对比

另外，所有FLUX.1所有模型均支持各种宽高比和分辨率0.1和2.0百万像素。

▲宽高比/分辨率变化

如何实现如此强大的性能？

就模型架构而言，FLUX.采用Transformer模块混合架构，基于多模态并行扩散，并将其扩展到12B参数。

通过建立流量匹配的团队（Flow Matching）通过结合旋转位置嵌入来改进最先进的扩散模型，（Rotary Position Embedding）并行注意力层，以提高模型性能和硬件效率。更加详细的技术报告将在不久的将来公布。

03 SOTA视频模型模型发布SD原班人马，2.25亿种子轮。

Stable由黑森林实验室组成创始团队成立了Diffusion，该团队之前的工作还包括VQGAN、Stable视频生成模型 Video Diffusion等。

Stable 在最初的五位作者中，Diffusion，4位Stability加入了Stability Robin包括Robin，AI并持续开发SD后续版本。 Rombach、Andreas Blattmann、Dominik Patrick，Lorenz Esser，他们都在黑森林实验室的创始团队中。

▲Stable 黑森林实验室创始团队Diffusion作者

该团队表示，其核心信念是开发普遍可访问的模型，促进研究与学术界的创新与合作，提高模型的透明度。

黑森林实验室宣布已完成。3100万美金(约2.25亿元人民币)种子轮融资，a16z，著名风险投资机构（Andreessen Horowitz）CEO，VR制造商Oculus Brendan Iribe、CEO陈嘉兴，企业孵化器YC（Garry Tan）、Timoo英伟达研究员 Aila等专家和AI企业也收到了来自Generala的投资，后续投资一线基金，如Catalyst。

这个团队的顾问委员会，包括前迪士尼总裁Michaelael，在内容创作行业有着丰富的经验 Ovitz，Matthiass是神经风格转换的先驱。教授Bethge。

刚创业的AI大神安德烈·卡帕西（Andrej Karpathy）祝福黑森林队，并称“FLUX开源”.图像生成模型看起来很强大。

▲卡帕西评论

前领导创始团队——Stability AI前CEO埃马德·莫斯塔克（Emad Mostaque）还发了贺电，还说：“以前和他们合作是我的荣幸，我相信他们会在生成每个像素的旅程中继续突破界限。

▲评论莫斯塔克

黑森林预告将在下一步工作中发布一份工作。文生视频模型SOTA模型，“让每个人都能把文字变成视频”。这个模型将基于FLUX。.在1的基础上，“以高清晰度和前所未有的速度实现精确创作和编辑”。

▲视频生成模型预告

04 结论：黑马在多模态大模型领域涌现

当许多大厂商、创企狂卷文生视频时，文生图领域突然迎来了黑马。FLUX“问世”.1不仅表现出出色的性能，还突破了文字生成、复杂构图、手绘等方面的难点。，并以多样化的版本满足不同用户的需求。

凭借Stable，黑森林实验室 Diffusion原班人马实力雄厚，获得了丰富的种子轮融资，也吸引了很多行业大咖的关注和支持。随后将发布的视频模型为文化视频领域注入了新的活力。

本文来自微信微信官方账号的“智东西”（ID：zhidxcom），作者：香草，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

这些品牌为了管理店面，用“利器”武装了一线员工。

一个板块大爆发，多芯20CM涨停。

刷新记录！a股历史重演

对话 | 理想智力驾驶副总裁郎咸朋：学习困难的学生，追求特斯拉

低价外卖爆红，是预制菜“高发区”？