刚刚出来就被冠上了最强的称号,但是这个图像AI似乎就是这样。

08-16 05:05

大家还记得 Stable Diffusion 嗯,就是那个曾经的和 DALL · E 、 Midjourney 生成同名图像 AI 。


经历过老板跑路核心开发成员辞职,过去的搅拌图像 AI 市场的 Stability AI ,内部已乱成一锅粥。


最近几个月,关于它资金短缺,寻找卖身这个消息,是没怎么断过的。


但是,当前雇主陷入了尴尬的境地,正在努力自救的时候,年初离开的那些成员,正好正好对比。Stable Diffusion 成立了一家新公司Black Forest Lab ( 黑色森林实验室 )。


就在这个月初,当他们宣布成立一家新公司时,他们也一口气发布了。三个不同大小的文生图模型 FLUX.1 。


大杯大杯具有主推图片质量。 pro ;中杯兼顾速度和图片质量。 dev ;还有人称 " 速率飓风 " 的小杯 schnell 。


根据他们官网的说法,大中杯 FLUX ,已成为所有图片 AI 里最为强大的存在


分离出来的各种能力,如视觉质量、尺寸可变性、导出多样性等,也比其它模型要好得多。


不仅官方这么说,在很多网友和媒体的口中,这个刚刚发布的 FLUX ,也已经到了拳打 Midjourney ,脚踢 DALL · E 的程度。


看看网上的评论,却勾起了世超的兴趣。FLUX 真的像大家说的那么厉害吗?这一次,我们把它拉了进来。 Midjourney ,把它和大杯的 FLUX 把一块放在一起测量。


首先,让我们来一个常规的试题热身,让他们各自画一幅中国水墨画。


结果表现还不错,比如渔民、群山、芦苇等提示,都画出来了。但是 Midjourney 这儿画的太阳,确实有点太大了,也没有什么夕阳的感觉。


提示词:


在中国的水墨画风格中,一个孤独的渔民在传统的木船上,在夕阳下在宁静的湖面上轻轻漂流。中国的水墨画风格和温暖的蓝色色调反射出平静的水面,柔和的画笔捕捉到了夜晚的宁静。远处的群山在渐渐的灯光下被剪影,岸边的传统小屋和芦苇在微风中摇曳。 8K 分辨率,电影般的感觉,怀旧宁静的气氛


FLUX ( 左 ), Midjourney ( 右 )


关注照片 AI 这个区域的朋友应该都知道, " 文字生成过差 " 几乎是所有 AI 再次通过跟斗区域。以前 DALL · E 还专门针对这一弱点进行了一次提升,但是偶尔还是会出错。


而且这次,据说 FLUX 这一块的能力已经完全完善了,所以我特意选择了几个要生成汉字的提示扔给它和它。 Midjorney 。


首先让它们各自生成一个含有的。 Prada 商标包,最后给出的答案都还可以,文字也没有出错。


看照片的整体效果也是一样的。各有千秋, FLUX 不但把文字写对了,甚至 Prada 那个倒三角 LOGO 全部画出来,而且 Midjourney 看起来更时尚一点。


提示:一大块白色 " Prada " 手提包,小人物用冰块搭建,被冰雪包围,风格如时尚广告,灵感来源于冰雪, prouce 杂志广告,高分辨率拍摄,广告灵感的印刷设计风格


接下来再上点难度,使他们为短袖设计一张复古照片,并添加两个英语单词。


这一次他们两个都没有出什么大错,但是要说整体效果,世超个人感觉,还是 Midjourney 更好一点。


提示:复古风格 T t恤设计的特点是一辆带有方格旗的老式飙车,并附有文字。 " Lagertha " 和 " Semper Fi " ,以单色背景为主题。拉格萨举着旗子,身上有纹身。这种艺术作品的风格捕捉到了她的动作姿势,展现了车速和维京力量的力量。这个插图对比度很高,突出了他们的运动服和大胆的文字排版。


FLUX ( 左 ), Midjourney ( 右 )


看看图像模型的能力,经典问题 " 画手 " 肯定也绕不过去。


Midjourney 在这里,还是有点不稳定,生成的手时好时坏,就像右边这张图,比耶还莫名其妙。多了一个小指


两张都由 Midjourney 生成


而 FLUX 说实话,效果还是挺令人惊讶的,不管是剪贴画风格,还是写实风格,手基本上看不到任何漏洞。


两张都由 FLUX 生成


到这为止, FLUX 对于一些图片细节和小问题,处理得很好。


当然,在某种程度上,图像 AI 同时也是帮助大家实现创造力的工具,所以世超又失去了一些脑洞大的提示


提示:一个穿着红色连衣裙的年轻女孩坐在一条牙齿和眼睛很大的龙旁边。她面对它,好像他们是朋友或者好警察。这一幕发生在山里的雪石里。詹姆斯 · 拍摄卡梅隆的风格《 狼群的秘密生活 》, 70 时代电影。


emmm 。。。谁好谁坏都不需要世超帮大伙下结论, FLUX 基本就是一眼 AI 反观的程度 Midjourney ,真的有一点真人特效的味道。


之后,世超再次给予 FLUX 提示一个简单的点: " 破坏现代文明 " ,看看它自己的想象力如何。


结果这次,它跟 Midjourney 都栽跟头了


单看图片效果, Midjourney 将会更胜一筹,的确是把史诗感握在一边,但是这座建筑前后看,和现代文明也是半毛钱的啊。


有趣的是, FLUX 当生成夸张漫画版的名人肖像时,还是挺内行的。就像马斯克和乔布斯一样,它在生成的时候,五官都非常精确。


两张都由 FLUX 生成


经过整体的体验,世超感到 FLUX 真实水平,还是不算一骑绝尘,但是也差不了多少。


毕竟还是 Stable Diffusion 原班人马搞出来的,差不多就像 Midjourney 一个梯队。


而且新公司黑森林在月初推出 FLUX 此时,还正式宣布了自己的融资进展,至今已完成。3100 万美金的融资。


更重要的是,虽然黑森林里的每个人都离开了。 Stability AI 是的,但它仍然继承了它的传统开源美德,中杯,小杯。 FLUX 都开源。


这个还没有结束,推出照片 AI ,看起来也只是他们追赶进度的一部分。网站上,他们还明确了下一步的计划,要做。视频 AI 中的 SOTA


但是话又说回来,照片 AI 商业化是一个即将被讨论的烂话题。


黑色森林的前东家 Stability AI 正是因为商业化的问题,才有很多烂摊子。而且它自己,现在可以打开源头,还有付费模型,还有以前的模型。 Stability AI 基本上没有什么区别。


随后在商业化方面,是否会有其它新动作,我们只能再观望,毕竟也刚刚出来。


可别照搬 Stability AI 老路,再走一遍。。。


发文:松鼠


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com