人人都是摄影大师,用MidJourney describe指令秒出大师级照片(多图)

最近,MidJourney又一次更新, 推出了图生文指令 describe。使用方式很简单,就是敲/Describe, 出现文件输入框扔一个图上去。

这个指令的强大超出了作者的预期。MJ Describe指令的推出, 实际上再次把AI绘画推向了另一个高度。

网上有些文章蜻蜓点水般的评论了Describe指令 “可以帮助用户提炼关键词”, 这话没错。但“分析画面内容并生成内容的单词描述“这个功能,其实Stable Diffusion早有了,不是新鲜事。

Describe指令强大的地方在于它不仅描述画面内容, 还能精确的描述画面整体风格,至少MJ能精确的get到。

似乎很少人意识到,借助了Describe,  用户可以轻而易举的生成以假乱真的照片。

作者之前有篇文章, 介绍如何利用GPT4+MidjourneyV5 生成细节超高的风格绘画。这已经足够强大,但毕竟还要用户尝试给出几个关键词让GPT4生成prompt描述;并且,在出图之前不能100%把握住整体画面风格。文字和图像还是有鸿沟的。

现在, 有了Describe指令, 我们连画面的几个关键词都不需要去想了, 大师级作品点击就送。

先看一个简单的例子, 翻出一张n年前拍的照片,某校的樱花:

使用describe指令把照片传到MJ,得到MJ生成的4组关键词,如下图右边所示,其中最下方是MJ用户熟悉的1234按钮。点击数字就启用相应prompt提示词组进行文图生成。

比如,点击按钮1,MJ即启用“ university of oregon under the oak tree has had its first blooms of cherry blossoms, in the style of toy camera effects, 32k uhd, samyang af 14mm f/2.8 rf, tamron sp 70-200mm f/2.8 di vc usd g2 --ar 125:83” 这组提示词去生成:

根据实际使用经验,MJ生成的四组提示词,第一组最精确和贴近原图风格的,越往后的提示词组越发散, 并且每一组的画面倾向有所不同,具体一试便知。

作者第一时间就注意到了,第一组提示词生成的两张樱花特写,实在是太太太真实了,大图见下方:包括樱花花瓣在阳光下的透明质感, 以及背景的虚化。有人会质疑这不是真实照片吗?

(附上每张照片的衍生4选1,每一张都和主照片有细微的不同,整体感又完全一致,证明这是MJ“生成”的而不是找出来的。。。)

最让人惊叹的是,MJ生成的照片在空间距离感和背景虚化这些三维层面的信息呈现几乎到了完美的地步。

如果不是上面4格图里的教学楼窗户形状和前景樱花排布略有不同,足以证明这些是AI生成的4选1,作者是无法相信,这居然是生成图而不是真实照片。。。

当然,如果MJ Describe给出的自动提示词不够完美, 随时还可以调整,比如用GPT4神器优化。

比如以下照片, MJ生成的提示词出图没体现出阳光斑驳的感觉:

左:真实照片  右:MJ生成

于是作者问了一下GPT4大神,把MJ生成的提示词也提供给它:

“用英文描述一幅ai绘画的prompt, 画面是一对新婚夫妇在斑驳的阳光, 绿树和花丛中拍照, 以下是其他关键点:a wedding couple are sitting on a bench in a garden, in the style of zeiss planar t* 80mm f/2.8, holography, raw documentation, 32k uhd, vancouver school”

得到的GPT4输出直接扔回MJ, 阳光斑驳就出来了:

其实,绝大部分情况下,MJ的Describe功能完全无需人工干预就可以得到很好的结果了。用户只要上传一张参考照片,然后鼠标点点点,通常就能得到心仪的生成结果,而且绝不是抄袭,纯粹的风格模仿。。。

作者的感觉,摄影这个高大上的职业,紧随美术原画之后,恐怕也岌岌可危了。

拥有Midjourney, 人人都能创作出大师级的照片。。。(心情复杂啊)

先抛开对人类未来的五味杂陈的心情,展示一下作者用MJ生成的摄影作品吧。

以下都是MJ Describe 直接的"图-文-图"的结果, 没有手工调prompt。

(有些作品注释了标题, 有些则没有, 恕不一一详尽)

先看几幅世界名作

《胜利之吻》  最著名的照片没有之一了

上:真实照片;下:MJ生成

《阿富汗少女》

上:真实照片;下:MJ生成

《市政厅之吻》

上:真实照片;下:MJ生成

我们再看看不同的摄影类别的生成结果:

风景摄影

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

风景照是最容易仿造的,没任何难度,以下看看人像。

人像摄影

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

可以看到,只用Describe功能,MJ也足以生成完全符合原人像质感的照片作品。最有趣的是,生成的人像整体感都和原照非常一致,但绝不抄袭。这是作者认为MJ最强的地方。

动物摄影

动物照片生成也完全不在话下,或许比人像来得更容易些。

先拿一幅最新的2023索尼摄影大赛野生动物类大奖, 来自墨西哥的Dinorah Graue Obscura:

上为真实照片,确实很震撼;为表示对大神的敬意, 下面放三张MJ仿作:

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

人文摄影

最难模仿生成的摄影类别毫无疑问是人文摄影。

人文摄影一般有人像的复杂动作, 同时还表达了微妙的叙事含义,几个简单的prompt很难表达完整;当然咯, 如果进一步手工调整prompt特别是借助GPT4,问题也不大。

以下是没有任何手工干预的结果:

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

上:真实照片;下:MJ生成

后记

其实, 我们现在不仅拥有Midjourney的“图-文-图“能力,还有强大的定制化人像模型LORA, 以及用以控制全身姿势和手部动作的ControlNet。只需要把这些系统打通,  AI图像的生成,我们几乎已经达到了一个随心所欲的地步。

比如,接下去Midjourney如果开放了ControlNet功能,我们就能生成任意指定动作的真实照片了。

假作真时真亦假,现在所有照片的真实性都可以开始打一个问号。

这意味着什么?

而这, 仅仅是个开始罢了。