最新的版本4,可以从简单的提示中提供更多的细节和更好的组合。
上图:用alpha版本的Midjourn v4生成的八张图像。
上周六,人工智能图像服务 Midjourney 开始对其文本到图像合成模型的第4版(“v4”)进行alpha测试,用户可以在其Discord服务器上使用该模型。新模式比之前的服务提供了更多的细节,这让一些人工智能艺术家评论说,v4版本几乎使得从简单的提示中获得高质量的结果变得“太容易”了。
Midjourney于今年3月向公众开放,作为人工智能图像合成模型早期浪潮的一部分。由于其独特的风格,以及在Dall-E和稳定扩散之前公开发行,它很快就获得了大量追随者。不久之后,midjourney 制作的作品通过赢得艺术比赛、为潜在的历史性版权注册提供材料、出现在库存插图网站(后来被禁止)而成为新闻。
随着时间的推移,Midjourney 在模型中添加了更多训练、新功能和更多细节。当前的默认模型,被称为“v3”,于8月首次亮相。现在,Midjourney v4正在接受该服务的Discord服务器的数千名成员的测试,他们通过 Midjourney 机器人创建图像。用户目前可以通过在提示符后添加“ —— v4”来尝试v4版本。
Midjourney创始人大卫·霍尔茨(David Holz)在Discord的公告中写道:“V4是一个全新的代码库和全新的AI架构。这是我们在新的Midjourney人工智能超级集群上训练的第一个模型,已经进行了9个多月的工作。”
上图:比较Middravel v3(左)和v4(右)之间的输出,提示为“一个肌肉发达的野蛮人,在CRT电视机旁拿着武器,电影,8K,工作室照明。”
在我们对 Midjourney 的v4模型的测试中,我们发现它提供了比v3更多的细节,更好地理解提示,更好的场景组成,有时在其主题中更好的比例。在寻找照片级真实感图像时,我们看到的一些结果可能很难与较低分辨率的实际照片区分开来。
根据大卫·霍尔茨的说法,v4 的其他功能包括:
更多的知识(关于生物、地方等)。
更擅长把小细节做得更好(在所有情况下)。
处理更复杂的提示(具有多个级别的详细信息)。
更适合多对象/多角色场景。
支持图像提示和多提示等高级功能。
支持--混沌参数(设置为0到100)控制图像网格的种类。
Midjourney v4在该服务的Discord上反响积极,其他图像合成模型的粉丝也注意到了这一点,他们经常与复杂的提示进行斗争,以获得良好的结果。
Midjourney表示,v4仍然在alpha版本中,所以它将继续随着时间的推移修复新模型的小问题。该公司计划提高v4放大图像的分辨率和质量,增加自定义长宽比(像v3),提高图像清晰度,减少文本失真。Midjourney 的订阅费用在每月10美元到50美元之间。
考虑到Midjourney在八个多月的工作中取得的进展,我们很难想象,明年在图像合成方面会取得怎样的进展。
如果朋友们喜欢,敬请关注“知新了了”!