
OpenAI于9月21日在其官网上发布了DALL·E 3的介绍页面。作为一款新的文生图模型,DALL·E 3能够根据文本提示词生成各种风格的高质量图像。DALL·E 3是去年4月推出的DALL·E 2的升级版本,同样因其强大的图像生成能力而引起广泛关注。那么,DALL·E 3在一年半的时间里有哪些方面的提升呢?与Midjourney、Stable Diffusion等AI绘画工具相比又有何不同呢?今天我们将一起来了解。
10月1日更新内容:DALL·E 3 已在微软Bing上线,可免费使用!文末有一键直达!
一、DALL·E 3 的特点
DALL·E 3 介绍页面: https://openai.com/dall-e-3
根据官方介绍,DALL·E 3在图像生成方面具有显著的提升。它能够生成与提示词完全符合的图像,并且能够理解更多的细微差别和细节,使用户能够轻松地根据自己的想法生成准确的图像。下面是官方提供的对比图,可以清楚地看到,在相同的提示词下,DALL·E 3在图像质量和细节呈现方面比DALL·E 2表现更好。这表明DALL·E 3在图像生成的能力上有了显著的提升,为用户提供了更高质量的图像生成体验。

通过对比DALL·E 3与Midjourney v5.2和Stable Diffusion XL 1.0的图像生成结果,可以清楚地看出DALL·E 3在理解自然语言和准确呈现形象细节方面的优势。例如,在提示词“治疗师,一个勺子”和“闭着眼睛高兴地咬了几口”下,DALL·E 3能够准确理解并生成对应的图像细节,而Midjourney和Stable Diffusion则无法达到同样的效果。此外,DALL·E 3还能正确地生成文本内容“I just feel so empty inside”,而其他工具则无法实现相同的效果。这进一步证明了DALL·E 3在图像生成和文本理解方面的卓越能力。

DALL·E 3在处理更长、更复杂的提示词时表现出色。它能够在生成的图像中完整呈现提示词中的各种元素和特征,例如海鸥、绿光、旋转的云以及带有图案的地毯等。相比之下,Midjourney和Stable Diffusion在处理相同的提示词时可能会遗漏一些细节特征。这进一步展示了DALL·E 3在图像生成方面的优势,它能够更准确地理解并呈现复杂提示词中的各种元素和特征,为用户提供更丰富、更精确的图像生成体验。


除了强大的图像生成能力,DALL·E 3还具备与ChatGPT的同屏使用的优势。在官网的演示视频中,我们可以看到当用户提出一段想法时,ChatGPT会自动生成非常详细的提示词,并调用DALL·E 3生成准确的图像。用户还可以直接发送文字指示,让ChatGPT对图像进行修改。整个过程中,ChatGPT能够提供无限的灵感和创意,而DALL·E 3则能够快速将用户的想法具象化呈现。这种流畅的配合使得一个故事的诞生变得轻松自然,为用户带来了全新的图像生成体验。这一创新让人眼前一亮,为用户提供了更加丰富、有趣的创作方式。
根据官网显示,DALL·E 3生成的图像可以直接用于商业用途。同时,OpenAI在相关版权政策上进行了一些新的变化。其中包括,DALL·E 3将拒绝生成在世艺术家风格的图像,并给予艺术创作者选择退出OpenAI未来图像生成模型训练的权利。此外,DALL·E 3还提升了图像生成的安全性。它拒绝生成公众人物的图像,并限制了暴力、成人或仇恨内容的生成。此外,DALL·E 3还弱化了生成图像中潜在的偏见性。这些改进措施旨在确保图像生成的合理性和安全性,为用户提供更加可靠和负责任的使用体验。
二、DALL·E 3 使用
DALL·E 3计划于10月初上线,并通过API向ChatGPT Plus用户和企业客户提供服务。值得注意的是,尽管OpenAI拥有一个名为DALL·E的AI绘画网站(目前使用的是DALL·E 2模型),可以根据文本生成图像并进行局部重绘,但DALL·E 3似乎不会在该网站中同步更新。因此,用户需要通过API接口来使用DALL·E 3的功能。这一更新将为用户提供更加强大和多样化的图像生成能力,为创作和商业应用带来更多可能性。
DALL·E: https://labs.openai.com/ (需要登录 OpenAI 账号后才能使用)

DALL·E 3 的吸引力是毋庸置疑的,但想要用上它可能并不容易。毕竟能否成功注册一个 OpenAI 账号对我们来说可能都是一个大问题,而且之前也出现账号注册成功后又被封禁的情况,从这点来看 Midjourney 和开源的 Stable Diffusion 就友好的多了。
在 DALL·E 3 in ChatGPT 的演示视频中, 虽然展示了文生图、按提示修改图像等操作,但图像处理功能并没有更多体现。目前 Midjourney 和 Stable Diffusion 的功能都非常完善,可以实现自定义画幅、图生图、高清放大、局部重绘、外绘拓展等操作,这些功能未来在 DALL·E 3 中能否实现,以及如何通过 ChatGPT 实现都还是未知数。

从另一方面来说,DALL·E 3 的出现表明文生图技术又有了新的进步:AI 可以更好地理解自然语言、准确地且完整地呈现画面细节和元素之间的关系,以及生成正确的文本内容,这意味着 Midjourney 和 Stable Diffusion 等 AI 绘画工具的图像生成能力在未来可能也会有同样的提升。同时 DALL·E 3 in ChatGPT 也会进一步促进多模态输出模式的发展,未来肯定会有更多 AI 聊天工具也支持生成图像。