• DALL·E3-会画画的Chatgpt,出图效果炸裂


    9月21日凌晨OpenAI在官网宣布,在今年10月份将通过API向ChatGPT Plus和企业版用户提供全新文本生成图片产品——DALL·E 3。这意味着,ChatGPT在DALL·E 3加持下将开启久违的多模态输出模式,用户通过文本就能直接在ChatGPT中生成各种类型图片。

    DALL·E 3不仅省去了提示词工程,还顺带把语言理解能力提升了一个档次!提示词门槛极大降低,理解语意的细微差异的细节描述,准确到令人发指。你只管随意想象。词,ChatGPT帮你拓展;画,DALL·E 3给你精确到细节。

    眼见为实,我们来看以下 DALL・E 3 与 DALL・E 2 的生成效果比较,同样的 prompt :An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.(一幅描绘篮球运动员扣篮的油画,并伴以爆炸的星云),左图 DALL・E 2 在细节、清晰度、明亮度等方面显然逊于右图 DALL・E 3。

    77d2579cccdee5b4e063089e8cb31488.jpeg

    除了炸裂的生图效果之外,此次 DALL・E 3 的最大特点是与 ChatGPT 的集成,它原生构建在 ChatGPT 之上,用 ChatGPT 来创建、拓展和优化 prompt。这样一来,用户无需在 prompt 上花费太多时间。具体来讲,通过使用 ChatGPT,用户不必绞尽脑汁地想出详细的 prompt 来引导 DALL・E 3 了。当输入一个想法时,ChatGPT 会自动为 DALL・E 3 生成量身定制的、详细的 prompt。同时用户也可以使用自己的 prompt。

    Open Ai的官网演示中,首先用户询问ChatGPT,“我家5岁宝宝一直在说一个’超级向日葵刺猬’,它该长什么样?”ChatGPT同时写了四段不同风格的提示词,并给出对应图像。

    a74c5567eb090d8a371cff4adbd018b8.jpeg

    选择一个卡通的向日葵刺猬,并给它起名Larry.让chatgpt生成Larry的更多图片

    1cc1e98e92d6be6b85272916595cc01c.jpeg

    随后,告诉ChatGPT说想看看Larry的房子,ChatGPT便生成了一张Larry在房门口检查信箱的画面。值得注意的是,他的信箱上甚至写着自己的名字“LARRY”。这意味着DALL·E 3实现了在图像上写字的功能。

    2841095131466e7eaf2aaaeb55fc6f03.jpeg

    结合ChatGPT的文字生成功能,这只小刺猬还可以拥有自己的“人设”。当追问ChatGPT:“是什么让他如此‘了不起’?”ChatGPT回答,是因为他有着向日葵花瓣作为“刺”,并且很善良。继续追问,他的善良是如何体现的?ChatGPT便生成了一幅漂亮的插画,画面上,Larry和蝴蝶、小鹿以及其他的小刺猬伙伴们一起在草丛上玩耍。

    e798b20f233de551d0553be378ddc13a.jpeg


    此外,ChatGPT在画风迁移方面也完成得很好。可以生成不同风格的Larry,比如贴纸风:

    ae3ed1e3fb9f19337b499abb9f30f8d1.jpeg

    最后,当用户提出是否可以基于这些内容讲一个睡前故事,ChatGPT便生成了一个名为“了不起的向日葵刺猬Larry”的故事。当然,ChatGPT也可以继续为自己讲的这个故事创作插图。

    61b8902622c9920db88e91d73d928744.jpeg

    ChatGPT 集成并不是 DALL・E 3 唯一的新特点,它还能生成更高质量的图像,更准确地反映提示内容。DALL・E 将文本 prompt 转换成图像。即使是 DALL・E 2 ,也会经常忽略特定的措辞导致出错。但 OpenAI 的研究人员说,最新版本能更好地理解上下文,并且处理较长的 prompt 效果会更好。此外,它还能更好地处理向来困扰图像生成模型的内容,如文本和人手。

    51e40b28ccd21171273d177abc5fe01d.jpeg

    prompt:这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字 「Find the universe within you」。

    可以看到在上图将 prompt 中的每一个细节都表现出来了。半透明的质感、画面底部的波涛汹涌、阳光与厚厚的云层、心脏中的宇宙景象,以及难倒很多图像生成模型的文字展现,DALL・E 3 都顺利地完成了这些任务。

    那么,DALL・E 3 能不能成为 Midjourney 「杀手」呢?推特用户 @MattGarciaEth 已经将二者生成的图片进行了很多比较。大家觉得哪个更好呢?

    8243f04e21acb0102e78a6b316190c82.jpeg

    prompt 为「一个鳄梨坐在治疗师的椅子上,说『我只是觉得内心很空虚』,中间有一个坑大小的洞。治疗师、一个勺子、潦草地写笔记。」

    040c3cd7569ffc002467f42eebf41da6.jpeg

    prompt 为「这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字 『Find the universe within you』

    目前,DALL・E 3 处于研究预览版本。OpenAI 计划将 DALL・E 3 的发布时间错开, 将于 10 月份首先向 ChatGPT Plus 和 ChatGPT Enterprise 用户发布,随后在秋季向研究实验室及其 API 服务发布。不过,该公司没有透露何时或者是否计划发布免费的公开版本。

  • 相关阅读:
    哈夫曼编码原理及实现
    R语言使用lm函数构建带交互项的多元回归模型、使用step函数构建逐步回归模型筛选预测变量的最佳子集(step regression)
    MIMO 从入门到精通 -科普篇2 - MIMO and Beamforming
    信息学奥赛一本通:1411:区间内的真素数
    Java 中的异常和处理详解
    OpenLDAP 自助修改密码系统——筑梦之路
    关于使用RT-Thread系统读取stm32的adc无法连续转换的问题解决
    发布订阅(观察者)模式之Spring源码ApplicationListener解析
    LeetCode 1 两数之和
    Redis Part1
  • 原文地址:https://blog.csdn.net/specssss/article/details/133176191