最近AI绘画要取代大部分画师的消息传的满天飞。
有人说用AI轻轻松松就能创作出一幅我们画大量时间才创造出来的作品,甚至还更好看的作品……到以后,真的还会有多少人会再爱上自己创作作品的快乐吗?
AI绘画对于画手是否是危机?
其他行业的是否也在发生类似的变化?
我们普通人在AI大势下应该怎么做?
我们所说的"AI绘画"概念, 更多指的是基于深度学习模型来进行自动作图的计算机程序. 把"语言描述" 通过AI理解自动变为了图像. 目前语音自动识别文本的技术已经成熟至极, 所以这本质上就是一个从文本到图像的AI绘画过程。
目前AI绘画的技术仍在不断变化发展中, 其迭代之快, 完全可以用"日新月异"来形容. 即使把今年年初的AI绘画和现在相比, 效果也有天壤之别。
目前还没有AI模型可以生成足够感染力和逻辑性的长篇文学内容, 但从AI绘画模型气势汹汹的发展态势来看, 不久的将来AI生成高质量的类型文学作品几乎已是板上钉钉的事情。
2022, 进击的AI绘画
今年以来, 输入文本描述自动生成图片的AI绘画神器突然雨后春笋的冒了出来.
首先是Disco Diffusion.
Disco Diffusion 是在今年 2 月初开始爆红的一个 AI 图像生成程序,它可以根据描述场景的关键词渲染出对应的图像:
到了今年4月, 著名人工智能团队OpenAI 也发布了新模型 DALL·E 2代,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E), 同样支持从文本描述生成效果良好的图像.
而很多读者对AI绘画开始产生特别的关注, 或许是从以下这幅AI作品闹出的新闻开始的:
这是一幅使用AI绘画服务 MidJourney 生成的数字油画, 生成它的用户以这幅画参加美国科罗拉多州博览会的艺术比赛, 夺得了第一名. 这件事被曝光之后引发了网络上巨大的争论至今.目前 AI绘画的技术仍在不断变化发展中, 其迭代之快, 完全可以用"日新月异"来形容. 即使把今年年初的AI绘画和现在相比, 效果也有天壤之别.在年初的时候, 用Disco Diffusion可以生成一些很有氛围感的草图, 但基本还无法生成人脸; 仅仅2个月后, DALL-E 2已经可以生成准确的五官; 现在, 最强大的Stable Diffusion在画作的精致程度和作画速度上更是有了一个量级的变化.AI绘画这项技术并不是近年才有的, 但是今年以来, AI产出作品的质量以肉眼可见的速度日益提升, 而效率也从年初的一个小时缩短到现在的十几秒。
因为最近几个月,AI绘画的可用性提升了很多,提升到几乎可以威胁专业人士程度。
高赞说「主要是一篇论文的出现,即人工智能的扩散算法」,其实也没错,但对于大众而言,很难对一篇论文感知,大众对AI绘画的感知,直接来源于作品。
扩散模型(Diffusion model)其实是2015年就提出来的了。不过,扩散模型确实是AI绘画的底层技术。所以在我这篇文章中,我介绍了很多AI绘画工具,其中很多名字都带diffusion。
其中AI绘画发展得挺早,例如在 2012 年吴恩达和 Jef Dean 一起用了1.6 万个 CPU 训练了一个当时世界上最大的深度学习网络, 用来指导计算机画出猫脸图片.经过整整3天训练, 画出来了一张模糊的猫猫头:
说实话我差点没看出是个猫猫头
可以说,在这个时候的绘画AI可用性真的太低了。
当然,大家也没放弃探索。谷歌在2015年还做过一个叫deep dream的项目。画出来的图如下。
但这种还算不上AI绘画,这种叫做风格迁移(style transfer),和加滤镜差不多。毕竟在我们看来,AI绘画,应该是听从人的指令画出相应的图。
不过AI绘画第一次让人觉得可用,应该是去年(2021年),OpenAI出了Dall-E:
Dall-E可以根据文字输入生成对应输出。官方给出的示例如下:
但从官方给出的示例看得出,也是一定的实用性。不过还是偏简单的图像,不会威胁到专业画师。
而今年推出的第二代 Dall-e 2,则有了巨大的表现提升。可以看到,生成的图片不仅更加逼真,而且还有想象力。
虽然OpenAI的成果很强,但一直没开放对外使用,Dall-E 2到现在都还没开源,甚至使用权限都要排队。而去年的Dall-E,上个月底才宣布开放使用。如果早点开放,估计AI绘画热潮可以来得更早。
但大家根据扩散模型的思路,做出了很多免费可用的绘画AI,例如Disco Diffusion, Stable Diffusion等等,具体的大家可以看我写的这篇文章
桔了个仔:这篇文章带你玩转AI绘画557 赞同 · 35 评论文章
这里给大家挑一些我用这些绘画AI做的作品。
Disco Diffusion作品:
Stable Diffusion作品(更多Disco Diffusion测评见:Disco Diffusion 体验如何?你用它跑出了哪些图?)。
虽然现在AI绘画在细节处理上还有点问题,还不能完全替代专业画师,但出图效果已经让人第一印象觉得很强了,而且实用性也有了质的飞跃,在某些领域可能会让初级画手失业,因此AI绘画在最近几个月就火起来。
这篇文章介绍了市面上大部分的AI绘画,可以去了解一下。
写在前面:这是今天在中国数据内容大会上的演讲分享。我把内容归纳整理了一下,补充了一些资料,也算是对过去一段时间的回顾。这篇文章可以让大家更好的了解AI绘画如何发展到今天的,作为一个科普文,里面不涉及任何高深的技术点。
AI生成绘画本来是一个特别小众的领域,但是在今年越来越多圈子外的人都已经开始了解和使用它。那么今天我想带大家一起回顾一下AI绘画是如何开始的,又是怎么在今年突然出圈?
我们几乎每个人都会说话,但是只有极少数的一部分人会画画,我们管这一小部分会画画的人叫画师。画画在大家眼里是一件需要天赋和长期艰苦训练的事情,很多人从小就接受美术训练,花了长达7~8年的时间可能才可以达到一个及格的水平。
那么大家有没有想过有一天?只要你会说话,会使用语言,就能够创造出一副画。用语言画画这件事听起来就跟魔法一样,但是它在今年已经通过AI变成了现实。
用midjouney生成的蒸汽朋克猫咪
这件事的源头得从7年前,2015年开始说起,那一年出了一项人工智能的重大进展——智能图像识别。机器学习可以标记图像中的对象,然后他们还学会了将这些标签放入自然语言描述中去。
这件事让一组研究员产生了好奇。如果把这个过程翻转过来会怎么样?
我们可以把图像转换成文字,那么我们是否同样可以把文字转换成图像?
这是一项异常艰巨的工作,它跟你从搜索引擎上用文字搜索图像完全不一样。他们希望用文字去生成那些这个世界上没有的图像。
于是他们向计算机模型询问了一些他们从未见过的东西。举个例子,你见过的所有的校车都是黄色的,那么如果你写红色或者绿色的校车,它真的会尝试生成绿色么?它真的做到了。
这是一个32X32像素的小图片,糊的你几乎分辨不出来这是什么东西,但是这是一切的开始。这些研究人员在2016年的论文显示了未来的无限可能。
而现在未来已来。
如今想要得到一副图像已经可以不通过任何绘画,相机,软件或者代码等工具。你只需要输入一行文字。
让我们把时间倒回去一年,回到2021年一月。一家叫openAI的人工智能公司宣布了dalle,他们声称可以从任何文字中创建图像。他们今年4月公布了dalle2,生成的图像更加的逼真和精确了。而且还可以对这些图像进行无缝编辑。
但是openai一直都没有公开dalle的算法和模型。直到现在,哪怕dalle2都开始商用了,它的限制仍然很多。
所以在过去的一年里,一个由独立开发人员组成的开源社区,根据现有的所有已知的技术模型,做了各种各样的开源文本图像生成器。
在这个时期我把它称之为colab时期,这些免费开源的生成器都需要你在google colab上才可以使用,需要一定程度的代码知识,而且生成的图像还非常的抽象,像素也比较低。我周围也有几个朋友在21年开始玩AI绘画,但是都局限在非常非常小的圈子。
2021年11月的时候一款叫dream by wombo的APP出现了,它把AI的生成器封装到了APP里,这个举动让所有人都可以零学习成本的使用它。所以它从2021年底一直从国外火到了国内。
但是因为模型算法的局限性,它生成的图像质量还是比较低的,但是已经引起了大家的好奇心。
在2022年的2月,由somnai等几个开源社区的工程师做了一款叫disco diffusion的AI图像生成器。从这款图像生成器开始,AI绘画得到了质的飞跃。而且它建立了完善的帮助文档和社群,disco diffusion本身也拥有非常完善强大的功能。
同样是赛博朋克城市的提示词,DD与dream的对比
3月国内开始出现disco diffusion的教程,随着这些教程的不断完善完善。越来越多的人开始使用disco diffusion创作作品,但是DD有一个致命的缺点就是它生成的画面都十分的抽象,这些画面用来生成大场景和抽象画还不错,但是几乎无法生成具象的人或者物。
这个时候一款叫midjouney的AI绘画生成工具出现了。
3月14日,mid开始内测,这是一款由disco diffusion的核心开放人员参与开发的AI生成器,mid与dd不同,它是一款搭载在discord上的聊天机器人程序,不需要之前繁琐的操作,也没有DD十分复杂的参数调节,你只需要向mid输入文字就可以生成图像。而且mid的模型更加的精准,dd只能生成抽象的风景,但是mid在人像上也能表现的比较好。
而且midjouney最大的优势其实并不是它的生成效果多么优秀,而是在于它是一个社区形式的产品。跟DD每个人都是独立创作不同,在mid上所有人的作品都是公开的,你用的提示词和相关的作品都是对社区里所有人可见的,你再也不需要问其他人这幅画用了什么提示词?这个特性让社区每天都不断的涌现越来越多优秀的作品和创意,每个人都可以尽情的学习他人的作品。
我把它称之为养蛊式创作。
4月10日,dalle2开始内测,dalle2可以生成非常精确复合逻辑的图像。它还可以根据提示词来重新修改编辑的你图片。我们来看一段dalle2的宣传片。
我们可以从dalle2的宣传片可以看出跟之前的AI生成器都不同,无论是DD还是mid,我们都是可以看出是AI生成的,dalle2的生成图你已经无法跟人类的作品做区分了。
这是我用用dalle2创作的画,是由左边的提示词直接生成的。如果我不做说明,这幅画跟正常的人类作品几乎没有区别。
它还可以直接生成非常有质感的3D图像,这是我用dalle2直接生成的3D金属质感的十二生肖图标。
它还可自动补充无限拓展图像,所以特别适合用来生成无限流动画。类似这种。
看到这里大家可能觉得dalle2已经很完美了,但是其实直到今天,dalle2的相关技术都是对公众封闭的,而且dalle2的使用也需要申请,而且通过率很低。dalle2的研发人员觉得他们做了一款很可能用来作恶的工具,所以它设置了非常多的限制,死亡,色情,人脸,暴力,公众的人物等等都是禁止在dalle2上使用的。
跟openai这个名字不同,dalle2一点都不open。
dalle2的担忧是多余的么?不是的,这个工具确实非常可怕,不法分子可以利用它来轻松生成各种各样的假图片。但是历史的车轮会因为dalle2的这些限制停下来么?
7月29日 一款叫 SD的AI生成器开始内测,它可以生成媲美dalle2的精确度的图像。共分 4 波邀请了 15000 名用户参与了内测。只用了十天它的活跃数据已经到了每天一千七百万张。
SD的背后是一家英国的人工智能方案提供商,它的slogan就是**“ai by the people,for the people”**。跟dalle2的封闭不一样,这家公司十分推崇开源。
所以在8月22号,他们内测刚开始二十多天,SD正式宣布开源,这意味着所有人都通过它开源的技术,在本地使用SD生成自己想要的图像。SD开源属性让它在短短的一个月跟各种各样的工具结合。甚至mid也使用了开源的sd模型,并且得到了巨大的反响,这个功能只内测了24小时,但是是目前mid社区里呼声最大的。24小时里mid结合SD生成了大量的作品。
国外艺术家用SD生成的画作,艺术效果上已经超越了dalle
除此之外它还被做成了figma和ps的插件,在figma的插件里你只需要简单的画出草图,就能根据文字生成非常完整的设计稿。在ps里面你可以无缝拼接补完图像。可以说现在的SD把前面所有的AI生成工具的功能全部结合到了一起,然后还把它开源了。
被做成figma插件的SD
现在,我们来回顾一下这一切,2015年的时候,一群好奇的工程师,把图像识别生成文字这个过程翻转过来了,他们生成了最开始的32像素的小图片,在经过了漫长的六年的缓慢发展后,2021年openai和一群开源工程师分别用他们自己的方式完善算法和模型。到了今年2022年,这个技术突然就爆发了,对于国内的大部分接触AI绘画人来说只有短短的四个月,这四个月里发生了mid内测,mid公测,dalle2内测,dalle2商用,sd内测,sd开源等等,还有无数的AI绘画小工具。
哪怕是像和菜头这样完全绘画圈外的人也在不断的讨论和使用AI绘画的功能。
很多创意相关的人已经开始用AI辅助了,我的一个朋友说,他的老板让他不要对外说他们的工作中加入了AI辅助。
“不要跟别人说我们的工作中使用了AI辅助。”
现在已经有大量的创意人和公司在使用AI绘画辅助,但是他们又不希望有太多的人知道。还有大量的创意与艺术行业的从业者内心十分抵触这项技术,觉得它根本就不应该出现。在8月15号就发生过一件非常有趣的事件,SD的推特账号突然挂了,因为被大量艺术家举报,SD的创始人在社群里表达了他对这件事的看法,**他说:他们在嫉妒AI画的比他们好。**不过这件事最后被证实为乌龙,因为这个账号其实只是个粉丝账号,并不是官方账号。
历史的车轮呼啸而过,是选择跳上这辆车,还是停留在原地,都是个人的选择。但是无论你是否参与,它都不会因为你的看法而停下来。
何止是画师。
这么说好了,在一些方面我现在从事的领域多少跟画师有点那么类似,叫设计。我现在在做室内,你可以理解为装修,我就拿装修设计来说说。
首先,现在已经有那种,导入CAD*(计算机辅助设计简称,大量运用于机械制造,建筑,室内等工科领域)*户型图,一键生成全屋设计效果图跟施工图的软件了,尽管他现在看上去很鸡儿智障,但是这就是替代我们的工作。并且他不是不能用,这玩意研发的初衷就是无论是装饰公司,还是客户,都希望免费设计,于是用电脑代替人工,哪怕质量不行,数量还是有的,终究有那么一两张看得过去的。
现在这软件智障的原因是因为:
上面这些问题能解决,人工智能做装修设计分分钟——拜托,总不会中专带专这种都随便来这行混饭吃,人工智能混不了是吧?
这个时候总有大聪明会提出第一个反驳点,说:人就是人,设计以人为本,就是生活,生活还需要艺术,每个设计都不一样,不可能被电脑取代。
笑,这一条,我就说两点:
总结起来我可以很明确的告诉你:我因为户型相似,装修产业链产品相似,人们的需求相似,我每天就是在进行大量重复劳动工作,我丝毫不认为他被电脑代替有什么难度。假如你玩过AI猜人这个游戏你就大概可以理解下面这个场景:提供一个户型,提供二三十个选项,你们家的设计方案就出来了,不满意?随便调,随便改,反正几分钟一套方案,到最后来来回回真就那点玩意。
说到这,又有大聪明跳出来说,好,AI牛逼,我是人,AI是工具,我作为设计师用AI不就完事了。
这是最搞笑的一条,最让我笑不活的一条,意思是AI是工具,你个吊设计不是工具人一样。意思是真到了那一步,你确定不是被资本当成过期工具丢掉,反而成了那个操作工具的人。
现在这个行业,作为我,唯一不担心的原因,或者说我知道他在我有生之年很难抢我饭碗的原因,不是因为我觉得AI不行,而是这个行业需要线下真人衔接。除非全产业链都上机器人了,给你们加干活的也是机器人,只要不是这种情况,只要装修还要人干活,我作为人肉设计就能活着,仅此而已。而机器人代替装修工人,可比AI代替设计,难多了。
当然,说到这,我不是在贩卖焦虑,相反,我倒是希望给各位能过好当下每一天,尤其同行,因为当下的每一天,真的是最好的一天。我反正现在每天嘚喝的,挺快乐,有活就干,没活就看看书钓钓鱼打打游戏,哪天心情不好了找朋友喝喝酒,也花不了几个钱,每天过的美滋滋。单子要是突然多接那么一两个,多个洗脚钱,也就这样了。卷也卷不动了,润也润不掉,不如躺下来好好享受。
已剪辑自: https://www.jiqizhixin.com/articles/2021-06-30-9
AI 编程辅助工具 Copilot:微软、OpenAI、GitHub 三家联合打造。
GitHub Copilot 是一个 AI 代码合成器,并不是搜索引擎:它提出的绝大多数代码建议都是新生成的,此前从未出现过。
简而言之,这就是未来。
在项目开发中,优秀的代码自动补全工具可以提升工作效率。然而,传统的 IDE 基本都使用搜索方法进行补全,在一些场景下效果不佳。
今日,GitHub 和 OpenAI 联合发布了新的 AI 代码补全工具 GitHub Copilot,并展示了技术预览版。该工具可以在 VS Code 编辑器中自动完成代码片段,这也是 OpenAI 接受微软 10 亿美元投资以来的首个重大成果。
目前,GitHub Copilot 项目还只是严格的技术预览版,用户可以在主页注册报名,将有机会访问试用。
GitHub Copilot 注册地址:https://github.com/features/copilot/signup
对于 GitHub 和 OpenAI 推出的这款全新 AI 代码补全工具,网友们给出了极高的评价。下面这位用户大致可以代表大多数试用者的心声。ta 表示:「我使用 Alpha 版两周了,Copilot 似乎能够准确地知道我接下来要输入的内容,这令我大受震撼。有时它甚至建议我要查找的内容,例如选择随机十六进制随机码的片段或者使用所有常见图像 mime-types 完成数组。此外,Copilot 在处理 React 组件时也特别有用,可以做出非常准确的预测。最后,Copilot 改变了程序员记录自己代码的方式。如果你在实现代码之前编写了非常好的描述性注释,它能够更好地给出正确代码建议,有时甚至可以为你编写整函数。」
MSFTResearch 高级研究员 Alex Polozov 更是表示:不夸张的讲,Copilot 将成为本世纪 20 年代排名前三的技术进展!
甚至有网友表示:这是要终结编程?
不过,虽然使用者对 Copilot 提供的生产力提升赞不绝口,GitHub 也表示:并不是所有使用的代码都经过了漏洞、不安全实践或个人数据的审查。因此,他们也设置了一些过滤器来防止 Copilot 生成攻击性的语言,并可能效果并不完美,需要后续完善。
Copilot 背后的技术
首先,训练数据上,GitHub Copilot 是在数十亿行公共代码上训练的。
从技术角度来看,GitHub Copilot 工具由 OpenAI 开发的全新 AI 系统 OpenAI Codex 提供支持。OpenAI 的联合创始人兼首席技术官 Greg Brockman 说:Codex 是 GPT-3 的后代。
OpenAI Codex 在人们如何使用代码方面拥有广泛的知识,并且在代码生成领域显著优于 GPT-3 了,部分原因在于该系统是在包含大量公开源代码的数据集上训练的。更具体地,Codex 的训练集中包含了提取自 GitHub 的 TB(terabyte)级公开可用代码以及英语语言示例。
由于是在公开可用源代码和自然语言上训练,Codex 可以同时理解编程语言和人类语言。因此,在整个实现过程中,Copilot 编辑器扩展将开发者的注释和代码发送至 Copilot 服务端,然后使用 Codex 生成和建议单行代码和整个函数。
此外,据 OpenAI 的一位代表透露:OpenAI 计划今年夏季推出基于其 API 的 Codex 版本,这样开发者们就可以利用该技术创建自己的 app 了。
在具体实现中,GitHub Copilot 从编写的代码中提取上下文,并给出整行代码或整函数的建议。该工具可以帮助开发者快速发现解决问题、编写测试和搜索全新 API 的替代方法,而不需要在网上繁琐地定向搜索答案。
另外,使用 GitHub Copilot,开发者始终可以掌控一切,既可以循环查看 Copilot 给出的代码建议,选择接收或者拒绝,并能够手动地编辑这些代码。Copilot 会适应开发者所做的编辑,并适配编码风格。
GitHub Copilot 适用于多种框架和语言,但本次展示的技术预览版尤其适用于 Python、JavaScript、TypeScript、Ruby 和 Go 语言。GitHub 认为该工具是结对编程(pair programming)的重大进展,程序员在编写代码时有了一个「虚拟的帮手」,它可以捕捉到程序员的错误,加速开发过程。
那么,Copilot 效果如何?
最近,Github 针对一组在开源存储库中具有良好测试覆盖率的 Python 函数进行了基准测试,测试团队清除了函数体并要求 GitHub Copilot 填充它们。模型在第一次尝试正确率是 43% ,经过 10 次尝试后,正确率达到了 57%。之后 GitHub Copilot 还将进行多次训练和测试,准确率会进一步提升。
下面,我们就看一下 GitHub 给出的具体 demo 展示。
Copilot 的补全效果
相比于市面上一些编程辅助工具,Copilot 的上下文理解能力要强大得多。无论是在文档字符串、注释、函数名还是代码主体中,Copilot 都能根据编程者已写出的上下文生成匹配的代码。
先来看一下 Copilot 的主要功能——代码补全的效果,以 TypeScript 语言为例,给出函数名和参数,Copilot 就能自动补全代码。
除了补全函数,Copilot 还能根据注释写出代码。编程者给出一条描述代码逻辑的注释,GitHub Copilot 就能自动生成代码:
在编程过程中,有些代码的格式和内容非常相似,重复编写耗时且无聊。现在 GitHub Copilot 能够帮编程者解决这个问题,将简单重复的代码编写部分自动化:
在软件开发的过程中,除了编写代码,软件测试也是非常重要的,对一个代码项目起到支撑的作用。导入一个测试包,其余的测试代码 GitHub Copilot 就能够帮开发者完成。
在编程中,同一个函数常有多种实现方法,编程者通常会根据代码的实现效果和运行性能选择最合适的方法。编写多种实现需要花费时间和精力,现在使用 GitHub Copilot 一键就能搞定,如下图所示,点击 Next 和 Previous 就能查看多种实现方法,点击 Accept 选中其中一种。
今天 GitHub 推出的 Copilot 技术预览版本,还仅限于 Python、JavaScript、TypeScript、Ruby 和 Go 语言。此外,开发团队表示,在努力使其变得更好的同时,GitHub Copilot 补全的代码应该像其他任何代码一样经过仔细审查和测试。这些仍需要人类编程者的监督和优化,但 AI 自动编程的愿景已指日可待。
*参考链接:**https://github.blog/2021-06-29-introducing-github-copilot-ai-pair-programmer/https://news.ycombinator.com/item?id=27676266https://www.reddit.com/r/MachineLearning/comments/oaambv/n_github_and_openai_release_copilot_an_ai_pair/*https://www.theverge.com/2021/6/29/22555777/github-openai-ai-tool-autocomplete-code