党睿才
AI绝对可以称得上是这几年最火爆的话题。从Alpha Go击败顶尖围棋选手开始,越来越多人意识到在很多领域,AI已经能够用接近人类的思维,更高效地完成任务。在很多领域,AI甚至已经可以部分取代之前只能由人类担任的工作,例如机器翻译有了AI加持后,译文的质量在很多场景下已经达到了可用的程度,电脑和互联网也变得越来越聪明了。
然而长久以来,很多人依然认为,在一些体现人类独创性思维的领域,仍是AI的禁区。例如艺术和绘画,很难想象出AI能和人的想象力和手艺一较高下。
但是,近几年AI在图形方面的进展,却让人惊呼时代真的变了!不少高质量的AI绘画方案纷纷面世,即使完全不会画画,凭借着寥寥几笔涂鸦,甚至简单一两句乃至几个词的描述,就能够通过AI生成美轮美奂的绘画,简直如同黑科技,尤其是最近在Google Colab开源的Disco Diffusion,感觉全世界都玩疯了。
AI绘画并不是一蹴而就的,随着算力的增强,以及算法的完善,它慢慢修炼到了如今的功力。那么在这几年,都有些什么令人印象深刻的AI绘画方案?今天,就来介绍一些相当值得把玩的AI绘画
Paintschainer
这可能是最早出圈的AI绘画方案了。Paintschainer在前几年就引起了人们的注意,它并不能完全靠自己来画一幅画,Paintschainer的主要作用是给线稿上色,其效果已经可以追上一些比较初级的人工上色作品。
Paintschainer在当时之所以突然爆火,是因为人们突然发现,AI居然是可以辨认线稿内容的!Paintschainer的惊人之处,在于它能够识别线稿的内容,例如一张美少女人像,它可以识别哪部分属于皮肤、哪部分是头发、哪部分是衣服、哪部分是背景,然后分别涂上适当的颜色。不仅如此,它的上色范围还相当精准,尽管线稿没有封闭,但颜色依然会保留在适当的范围,而不会涂得满处都是———用过PS中油漆桶工具上色的朋友,应该知道这是什么意思。
在很多人的固有认知中,电脑很难“理解”图像,从照片中辨认、总结出内容物是什么。然而Paintschainer却做到了更高的层次,能够“理解”线稿这种比写实照片更加抽象的图像。尽管Paintschainer并不完美,但它已经足以让人们对AI的强大有了更加贴切的体验。
NV GauGAN
NV是显卡界的“大拿”,无数游戏玩家将其视为偶像。而NV同样是AI算力的重要贡献者,它早在AI领域布局了多枚棋子,到如今NV在AI领域无论是硬件还是配套的软件,都达到了很高的水平———游戏玩家如果用过NV增强画质的DLSS AI算法,一定深有体会。
DLSS并非是NV在图像AI领域的唯一体现,实际上,NV近年的一个开源AI项目SPADE/GauGAN,就让人啧啧称奇。
GauGAN是一个NV使用AI生成图像的方案,和上文介绍的线稿上色AI相比,GauGAN的强大之处在于它可以生成完成度极高的图像,而前提是只需要涂抹几笔,用不同颜色的色块和线条“意思一下”,GauGAN就可以明白你的意图,还你一张逼真度极高的照片。
GauGAN一直处于发展中,2022年,GauGAN还推出了第二代,除了依然可以通过简笔画生成照片,现在还能够通过文字描述来生成图像了!
在GauGAN 2当中,用户只需要输入描述画面的文字,AI就可以自动生成对应的画面。而且,生成的速度非常惊人,几乎是即时的。例如,输入Ocean出现海,继而输入waves则会出现波浪,继续输入hitting rocks on the beach则又继续生成海滩和岩石,效果非常惊人。
此外,GauGAN還支持用户手动涂抹修改,如果想要对生成的内容做调整,可以直接用简笔涂鸦,AI会如魔法般变出逼真的对应内容。
GauGAN之所以有如此大能,是因为使用了对抗网络,大量数据经过机器训练后,使用生成器和鉴别器来识别对应元素,从而匹配数据生成图像。据了解,GauGAN 2使用了1 000万张图像进行训练,艺术家使用它不仅可以生成现实的风景,还可以生成天马行空的艺术场景,这超越了很多人对电脑插手艺术的固有印象。
Disco Diffusion
这可能是2022年最为人瞩目的绘画AI了。
Disco Diffusion一经面世,就刷爆了全球各大社交媒体,颠覆了很多人对AI的认知。如果说GauGAN的强大之处,在于可以凭借人的简单想象就生成逼真图像,那么Disco Diffusion就更进一步,不仅可以进行复杂的想象,而且还可以生成各种画风的绘画!
Disco Diffusion是一个运行在Google Colab上的AI,如果要使用它,需要拥有Google账号并且能访问Google,国内的用户可以自行解决这方面的问题。Disco Diffusion的程序是面向公众公开的,在使用之前,可以先将其保存到自己的Google Drive网盘,以方便进一步编辑。
Disco Diffusion的强大之处,在于给出一段描述文字,就能够生成高质量的画作。尽管它没有图形界面,但使用起来并不复杂,进入到Setting当中,可以设置名称(AI生成的绘画会保存到Google Drive中对应的文件夹)、尺寸(不要设置太大,保持默认即可)、步数(保持默认即可)等。
接着,进入到(提示词)Prompts的设置当中,这就是最关键的地方了。在Prompts中,可以输入描述绘画的词句,例如官方给出的实例为“A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and Thomas kinkade, Trending on artstation.”,“yellow color scheme”,意思大致为“奇异灯塔的美丽绘画,在汹涌的血海中闪耀着光芒,参考greg rutkowski Thomas kinkade的画风,及artstation网站上流行的风格“黄色主调”。
然后点击“代码执行程序”中的“全部运行”,静静等待即可。运算过程可能长达几十分钟乃至数小时,运算是在Google的云服务器上运行的,对本机电脑性能没要求。随后,Disco Diffusion就生成了这样一副绘画。
在很多人眼里,AI能够生成这样的一幅画是非常惊人的,其完成度甚至不输于一些真正的画手。而Disco Diffusion生成这样的一幅画,流程要比手工作画来得更快,而且改一下提示词,又能生成另外不同风格的画了。
Disco Diffusion有很多潜力可发掘。例如,使用算力更强的云服务、设置更多次的迭代算法、提供更具体的提示词、甚至给到参考图片,这些都能够生成更高质量、更多种风格的画作。
毫无疑问,Disco Diffusion的出现,颠覆了很多人的三观。这个AI所生成的绘画,甚至已经可以说拥有一定的艺术感了。尽管它对于动物和人物的绘制仍存在短板,而且也不能胜任人物、场景设计这样具体的、需要扣细节的工作,但无论是给普通人一场视觉盛宴,还是给行业人员找找灵感,都已经绰绰有余了。
可以说,Disco Diffusion将绘画AI推向了一个新高度,自此绘画这种讲究审美、讲究灵感的技艺,也不再专属于人类了。
Tiamat
Disco Diffusion依托在Google Colab上,對于国内用户来说有网络方面的门槛,而且界面说不上易用,还需要用英文来撰写提示词(尽管可以机翻)。现在,对国人更友好的AI绘画方案,正在路上。
最近,一款名为Tiamat的绘画AI在国内展开了测试。根据内测者的体验反馈,它的界面比较友好,而且可以用中文来给AI命题,效果还相当不错。
和Disco Diffusion相比,Tiamat的本土化做得好很多。例如,它甚至能根据诗词来绘画,画面效果相当好,还颇有意境。在微博、小红书平台上,都可以找到很多这样的案例。
可见,Tiamat的AI方案还是有吸引人的独到之处的。不过目前Tiamat仍处于内部测试阶段,希望Tiamat能够尽快推出公开的版本,让更多国人感受到AI绘画的魅力。
随着硬件性能的进步以及算法的改进,AI仍在飞速发展。AI在绘画方面的建树,已经让人咋舌,有条件的话,强烈推荐把玩一下Disco Diffusion,感受AI作画的魅力。