王昊海 刘远志
摘 要:人工智能的时代背景下,在技术创新的驱动下诞生了新的艺術媒介,艺术媒介的革新带来了更多元的艺术创作空间。GAN作为深度学习模型将传统艺术创作的方式进行了自动化,利用GAN进行艺术创作的流程与摄影具有高度的相似性,是对艺术生产力的再度解放。艺术家一旦参与进GAN的构建与创作中,其与艺术作品间的关系也会发生转变。GAN应用所带来的艺术伦理的改变将会在讨论声中逐渐创立艺术的新秩序。
关键词:GAN;人工智能;艺术创作;生成式对抗网络;摄影;创意媒介
一、艺术与GAN
生成式对抗网络(Generative adversarial networks, GAN)是由Goodfellow等人在2014年提出的深度学习模型[1]。基于模型的数学特性,GAN对于图像信息进行训练无需额外的监督,因此其目前主要的研究对象是视觉影像。GAN模型可以用于各个领域,初衷也并非应用于艺术创作,但是其对视觉影像的广泛研究得以在影像艺术领域率先应用。一些艺术家已经尝试使用GAN进行人工智能的艺术创作并取得了良好的社会反响,GAN还迅速以信息化优势得以大众化,红极一时的视频实时“换脸”应用程序也利用了GAN进行实现。GAN与其衍生的模型对艺术创作手法和传统艺术观念产生了越来越深刻的影响,GAN输出视觉影像的模式已经如同摄影术的出现那样对当代艺术的伦理提出了巨大的挑战。
二、艺术媒介的演变
在摄影诞生之前,西方主流的观点认为,艺术的目的就是忠实地模仿自然[2],由于生产力尚未爆发式增长,艺术媒介在很长一段时间里并没有出现质的改变,艺术家们也几乎一直忠于这样的终极目的进行实践。而摄影的诞生以其无可比拟的优势打破了这一思维定势,科学技术的突破带来的艺术媒介的进阶,将传统艺术从准确描绘模仿自然的历史使命中解放出来。
艺术媒介的演进为艺术突破奠定了物质基础。艺术创作的突破性进展往往也伴随着新技术或者新手段的出现。达·芬奇的作品为什么这么成功?因为在当时他运用了新的颜料、新的绘画技法、新的工具[3],由此又会诞生新的艺术观念进而再次推动艺术媒介的演进。伴随着近现代生产力的解放,艺术媒介的更迭更加迅速与多元化。于传统艺术形式而言,通过对不同维度信息的捕捉输入至计算机完成了初步的信息化,承接传统艺术创作的介质在变化,但是艺术创作的过程依旧没有突破传统维度,而GAN模型的应用会改变这一现状。
三、GAN:将艺术创作流程摄影化
摄影在按动快门的一瞬间即完成了创作的大部分,艺术家对于镜头捕捉光线在底片上留下影像这一过程是难以干预的,而这样的一种颠覆性的创作过程使得摄影创作的艺术性直到今天依旧存有争议。即便如此,当今大部分的艺术创作中都可以看到摄影思维的影子,摄影也以其便捷性成为一种强有力的工具来辅助其他类型的艺术创作,为其他艺术形式的传播提供了可靠的延展。传统艺术创作对技艺精良的需求是极高的,未经历常年累月的技术训练和相对长时间的创作过程就几乎无法创作出优秀的作品,而摄影尤其是进入数码时代后的摄影几乎没有技术训练的需求,艺术观念的表达不再依赖于漫长的创作过程。
(一)GAN模型与摄影模型
图1反映了艺术家利用GAN模型进行创作的过程。GAN模型会依据输入图像与输入需求进行图像输出,艺术家需要对传入人工智能模型的图像进行筛选并设置、优化参数,然后再对人工智能所创造的图像进行筛选。在整个创作过程中,艺术家或者模型使用者只需要对参数和输入输出图像进行负责,对GAN内部具体实现方式无需深入的了解。
图2反映了艺术家利用摄影模型进行创作的过程。艺术家需要对拍摄场景进行前期选材,以及对照相机获取的影像做后期必要的筛选与调整,并由此优化照相机设定的参数。艺术家同样不需要对相机内部的成像原理有完全充分的了解。
将GAN模型与摄影模型的流程进行对比,GAN模型与摄影模型在艺术创作的流程上的一致性显而易见,传统艺术中最耗时费力的创作过程在这两个模型中都得到了大幅的缩减且不再向用户开放。
(二)摄影的再现与GAN的再现
摄影模型与GAN模型内部的具体细节不对用户开放。摄影模型的工作主要对通过透镜后的光线进行转译,已经经历了从手工描摹到化学感应再到电子信号的多次迭代,对输入的再现目前主要由相机的制造者完成。而在摄影模型完全构建前与诞生早期,艺术家们对模型的出现功不可没。早在15世纪,画家就开始利用暗箱进行光学描摹以获得精确的影像[4],而暗箱可以视作是摄影模型的光学部分,直到化学感应光线的底片出现后才组成了完整的摄影模型。艺术家们饱含的对还原自然的终极理想的人文主义精神实质性地推动了科学技术的进步,而如今摄影模型的记录流程已经实现了全自动化,无需艺术家的介入。
GAN的艺术模型的远景理想是由人工智能无监督地学习并自我创造,用户对创作过程也无需再进行了解与介入,而GAN模型目前还处于早期的构建中,需要艺术家与大量的艺术作品参与构建,艺术家也必须要充分了解GAN内部的运作流程。
四、GAN的艺术创作流程
GAN的核心思想来源于博弈论中的二人零和博弈,图3即展现了艺术家利用GAN进行艺术创作的过程。GAN 模型的基本结构由一个生成器 (Generator) 和一个判别器 (Discriminator) 组成[5]。生成器可以被看作是一个图片生成模型,它的目标是生成一张真实的图片,与此同时还要具备一个判别器,它的目标是能够判断输出的图像是生成出来的还是真实存在的。由生成器生成的图片会由判别器学习区分生成的图片和真实的图片进而反馈给生成器进行改进生成新的图片以供再次判别,直至判别器无法判断出输出的图像究竟是生成出来的还是真实的。
经过大量图片的输入训练学习,利用GAN可以最终得到与原作相仿的作品,而相似度和风格的差异化可以通过参数调整来优化,随机噪声的引入则可以让生成结果更具备多样性。利用这样的模型,艺术家可以对艺术作品进行摄影化的艺术化量产,每一个由GAN生成的图像都可以体现作者本身的意图而在表达上又是完全不同的。
五、GAN在艺术领域的应用
GAN的原始模型是一个原理性模型,應用于艺术创作则需要对模型进行改造。而在GAN模型提出后的短短几年内,与艺术创作的高契合度,已经涌现出了一大批有意识或无意识的艺术衍生模型。
(一)GAN艺术衍生模型介绍
1.创意对抗网络(Creative adversarial networks, CAN)
CAN是GAN模型在艺术领域的具体实践,由具备艺术史研究背景的Mazzone和计算机科学研究背景的Elgammal在2017年提出。作者指出了GAN模型的重心还是在于生成而非创造,艺术风格的创作性、突破性这一艺术发展的重要特征并没有体现出来[6]26。为了解决这一问题,作者对GAN的原始模型进行了改造,让其可以从感性和认知的角度进行发展和演变,让人工智能的艺术创作能拥有自我创造的能力。
在训练CAN模型过程中加入了对艺术家练习早期艺术作品直到某一刻他们取得突破进展的模拟,以输出更新奇的作品。艺术家们通过增加艺术作品与主流审美的偏理性来制造新奇,这种增加必须是适度的,过多的新奇则会造成负面效应。在马丁代尔的理论中,这被称为“最小努力”原则,这在艺术创作中是至关重要的,因为过多的新奇会导致观看者对艺术内容的无法理解[7]。
于是,在CAN模型中,作者加入两种相互对抗的力量,一种是促使机器遵循输入图像所展示的艺术的美学,尽可能地减少风格的偏离,而另一种力量则在模仿已经确立的风格时最大限度地进行艺术风格的模糊与偏离。利用这两种对立力量的对抗确保了艺术作品的新颖性的同时也保证了不会偏离可接受的审美标准。
艺术家在参与CAN模型进行创作时,不但需要对参数进行优化,还要对艺术风格进行分类和对艺术风格的模糊的程度进行把控,以协助人工智能完成艺术风格上的突破(如图4)。图5是由Elgammal利用CAN生成并展出的影像。在美国洛杉矶、迈阿密等地成功地举办了艺术展览,在展览中人们并没有察觉到这样的艺术作品是由人工智能模型所生成的。这说明由艺术家参与定义筛选、CAN模型自主学习生成的影像至少在形式上已经可以做到与人类艺术家以传统方式制作的影像相仿。
2.循环对抗网络(Cycle generative adversarial networks, CycleGAN)
CycleGAN从原理上对GAN进行了改造,由Phillip Isola等五人在2017年提出。传统的GAN是单向的,CycleGAN则利用了两个GAN也就是在具备两个生成器及判别器的情况下进行镜像对称构成一个环形的网络以进行非匹配成对的图像到图像的翻译,在没有成对匹配的图像的情况下,通过算法进行相互数据集特征的收集,将一个数据集的特征应用至另外一个数据集上。图6展现了CycleGAN对艺术品进行转译的效果,在第一组实验中,一组数据集是风景照片,另一组则是莫奈的画作。通过CycleGAN对两组数据集训练,不仅可以将莫奈的作品转化为照片,同时也可以将照片转化为莫奈的风格,由于镜像结构的存在这两者是同时进行的。通过CycleGAN不仅可以实现画作与照片这种实体存在的相互转换,还可以实现一些在模型中不存在的相互转化与生成,第二组中对斑马和马纹理的特征替换在自然界中是不存在的,是CycleGAN在经过训练后无中生有的。
另外,CycleGAN并不仅仅局限于图片的风格迁移,还可以进行更广泛形式的图片互译,以往依靠人工与少量数据难以提取出的对应关系特征,在CycleGAN的对抗性学习中得以进行总结。图7反映了利用CycleGAN进行互译的案例,从黑白照片与彩色照片相互转换、语义标签与图像的相互转换、图像的线稿与图像的相互转换,为传统艺术创作中一些耗时费力的过程提供了更好的解决方案。然而,这一模型的出发点也并非针对艺术领域,艺术家的真实需求还不能完善地反映在模型中,模型的完善与优化仍需要艺术家的更多介入。
(二)GAN的具体实践
我们在实验室中利用CycleGAN的开源代码,以风景照片、日本浮世绘作为数据集进行了具体的GAN模型艺术化实践。在实验中,我们先后准备了大量的素材样本,机器学习对素材的量的需求是超乎想象的,深度学习模型需要有大量的参数,若数据样本少,则很容易出现“过拟合”的现象,由于样本数量少而进行过度训练,当预测训练示例结果的表现增加时,应用在未知数据的表现则变更差[10]。只有在大量的素材的提供下才能将艺术风格稳定在一定的区间内。素材量的要求数以百计起,因此,对艺术家在素材整体的风格类型的宏观把控上提出了要求。
去训练一个GAN模型目前需要耗费大量的时间与精力,我们在实验室中则花费了数周时间来训练一个GAN模型。在训练过程中并不是所有生成图像都符合我们的期待,有时甚至会出现一些意想不到的情况,这时需要艺术家以其专业目光进行筛选并对参数进行优化。
图8中展示了实验中输出的案例,照片向画作的模拟在素材合适的情况下在较短的训练周期内便可比较好地完成,再有意识地进行一些“无中生有”,整体风格的迁移就可以很直观地观察出来。
整体风格的迁移在两个方向的训练上都有显著的展示,输入的风景图片多带有蓝天,整体色调偏蓝,画作纸张本身色调则是偏黄的,依据案例可以发现输出的图像的色温得到了准确的交换。
而画作向照片的转译时则出现了细节方面的问题,画作中的印章、题字等在现实的环境中并不存在,虽然GAN已经有意识地将印章、题字等抹去,但处理的还不够完善。由于输入的照片几乎都是风景照片,而画作中则有人物出现,在画作从人物向照片转译时就会明显感受到映射关系的缺失,也印证了艺术家对样本的选择是至关重要的。
在收集的样本中,风景照片有一千余张,而画作只收集到了五百余张,画作样本数量的缺少是本实验先天上的不足,也是传统艺术形式人工智能化的困难所在。同一作者同一风格的优秀作品的数量往往不能够达到成熟训练一个GAN模型的需求,这就需要一方面改进GAN的学习模型,另一方面要对传统艺术先进行传统手法的模仿以制作更多可供机器学习的样本。
六、人工智能艺术创作的伦理
正如百年前摄影作为新媒介的诞生,摄影术一度被视为画家偷懒的工具,摄影作品曾长期被拒绝于艺术大门之外,得不到画家的承认[11]。GAN的出现在推进人工智能在艺术领域发展的同时,一系列的问题也随之而来。人工智能创作的归属权该如何划分?人工智能是否能够真正的独立创作作品?人工智能是否会取代人类艺术家?这都是我们今天需要讨论的话题。
机器是否能够独立思考这一命题在计算机诞生之初便存在了,人工智能这一概念最早由计算机科学之父艾伦·图灵提出,并提出了关于判断机器能否思考的著名实验——图灵测试,通过图灵测试即可宣告具备人工智能。图灵测试最终的判断标准,是人工智能有没有骗过人类,或者更准确地说,就是人工智能是否已经掌握与人相似的表述方式[12]。目前的一些文艺美学人工智能研究成果已经十分趋近于这一目标。在重大事件的报道上,当新闻记者还没敲下键盘时,人工智能已经将完成的新闻报道在不同平台发布了,而用户却难以察觉到。当人类创作的诗词和人工智能创作的诗词同时让人类专家进行鉴别时,专家也无法完全甄别出真伪。人工智能的研究目前处于深度学习的阶段,需要大量的数据进行支持,而受益于大数据时代的到来,文学作品固有的创作模式和丰富的保有量让“骗过人类”成为了可能。
然而,与此同时,科学家们则认为真正的人工智能智慧大爆发的“奇点”尚未到来[13],人工智能目前还处于一个比较初级的阶段,有关人工智能的理念并没有取得质的突破,人工智能具备自我意识还是一个很遥远的目标,在很长的一段时期内不必有人工智能完全取代人类艺术家的担忧。
人工智能艺术的归属权问题则要看人工智能模型演化的程度。在早期,艺术家主要对模型构建负责,艺术家的传统艺术作品是人工智能模型的艺术来源,归属权自然由艺术家取得。而待模型成熟,用户利用人工智能进行创作后则由艺术家与用户共享归属权。当人工智能有一天演化为创作过程的主导者并不断在人类的训练中形成自己的艺术风格并能独立思考创作时,那么可能就需要我们同人工智能去对话探讨归属权问题了。
七、GAN与艺术的现在与未来
GAN是人工智能时代下的新兴产物,尚存有巨大的完善空间,目前的GAN模型还处于构建状态,但努力并非仅仅需要算法编写者的努力,更亟待的是艺术方法论的指导,需要艺术家与艺术作品广泛地参与其中。诚然,目前参与GAN的改进还是有一定的学习成本的,但艺术的先锋实验是在未来艺术探索道路上的必经之路。这是一个不断数字化的时代,也是一个不断制定新标准的时代,在我国信息化应用在其他领域领先世界的同时,艺术家们也有必要参与对未来艺术世界标准的制定。
当GAN模型构建训练完成后,艺术家的身份就会转变为用户与模型维护者,而艺术创作的主导权则交由了用户与GAN模型本身。这种角色的转换会让一些艺术家感到不适应,且对摄影式的艺术大众化、产业化的行为保持警惕。但这是一个巨大的历史机遇,没有摄影术的诞生,也就难有20世纪艺术家们在艺术观念上的突破,作为艺术与科技的研究者需要更有信心去面对未来的机遇和挑战。基于GAN模型的全新创作方式以其科学性、更优良的秩序感很有可能超越摄影成为一种更大众的艺术,而GAN模型的普遍接受与使用还需要不断地优化迭代,将能够被大众广泛接受的艺术创意工具直接呈现给大众,这样的GAN模型本质上已经成为了艺术家智慧的结晶,在艺术价值与观念传播上的影响力将是前人无法企及的。
在艺术家的观念指导及算法的不断演进下,更加完善的GAN衍生模型或者足以让GAN改头换面的人工智能新模型一定会在未来出现。我们有理由憧憬人工智能给艺术带来的无限可能性。艺术家需要怀抱远大的理想去参与并引领这样的变革,共筑人类和艺术更加美好的未来。
参考文献:
[1]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in neural information processing systems. 2014: 2672-2680.
[2]Thomas E. Wartenberg.什么是艺术[M].重庆:重庆大学出版社,2018:4.
[3]胡晓琛.数智艺术——人工智能与数字媒体艺术设计教育[J].艺术教育,2018(16):100-101.
[4]霍克尼.隐秘的知识:重新发现西方绘画大师的失传技艺[M].杭州:浙江人民美术出版社,2018:200.
[5]王坤峰,左旺孟,谭营,等. 生成式对抗网络: 从生成数据到创造智能[J].自動化学报,2018(5): 769-774.
[6] Mazzone M, Elgammal A. Art, creativity, and the potential of Artificial Intelligence[C]//Arts. Multidisciplinary Digital Publishing Institute, 2019, 8(1): 26.
[7] Martindale C. The clockwork muse: The predictability of artistic change[J]. 1992.
[8]Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.
[9] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.
[10]周志华.机器学习[M].北京:清华大学出版社,2018:23-24.
[11]林路.摄影思想史[M].杭州:浙江摄影出版社,2015:17.
[12]毕丞.人类为什么不会被人工智能取代?——人工智能的技术本质研究[J].北京科技大学学报(社会科学版),2019(2):102-108.
[13]陈彦青.“AI”的边界, 艺术与设计的可能[J].新美术,2018(7):88-93.
作者简介:王昊海,上海师范大学影视传媒学院硕士研究生。研究方向:艺术与科技。
刘远志,华东理工大学信息科学与工程学院硕士研究生。研究方向:人工智能与物联网。