李晶 刘闻 高盛华
2021年8月,媒体报料全球显卡巨头英伟达公司4月举办的一次线上峰会上,演讲者并非首席执行官黄仁勋真人,而是一个通过数字技术合成的“假人”。消息一出便博足人們的眼球,虽然最后证实数字人只出现了14秒而不是全场,但这足以说明目前生成技术的发展已经可以让人真假难辨了。出现这样的新闻虽然是在意料之外,但其实也是在情理之中。随着生成技术的快速发展,未来类似的事情可能很快就会变得平常。这些可以以假乱真的图像都是利用一种叫做生成对抗网络(Generative Adversarial Network,简称GAN)的技术生成的。
2018年图灵奖由人工智能专家和深度学习“三巨头”辛顿(G. Hinton)、杨立昆(Yann Lecun)和本吉奥(Y. Bengio)共同获得。其中,本吉奥为加拿大蒙特利尔大学教授,蒙特利尔学习算法研究所创始人,他的重要贡献之一就是关于GAN的研究。而关于GAN的发明,还有一个非常有趣的小故事。2014年, GAN[1]的发明者之一古德费洛(I. Goodfellow)当时还在本吉奥教授门下攻读博士,他的研究课题是生成模型。有一天他在酒吧跟朋友喝酒时,跟朋友讨论起生成模型,脑中灵光一现,想到了GAN的思想。然后他跟朋友说应该怎么做,并打赌一定能做出,但是朋友不太信。于是古德费洛直接离开酒吧就去做实验,一晚上就写出了关于 GAN 的论文,之后该论文发表在人工智能的顶级会议上。现在GAN已经广泛应用于图像视频的生成、文本的自动生成,乃至新药的生成。
生成对抗网络的原理
在介绍GAN之前,首先介绍一下什么是生成模型。大家可能都有这样的好奇心:世界上的人如愚公所言,“子又有子,子又有孙,子子孙孙无穷匮也”,那么这些未来人都可能长什么样子呢?实际上我们已经观测到的各类数据,例如人脸的图像,在高维数据空间中是满足某种数据分布的。我们通常把一个数据点称为一个样本。如果能够利用观测到的样本点拟合出真实见到的数据的分布,例如人脸数据的分布。那么,那些没有见到的人脸就可以从这个估计出的数据分布中进行数据采样得到,这就是生成模型。
GAN是一种特殊的生成模型,由两部分组成:一部分被称为生成器,另一部分被称为判别器。生成器的输入是一个从某种先验分布中采样得到的随机噪声,这个噪声可以看成是一个样本的某种编码。生成器输出的与观测到的数据(通常称为训练数据)服从相同的分布。判别器的作用是区分输入的样本是由生成器产生的假样本,还是来自训练数据的真实样本。对于图像生成应用,生成器和判别器通常由卷积神经网络来实现。
生成对抗网络的发展现状
在古德费洛和本吉奥等人提出相关概念之后,生成对抗网络发展迅速。原始的GAN只能从噪声中采样,无法很好地生成某种特定类别的图像。有人提出可以通过输入类别标签进行可控的有条件图片生成[2]。此外在GAN的训练中,经常会出现模式崩塌的问题,即所有的噪声在经过生成器后都变成一个或者几个图像,这使得生成的图像缺乏多样性。对此,有人提出将GAN的损失函数改变为Wasserstein距离,从而改善了GAN容易模式崩塌,训练不稳定的问题,提高了生成样本的多样性[3]。原始的GAN生成的图像都比较模糊。为了提高生成图像的质量,有人提出,使用具有上采样能力的生成器和下采样卷积层的生成器,代替原始GAN中的全连接层[4],还有用风格来控制图像的生成[5],通过调制适应性实例归一化层的均值方差生成高分辨率高质量的图片。为了实现图片翻译,也就是将图片从一种风格映射成另一种风格,有人通过条件生成对抗网络实现了有配对数据下的图片翻译[6],还有人通过将源域的图片翻译到目标域,再翻译回源域前后的一致性,实现了无配对图像数据下的图片翻译[7]。此外,为了解决训练样本不足情况下的生成对抗网络训练问题,有人研究了少样本情况下的图片生成问题[8,9]。为了让生成过程更可控,一些工作研究了GAN的可解释性。目前,GAN生成人脸,车辆和自然场景图片的效果已经很好了,但是对于复杂场景的图片生成以及视频的生成,仍有许多工作要做。
生成对抗网络的应用
随着GAN技术的成熟,它已经应用于我们生活的各个方面。例如,在数字人领域,GAN可以用于人脸的生成、人脸属性编辑、图片补全、人体动作迁移等;在文本领域,GAN可以用于新闻和古诗的自动生成;在制药领域,GAN还可以用于新药的研发等。
数字人 GAN可以生成真实世界不存在的人脸,一个潜在的应用就是影视公司可以运用GAN打造属于自己的数字人IP,犹如唐老鸭和米老鼠一样,成为一种文化符号。同时利用GAN技术还可以进行人脸属性的编辑:输入一张人脸,通过GAN编辑这张人脸的属性,给人脸加上笑容、金发,或者衰老等效果,这样可以便捷地对人脸照片进行美化等后期处理。同时,还可以利用GAN将目标人物按照期待的动作进行人体动作迁移,实现对人物的驱动。此外,GAN还可以进行照片修复。将这些技术有机地结合,可以预见未来会有基于GAN技术的影视作品。
特定风格图像的生成 生成对抗网络还可以实现图片的翻译和特定风格图像的生成。一张真实图像可以通过GAN翻译成不同艺术家风格的油画,从而可以让已无法再作画的梵高、莫奈“復活”,继续创作出优美的艺术作品。一副名为“Edmond de Belamy”的18 世纪绅士肖像画,就是法国巴黎一个艺术组合“Obvious”利用GAN生成的。画作右下角的签名则是GAN的目标函数。该画作于2018年10月25日,在纽约佳士得拍卖行被神秘买家以43.25万美元(约合300万人民币)的高价拍下。
序列数据的生成 序列信号的生成,包括文本生成、音乐生成、语音生成等,在实际中有着广泛的应用。基于AI的序列生成近年来取得了一系列成功。例如微软的小冰生成了人类历史上第一个由AI写成的诗集——《阳光失了玻璃窗》。该诗集已由湛庐文化在2017年出版。2016年里约奥运会期间,字节跳动公司推出了一款叫张小明的AI机器人。该机器人利用GAN技术生成新闻,通过对接奥组委的数据库信息,撰写乒乓球,网球,羽毛球和女足相关赛事的实时新闻稿件,并几乎与电视直播同步发布。据统计,16天内张小明共发布奥运新闻456篇资讯。
2019在re:Invent年度技术大会上,亚马逊AWS发布了世界上第一个基于GAN的音乐键盘AWS DeepComposer,它可以帮助用户轻松完成属于自己的音乐作品。此外,谷歌大脑团队也在同年提出将GANsynth(基于对抗性神经网络的音频合成)用于高质量音乐的快速生成。谷歌大脑的研究员恩格尔(J. Engel)这样评价GANsynth的性能:“可以比标准的 WaveNet(一种传统音乐生成算法)快5万倍地生成乐器音频,还具有更高的质量(无论是定量测试还是听众测试),并且可以独立控制音高和音色,使得乐器之间的插入更加平滑”。此外,通过将GAN和深度强化学习技术结合,可以在文本生成和汉语古诗生成方面取得几乎以假乱真的效果。
新药的生成 平均下来,传统的医药公司每次筛选出8000种药用分子中,只有一种能最终问世,这其中需要研发人员整周,甚至是整月地蹲坐实验室,逐个测试药物分子。近年来,得益于迅猛增长的计算能力、GAN技术,以及深度强化学习技术,研究人员开始尝试利用AI技术对药物进行研发和筛选,并取得了一系列巨大的进展。例如,2019年因斯里克医学公司利用GAN和深度强化学习来构思和设计新的药物分子结构,合成并在小鼠中成功测试了一种主要候选药物,基于AI的分子设计仅需21天,加上设计、合成和验证,整个过程只用了46天。可以预期GAN技术有希望为整个医药行业省下巨额的科研经费。
生成对抗网络的未来及挑战
虽然GAN已经取得了快速的发展,逐渐能够从随机噪声或以特定的用户规范(例如场景分割和布局)为输入的条件下,合成引人注目的图像和视频。但是目前的算法还不能对复杂场景进行细粒度的建模与控制,这也导致了传统的渲染器在素材质量低的情况下,不能进行复杂的、非局部的三维交互。相比之下,神经渲染有望将现代计算机图形学和深度生成模型两者的优点结合起来,以图像或者视频为输入,完成可控的、高清的图像(或视频)的合成与编辑。可以预见,GAN和神经渲染技术相结合,将会在电影工业、虚拟/增强现实和智慧城市等领域中发挥越来越重要的作用,将会成为构建数字元宇宙(metaverse)的关键技术。
随着合成成本的逐渐降低,以Deepfake为代表的深度伪造技术开始走向普及,其在社会生活各方面的渗透也越来越深。从大众的角度来看,目前公众对于Deepfake的态度正走向两个极端,一是陷入Deepfake娱乐化的漩涡,二是站在Deepfake的对立面。作为一种编织虚假信息的强大工具,Deepfake的身影开始遍布互联网的多个角落,侵犯隐私、扰乱政治选举、抹黑公众人物、引发非自愿色情片泛滥,一步步侵蚀公众信任,引发社会信任危机。技术无善恶之分,但技术应用存在善恶,之后的研究需要更积极地参与到防止Deepfake滥用的努力之中。通过技术制衡技术,开发相应的检测技术是目前最行之有效的方法。但开展对Deepfake的检测并不容易,仍然面临不小的挑战。因此,多国政府对深度伪造技术的滥用风险高度重视,并开始制定相关的法律法规来约束其在网络空间的传播。2019年6月12日,美国国会提出《深度伪造责任法案》 (DEEP FAKES Accountability Act)。这项法案要求任何创建合成媒体文件的人,必须用“不可删除的数字水印以及文本描述”来说明该媒体文件是篡改或生成的,否则将属于犯罪行为。同年,我国国家互联网信息办公室、文化和旅游部、国家广播电视总局联合印发了《网络音视频信息服务管理规定》[10],强调“网络音视频信息服务提供者和网络音视频信息服务使用者利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播非真实音视频信息的,应当以显著方式予以标识,不得利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播虚假新闻信息”[10]。
生成对抗网络,作为一种新的技术,正在人工智能领域如火如荼地展开,并在娱乐、影视、制药等诸多领域被广泛地使用。笔者相信,很多技术都有两面。但随着法律地不断完善,以及社会的自我约束,生成对抗网络终将进一步走进我们生活的各个方面,更好地服务于社会。
[1]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets. Advances in Neural Information Processing Systems, 2014, 27.
[2]Mirza M, Osindero S. Conditional generative adversarial nets. Computer Science, 2014: 2672-2680.
[3]Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks. Proceedings of the International Conference on Machine Learning. Proceedings of Machine Learning Research, 2017: 214-223.
[4]Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks. Computer Science, 2015.
[5]Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Institute of Electrical and Electronics Engineers, 2019: 4401-4410.
[6]Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks. Proceedings of the IEEE conference on computer vision and pattern recognition. Institute of Electrical and Electronics Engineers, 2017: 1125-1134.
[7]Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision. Institute of Electrical and Electronics Engineers, 2017: 2223-2232.
[8]Saito K, Saenko K, Liu M Y. Coco-funit: Few-shot unsupervised image translation with a content conditioned style encoder. Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part Ⅲ 16. Springer International Publishing, 2020: 382-398.
[9]Li Y, Zhang R, Lu J, et al. Few-shot image generation with elastic weight consolidation. arXiv: 2012. 02780, 2020.
[10]三部門发布《网络音视频信息服务管理规定》.中国政府网, 2019-11-29[2021-8-17]. http://www.gov.cn/xinwen/2019-11/29/ content_5457064.htm.
关键词:人工智能 生成对抗网络 图片生成 序列数据生成新药设计 ■