许韬 段宣尧
(广西大学电气工程学院 广西壮族自治区南宁市 530000)
生成式对抗网络简称为GAN,是一种生成式模型,其灵感来自于博弈论,整个生成式对抗网络由生成器和判别器两部分组成,生成器的主要功能是对于真实数据的收集,并根据收集的数据样本的潜在分布生成新的数据样本;判别器的主要功能是判定生成器中所采集的样本是真实数据还是其后来生成的样本。对于生成式对抗网络中生成器和判别器的设计均可直接套用神经网络系统。生成式对抗网络的工作过程从其功能上来说其实是对于数据样本的一个优化过程,以目前的科研来说,人工智能属于最为热门的领域,而GAN 的机理正是人工智能所需要的,所以其在人工智能上的应用较为广泛,同时也为人工智能的研究提供了新的方向。从生成式对抗网络目前的实际应用来讲,图像和视觉领域是最为广泛的领域,通过GAN 可以实现生成数字、人脸等物体的图像,模拟出各种真实的场景,另外其对于图像的处理也有着极为广泛的用途,如图像的修复等。除了在图像、视觉领域上的应用,GAN 还广泛的应用于计算机病毒防护、语音智能化处理等其他领域。除了人工智能领域,医学领域也有着GAN 广泛的应用,对于医学来说,通常需要大量的图像模拟生成以及图像的修复处理工作,GAN 的优势之处可以很好的发挥。本文主要是对生成式对抗网络的现实应用进行举例说明,并从这些现实应用中解析出生成式对抗网络实践应用的意义及未来的发展方向。
GAN 的基本模型由一个生成网络和一个判别网络组成。生成网络的主要作用是收集大量真实数据的分布规则,并根据这些分布规则按照一定的算法生成新的样本数据,生成网络中所生成的新数据样本会和真实样本一起输入到判别网络之中,判别网络依照特定的算法判断哪些是真实数据哪些是生成网络生成的新样本数据。基于博弈论的思想,判别器和生成器会一直在对抗的过程中不断地学习,生成器会学习如何对抗判别器对于数据的甄别,而判别器会不断的学习如何去更好地甄别出真实数据,最后达到一个最优的平衡状态。
生成式对抗网络相比较于传统的生成模型最大的区别在于省去了大量的采样和推断,对于传统网络模型来说,采样和推断的过程不断重复进行的,不仅浪费了大量的时间,降低了效果,还对原始数据产生了过度的依赖性。生成式对抗网络会直接对数据进行采样和推断,且拥有非常灵活的设计,以针对不同的场景不同的应用领域。针对不同的任务可以对生成式对抗网络设计不同的函数,且任何一个可微分的函数都可以用来构建生成式对抗网络中的生成器和判别器,灵活度比传统网络模型更高,具有更强的易用性。另外,生成式对抗网络可以和其他网络模型相结合使用,如卷积神经网络、循环神经网络等。还可以和GNN 相结合来处理一些连续的数据,在数据的建模和数据生成等方面有着巨大的应用价值。
2.1.1 图像和视觉领域
GAN 最为典型的一个应用是对于模糊图像的清晰度处理,根据GAN 的工作原理可知,其生成器可以生成与真实数据同样分布的图像数据,故而可以应用生成式对抗网络来增加图像的细节度。
在自动驾驶领域,利用GAN 来生成车辆周围环境的图像模拟,再通过转移模型来实现对于汽车下一步驾驶行为的预测。GAN 另一个突出的特性是其自我学习能力,通过对大量的环境图像进行生成,GAN 所生成的图像会越来越接近于周围真实环境,细节度也会越来越高,大量的视频帧数会不断的对GAN 的生成器进行优化。对于视觉领域来说,仿真图像和真实图像可以实现人眼检测,但其数据分布仍然存在差距,基于GAN 的仿真图像细节丰富技术可以使仿真图像更加接近于真实图像,从而减小仿真图像和真实图像所带来检测结果误差。
2.1.2 语音和语言领域
对于GAN 在语音和语言领域的研究已经颇有建树,利用GAN来分析语言对话之间的关联性可以让机器更加智能化地同人类进行语言沟通。GAN 判别器在进行更新之前,生成器需要先进行多次更新以达到梯度训练生成器的目的。大量的实验表明,GAN 在语言文本生成方面的表现已经可以超越传统的生成方式,而且生成器和判别器在不断改进的过程中,其生成的图像与说明文字的关联性也在不断地提高。
2.1.3 超分辨率
超分辨率是指将低分辨率的图像通过一定的手段转化成高分辨率图像的过程。在原始图像分辨率一定的情况下,对于图像的处理只能在其原有分辨率的基础上进行,如果没有特定的数据分布规律识别算法,运用传统人工智能的方式来增加图像的分辨率往往只是对于局部相似数据的模拟,这与PhotoShop 中所提供的内容识别功能颇为相似。超分辨率主要应用的领域是监控、卫星图像以及医学图像。传统的超分辨率方法虽然也可以实现图像率的增加或者是图像细节的增加,但往往处理过后的成像较为模糊。而Tweitter 公司最新的研究成果显示,他们已经成功开发出了全新的损失函数,通过GAN 实现了细节丰富的超分辨率清晰图像。
2.1.4 数据合成
2016年美国苹果公司在一篇有关人工智能的论文中表示,他们已经成功构建了一个GAN 网络,并且实现了可定制的带有标签的真实图像数据合成。利用GAN 进行数据合成不仅可以极大缩短所花费的时间,同时合成的图像与真实视频也有着更多的相似性。
2.1.5 将文字转化成图像
把一段有关图像的文字描述,按照其释义转换成与文本内容相符合的图像是一项有高难度且十分复杂的工作。2016年的ICML会议上,提出了两种基于GAN 算法的解决方案,这两种解决方案不仅高效地实现了从文本到图像的转换过程,且其所用的架构和训练策略均十分简单。对于该转换过程,如输入“一颗红色的苹果”,对应的输出内容是包含有“红色苹果”实物的图像内容,这个转换过程需要基于生成式对抗网络系统完成两个任务:一是可以准确的捕捉到文本里的“红色”、“苹果”这两个关键性的信息;二是通过匹配真实事物中正确的数据信息将苹果绘制出来并且上色。这两种解决方案均是以单一文本信息作为特征,后来相继提出了多本文生成图像的方法以及更为先进的改进策略。
2.2.1 医学图像生成
医学图像生成技术最大的难点在于根据生物学变化来生成最为可信的影像。GAN 的特性恰好为解决这些难度提供了可能性,利用GAN 来实现医学图像的生成是基于其可以理解的图像数据的基础结构,并且可以将噪声图像生成新的数据样本。
2.2.2 医学影像生成
GAN 在医学影像生成上的应用主要是生成MR 图像和生成超声图像。MR 图像和超声图像都是医学中相对较为重要的图像类型。GAN 在解决MR 图像生成的方案中,有效降低了MR 图像对比度低的关键性技术难度。利用GAN 实现医学影像生成,研究者们首先是将传统的图像增强方式与生成式对抗网络相结合,进行了脑部MR 切片图像生成的多次试验,试验的结果证明此种方法生成的MR 图像具有很高的可信度,足以证明此方法的有效性。另外,其他学者尝试了利用生成式对抗网络来实现脑部MR 序列的合成、T1 加权脑部MRI 的无监督合成、X 射线图像的合成等,尝试结果均表明了方案的可行性。特别是X 射线图像的增强方式,研究人员基于仅仅包含简单轮廓的图像就得到了准确度非常高的腰椎平面X射线图像。
2.2.3 病理图像生成
生成式对抗网络在医学上的另一个十分重要的应用便是病理图像的生成。组织病理的显微图像在没有进行染色之前是没有颜色且不可以直接分辨形状的纹理。想要生成较为清晰的图像需要用专门的染色材料对图像进行染色以增加整个图像的对比度。病理图像主要是用来诊断和研究一些复杂疾病,这个诊断和研究的过程往往耗时较长,所以需要对病理图像进行长久的保存,但是无论是何种染色剂配方,其所呈现出的结果以及存放时间等都会导致组织图像的可读性外观,从而影响对于病理图像的自动化解读。由于以上所述的几种原理,在进行病理图像的生成研究时,首先要解决的问题是找到一种统一的染色方法。利用GAN 进行病理图像的生成,可以将不同实验方案所呈现的视觉效果统一,减少变化。利用GAN 处理病理图像不仅能极大的减少生成所需的时间,同时也可以减少其间所花费的成本,因此避免了染色流程对组织的不利影响,所以同时也提高了医生对于病理诊断的准确性。
2.2.4 视网膜图像的生成
对于以往的方法来说,视网膜图像的合成是项难度极高的技术。为了找寻更好的解决方案,Costa 等人提出了利用生成式对抗网络来进行视网膜图像的合成,这种基于对抗学习的视网膜图像合成方法首先是通过血管分割技术将血管树从视网膜图像之中分离出来,然后利用生成对抗网络的学习技术来不断的优化血管树和真实视网膜图像之间的映射关系,最后找到一个最优的平衡点,这些平衡点的基础上,生成的视网膜图像是最为接近真实的视网膜图像的。由于生成式对抗网络的生成器是基于实现数据生成的,拥有同一血管树真实图像的多个图像,所以样本量数量较多,在后来又引进有自动编码器技术,经编码解码后生成的视网膜图像基本上和真实的视网膜图像一致,并且拥有更多的细节变化。
2.2.5 医学图像重建
在医学图像应用中,有一个基础的问题就是医学图像的重建问题。医学图像的重建工作首先要对峰值信噪比进行优化,尽可能地用更少的原始数据来获得最为理想的重建效果。引进生成式对抗网络相较于传统方法所得到的图像有着更高的对比度,其重建效果也比已有的方法更加优秀。由生成式对抗网络引申出来的另一种方法被称之为压缩感知GAN,此方法是将最小二生成式对抗网络与Cycle-GAN 相结合,利用双通道的网络数据输入来进行训练,可以获得对比度更高的图像效果,更加有利于医学图像的重建工作。在融合更多的网络思想之后,相信整体的重建效果还会进一步的得到优化。
2.2.6 三维医学图像处理
在医学图像处理中,网络结构通常是可以学习已经试验成功的图像处理模型。研究人员在研究对于低剂量CT 的噪声降低方案时,提出了采用3D-GAN 生成三维像素作为输入,并进行卷积核运算,在对比了多种损失函数的方案之后,找出了能够增加信噪比的有效方法。与此方法类似的是,采用3D U-net 结构以及跳跃式链接的方法同样也可以进行医学三维图像的生成,并且相对于3D-GAN的方式还解决了深层网络的梯度消失,获得更高质量的图像生成结果。目前利用基于生成式对抗网络重建的损失函数已经在多个肺总图像数据集上成功的进行了三维医学图像的处理,不过相较于二维图像来说,三维图像对于空间维度的需求要高得多,由于很多情况下所得的数据是十分有限的,所以很容易引发其他的问题,故而生成式对抗网络在三维图像处理的应用要比二维图像少的多。
虽然目前生成式对抗网络处于一个全面发展阶段,在很多方面的应用仍然不是非常成熟,但优点是多方面的。生成式对抗网络受启发于博弈论,生成器和判别器在对抗的过程中不断地学习,通过这种迭代训练的方式,逐渐向着更加均衡的方向发展。生成式对抗网络作为一种生成式模型,并非直接来处理数据模型,而是生成器根据已有的真实数据分布来生成新的样本数据,从而获得更多的数据基础,这个生成新样本数据的过程可以被视为是无限的。生成式对抗网络在视觉应用领域、图像处理领域、语音智能处理领域以及医学领域都有着巨大的应用潜力,本文列举了其在人工智能领域及医学领域几个重要的应用方面,结合生成式对抗网络的原理,对其应用价值和未来的发展潜力加以分析。