刘 厦,郝亚峰,仇梓峰,胡 炎
(1.中国电子科技集团公司第五十四研究所,河北 石家庄 050081;2.中国电子科技集团公司航天信息应用技术重点实验室,河北 石家庄 050081)
随着神经网络结构的发展不断完善,多种多样的数据集也使用得越来越广泛。在目标识别任务上,以数据集为基础的深度智能学习算法具备较为优秀的性能。然而,复杂场景与常规场景下的目标识别有显著差异,复杂场景的环境具有不确定性,而且难以具备覆盖完整样本分布的稀缺数据集。已有数据集中的样本类别通常是长尾分布的,这种分布条件极大地削弱了多数类别的有效数据量,导致复杂环境下的小样本目标识别存在困难。
无人机遥感仓储巡逻可有效避免不必要的人工风险,提高出检频率和检测效率,降低巡逻成本。依靠稳定的数据链路,可实时回传无人机数据,还可存储图像、视频以在必要时回看,有着巨大的发展潜力。针对此应用,已有相应的研究成果和配套解决方案不断公布。然而,包括无人机仓储巡逻在内的遥感目标识别任务普遍面临识别环境复杂多样、不确定性高、目标样本稀少和质量不精等问题。以仓储巡逻的安全隐患识别为例,其识别目标包括仓库火情、违章建筑、违规车辆、道路、裸露土地、田地和水体等非自然行为导致的险情以及洪水、地震、山体滑坡和地质下陷等自然灾害。
对于此类目标,常用的目标识别算法需要大量有效图像提供足够丰富的样本特征进行训练才能取得良好的性能;另一方面,大型库区的识别目标图像样本采集难度巨大。受载荷分辨率和拍摄距离等因素限制,大量样本分辨率低,成像质量不高,无法作为训练数据。加之部分类别,如自然灾害的发生频率很低,致使可用于训练的样本规模小,而复杂且不确定的环境使得神经网络无法利用开源数据集训练,且不同任务间难以迁移和共享训练数据,导致神经网络算法在大型仓储识别上的训练难以收敛,性能十分局限。因此,复杂环境下的小样本目标识别技术是推动人工智能在遥感领域落地的关键技术。
本文将从机器学习方法、高质量样本生成和未知目标识别研究3个方面研究仓库巡逻小样本目标识别理论和方法。本文对小样本机器学习方法和理论进行研究和总结;针对高质量样本生成模型的特点,有机结合了有限示例法;为了克服仓库巡逻中可训练数据少的难点,研究零样本目标识别的目标场景匹配方法。
人类可以对已存在的知识进行有效地利用,从而在少量训练数据的帮助下,将已有知识在新的领域内进行迁移和泛化,最终学习到新的概念,并且对新情况做出准确的预测及评估[1]。现有的深度学习方法高度依赖于数据驱动,这些方法的被动学习能力相较于人类的自我学习能力而言,深度学习方法在泛化水平和通用性方面是远远落后于人类的。为了将数据缺失条件下的目标识别与检测进行更好的解决,在模拟了人类的学习过程之后,进行更高效的机器学习方法的设计和实现,其所体现的现实意义十分重要[2]。
国内外的学者在研究了样本稀缺条件下的深度学习研发方向之后,提出了小样本学习。此类问题基于仅仅提供有效目标的小批量数据进行设计,之后训练多种可行性的机器学习模型,从而达到对目标进行有效识别的目的。以训练样本的数量等级为依据来对小样本学习进行3个类别的划分:① 训练样本数量为1,称为单样本学习[3];② 训练样本数量为0,称为零样本学习[4];③ 训练样本数量为数十,称为小样本学习。在本文中,将第三类问题作为主要研究内容,即样本数量为数十个量级的机器学习。按照解决小样本识别问题的技术实现方法,来对其算法进行划分:① 元学习基类法。通常,在源域上,使用此类方法来学习网络模型或者完成优化器的第一次迭代,使得模型在进行快速迭代并泛化时保持在小数量的测试集目标域上;② 迁移学习基类法。该类方法对之前掌握的知识进行智能化应用来更好地解决新问题,主要方式是通过继续训练来微调预训练网络,从而提取知识并应用于目标任务;③ 数据生成基类法。该类方法旨在研究对源域的满负荷数据进行应用,来进行模型的训练以及生产,完成源域数据多种类特性至数据稀缺目标领域的迁移,并将充足的数据提供给目标域,使监督学习存在实现的可能。目前,遥感领域内多用基于数据生成的方法,下面介绍数据生成的主流技术形式。
原图像、图像特征层面的增强数据为当前此类方法的主要组成部分。图像特征层面的数据增强存在以下3种方法:① 四元组损失函数法,为了进一步丰富目标域的特征信息,去迁移源域中图像特征中存在方差变化的目标类;② 额外类级别语义信息法,为使图像特征域的有效数据能够有效增强,进行图像—语义—图像的多重自编码器的学习,使增加语义空间的扰动得以实现;③ 基于生成对抗网络的源域特征分布学习法,为了增强数据,可对目标域特征空间的新数据进行扩展。基于原始图像信息的数据增强方式,不但能够通过对拼图法以及框架的学习,来更好地融合源域的目标与域以及图像块,使目标域的样本数量有着一定程度的提高;而且对于目标域的小部分样本以及源域相关的图像,通过对图像变形网络的使用来实现进一步融合,亦可实现样本的针对性增强。在原图像层面中对原始数据进行增强,一般可通过生成对抗网络和图像块组合法的方式来对源域中的原始图像进行增量化创造。以下介绍几种主要方法来解释在图像特征层面和原图像层面进行数据生成的思路。
四元组增强法:一般而言,源域中的数据都呈现出较好的多样性;对目标域进行小样本问题的设定,通常各类数据间只有较小的方差。尽管可获取目标域中的样本数据并不是无限的,但源域与目标域中数据的变化模式以及分布有相似的部分。当前研究思路是对一个网络进行训练,在目标域数据中进行类别内的变换特征以及源域里方差信息的迁移,以此来实现新训练数据的生成。为实施此种变换迁移方法,Hariharan等人[5]进行了一种四元组优化方案的设计。这种方法对相应的生成网络进行设计,以前3个元素的输入特性为依据,而生成第4个元素。设计多元组模态生成对抗网络,将图像语义特征和其他特征映射到一种处于紧连接状态下的多元空间,利用多元组损失函数对多元空间里的联系进一步加紧,减少孪生跨模态样本的特征长度。在目标领域,通过对源域中训练好的网络的直接使用,使对应的样本能够生成,以增强数据。
语义自编码器:基于行为有效的先验信息,类级别的语义信息可在更高层面上进行数据增强,其结构如图1所示。Chen等人[6]利用了语义自编码器在源域上训练一个残差网络,该网络主要是对任务进行分类,利用视觉特征为残差网络中选中的神经层提供优化信息。此方法基于既有视觉特征,完成了一个从视觉至语义特征的编码网络的构造,对于解码网络,此方法还能够进行反语义构造。视觉—语义—视觉的自编码器就是通过编码与解码网络共同构成的,并在源域上进行优化训练。
图1 语义自编码器结构Fig.1 Semantic auto-encoder structure
针对目标域的小数量样本,在提取网络与编码网络方面,通过源域训练完备的特征来进行,在语义空间上进行目标域图像的迁移,然后进行高斯噪声的增加,最终增强样本即可在目标域中生成。
生成对抗网络:具备一种特定的判别器与生成器,且相互的交替博弈以及优化能够在两种器件中持续实现,生成对抗网络即可在不断优化中获得。该网络可将高斯噪声转换为图片分布,其结构如图2所示。
图2 生成对抗网络结构Fig.2 Generative adversarial networks structure
在现有研究中,一般不直接将生成对抗网络用于目标域图片的构造性生产。常见方法是通过条件生成对抗网络实现数据增强。除需进行高斯噪声的输入外,条件生成对抗网络还需进行特定类别图片的输入,然后将对抗损失进行优化,使得指定类别图片在网络中生成[7]。文献[8]通过一种对抗损失源域至目标域间转换关系,进行循环浮动的学习,此即为循环一致生成对抗网络。但该方法因没有较多的目标域图片,从而造成源域到目标域转换的对抗损失监督信息出现异常。文献[8]通过离散化源域至目标域的对抗损失,使其转换结果等同于目标域至源域的转换结果,从而对循环一致生成对抗网络进行了改进。通过大量的实践可以看出,针对文本、语音以及小样本图片识别,该方法所发挥的增强作用是较好的。
图像块组合法:通过对图像融合技术的运用,来融合源域和目标域的信息,基于组合及融合来使新的训练数据持续生成,并通过设计合理的机制处理大量无标识的样本。文献[6]通过对拼图法以及自学习机制的使用,将无标识的、目标域以及源域数据进行组合而实现新训练数据的生成。通过对迭代方法的优化,对组合后的样本进行扩充,在最终训练时进行样本插入。进行图像块的组合时,利用随机的方式来加入图像块。对组合方式的训练通过卷积形变网络来优化,并对原本的组合方式进行升级,最终完成任务相关性的随机性升级,这是Chen等人[6]基于上述方法作出的改进。
通过已有的数据点X和数据分布P(X),随机生成可观测样本,此为生成模型的基本问题,在机器学习中,代表一种特定的研究领域。图像领域中对于生成模型的学习是基于对被捕获的图像像素点的关联而实现的。学习生成的过程中,所有图片均为超大数量的像素点,且相近的像素点具有的颜色是基本一样的。那么,图像像素点的颜色分布模型可以基于捕获一致信息的方式来获得。
生成模型的深度方向性网络是通过多维变量进行概率分布求解的,分为以下2个领域:第一领域是无向图模型,通过对隐含位面及显示位面的有机融合,生成马尔可夫模型的合并概率;第二领域是有向图模型,位面派出一个可以随机进行采样的隐含层,通过贝叶斯模型进行数据的养成。生成模型的训练过程是没有受到监督的,输入不带标签数据,可以在生成模型的同时进行半监督学习。比如,先利用大量无标签数据训练好模型,然后利用模型去提取数据特征,完成从数据层到隐含层的编码过程,之后用数据特征结合标签去训练最终的网络模型。
基于深度学习思想的生成模型主要有GAN(以及GAN的变种模型)和变分自编码器(VAE)。表1将介绍对GAN与VAE进行优化和衍生的各种不同模型。
表1 生成模型衍生变种的比较与区别Tab.1 Comparison and difference between the generated model derivatives
基于对抗模式的生成模型GAN[24],不同于其他生成模型中训练过程涉及难以处理的计算,在实现时往往采取马尔可夫链模特卡洛采样(MCMC)。而GAN则是通过反向传播完成整个网络的训练,其缺点包括训练不稳定,生成网络会塌陷到某些数据点(比如,这些数据点目前看最像真实数据,生成网络会不停生成这些数据点)。在基于深度卷积网络的生成对抗模型(DCGAN)实现中,提出解决GAN中训练不稳定的措施,并利用对抗生成网络来做半监督学习。相对于其他生成模式,对抗生成模式模型清晰简单。目前,对抗生成网络也存在较多问题:① 生成图片的像素及质量不高;② 复杂图片的质量较低;③ 整体模型的稳定性较差。在实际中,尤其对于复杂图形,生成器经常很快收敛到某些单个数据集,使得整个模型的训练陷入僵局。
自动编码机(Auto Encoder)[23]为前馈神经网络,同时还是基本生成模型。当前在生成模型中较多地使用自动编码机,而以前则在特征提取以及数据降维中使用较多。解码器与编码器为原始自动编码机的组成部分,还包括输出、隐含以及输入层,压缩输入的数据在编码器中进行,适应性重构完成压缩的数据在解码器中进行。其衍生类也很多,在对隐含层增加稀疏约束之后,使隐含层中的多数节点被抑制,从降维效果来看,更好的是稀疏自动编码机,进行训练时,对网络进行大量噪声的增加,使模型的抗噪力有效增强。去噪自动编码机[26]在输入里直接进行噪音的增加,试着在输出中重建原生的无噪纯净样本。当前在使用较多的生成模型中,其中的一个就是差分自动编码机(VAE)[27],可生成训练样本中不存在的样本。但由于VAE是直接采用均方误差而非对抗网络,其神经网络倾向于生成低等清晰度的图像。
Luo等[28]提出了一种基于变分VAE和GAN的双重框架,称为双重VAE-GAN,以产生比VAE更清晰的图像视觉特征,并缓解GAN的模型崩溃问题。VAE-GAN为了避免生成不受约束的视觉特征,可以将特征强制映射回各自的语义空间。同时,使用循环一致性损失来促进多样性并保持生成的图像视觉特征的语义一致性。
Xian等[29]建立了一个统一的特征生成框架来解决小样本问题,开发了一个条件生成模型来结合VAE和GAN的强度模式,并通过无条件鉴别器来学习未标记图像的边缘特征分布。所学习到的特征在生成框架中是可以被解释的,通过将特征反转回像素空间来进行可视化并生成文本参数来解释特征与标签的关联性。
零样本条件下的基于语义信息的未知目标识别(又称为零样本目标识别),是在不依赖目标识别数据集的图像标签对的情况下,对未知目标进行检测及识别。通过研究零样本目标识别,可以不需要真实场景数据就可以对训练数据集中不存在的物体进行识别,在真实数据集难以采集且需要识别的目标样本量极少的条件下适用。同时,也适用于当前需要解决的无人机仓储巡逻问题。一方面仓库中需要识别的危险任务、可疑车辆和违章建筑等目标数量少;另一方面,由于数据保密等原因使得可用于训练的数据稀缺。因此和零样本目标识别的目标场景匹配,因其广泛的应用领域,零样本目标识别具有重要的研究意义。
目前,零样本目标识别的主要思路是将图像经过一个预训练的CNN提取视觉特征向量,同时将图像的类别标签用预训练好的网络转化为语义向量,接着用浅层神经网络学习到的映射,进行零样本图片分类的工作,接下来再使用常用目标识别网络(如Faster RCNN,YOLO和SSD等)对目标进行识别,配合之前的零样本分类就完成了零样本目标识别。
Frome等[30]采用上述思路,利用预先训练好的词向量转换模型将深度特征进行适应性变换,得到目标词向量,并通过判断这个词向量和标签的接近性距离来判断未见过的物体类别。Morgado等[31]则是将学习到的深度特征使用码字进行深度编码,编码的深度特征可通过已有的类别语义关系映射到异向类别上。
Zhao等人[32]利用元学习模型融合少量标记数据从而快速适应新的目标识别任务。这种基于对抗性鲁棒神经网络的元学习方法,称为长期交叉学习(LCAT)。LCAT将沿着自然和对抗性样本分布方向,通过长期更新元学习模型参数,以提高对抗性和位于少数图像模型的分类精度。
面向仓库巡逻的小样本目标识别,其核心是针对小样本的机器学习的方法和理论,关键是要解决小样本学习中的过拟合问题。将有监督以及小样本图像分类任务进行比较,在训练机器学习模型的过程中,过拟合现象较易产生,在实际测试集上,所获的模型没有较好的性能,这是因为目标域类别只有在小数量样本中才有。
为了解决以上问题,一方面需要研究基于有限示例的高质量样本生成模型,关键是要提高整个模型的稳定性,避免生成模型快速收敛到某些单个数据集,使生成失效;另一方面,需要研究零样本条件下基于语义信息的未知目标识别,其核心是不借助目标识别数据集的图像标签对的情况下,对未知目标进行目标识别,关键是要解决对零样本目标的语义特征抽取问题,并从判别性角度,将其与源类来加以区分。
在未来工作中,面向仓储巡逻背景,将针对无人机视角下的目标识别、火点检测、人脸识别以及车牌识别等研究方向,致力于解决复杂背景及小样本难题中无人机视角下的智能感知出现的虚警率高、置信度低等情况。综合利用语义分割、含义解析和多源探测等技术,对归宿领域中的原始数据建立先验知识库,支持无人机在做目标识别业务时,同步输出当前目标所处的语义环境,完成目标区域中合作语义的形成,提高无人机智能感知的准确性,在一定程度上可解决小样本学习中未知目标的检测及识别难题。