郭佳骜 刘在田 闰子龙 苗乔伟
近年来,人们对社会公共安全问题的关注度不断提高。视频监控系统的普及成为创建“平安城市”,提高人民社会安全感的有效保障。当下,解决从监控图像与视频中寻找已知人物的行人重识别( Personre-identification)问题被迅速提上日程,在人工智能领域,神经网络与深度学习算法的应用成为解决此复杂问题的重要途经。
在深度学习领域,神经网络训练需要大量被标注的数据集样本,而在大数据快速发展的今天,在短时间内进行大量的数据标注工作来实现监督学习是不现实的。无监督迁移学习是指将数据标注这种庞大而复杂的工程,通过程序交由计算机处理,处理方式可以通过迁移已有模型进行训练。因此,提高无监督学习的成效成为当下亟待解决的关键问题。
目前在无监督研究领域,多数研究成果是基于迁移学习模块,小部分研究涉及最新的注意力模块的应用,而在多源域方面,目前的研究鲜有涉及。本文通过结合“多源域”与“迁移学习”,研究行人重识别问题,通过对注意力模块的进一步研究,将模块进行结合并论述多源域无监督算法的可行性与应用情况。
研究背景
当下,社会公共安全问题逐渐被人们重视,视频监控系统大量普及,实时监控着人们在公共场所的行为,并作为安防安保建设工程的核心内容。传统监控体系下的人工排查方式会耗费大量人力物力,在大型监控网络中存在明显的劣势。因此结合计算机视觉技术进行智能视频监控、跟踪和检索成为刑事侦查中亟待解决的重要课题。
行人重识别是利用计算机视觉技术判断图像,或者视频序列中是否存在特定行人的技术,属于在复杂视频环境下的图像处理和分析范畴。由于不同设备之间的差异,会造成图像分辨率的差异与视觉模糊的效果,且行人会在监控视频中兼具刚性和柔性两重特性,外观易受穿着、姿态和光照等环境因素影响,使行人重识别成为计算机视觉领域中兼具研究价值与挑战性的热门课题。
传统的机器学习技术是建立在来自同一分布样本集假设前提下的训练数据集和测试数据集。如果其测试数据集数据分布发生改变,那么预测分类器就必须重新训练学习,从而适应这种变化。“迁移学习”方法的提出,旨在通过利用已有数据集的可迁移性,辅助目标领域预测分类模型的建立,从而减少对目标领域带标记数据的需求。但是,目前迁移学习很依赖源领域与目标领域之间的可迁移性关系,而多源迁移学习方法则是从多个源领域数据集中选择合适的数据集进行知识迁移以减少负迁移,从而避免单一领域数据集可能带来的风险。
随着深度学习的不断发展,面对现实问题时数据集越来越多,问题也变得越来越复杂。当有大规模数据集为测试数据集时,人工标记后的训练数据集碍于效率与成本的问题,难以满足当下对神经网络训练速度提升的要求。因此,无监督迁移学习的研究对行人重识别重难题的解决有着关键作用。
研究方向与成果
无监督领域:无监督神经网络提出后,网络训练的效率大大提升,数据集的规模也越来越大。有学者提出了使用聚类无监督算法,该方法在无监督领域是崭新的方向,它根据数据的聚类情况让计算机学习到特征,大大减轻了数据标注的压力。但由于是简单的聚类算法,很多特征计算机无法学习成功。因此,该方法虽然减轻了数据标注压力,但实际效果并不理想。
迁移学习模块:迁移学习是深度学习发展的里程碑,提出了将针对某一问题已有的训练模型,微调迁移后应用到另一问题上的新思路。这对无监督学习的发展是一大突破,成功运用迁移学习方法实现的算法往往并不复杂。
注意力模型:注意力模型方法的提出使得解决行人重识别问题有了新方向,这是最新提出的图像处理模块,意在将指定图像进行判定,并根据特征选择图片中的一部分为注意力模块进行辨别。行人重识别算法涉及到实际应用时,也会遇到更多不确定情况,目前在行人重识别问题中,针对解决无监督多源域迁移学习的问题还没有成熟的算法。前人为了综合各个注意力模块,提出了使用迁移学习进行多源域数据集统一的方法,但该方法面临数据样本特征会在优化过程中弱化,数据源域在训练中逐渐出现边界消失,最后无法达到多源域训练目的等问题。
核心技术与算法可行性
对多源域数据集的统一处理:当前的无监督迁移学习方法大部分都是单源域数据集训练,注意力模型的应用也不广,于是我们大胆提出假设,将迁移学习中的注意力模块试用于多源域数据集范畴,并规范数据表示格式,使规范后的数据可以同时迁移多个模型进行训练,以解决单源域数据训练使用效果不佳的问题。通过大量训练,让网络学习到各个注意力模型信息,提高网络在不同影响条件下对行人重识别问题的健壮性,提高网络的普适性,令网络的判别效果达到新高度。
通过科研阶段普遍认可的三大数据集Market-1501,DukeMTMC-REID,CUHK03进行评估。另外,还可以申请从有关部门获取相关视频图像资源,进行实际的适配性检测,以证明所提出模型的准确性、高效性与鲁棒性。
基于深度学习的图片特征提取:随着深度学习神经网络的发展,时至今日有许多已成形的特征提取网络。网络的选取在研究中极为重要,通过多次不同实验,比较其效果得出各网络的特点与优越性,综合已有数据分析后,本文认为使用残差网络效果更加。因为CNN网络对圖像特征的提取,会随网络层数的增多提取到不同级别的特征,网络越深提取到的特征越多,表达能力越强,深层的网络提取到的特征会很抽象,并且存在语义信息。对于早期的特征提取网络,不断地增加深度,会出现梯度弥散或梯度爆炸的问题,导致网络训练效果不增反减,也使得深度网络不能很好地优化。而残差网络的优点是更容易优化,且具有抗干扰性,能够通过增加深度来不断提高准确率。
各样本映射空间与全新的优化方案:对多源域数据集样本的映射处理,需要创新思维定义各数据样本的映射结果,将样本对应的映射空间反映在全新的参量中,使多源域样本映射结构兼具数据多样性与数据源域的独立性,同时通过不断优化与目标数据域的距离,使方法效果更佳。
关键问题解决方案
多源域数据集的样本的分辨率、样本数的统一问题
针对此问题,可以对所有样本进行特定的格式化计算,消除数据集内样本属性不同的问题,且保证数据集样本多样性与数据源域的独立性,以提高多源域数据集的训练效果。
神经网络特征提取效果低下的问题
对此问题,需要进行不同网络的嵌入对比实验,并对结果进行分析讨论,确定对解决行人重识别问题适配性,更好地特征提取网络模型,并嵌入算法中。
新定义样本映射空间模块与制定损失优化方案的问题
可通过定义权值参量的计算方法来反映数据集样本的贡献度与每个数据集和目标域之间的关联度,通过控制变量比较其结果,找出最合适的计算方法。结合贡献度与关联度这2个权值对应模块,可以使样本的映射空间得到全新定义,更好地解决行人重识别问题。
由于行人重识别问题存在巨大的研究价值,很多专家学者都在提出自己的网络算法与优化观点,目前无监督迁移学习作为较难的问题,其研究方向潜力巨大,当前已有国际学者提出较为成熟的网络体系。国内也有学者在不断改进与探索,本文提出的网络模型属于理论研究阶段,但可行性与准确率情况,在数据的分析与以往的研究中,均证明改进效果明显,所以有理由相信,我们提出的理论网络模型在行人重识别问题上有更好的效果。
越来越多的研究证明,所提方向是正确可靠的,所以,可以将理论研究成果的算法逐步优化并与实际结合,也能够达到更加方便生活的目的,故存在很强的研究与应用价值。