一种元-卷积网络和持续学习融合的洞库类目标识别方法

2020-07-14 11:29陈科山薛旭贾博然宋鹏亮梅育青
北京理工大学学报 2020年6期
关键词:卷积分类特征

陈科山,薛旭,贾博然,宋鹏亮,梅育青

(北京交通大学 机械与电子控制工程学院,北京 100044)

洞库类目标通常在地理测绘、道桥建设、交通运输、军事等领域中出现, 属于重点识别与检测对象, 如隧道、山洞、坑道等.目标的智能识别技术是智能控制、智慧交通、自动驾驶、机器视觉等理论与技术的重要的组成部分之一.针对洞库类目标展开深入的研究具有重要的理论意义和特殊的军事价值.

目标识别是图像学的重点研究方向,早期为基于人工设计识别特征的方法.该方法需要对识别对象建立特定识别模型,不仅设计难度大,鲁棒性也普遍较低.近年来,目标识别的主要方法已发展为基于深度学习(deep learning)的方法.目前,已经出现了大量优秀的深度卷积网络如GoogleNet、RCNN、Faster RCNN等[1-2].单纯基于CNN的目标识别需要大量的训练数据和更先进的硬件系统.针对这一问题, Li等[3]提出了数据需求量少、运算量低的小样本学习.为解决该方法不能有效利用新数据的问题,出现了持续学习和元学习.

结合深度学习的元学习(meta learning, ML)是深度学习领域中的前沿理论,Munkhdalai等[4]将上一个数据的训练标记结果指导下一个数据训练,达到少量数据获得良好标记预测能力的效果.Andrychowicz等[5]通过训练专门的梯度控制网络,控制并预测训练中的梯度下降过程.Finn等[6]提出了一种基于多任务并行处理,合成不同任务训练梯度的模型,实现在少量训练数据基础上的梯度快速精准下降.Mishra等[7]直接利用每次训练的历史数据参与到下一次训练,实验效果较为理想.Sung等[8]通过构造评价模型控制并预测训练的损失.

持续学习(lifelong learning)是指模型可持续运行,并利用新、旧数据同步训练新的网络模型.Li等[9]从知识提取方面降低了旧知识的遗忘概率.Kirkpatrick等[10]提高了灾难性遗忘的抵抗能力.Triki[11]和Aljundi等[12]训练专门的编码器或门网络指导训练过程.

目前针对洞库类目标识别的相关研究较少,且基于图像的方法较少.张辉等[13]基于霍夫直线检测对洞库类目标识别做出了相关研究,识别洞库类目标两侧的直线结构,但在较复杂背景条件下的识别效果较差;Slavova等[14]基于多种传感器方法在地面勘探领域中做出了相关研究并取得了良好的效果,但该方法适用范围较小;Kasprak等[15]基于机载激光雷达进行野外洞穴探测,使用成本较高.

本文结合具体情况并研究大量文献,提出一种结合元学习和深度卷积网络的元-卷积网络,并融合持续学习理论的洞库类目标识别方法.

1 元-卷积网络MCNN

本节将元学习理论融入CNN中,提出并设计了元-卷积网络MCNN.相比传统的CNN,MCNN可以将上一次训练的结果作为下一次训练的指导,从而减少CNN对数据量的要求,解决基于小样本洞库类目标数据的识别问题.典型的CNN由卷积层、池化层、全连接层和分类器组成.其中卷积层和池化层交替排列提取图像特征,并连接全连接层和分类器.

卷积层将上一层的输出特征图作为输入特征图,利用该层的卷积核对输入特征图做卷积提取操作.洞库类目标识别是一种二分类识别,本文采用PRelu[16]作为卷积层激活函数.PRelu是一种适用于二分类且不易丢失信息的激活函数,公式为

(1)

式中:i为同一卷积层的不同通道;x为输入的特征图或其卷积结果;ai为偏置系数该激活函数,在文献[16]中有详细表述.

池化层将输入的特征图进行进一步处理并提取主要特征,起到降低计算复杂度、提高主要特征利用率的作用.全连接层连接所有处理得到的特征并送入分类器进行分类,得出输入图像的标签(label).本文采用Ren等[17]提出的Faster RCNN网络作为元-卷积网络的深度卷积网络部分.同时结合元学习利用旧知识指导新知识的思想,建立如图1所示的元-卷积网络MCNN.

MCNN将小样本训练数据逐次输入至Faster RCNN中进行特征提取,并输出特征的初步分类结果;然后利用已学习到的结果指导预测下一个输入的分类过程;以此循环,直到将所有小样本数据遍历训练得出最终的深度洞库模型.在洞库类目标识别问题中,仅存在“洞库”和“背景”两种Label,分类结果即为目标识别结果.

深度卷积网络利用损失函数(loss function)度量图像分类的准确度,并对产生较大Loss的分类结果进行修正.单幅图像xt的损失函数由拟合值与真值的偏差γt确定

L=L(γt).

(2)

此时,xt的正确分类概率,即未经指导预测的正确分类概率可表示为

xt~P(yt|xt),

(3)

式中yt为图像xt的初步分类结果.若引入前t次的分类结果对其进行指导,经指导后xt的损失函数为

(4)

此时xt的正确分类概率为

(5)

图2中各个椭圆代表使某图像正确分类的最小误差范围.xt未经指导的分类结果会收敛于使xt分类误差最小的方向,即箭头1,显然对前t次分类不利;经过指导的分类结果会收敛于所有结果都可以接受的方向,即箭头2.文献[10]中采用选择性减小权重的方法来削弱持续学习中的灾难性遗忘,本文将此思想扩展至元学习范畴,并用于指导单任务、二分类、小样本模型的训练.

2 基于MCNN洞库模型的持续学习系统MCNN-LLS

MCNN基于小样本训练得到深度洞库模型.但在测试环节中,大量有用数据被遗弃;同时,模型对一些视频数据仅能做出部分识别,不能做出连续识别.若将正确识别的洞库类目标数据加入至深度洞库模型,则可有效提高模型的识别能力.

本节结合持续学习理论,提出并设计基于MCNN洞库模型的持续学习系统MCNN-LLS和洞库类目标的专家审核模型,有效利用新数据并持续提高识别效果.

2.1 持续学习系统MCNN-LLS的建立

如图3,测试数据集r通过MCNN深度洞库模型得出指导预测分类结果.该结果通过专家审核模型去除误分类结果,将正确结果储存至任务子空间中,并相对正在进行的识别过程异步后台挂起.在任务子空间中,对储存的结果进行连续性判别,在连续结果结束输入之后同潜在任务、旧模型共同训练新的MCNN深度洞库模型,用于下一组数据的识别,达到持续学习的效果.

MCNN-LLS通过专家审核模型去除误识别结果,降低其对小样本模型的影响;同时,利用任务子空间异步挂起连续的识别结果,降低内存使用率,提高算法执行效率;潜在任务包含有未加入训练集的训练数据,防止新数据过少产生MCNN对新数据不敏感的现象.

若专家审核模型同样基于MCNN生成,则专家审核模型和MCNN深度洞库模型对数据的计算结果收敛方向一致,不能达到审核判别的效果.而基于其他种类CNN的专家模型需要庞大的数据量,因此本文采用人工专家审核模型.

洞库类目标具有明显的形状、灰度等特征,人工专家审核模型可以提供可靠的审核判别结果.但基于人工特征的目标识别方法难以对全图进行目标的抓取,导致识别准确度很低.MCNN会将识别结果用矩形框(boundingbox,BBox)框选,若仅对识别结果进行审核则会显著提高审核准确率,因此可基于BBox中的内容设计人工专家审核模型.

2.2 洞库类目标专家审核模型

专家审核模型的重点步骤为图像自适应二值化,本节详细介绍该步骤并对其他步骤做简略介绍.模型审核流程如图4所示.

洞库类目标灰度与环境灰度差异较大,且具有明显的类椭圆形状特征.因此可将BBox中的内容基于灰度特征做二值化处理凸显形状特征,对形状特征进行审核判别.如图5,定义滑动窗口在BBox中逐像素滑动,图中滑动窗口正处于洞库边缘.

(7)

Gatos等[18]对基于滑动矩形窗的自适应阈值二值化算法做出了经典表述,如式(8)

T=m+A,

(8)

式中:T为图像二值化自适应阈值;m为窗口平均灰度;A为窗口自适应灰度调整值.为使洞库类目标进一步凸显,取辅助函数h(x),灰度梯度差值函数f

(9)

(10)

改写式(8)为

T=mh(-f)+g5h(f)+A,

(11)

式中g5为区域W5中的平均灰度.当滑动窗口位于暗区域边缘时,则会获得更加严格的阈值生成方式,产生边缘信息更为明显的洞库类目标二值化图像.

依据式(11)生成BBox中图像的二值化结果后,可利用洞库类目标特有的椭圆形状特征对其进行判别.通过MCNN模型正确识别后的BBox中一定仅包含有洞库类目标和少量背景,其二值化图像具有明显的洞库类目标特征,相反错误识别后的二值化图像包含信息纷杂.因此提取二值化图像中所有区域的边缘,并计算其外接椭圆方程,将外接椭圆方程作与原有边缘相比较,可以剔除明显不具有椭圆特征的图像.关于边缘提取、判断等的研究很多,本文采用Canny算子[19]和模板匹配[20]的思想进行该步操作,利用Canny算子求取图像边缘信息,再经过模板匹配寻找图像中是否存在目标特征,从而判断图像中是否有洞库类目标.

3 实验与分析

本文实验数据分为训练集与测试集两部分,训练集和测试集.训练集选取具有代表性的100张图像,并通过旋转、仿射、颜色、模糊等变换对训练集进行扩容,保证训练出的模型对图像变换、采集条件不同、图像具有多种噪声等多种情况的适应能力,提高训练过程的误差的收敛速度和模型的精度.测试集包含有10段视频,其中包含质量不同的正样本和负样本.数据来源为网络、实景拍摄、大型地景模型等,如图6所示.所有实验基于CPU i7 7700HQ,GPU GTX1060完成,实验程序基于Windows系统下的Matlab 2017b软件编写,学习速率为0.001.

本文设计了3组对比实验.第1组实验验证不同容量的小样本训练集对MCNN训练效果的影响;第2组实验验证测试数据数量对本文算法识别效果的影响;第3组实验将本文算法、Faster RCNN、文献[7]和文献[13]的方法做对比实验.

第1组实验在训练集容量分别为10,50和100的基础上验证MCNN的训练效果,实验结果如图7所示.图7中MCNN在第2个训练周期(epochs)即可保持稳定的训练准确率,该实验结果表明,当训练集容量达到50时训练准确率趋近于理想,MCNN具有所需样本容量小、训练准确率高的特点.

第2组实验在第1组实验的基础上验证MCNN-LLS的识别能力和持续学习能力,如图8所示,需要指出的是,测试过程是逐帧进行的.图8表明具有持续学习能力的MCNN-LLS可以在识别过程中不断学习新数据,逐步接近0.95的识别准确率;而不具有持续学习能力的MCNN识别准确率在0.85左右波动.

第3组实验选取本文方法MCNN-LLS,Faster RCNN(深度卷积网络法)、元学习的方法(见文献[7])、人工设计识别特征的方法(见文献[13])在测试集上进行对比实验.实验结果如图9所示.

该结果表明,本文方法MCNN-LLS与人工设计识别特征的方法相比,具有更高的识别准确率;与Faster RCNN的方法相比,识别准确率高,而且鲁棒性好;与元学习的方法相比,识别准确率更高,而且具有较好的持续学习新数据的能力.

4 结 论

基于洞库类目标样本少、数据相似度高等特点,提出结合元学习和深度卷积网络的元-卷积网络,并融合持续学习理论的洞库类目标识别方法MCNN-LLS,该方法具有以下特点:

① 在深度卷积网络基础上引入元学习理论,提出并设计了元-卷积网络MCNN,实现了基于小样本的洞库类目标识别,降低网络训练的数据量和计算量;

② 在MCNN基础上融合持续学习理论,提出并设计了基于MCNN洞库模型的持续学习系统MCNN-LLS,实现了模型的持续学习,识别效果可随识别过程逐步提高;

③ 设计MCNN-LLS中的洞库类目标专家审核模型,剔除误识别结果,降低误识别数据对小样本数据的干扰,提高MCNN-LLS的识别效果;

④ 实验结果表明,本文方法识别准确率高,高于普通深度卷积网络法、人工设计识别特征法和元学习法,并具有对新数据的持续学习的能力,有效提高了模型的识别能力.

猜你喜欢
卷积分类特征
离散型随机变量的分布列与数字特征
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
从滤波器理解卷积
抓特征解方程组
不忠诚的四个特征
基于傅里叶域卷积表示的目标跟踪算法
按需分类
教你一招:数的分类
说说分类那些事