融合卷积神经网络与多层感知器的鞍部识别方法

2021-03-13 06:00孔月萍
小型微型计算机系统 2021年2期
关键词:卷积神经网络特征

孔月萍,党 爽,曾 军,高 凯

1(西安建筑科技大学 信息与控制工程学院,西安710055)

2(地理信息工程国家重点实验室,西安710055)

1 引 言

鞍部作为一种重要的地形控制点,与山顶、山谷、沟头等点状地形要素共同构成了地形地貌的基本骨架结构,其自动提取与准确标注对地学分析、地图制图、地理信息应用具有重要的理论价值和指导意义[1].分析鞍部的空间结构可以发现,鞍部位于两山顶之间较为平缓的地区,与山顶存在一定的高差限制,在等高线地形图上表现为相邻两山顶间山谷线和山脊线的相交之处.因此识别鞍部时既要着眼于鞍部的局部特征,还应充分考虑鞍部与其它地形要素之间的点群约束全局特征.

现有的鞍部识别方法大致分为两类,即地表几何形态分析法和水文分析法.前者多采用移动分析窗[2]对鞍部的几何形态进行特征分析,通过计算分析窗中多种曲面因子及相互关系进行鞍部判别与提取,此类方法处理速度快,但受分析窗口大小和方向的限制,易出现鞍部的误判.文献[3]在窗口分析基础上以等间距高程剖分山体,增加了等高面间的拓扑关系分析来识别鞍部,其结果比单纯的窗口分析法有了较大改善.而第二类方法则是借助地表水文汇流模拟分析的思想[4,5],利用正反地形中山脊线与山谷线求交的方法[6]提取鞍部,由于流域分水线与正地形叠合会导致某些山脊线断裂,给鞍部提取带来问题和偏差,且这类方法的复杂度较高,不易实施.

上述方法均依据人工设计的特征描述因子构造鞍部提取方法,但人工特征较难对鞍部形态的局部和宏观特征进行综合表达.近年来,深度学习在目标的特征学习与挖掘方面的优势极大显现,但当前的深度学习目标检测与识别模型大都应用于数字图像,并在ImageNet、COCO等公开数据集上进行网络训练和测试.DEM(Digital Elevation Model,数字高程模型)数据虽与数字图像具有相似结构,但它们的物理含义、对象与背景的边界却差异极大,直接将图像数据的相关方法迁移到DEM数据上,检测性能还有待研究.2017年,Eric Guerin等人[7]从计算机视觉着眼,将3D虚拟地形生成任务视为有特征条件的图像生成问题,用条件生成对抗网络(Conditional Generative Adversarial Networks,CGANs)[8]从真实DEM地形样本中训练地形生成模型,构造虚拟地形,提出了虚拟地形生成的新途径.2019年,Lin Du等人[9]利用DEM、坡度、地貌晕渲图等多模态数据构造联合特征的融合网络,利用残差学习单元从视觉形态和物理特征中挖掘深层次数据与地貌之间的相关性,在自建的ZISM50m数据集上,该算法的地貌识别准确率高达90.28%,表现出巨大的潜力.

综上所述,深度学习技术在数字地形尤其是DEM要素分析方面的应用研究成果较少,但效果十分理想,有必要继续探索.但考虑到实际地形与可获取的训练数据样本有限,受文献[10]和文献[11]的启发,拟借助卷积神经网络与迁移学习的思想,融合卷积神经网络(Convolutional Neural Networks,CNN)和多层感知器(Multilayer Perceptron,MLP),学习鞍部的局部形态特性及其与周围山顶、山脊和山谷间的宏观拓扑关系,实现DEM中的鞍部要素检测与识别.先以LeNet-5[12]预训练模型作为初始网络,利用已标记的鞍部样本对初始网络模型进行反向参数调节,使模型能实现对鞍部局部和全局特征的学习,进行候选鞍部点的提取;最后再融合MLP网络对鞍部点的精确位置进行回归,完成候选鞍部的坐标标注.

2 鞍部识别的卷积神经网络模型

大量事实已证明卷积神经网络对图像目标的检测与识别十分有效,但检测与识别的过程中存在网络性能与网络参数之间的矛盾.LeNet-5作为一种典型的卷积神经网络,在手写体数字图像的识别应用中准确率极高,被广泛应用于美国银行的支票手写体识别[13].然而DEM中鞍部样本与手写体数字图像的物理含义差异较大,完全套用LeNet-5神经网络模型识别鞍部要素效果不尽理想.因此,结合鞍部的空间结构特征及其与周围其它要素间的点群约束关系,以LeNet-5基础网络为框架改造CNN网络模型.

为了尽可能完整地挖掘鞍部的局部特征和全局特征,对LeNet-5网络的采样层部分进行了如图1所示的改造,即将鞍部的全局特征下采样和深层局部特征上采样,然后对提取到的特征加以融合,解决鞍部要素特征提取不完备的问题;最终,按照图2流程实现鞍部要素的识别.

图2 鞍部识别方法的整体框架Fig.2 Whole frame of saddle recognition method

图1 改进的卷积神经网络结构图Fig.1 Improved convolutional neural network structure

在预训练阶段,以LeNet-5神经网络结构为基础框架,对其权重参数进行初始化,保留除Softmax层的权重和偏置参数,用鞍部样本数据对其进行反向微调,计算检测分类结果与标签真值之间的差异,由后向前按照误差最小原则调整CNN网络各层权重,直至误差满足要求[14],获得针对DEM鞍部的基础CNN网络模.

在新的CNN网络模型中,以32*32*1的正样本DEM数据作为神经网络第一层的输入.卷积层采用5*5的卷积核学习鞍部的局部空间结构特征,利用权值共享获取其与周围山顶点、山脊线和山谷线之间的空间拓扑关系等全局特征,减少了网络学习的参数,降低了网络复杂度[15,16].每个卷积核分别与上层输入特征图进行卷积运算,经过激活函数非线性映射到下一层网络,其迭代映射方式如式(1),其中l为层数,k是卷积核,b是偏置项,X是当前层需计算的特征图,M为上层特征图,f是Relu非线性激活函数.

(1)

在基本的CNN网络模型中,随着网络层数的加深,特征图的维数不断减小,会使鞍部的空间结构特征不断稀释,进而影响小面积鞍部区域的特征检测性能.因此,在采样层中不能仅使用连续下采样,而应通过对网络提取到的浅层特征S2下采样、深层特征S4上采样、中层特征C3维持原有尺寸的方式对不同尺度的特征进行融合,得到既保持鞍部局部特征,又拥有鞍部宏观地形特征的全局特征.改进后的卷积神经网络结构如图1所示.其中,下采样中利用maxpooling进行池化处理,很大程度上减少了网络可能出现的过拟合现象,加快了网络的收敛速度[17],其表达如式(2),式中s表示池化的模板尺寸,m和n分别表示相应方向的步长.上采样阶段则利用maxpooling的逆过程进行“上池化”,即在maxpooling时保留最大值的位置信息,之后在上池化阶段使用该信息扩充特征图,除最大值位置以外,其余补0.

(2)

卷积层和采样层构成了一个特征提取器,提取有关鞍部的判别性特征信息,挖掘学习鞍部所在区域的特征.全连接层5则将学到的鞍部特征整合在一起,经过全连接层6对特征进行压缩以便于交给最后的Softmax分类器层.然而全连接层由于参数冗余,容易出现过拟合现象,因此为了加快训练速度,提升模型的可靠性,对全连接层的权重进行L2正则化操作.对于全连接层的每一组权重通过在原有损失函数的基础上加入λ∑ω2惩罚项,可有效减少训练数据中的“小凸起”等伪山顶点,避免引起鞍部区域的误判.此时对于权重为ω的全连接层损失函数E可表示为式(3),其中E0为非正则化的损失函数,λ是权重衰减系数.

E=E0+↑λ∑ω2

(3)

无论是基于有监督策略还是无监督策略均需借助一定的分类器才能实现对目标的识别,对于大量存在的鞍部点的识别,选取了深度学习算法中使用较为广泛的Softmax回归模型.Softmax用于分类过程中,它将多个神经元的输出映射到(0,1)区间内,这些值的累计和为1,即满足概率和为1的性质.在最后选取输出符合目标区的特征点时,可选取概率最大的目标像素点作为预测目标.借助有标签的样本数据输入到网络中通过反向传播微调网络参数,使其达到稳定,从而实现对鞍部区域的识别.

3 融合CNN与MLP的鞍部识别方法

从改进的CNN网络结构看,它能提取鞍部的深度特征并对DEM的区域地表形态进行学习,对鞍部形成一定的“认知”与“记忆”能力,识别出候选鞍部点.然而经实验验证,改造后的CNN网络可识别出符合特征的鞍部区域,但仅用Softmax分类器并不能准确定位出鞍部的位置,因此附加了多层感知器MLP网络对改进的CNN网络模型进行再调节.

MLP是一种有监督学习的神经网络模型,由输入层、中间隐藏层、输出层组成,其中隐藏层可扩展为多层,相邻层之间各神经元进行全连接,而每层各神经元之间无连接,网络结构如图3所示.当一对输入、输出学习模式提供给网络后,各神经元获得网络的输入响应产生连接权值;然后按减小希望输出与实际输出误差的方向,从输出层经各中间层逐层修正各连接权,回到输入层.此过程反复交替进行,直至网络的全局误差趋向给定的极小值,即完成学习的过程.MLP网络最主要的优点是具有极强的非线性映射能力,通过构建合适的模型描述输入数据和输出数据间的复杂关系,因此能够解决天气预测、图像识别等领域中包含非线性因素的问题.当鞍部样本测试集在CNN网络模型中的测试准确率较高且网络达到稳定时,保存此时学习到的鞍部特征信息,经过Softmax分类器得到候选鞍部点.冻结CNN网络模型的前6层参数,即建立一个与训练好的卷积神经网络在隐层层数、隐层节点数以及每一隐层网络权重值三方面完全一样的多层感知器模型,将候选鞍部点和标定的鞍部坐标作为输入共同送入MLP网络,构建出鞍部的候选坐标与实际坐标之间的最优模型,通过该模型学习鞍部坐标的偏移量,对每一个候选鞍部的准确位置进行回归修正.

图3 MLP结构Fig.3 MLP structure

鞍部识别方法的整体框架如图2所示.先将已训练好的LeNet-5网络模型参数迁移到目标网络模型上,建立鞍部识别的CNN基础网络模型.然后将鞍部数据送入预训练的CNN基础网络模型进行反向参数微调和改进,训练出新的卷积神经网络,利用Softmax回归分类器作为最后的输出层得到候选鞍部点.最后附加上MLP网络,将CNN网络模型的各层参数冻结训练MLP网络,对候选鞍部点进行位置坐标的精细调整.

4 实验与分析

为了验证融合CNN与MLP的混合神经网络模型对未知山地数据中鞍部的识别效果,选取了SRTM-DEM开源网站下载的1:100万DEM数据进行网络模型训练与测试实验.由于目前还未有公开的用于深度学习的鞍部数据库,以尽可能完整包含鞍部信息的原则自建鞍部数据集SADDLE-100,从中选取6000个32*32大小且含有鞍部坐标位置信息的鞍部数据,采用随机抽样的方法选取其中5000个数据作为训练集,900个数据作为验证集,100个数据作为测试集检验网络模型的性能.通过多次的对比性仿真实验,改进后的CNN网络具体训练参数见表1.

表1 训练参数设置Table 1 Training parameter setting

经实验验证,随着迭代次数的增加,CNN网络模型训练和测试阶段的识别准确率(acc)逐渐升高,同时目标函数的损失(loss)逐渐降低,当迭代次数达到800次左右时二者进入平稳阶段,表明此时网络模型达到稳定状态.同样记录MLP网络在训练过程中的均方误差(mse)变化情况,随着迭代次数增加至300次,网络的均方误差值逐渐降低并进入平稳变化,表明此时的MLP网络已达到稳定状态.

为了验证CNN与MLP相结合的网络模型对鞍部识别与位置标定的有效性,选取我国三大地貌阶梯具有代表性的大起伏极高山(数据I)、大起伏中山(数据II)和中起伏低山(数据III)数据开展实验,将3组实验样区的鞍部识别结果与文献[3]提出的拓扑分析方法作对比,结果分别如图4(a)-图4(c)所示,其中圆点为提取的鞍部点(A类点为文献[3]方法漏提的鞍部点,B类点为深度神经网络误提的鞍部点,C类点为深度神经网络漏提的鞍部点).最后对50个DEM数据的鞍部识别结果进行分类统计,分别于水文流域分析法[4]和拓扑分析法[3]作对比,如表2所示.

图4 鞍部识别结果Fig.4 Results of saddle recognition

从图4及表2可知,CNN与MLP网络相结合识别的鞍部点比文献[3,4]中识别出的鞍部点坐标更为准确,漏提的鞍部点数目更少,且识别出的鞍部点均位于两个山顶之间、山脊线和山谷线的交线区域,符合鞍部区域的地学定义,误提的鞍部点其周围形态也符合鞍部的区域特征,说明深度神经网络是以鞍部区域所呈现的形态和空间结构为主要的描述特征进行的学习.

表2 鞍部识别结果统计Table 2 Statistics of saddle recognition results

5 结束语

以DEM中的鞍部样本为研究对象,基于深度神经网络的方法为手段,通过分析鞍部的形态特征、空间结构及点群约束关系,设计了CNN与MLP网络相结合的混合网络模型对鞍部进行深度学习、自动识别.该方法可自动提取包含完备信息的鞍部全局特征,有效避免了人工选择特征造成的鞍部语义信息缺失的现象,提高了鞍部识别的精度,且易于实现.但因鞍部的训练样本数据量较少,导致在鞍部精确定位时出现了偏差.今后应逐渐增加该数据库的数据量,或研究如何从有限的数据中进行样本的扩充,进而完善该技术方法.

猜你喜欢
卷积神经网络特征
基于全卷积神经网络的猪背膘厚快速准确测定
基于神经网络的船舶电力系统故障诊断方法
离散型随机变量的分布列与数字特征
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
抓特征解方程组
不忠诚的四个特征