改进DeepLabV3+模型在壁画分割中的应用

2021-07-02 00:36曹建芳田晓东贾一鸣闫敏敏
计算机应用 2021年5期
关键词:卷积壁画神经网络

曹建芳,田晓东,贾一鸣,闫敏敏

(1.太原科技大学计算机科学与技术学院,太原 030024;2.忻州师范学院计算机系,山西忻州 034000)

(*通信作者电子邮箱kcxdj122@126.com)

0 引言

古代壁画是承载中国文化的载体,有着极为珍贵的历史价值,然而在自然环境及人为环境的影响下,年代久远的古壁画都出现了不同程度的病害,壁画内容受到严重损坏,壁画图像修复成为文物工作者和历史研究人员在分析古代壁画过程中遇到的主要难题之一。图像分割技术作为图像保护工作中不可分割的一部分,应用在壁画修复工作中可以减少工作耗时,提高壁画修复效率。

深度学习是机器学习研究中的一个新的领域,是基于人工神经网络的一种学习方法,它模仿人脑来处理和解释数据,被广泛应用于图像处理、声音处理等多个领域。深度学习可以将神经网络与概率模型相结合,提升图像模型的推理能力,所以,在图像分割领域,各种基于深度学习的图像分割模型被提出,有效解决了传统分割方法中存在的图像边缘分割模糊、分割图像信息缺失等一系列问题。最初,研究者利用全卷积网络(Fully Convolutional Network,FCN)[1]或者改进的FCN 进行图像分割,特点是将卷积神经网络(Convolutional Neural Network,CNN)[2]的全连接层换成了卷积层,适应任意尺寸的输入,并输出低分辨率的分割图片。但是,该方法存在明显的弊端,FCN 的边缘分割性较差,分割图像的轮廓模糊。Chen等[3]针对该问题提出了DeepLabV1 模型,该模型使用全连接条件随机场(Conditional Random Field,CRF)进行边界分割的优化,有效解决了FCN 中存在的边缘轮廓分割问题。DeepLabV3+[4]模型是对前一代DeepLabV3模型的一种新的改进方案,可以帮助研究者细化分割的结果,在物体边界的划分效果上较好。2019 年,任凤雷等[5]将DeepLabV3+模型与超像素分割算法SLIC(Simple Linear Iterative Cluster)相结合,实验证明DeepLabV3+相对于FCN、SegNet(Segment Network)[6]分割模型具有更好图像细节还原能力。

在古代壁画图像分割方面,多使用传统分割方式,分割模型不具有普遍适用性。传统壁画分割有以下几种方式:其一是利用模糊C 均值(Fuzzy C-Means,FCM)[7-8],这种基于目标的模糊聚类算法应用广泛,算法理论成熟;但是该算法用在壁画分割领域会受到样本不平衡的影响,当不同种类的样本容量不一致的时候,会导致某类分割样本很难接近目标样本,从而导致分割效果较差。其二是均值漂移(Mean Shift)算法[9-11],其本质是一种核密度估计算法,但是该算法运行速度慢,在壁画分割方面只适用于已经建立标准特征的特征数据点集,容易出现目标物之外的图像存在或缺失部分目标物,且在进行批量分割时效果有限。第三种传统壁画分割算法Graph Cuts[12-14],利用图的形式来求解能量函数,从而给图的边缘赋予相应的权值,将能量函数转化为S/T 图,以完成图像分割。但是该方法在处理含有噪声或遮挡时,分割效果较差,需要手动标注部分前后景像素点,存在人工干预等一系列问题。

基于深度学习神经网络的强大功能,本文提出一种将轻量级卷积神经网络MobileNetV2(Mobile Network Version 2)[15]与DeepLabV3+模型相结合的多分类轻量级网络分割模型(Multi-Class DeepLabV3+MobileNetV2,MC-DM),模型利用DeepLabV3+结构收集图像的多尺度信息,有效避免图像语义信息缺失。使用轻量级神经网络的好处是一方面能保证图像分割的准确性,另一方面能提高模型的计算速度,适应移动端的应用。MobileNetV2在轻量级神经网络中具有代表性,利用MobileNetV2 卷积神经网络提取特征,可以提高壁画分割效率,降低硬件条件限制对分割效果的影响[16]。相对于传统FCM算法,本文模型利用加权的损失函数,为不同类别图像设置不同的权重,凸显小目标样本,以减少样本不平衡对实验造成的影响。同时本文在实验过程中对不同种类的数据样本进行数量上的统一,减少少数类和多数类样本对实验结果的影响,更好地解决了样本不均衡问题。相对于均值漂移算法,DeepLabV3+模型中含有的解码器模块和空间金字塔池有效解决了图像缺失等问题,利用卷积网络对目标特征进行提取,减少目标信息的损失,优化了分割结果;同时,模型利用卷积神经网络强大的学习能力,直接对处理好的数据集进行训练,有效避免人为干预对实验结果的影响,有效解决了Graph Cuts算法存在的弊端。

本文实验目标是利用MC-DM 模型对壁画中常见的图像元素进行分割。实验证明,该模型运用在壁画图像分割过程中,分割精度和效率都有不同程度的提升,对图像分割边缘连续性方面有着很好的鲁棒性。

1 相关理论

1.1 MobileNetV2

MobileNetV2 卷积神经网络的提出是为了解决在图像模型训练过程中出现的卷积神经网络庞大、硬件训练不足等问题,它是解除深度学习模型在移动端部署硬件内存限制的一种重要方式[17],是继SqueezeNet(Squeeze Network)[18]、ShuffleNet(Shuffle Network)[19]、Xception[20]等轻量级神经卷积网络后又一重要发明。该网络的核心部分是深度可分离卷积,操作包含纵向卷积(DepthWise convolution,DW)和点卷积(PointWise convolution,PW)两个部分。卷积核为3×3 且通道个数值较大的情况下,深度可分离卷积较普通卷积可以减少90%的计算量。

在第一代轻量级网络MobileNetV1(Mobile Network Version 1)的基础上,MobileNetV2网络引入倒转残差(Inverted Residual)和线性瓶颈(Linear Bottleneck)的概念[16],由于DW卷积并不能改变通道数,所以导致特征提取在输入的通道数上受限。这两个部分将低维压缩作为输入,将其扩展为高维,之后利用轻量级深度卷积进行滤波,所得特征通过线性卷积投射到低维中表示。MobileNetV2的网络结构如表1所示。

表1 MobileNetV2的网络结构Tab.1 Network structure of MobileNetV2

表1中,t表示扩张系数,c表示输出通道数,n表示卷积层的重复次数,s表示步幅。每个序列的第1层有1个步幅,其他所有层都使用的步幅都为1,所有空间卷积都使用3×3的卷积核。1个bottleneck包含扩张、卷积和压缩3部分,每一行描述一个或多个序列,重复n次,且同一序列中的所有层具有相同数量的输出信道。MobileNetV2通过利用不完全具体化的中间张量,解决了推理过程中存在的内存占用量较大的问题,应用于壁画分割上可以减少多数嵌入式硬件设计中对主存访问的需求。

1.2 传统DeepLabV3+模型

DeepLabV3+模型是对DeepLabV3 模型的改进,以残差网络(Residual Network,ResNet)为底层网络,添加了编码解码结构(Encoder-Decoder),通过恢复空间信息获得清晰的对象边界,从而优化边界分割。利用ResNet 或Xception 网络对输入图像作特征提取,之后利用空间金字塔池(Atrous Spatial Pyramid Pooling,ASPP),将图像特征进行融合,避免信息损失。在DeepLabV3+模型中,将DeepLabV3 模型作为Encoder部分,外接一个简单有效的解码器模块来获得清晰效果。

DeepLabV3+中采用了多种空洞率(rate)的空洞卷积,以并联的方式有效提取语境信息,该结构使用ASPP模型来提供多尺度信息,其结构如图1所示。

图1 ASPP模型结构Fig.1 Structure of ASPP model

ASPP 模块包括一个1×1 卷积和3 个3×3 的空洞卷积,采样率为rate=6、rate=12、rate=18。在DeepLabv3+模型中,输入图片经过主干深度神经卷积网络后产生的结果分为两部分,一部分进入Decoder,另一部分进入并行的空洞卷积结构,即ASPP 模型中。分别用不同rate的空洞卷积进行特征提取,而后进行合并,合并之后再进行1×1 卷积,对其进行特征压缩,对压缩后的特征图利用双线性插值的方法上采样四倍传入Decoder中。

2 壁画分割模型MC-DM

2.1 融合MobileNetV2的DeeeplabV3+模型MC-DM

DeepLabV3+底层网络适应性强,为了追求分割精度,研究者们将ResNet 融入其中。此类模型分类精确度高,但是模型深度不断加深,从而导致模型复杂度增加。复杂的分割模型会受到硬件内存的制约,对移动端或嵌入式设备要求较高,不能满足特定场景中的低延迟、高响应率的分割要求。为解决这样的问题,本文提出了一种将轻量级神经网络MobileNetV2 与分割模型DeepLabV3+相融合的分割模型。模型中的Encoder模块用于减少特征损失,捕获更高级别的语义信息;Decoder 模块用来提取细节,恢复空间信息。模型将卷积分解为两个独立层因子来替换完整的卷积算子,通过对每个输入通道的应用单个卷积滤波来执行轻量滤波,之后通过输入通道的线性组合来构建新的特征。卷积网络的改变提高了DeepLabV3+解码器模块恢复详细对象边界的性能。

在同一数据集的前提下,相较于ResNet、Xception 等卷积网络,MC-DM 模型使用的网络在分割效率上优势明显。该模型与传统DeepLabV3+最大的不同便是没有使用标准卷积提取特征,而是使用能在高维上进行特征提取的DW 卷积,方法的优点是使得MC-DM 模型的计算量要远小于传统DeepLabV3+模型,应用在壁画分割领域可以在保证准确率的同时满足壁画分割的高效需求。

改进模型如图2所示。

图2 MC-DM模型Fig.2 MC-DM model

图2 中,结构A 表示空洞卷积,该结构将MobileNetV2 中以任意分辨率计算的特征提取出来,在全局池化之前,利用输入图像空间分辨率与最终输出图像空间分辨率的比率来作为输出步幅,根据计算资源的预算来控制编码器特征的密度。对于语义分割任务来说,在去除最后一个或两个块中的跨距后采用步幅为16 的输出来进行更密集的特征提取。因为当Decoder 输出步幅为8 时,分割性能相对于输出步幅为16 时,性能虽有提升,但会增加计算的复杂度。所以在MC-DM 模型中,编码器模块采用的输出步幅为16,这样做的好处是平衡了分割精度和速度。

结构B 表示的是结合MobileNetV2 卷积网络的空间金字塔池,该结构使用不同空洞率的空洞卷积将MobileNetV2计算出的特征进行多尺度融合,丰富语义信息的同时有效权衡了精度和运行时间。

结构C 由两个具有不同卷积核的卷积结构组成,作用是利用相同的卷积网络来减少信道数量,解决低层特征包含大量通道而导致的训练困难问题。在GPU 资源有限的情况下,将模型的输出步幅设为4,对密度特征映射进行适当取舍,简化Decoder模块。

2.2 算法描述

MC-DM分割模型的工作流程可以描述为以下步骤。

步骤1 将固定大小和分辨率的壁画图片输入分割模型中。

步骤2 利用改进的深度可分离网络对图像进行特征提取,利用空洞卷积保留壁画图像细节信息。

步骤3 低级特征分流,分别进入ASPP 结构和Decoder结构,最大限度保留图像特征信息。

步骤4 经过ASPP结构的特征信息通过1×1卷积进行多尺度融合,融合结果输入Decoder结构;初始进入Decoder结构的低级特征通过不同卷积层细化特征。

步骤5 Encoder输出特征图通过双线性插值的方法进行上采样,大小与Decoder中特征细化后的特征图相同。将采样结果与细化结果再次特征融合,获得特征更为丰富的壁画图像。

步骤6 对特征融合图像再次上采样,得到与输入图像参数相同的分割图像,分割过程结束。

3 实验结果分析

3.1 实验环境及数据来源

实验的PC 环境为Windows10 系统,Inter Core i7-9750H CPU,GPU 为NVIDIA GeForce 1660Ti,8 GB 内 存。利 用TensorFlow深度学习框架来训练和测试文中的语义分割模型。

DeepLabV3+的数据集使用的是单通道标注图,实验图片来自《中国敦煌壁画全集》的画册扫描图片,将收集到的图片利用Adobe Photoshop2018 进行等规格的裁剪,制作成分辨率为224×224 大小的图片,之后将所有处理过后的图片整合成为原始数据集。通过图形界面标注软件lableme 对原始数据集中的图片进行图像标注,生成json文件,最后批量转化为分辨率大小为224×224、位深度为24 的灰度图。本文模型使用的数据集是由原始数据集和转化后的灰度图形成的数据集组合而成。数据集样本图如图3所示。

图3 DeepLabV3+数据集样本Fig.3 Sample of DeepLabV3+dataset

图3(a)代表扫描图片,在此基础上,利用浮点对扫描图片的边缘进行逐点标注,将标注点连接形成图3(b)所示的结果。之后根据原图和标注图,训练出单通道灰度图,与扫描图合并形成数据集。该数据集含有图片1 000 张,分为动物、屋舍、人、祥云、佛像五类,每类有训练图片200 张。通过神经网络进行分割,在分割结果中,图片的像素颜色共有6 种,对应包含背景在内的6 类物体。利用letterbox 函数对图像进行预处理,防止在训练过程中出现图像失帧。在图像分割领域,常用数据集包含的数据量多达几万甚至几十万以上,以满足模型学习需要,提高分割精确度,并减少由于图像过少而产生过拟合现象。本文所使用的数据集数据量相对较少,所以由实验对获得的图片进行增强,从而减少过拟合、欠拟合等现象的发生。增强方式为改变图片颜色、增加噪声和改变亮度的方式进行。图4为数据增强所得图片。

图4(a)列所示为原图,后四列为增强图像,由于利用函数增强具有随机性,所得结果需要经过多次测试。实验阶段,数据集90%用于训练,10%用于预测。使用交叉熵损失函数(cross entropy)作为分割模型的损失函数,交叉熵损失函数是图像分割中常用的损失函数,该函数单独评估每个限速矢量的类预测,然后对像素求平均值。若出现样本不平衡现象,将小目标样本的权值进行重新设置,直到达到较好的分割效果。在该损失函数下,模型的损失值变化如图5所示。

图4 数据增强图像Fig.4 Images obtained by data augmentation

图5 MC-DM模型损失值变化Fig.5 Loss value change of MC-DM model

实验以测试集准确率为限,将测试集损失值val_loss作为被监测的量,利用回调函数中的ReduceLROnPlateau来监测val_loss,当该值连续两次不下降时,降低学习率继续训练,当损失值趋于稳定则训练截止。由于数据集样本数量少,设置batch size 大小为2,每两个样本更新一次参数,1个epoch中提取500 次batch,这样才可以将每一个样本提取一遍,更新了500 遍此参数。数据每30epoch 保存一次,分割精度变化如图6所示。

图6 MC-DM模型训练精度变化Fig.6 Training accuracy change of MC-DM model

为提高实验训练精度,前10 代测试集损失值取值范围较大,从而导致实验测试集训练精度波动较大。10 代之后实验整体精确度和测试集训练精确度逐步上升,第40 代时趋于稳定,学习率达到最优。

3.2 对比实验

为验证轻量级神经网络MobileNetV2 在分割模型中的优越性,特将其与常见的传统网络模型进行对比。对比结果如表2所示。

在常见的神经网络模型中,模型深度数值越高,模型涉及参数量越大,模型越复杂,训练难度也就越大。由表2 可得,Xception、VGG19、ResNet50、IceptionV3 等网络参数量是网络MobileNetV2的数倍,在ImageNet项目中较为经典的ResNet50网络在模型深度上是MobileNetV2 的2 倍之多。综合实验硬件设备条件、训练时间等多种因素,证明了选择轻量级神经网络MobileNetV2的必要性。

表2 五种常见神经网络模型对比Tab.2 Comparison of five common neural network models

以自制数据集为基础,设计三种不同的图像分割模型来与文中模型进行对比。首先,将MobileNetV2分别与文献[21]中的SegNet模型和文献[22]中的PSPNet(Pyramid Scene Parsing Network)模型相结合,作为对比模型1、2;文献[23]中的模型作为对比模型3。三种模型都是在保证组合模型其中一部分不变的基础上进行改变,具有良好的可比性。传统算法FCM 与Mean Shift 多用于灰度图像的分割,对彩色图像分割效果较差,无法和其他基于深度学习的网络模型形成有效对比。特在传统壁画分割模型中只选用Graph Cuts 作为对比模型,编号为4,直观展现本文模型对比传统壁画分割模型的优势所在。

图像分割以从固定种类壁画图像中分割出数据集包含的五大种类图像元素为准则,壁画图像上的其他图像元素作为背景。从数据集中选取4张不同种类的图片进行分割,为得到直观对比效果,对分割结果进行像素级标注,结果如图7所示。

图7 五种分割模型的分割效果对比Fig.7 Comparison of segmentation effects by five algorithms

图7 中,模型1 中,由于采用连续下采样导致在输出的特征图上的每个一像素都重叠着大量的输入图像中的空间信息,多种有损边界信息的图像空间信息不利于图像分割。模型2 先对输入的特征信息进行多尺度池化,之后对池化结果上采样,上采样之后再进行拼接,这样做的好处是可以利用到不同感受野的信息,丰富图像内容,但是容易造成单类别图像信息严重缺失、分割边缘与真实边缘严重不符的情况发生,如图7(c)所示。模型3 将DeepLabV3+模型和Xcepton 网络相结合,使得卷积网络参数量大幅度增加,增大了图像训练难度,图像分割结果受硬件设备影响较大,分割图像中心细节损失严重。传统壁画分割模型图7(e)在作点标注之后,图像的背景和前景分割存在大量重合之处,影响图像分割效果。MC-DM 分割模型使用的MobileNetV2减少了网络数量,同时增加Decoder结构提取图像细节,在五种模型中,分割效果最优。

实验采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)作为客观指标,利用PSNR 值来表示输出图像的失真程度,数值越大,图像失真程度越小,图像的分割效果也就越好。随机选取的4个样本的PSNR数值结果如表3所示。

表3 五种分割模型的PSNR对比 单位:dBTab.3 Comparison of PSNR for five segmentation models unit:dB

在样本1 中,样本图像线条简单,四种分割模型效果相近,MC-DM 模型分割图像的PSNR 值最高,较对比模型提升1 dB。样本2和样本3图像轮廓相对复杂,目标与背景存在部分融合的情况,MC-DM 模型分割图像的PSNR 值提升明显,较对比模型平均提升5 dB。样本4 中的图像结构复杂,图像背景信息较多,对图像的分割结果影响较大,MC-DM 模型在该样本的分割结果中表现优异,较对比模型,PSNR 数值平均提升10 dB,实验证明了该模型在壁画分割方面的可行性。五种模型的训练精确度如表4所示。

表4 五种模型的训练精确度对比Tab.4 Comparison of training accuracy for five models

模型1 采用反卷积和上池化,只能勉强辨认图像形状,分割结果粗糙。模型2 虽然通过多尺度池化得到不同规格的特征,但图像中心细节缺失较多。模型3 改进了模型底层网络,同样采用了深度可分离卷积,优化了壁画图像分割过程中特征提取方式,但针对单一种类图像分割效果较差。改进模型MC-DM 在壁画分割过程中效率最高,改善了模型2 中细节缺失的问题。与模型1 相比,MC-DM 模型分割图像边缘保存完整,图像信息损失不明显。与模型3相比,MC-DM模型适用性好,不会因为图像种类不同而导致分割结果差异较大的现象发生。模型4中,Graph Cuts 算法是通过标号的方式来实现带权图的转化,图像分割过程中会通过用户提供的图像内容来确定相应的像素点和图像分割对象,人工干预痕迹明显,而MC-DM 模型通过神经网络对现有数据集进行训练,整个训练过程由设备自发运行,不存在人为因素的影响。综合峰值信噪比和训练精度两项实验参数可得,MC-DM 模型的分割效果优于其他四种模型,在模型训练过程中不存在人为因素的影响,模型分割轮廓趋于理想轮廓,不会造成大量细节缺失。

4 结语

中国古代壁画是中国文明的重要见证,是世界文明史发展中不可分割的一部分。由于年代久远,壁画受到环境、人为等多种因素的负面影响,存在图像残缺、脱落、裂纹等多种问题,如何将这些珍贵文物有效保存是当前重中之重。将深度学习模型融入壁画图像分割中,利用神经网络强大的学习能力,改善传统分割方法图像边缘分割模糊等问题,该方法是对古代壁画图像处理方面新的探索。本文的创新之处其一是将DeepLabV3+模型与MobileNetV2 相结合,并首次运用在了壁画分割之上。其二是在分割过程中将轻量级神经网络运用在空洞卷积和空间金字塔池的结构之中,丰富了图像的语义信息,平衡了壁画分割的分割精度和效率。DeepLabV3+模型使用的深度可分离卷积结构,有效解决了壁画图像分割过程中目标边界的信息丢失问题,改变了古代壁画传统分割方式中容易出现误分的现象,且通过改变骨干网络,在将精确度保持在较好的水平的同时降低训练复杂度,缩短训练时间,增加日常生活中的硬件适用性。

在实验阶段,由于DeepLabV3+与DeepLab 系类中的其他模型一样,都需要特定的数据集,前期需要手动标注样本,工作量巨大,而且由于实验编码输出的特征图相对于输入图像呈现几何倍数的缩小,存在多类别图像分割边缘模糊的问题,这也是未来在古代壁画分割方面需进一步解决的问题。

猜你喜欢
卷积壁画神经网络
敦煌壁画中的消暑妙招
基于全卷积神经网络的猪背膘厚快速准确测定
敦煌壁画中的消暑妙招
基于神经网络的船舶电力系统故障诊断方法
基于图像处理与卷积神经网络的零件识别
MIV-PSO-BP神经网络用户热负荷预测
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
撒哈拉沙漠壁画之秘
三次样条和二次删除相辅助的WASD神经网络与日本人口预测