一种基于多尺度特征复用残差网络的矿山图像重建算法

2023-12-22 10:12兰义湧
金属矿山 2023年11期
关键词:残差尺度矿山

马 琳 苏 明 兰义湧

(1.北京开放大学科学技术学院,北京 100081;2.中央民族大学理学院,北京 100081)

矿山图像重建的关键在于如何准确地还原图像的细节信息,以实现对矿山场景的真实再现。 近年来,深度学习技术在图像处理领域的应用取得了显著成效。 深度学习模型通过层层堆叠的神经网络,能够自动学习并提取图像中的高级语义特征,从而改善图像处理的效果,实现图像重建。 此外,由于矿山场景的复杂性导致图像中存在大量的细节和纹理结构,传统的图像处理方法难以准确捕捉这些细节信息。 因此,如何有效利用深度学习技术,提高矿山图像重建的精度和效率成为了当前研究热点和难点。

现阶段,根据各类算法获取图像细节方式的差异,可分为基于插值[1-2]和基于机器学习[3-4]两类。插值算法是一种基于特定基函数或插值核来实现原图像与重构图像之间映射关系的方法。 KEYS[5]采用双三次插值(Bicubic)算法进行图像重建,该方法重建结果缺乏细节信息,存在明显的块效应和视觉模糊,但算法计算较为简便。 HAUPTMANN 等[6]提出直接学习一种由多尺度深度神经网络建模的插值方案,从极坐标中可用傅里叶系数预测二维笛卡尔坐标中的傅里叶系数,利用少量和有噪声的测量值重建高质量的图像。 刘月峰等[7]使用3 种插值方法和5 种锐化方法在底层进行预处理,并将仅进行一次插值操作的图像和先进行一次插值后进行一次锐化的图像进行合并,并按照三维矩阵形式排列。 在非线性映射层,将这些经过预处理的三维特征映射作为深层残差网络的多通道输入。 在重建层中,为了减少图像重建的时间消耗,引入了亚像素卷积操作来完成图像重建过程。 近年来,在机器学习算法快速发展的背景下,基于神经网络的图像重建算法应运而生。 卷积神经网络(Convolutional Neural Network,CNN)[8]作为一种深度学习模型,具备对图像进行端到端的学习和表征能力。 该算法利用其强大的特征提取和学习能力,能够从低分辨率图像中恢复出高分辨率细节,从而实现图像的超分辨率重建。 通过CNN 的卷积层、池化层和激活函数等构建的深层网络结构,可以逐层提取和学习图像的特征信息。 这种逐层抽象的方式使得网络能够捕捉到不同层次、不同尺度的图像特征,包括纹理、边缘、结构等。 同时,CNN 还能够通过大量的训练样本进行参数优化和模型训练,进一步提升其图像表征能力和重建效果。 QIAO 等[9]提出了一种SRCNN ( super-resolution convolutional neural network)算法,首次将CNN 应用于重建领域。 卷积神经网络通过端到端的非线性映射极大提高了超分辨率重建的性能,并且该处理过程极大减少了人工特征干预。 CAO 等[10]提出了一种EDSR 算法,通过改进残差网络,舍弃了层归一化操作,通过堆叠网络提取深层次特征,改善了图像重建效果。 LIU[11]通过将密集连接和残差连接与RDN( residual dense network for image super-resolution)算法进行融合,在一定程度上提升了RDN 模型的图像重建能力。 ZHANG 等[12]认为在高频信息部分LR 图像和HR 图像通常差异较大,而差异较小的一些低频信息将会直接到达网络深层。 为此,提出了VDSR(Very Deep CNN for SR)算法,基于Bicubic 算法放大LR 图像,在与目标尺寸相似的情况下融合低频信息与高频信息,实现了图像重建。 VDSR 算法以单向传播为主,基于 CNN 网络进行传播,使得深层次的网络层接收到的信号弱化。 对此,ZHANG 等[13]提出了一种MemNet 网络,该网络结构中的记忆模块主要由递归以及门控单元组成。MemNet 网络通过自适应学习保持持续记忆,进一步加深了网络层次。 ZHANG 等[14]提出了一种DCSR网络,采用标准卷积以及扩张卷积相融合的方法,证明了混合卷积网络能够增强低分辨率图像与高分辨率图像之间的相关性,提升重建效果。

在矿山图像重建方面的研究中,不少学者进行了卓有成效的工作。 ZHANG 等[15]使用从矿山已挖掘区域获得的密集样本信息构建一般外观模型,而后调节该模型以考虑核心样本图像中的数据,通过在学习后对RBM 中隐含的分布信息进行采样来完成重建。汪海涛等[16]基于在线多字典学习算法提出了一种矿井图像重建模型,该模型基于K-means 聚类将训练集划分为多类,并通过训练不同类的高低分辨率字典,从而提高了对复杂环境特征的表示能力,以及模型对于稀疏系数求解的准确性,提升了重建性能。 程德强等[17]基于融合层次特征以及注意力机制,提出了一种轻量化的矿井图像超分辨率重建方法。 上述研究虽然丰富了图像重建方法,但在矿山特定场景下依然存在不足:① 对于矿山图像的多尺度特征提取不充分,无法充分捕捉图像中的细节和纹理结构;② 缺乏有效的特征融合和复用机制,导致重建结果的准确性有待提升。

本研究在已有成果的基础上,提出一种基于多尺度特征复用残差网络的矿山图像重建算法。 首先,设计一个多尺度特征提取模块,通过堆叠多个并行的卷积层和池化层,并结合局部残差网络构建图像特征提取模块,以充分提取图像的多尺度细节特征,包括不同的语义信息和空间分辨率,从而捕捉到图像中的不同细节和纹理结构。 其次,引入特征复用模块,将不同尺度的特征进行融合和复用,以增强图像重建的准确性。 通过多尺度的特征交互和信息传递,能够有效利用全局和局部的上下文信息,提高图像的重建性能。 为了验证所提算法的有效性,在自建的矿山图像重建数据集上进行试验验证。

1 多尺度复用残差网络的矿山图像重建算法

针对矿山图像重建中细节损失导致重建质量低下等问题,本研究提出了一种基于多尺度复用残差网络的矿山图像重建算法,算法结构如图1 所示。 该算法首先将采集的原始矿山图像进行预处理,并将其分为多个不同大小和分辨率的子图像。 对每一个子图像都使用一个预训练的残差网络提取特征,得到高维特征向量。 在特征提取阶段之后,通过将特征向量按照尺度进行聚合,从而获得多尺度信息。 然后利用重建网络对聚合后的特征进行反卷积与上采样操作,逐步恢复被遮挡的矿区图像。 值得注意的是,在重建过程中,所有尺度的信息都被复用,使得整个算法具有更强的表达能力。 由于残差网络具有端对端的优化能力和语义信息的保留特点,因此该算法在重建质量、鲁棒性和计算速度等方面均具有明显优势。

图1 多尺度复用残差网络的矿山图像重建算法框架Fig.1 Framework of mine image reconstruction algorithm based on multi-scale multiplexing residual network

1.1 残差密集网络

矿山图像重建的前提是需要对低质量的图像进行提高分辨率和降噪处理。 本研究结合残差密集网络(Residual Dense Network,RDN)[11]提出了一种多尺度特征复用图像重建算法。 RDN 采用了多个密集块来提取图像的多尺度信息,每个密集块内部由多个残差块组成,从而产生了非常深的网络结构(图2)。同时,RDN 通过跨层连接方式在不同层之间传递信息,使得每个密集块都可以利用之前的特征,从而避免了信息丢失,在保证召回率的同时显著提高了精确度。 此外,RDN 还引入了密集连接和通道注意力机制,以进一步优化网络性能。 密集连接保留了每个密集块内部的特征,避免了信息丢失;通道注意力机制[18]则用于自适应地调整每个通道的权重,从而更好地利用特征图中的信息。

图2 残差密集网络Fig.2 Residual Dense Network

RDN 的核心部分是密集的残差块(Residual Dense Block,RDB),每个残差块由多层卷积层和密集的残差连接组成,计算公式为

式中,Xi为重建任务中输入的低分辨率图像;Hli为残差块i中第l层的输出;Fi为残差块中的非线性映射函数,视为一个密集连接的多层卷积网络;D为残差块中卷积层的数量;L为残差块中最后一层的层数;TLi-1为残差块i中最后一层的残差项,可进行如下计算:

1.2 金字塔多尺度特征聚合模块

为使得网络具有多尺度检测能力,本研究利用金字塔多尺度特征聚合模块(Pyramid Feature Fusion Module,PFM),将不同层次的特征层使用反卷积扩展到相同的尺寸,然后进行元素级别的相加。 主要目的是对来自不同尺度的特征进行融合,以提高重建效果。 如图3 所示,PFM 的核心部分是金字塔池化(Pyramid Pooling)操作和特征融合操作,在金字塔多尺度特征聚合模块中,输入特征首先被送入一个分成多个尺度的子网络中。 每个子网络都会对相应尺度的特征做出处理和池化操作,得到经过降采样的尺度特征;然后通过反卷积或上采样和相应的卷积操作,将每个尺度的特征图恢复到原始输入图像的尺寸;最终,所有的尺度特征会被融合在一起,输出给后续的神经网络模型使用。

图3 金字塔多尺度特征聚合模块Fig.3 Pyramid multi-scale feature aggregation module

金字塔特征聚合模块可表示为

式中,Fpfn为金字塔特征聚合结果;f1、f2、f3和f4分别表示输入特征图的不同尺度;⊕为特征图在对应位置上的加和操作;upsample 为反卷积或上采样操作;W为权重参数。

当输入特征图的不同尺度被放入金字塔多尺度特征聚合模块之后,经过上述计算得到的输出Fpfm将会包含从不同尺度下提取的特征信息。 这些特征信息融合在一起,每个位置的特征都具有了更全面的感受野,使得检测器能够更好地适应不同尺度的目标,并且具有更强的适应性和鲁棒性。

1.3 优化器

Adam(Adaptive Moment Estimation)优化器[19]是一种自适应梯度下降算法,结合了RMS Prop 和Momentum 两种优化器的优点。 相较于其他优化器,Adam 具有更快的收敛速度和更广泛的适应性。 Adam优化器通过移动平均估计每个参数的梯度和平方梯度的无偏估计,从而动态调整学习率以更新模型的权重。 该方法计算步骤如下:

(1)梯度。 对于损失函数L与网络参数θ,通过求解反向传播得到参数θ的梯度值gt,其中t为当前迭代次数。

(2)梯度平方。 使用当前梯度的平方g2t作为指数加权平均的形式进行累加,并计算出其偏差校正后的值,公式为

其中,mt为历史梯度的指数加权平均值;β1为一个0~1 范围内的衰减因子,常规取值为0.9。

其中,vt为历史平方梯度的指数加权平均值;β2为一个0~1 范围内的衰减因子,常规取值为0.999。

(4)更新参数。 基于上述计算结果和当前迭代次数t,更新网络参数θ。

2 试验分析

2.1 试验参数设置

本研究所提模型以Pytorch 深度学习框架为基础,在Ubuntu 18.04 LTS 系统进行试验。 为确保试验结果准确可靠,选用配备32 GB 内存的Intel Core i9 CPU 和NVIDIA GeForce RTX 3090 GPU 的Ubuntu 系统服务器作为试验平台,以提高算法运行效率和可靠性。 首先采用图像重建任务中的公共数据集DIV2K进行模型训练。 DIV2K 数据集中共有1 000 幅2 560×1 440 分辨率图像,本研究以其中800 幅高分辨率图像作为训练集,验证集以及测试集各100 幅。 再使用本研究自建矿山图像重建数据集进行迁移学习,以保证算法更适用于矿山场景数据。

2.2 评价指标

本研究模型测试过程中主要采用图像重建领域常规评价指标如结构相似性(Structural SIMilarity,SSIM)[20]以及峰值信噪比(Peak Signal to Noise Ratio,PSNR)[21]对重建效果进行评估。 结构相似度是一种用于比较图像或视频质量的指标, 考虑了结构信息的相似性,因此更符合人眼感知。 该指标通过测量原始图像和待比较图像之间的结构相似性来评估待比较图像的质量。 在图像重建中,结构相似度经常被用来表示与原始图像的相对分辨率差异。 该指标通过3 个指标来描述图像质量,即亮度相似性(Luminance Similarity)、对比度相似性(Contrast Similarity)和结构相似性(Structure Similarity)。 结构相似度可进行如下计算:

其中,l(x,y) 、c(x,y) 和s(x,y) 分别为亮度相似性、对比度相似性和结构相似性;x和y分别为原始图像和比较图像;α、β、γ为权重参数。

SSIM的取值区间为[-1,1],“1”表示两幅图像完全相同,“0”表示差异最大,“-1”表示两幅图像完全不同。

峰值信噪比衡量了原始信号与由该信号所产生的压缩后信号之间的差异程度,常用于比较数字图像或视频编码质量,取值越大,表示图像质量越好。 峰值信噪比计算公式为

其中,MAX为原始信号的最大取值;MSE为原始信号与压缩信号之间的均方误差。 由于PSNR的计算依赖于原始信号的最大取值MAX,因此其对信号动态范围的影响比较敏感。

2.3 对比试验

为分析本研究采用的密集残差网络对于重建算法的影响,通过控制长短残差连接,设计了4 组消融试验验证残差性能,试验结果见表1。 其中“×”表示在该组试验中不采用该连接方案,“√”表示在该组试验中采用该连接方案。

表1 密集残差连接结构对于算法性能的影响Table 1 Influence of dense residual connection structure on algorithm performance

由表1 可知:当复用残差网络使得远距离与短距离残差交替使用时,所构建的深度学习网络结构更为稳定,且所学习到的深层次与浅层次的多尺度有效特征更多,从而可以更快地传递网络信息,提升重建效果。 仅使用短距离残差连接会使得模型学习到较多的浅层特征,最终重建效果不理想。 当只设计远距离残差连接时,对于局部特征的提取能力较差。

此外,为了探究金字塔多尺度特征聚合模块对于本研究所提算法性能的影响,设计了一组关于特征聚合的消融试验,结果见表2。 其中,“×”表示在该组试验中不采用该连接方案,“√”表示在该组试验中采用该连接方案。

表2 字塔多尺度特征聚合模块对于算法性能影响Table 2 Influence of the multi-scale feature aggregation module on algorithm performance of the tower

由表2 可知:在去除多尺度特征和聚合模块以后,SSIM下降0.062 1,PSNR下降1.721 dB。 当保留多尺度特征时,SSIM下降0.043 5,PSNR下降1.008 dB,反映出所提算法结构具有良好的重建性能。部分矿山数据集重建效果如图4 所示。

3 结 语

提出了一种基于多尺度特征复用残差网络的矿山图像重建算法,以提高矿山场景下图像重建的精度和效率。 通过设计一个多尺度特征提取模块,可以充分提取图像的多尺度细节特征信息。 通过引入特征复用模块,将不同尺度的特征进行融合和复用,以增强图像重建的准确性。 试验表明:该算法在重建精度和效率方面性能较好,并且具有较快的训练和推断速度,具有一定的应用前景。

猜你喜欢
残差尺度矿山
基于双向GRU与残差拟合的车辆跟驰建模
四大“矿山修复”方法
在矿山里耕耘(国画)
智能化矿山建设在中小型矿山的应用探讨
我国矿企海外十大矿山简介
基于残差学习的自适应无人机目标跟踪算法
财产的五大尺度和五重应对
基于递归残差网络的图像超分辨率重建
宇宙的尺度
平稳自相关过程的残差累积和控制图