基于深度信念网络的遥感图像质量评价

2019-03-28 06:51李迎春

兵器装备工程学报 2019年2期

刘迪，李迎春

(航天工程大学电子与光学工程系，北京 101416)

遥感图像提供了丰富的空间和地理信息，因此广泛被用于林业，气象学，水文学和军事等领域[1]。遥感影图像质量评价实际就是对影像成像、传输、编码、存储以及处理技术的评价，可以用来指导遥感图像处理系统的构建和调整，优化处理算法和参数设定[2-3]。评价遥感图像质量的方法有主观评价和客观评价两种。主观评价方法需要测试员对遥感图像进行人工地对图像的整体清晰度、细节呈现度等图像质量做出判断，这种方法耗时、耗力，同时还受到观测者的知识背景、心理素质等主观因素影响，缺乏相对统一的标准，不利于海量遥感数据的自动判读。客观评价方法一般易于实现且能结合实际应用，如常用的均方误差(Mean Square Error，MSE)及峰值信噪比(Peak Signal to Noise Ratio，PSNR)，但对其影响中的各个像素点是等同对待，与人的主观感受有很大出入。由于遥感影响最终的接受者是人，是面向人类视觉感知的，因此需要考虑图像质量评价是否符合人眼主观评价结果[4]。

近些年来许多研究人员提出了基于人类视觉系统的影响的质量评价方法，大量研究表明：考虑和借鉴人类视觉系统(human visual system，HVS)的特性能明显提高图像质量评价的准确性[5]。由于人类视觉系统十分复杂，因而对人眼视觉的心理特征还没能找出定量的描述方法，因此该方法还有待深入研究。

与自然图像不同，遥感图像的获取往往受到模糊和噪声的共同影响，使得遥感影图像的质量下降难以归到某一单一的方式，从而给遥感影图的评价带来困难。常见的遥感影图像大多同时存在模糊和噪声两种失真的影响，二者无论在空域还是变换域都互相影响，互相抑制，导致无法对其强度进行准确判别[6]。

本文借鉴了文献[7]中提出的评价图像质量的一个新思路：通过自然语言的描述来评价无参考图像质量的视觉质量。人类对图像质量的感知通常用自然语言进行描述，但自然语言本身具有一定的不确定性。现有的大部分质量评价方法仅仅关注图像质量的定量得分，忽略了人类感知图像质量时本质上的模糊性。考虑到人眼对图像质量感知的模糊性，将遥感图像质量的评价问题转化为图像质量等级分类问题。本文提取了与视觉一致性的统计特性，即采取尺度空间方向小波分解获取子带系数、图像的熵和图像的梯度，将原始遥感图像与失真遥感图像特征利用深度信念网络(Deep Belief Network，DBN)进行质量等级分类，模拟人眼对图像的评价过程，给出图像质量定性的描述测度。应用本文方法，其质量基本分类准确率达到 89.5%。

1 概述

1.1 遥感图像特征提取

由于人眼是图像的接收者，因此人眼视觉感知对于无参考图像质量评价非常重要。当我们评估一幅图像的质量时应该考虑到人眼视觉系统特性[8]。因此，不仅需要提取传统的自然统计特征(Natural Scene Statistics,NSS)，还要提取感知内容的图像特征：图像的梯度、图像的熵。这些HVS相关特征都是影响图像质量的重要因素[9]。

1.1.1 NSS统计特征

自然图像的复杂度和人工图像相比很高，但是研究人员们发现自然图像存在内在的统计规律，这种统计规律是人工图像所不具有的[10]。自然场景具有某些统计特性，这些特性在失身的情况下会发生改变，通过使用自然场景统计表征这种不自然可以用来进行无参考的图像质量评价。

由于小波变换的多尺度特性，将图像进行小波变换可以很好地模拟人眼视觉系统的多分辨率特性。Moorthy等[11]提出的DIIVINE评价算法不同于之前仅靠提取一些简单的边缘描述的特征来评价图像质量，DIIVINE提取的特征具有视觉一致性。它通过将失真图像在2个尺度，6个方向上做小波分解的操作，由此得到12个子带图像和1个高频图像，对这些图像进行统计特征提取，最后可以得到88个统计特征，其具体特征解释如下。

1) 比例和方向选择性统计(f1-f24)

使用广义高斯分布(GGD)对12个子带中的每一个的子带系数进行参数化。广义高斯分布表示如下：

fX(x;μ,σ2,γ)=ae-(b|x-μ|)γ，x∈R

(1)

式中，μ表示均值，σ2表示方差，γ表示形状参数的分布，控制着分布的“形状”。

(2)

(3)

Γ(·)是伽玛函数，它表示为

(4)

由于小波子带响应为零均值，因此需要估计每个子带的σ2和γ，总共24个特征。其中，特征f1-f12对应于子带上的σ2，特征f13-f24对应于子带上的γ。

2) 方向选择性统计(f25-f31)

图像在相同方向和不同尺度上存在子带之间的关系。图像中的失真会影响这些跨尺度统计。f25-f30对应来自不同方位上的尺度的统计γ，f31对应来自子带上的统计γ。

3) 不同尺度的相关性(f32-f43)

自然图像的高通响应与其带通对应部分之间存在巧妙的统计特性，这种特性会在图像失真时受到影响。通过加窗结构将每个带通(BP)子带与高通(HP)残余带进行比较。其中使用15×15高斯窗口过滤带通和高通波段，σ=1.5。然后计算结构相关性：

(5)

4) 空间相关性(f44-f73)

(6)

5) 跨方向统计(f74-f88)

1.1.2 视觉感知特征

1) 图像的熵

通常，图像动态范围越高，表示的图像细节越好。为了量化该指数，我们计算图像像素强度的熵。由于图像直方图更平坦，动态范围更高。根据信息论，概率分布越均匀，熵值越大。熵方程如下：

(7)

其中pi表示图像像素强度的概率。

2) 图像的梯度

梯度和灰度是图像最基本的两种信息。梯度是构成图像边缘轮廓的必不可少的因素，它具有有效捕获图像局部结构的能力，对人类视觉系统(HVS)敏感度高。当图像I存在很明显的亮度变化时，无论是来自图像中的不连续结构，还是来自纹理结构，图像的梯度▽I=[▽Ix,▽Iy]是较大的。将图像1与图1所示的3×3 Sobel算子进行卷积，生成对图像1的梯度水平和垂直分量的测量，其测量有鲁棒性并且很简单。用方向导数之和的平方根来计算图像的梯度幅值。

121000-1-2-1

图1 Sobel算子

1.2 受限玻尔兹曼机

受限波尔兹曼机(Restricted Boltzmann Machines, RBM)是一个无向图模型[12]。它由一个可视层和一个隐含层组成，每层有若干个节点，层内节点无连接，不同层之间的节点全连接。它包含m个可视节点，v=(v1,…,vm)用来表示表示可观测数据；n个隐藏节点h=(h1,…,hn)用于捕获观测变量之间的依赖关系。在二进制的RMBs中，随机变量(v,h)取值为(v,h)∈{0,1}m+n。一个RBM不在同一层的两个变量之间，而是仅有隐藏层和可视层之间的连接。作为一个能量的模型，RBM具有可视节点和隐藏节点的联合组态(v,h)的能量，其能量函数表示如下：

(8)

其中：vi和hj分别是第i个可视节点和第j个隐藏节点神经元的状态，ci和bj是他们的偏置值，wij表示可视层节点和隐藏层节点的连接权值。

考虑相邻层之间存在连接且RBM层内没有连接，为隐藏和可见节点给出另一个相邻层的后验分布采用以下形式：

(9)

(10)

1.3 深度信念网络

深度信念网络(Deep Belief Network,DBN)是一个由多层受限玻尔兹曼机器(RBMs)构建的神经网络[13]。图3中的示意图，RBM被构造为两层神经元：可视层和隐藏层。每个神经元完全连接到另一层的神经元，但同一层的神经元之间没有连接。RBM的作用是模拟其输入的分布。通过将一个RBM的隐藏层链接到下一个RBM的可见层，我们可以将许多RBM堆叠在一起。

DBN结构示意图如图2所示，模型中每层的层数和单元数仅是示例。每个隐藏层并不要求具有相同数量的节点[14]。

图2 DBN结构示意图

训练整个DBN模型，Hinton提出了一个解决DBN多层导致学习效率低的问题，解决方法包括以下两个步骤[15]：

1) 逐层无监督学习。这一步是无监督学习过程。首先，通过输入原始数据并修复该RBM的参数来训练第1个RBM。然后使用这些输出作为第2个RBM的输入，其余的可以以相同的方式完成。最后可以得到一个多层的DBN，其参数适合于提取这类数据的特征。DBN的各层RBM通过前向传播(Forward Propagation)自主学习输入特征的非线性描述。

2) Fine-Turning微调。在该DBN的末尾添加一个合适的分类器，例如BP神经网络。使用梯度下降算法来修改整个网络的权重矩阵。因为误差反向传播，RBM的参数稍微改变。

DBN的测试只有前向传播过程。将测试样本输入已经训练好的DBN网络模型中，经过前向传播算法，最后一层的BP网络输出测试样本被预测为各个类别的概率，概率最大的作为分类结果。

1.4 构建DBN网络拓扑结构

1.4.1 DBN网络深度

本文网络深度的确定参考文献[16]中提出的方法。根据重构误差(Reconstruction Error,RError)来计算DBN的网络深度。RError以训练数据作为初始状态，经过RBM的分布进行Gibbs转移后与原始数据的差异量，其表达式如下：

(11)

式中:n表示样本的个数，m表示像素数，p为网络计算值，d为真实值，px为取值个数。设L为隐含层层数，ε为目标重构误差预设值。则隐含层层数如下式所示：

(12)

当网络经过训练后其RError值低于预设值，则进行反向微调，反之，网络层数自动加1，然后继续训练。整个DBN网络深度的确定流程如图3所示。

图3 确定DBN网络的深度流程

将RError≤0.15设置为RError的满足条件。当隐含层层数为3时满足要求，因此确定网络含有3个隐含层。

1.4.2 隐含层节点数确定

对于隐含层神经元个数的选取尚无理论上的指导，没有统一的经验公式。因此通过设置不同的隐含层节点数，通过分析分类效果来确定最合适的节点数量。选取隐含层节点数为100，200，300，400，隐含层层数为3，通过设置实验分析分类效果选出合适的隐含层节点数。

2 实验与分析

2.1 实验数据选取

本文收集了包含植被、道路、城市建筑等典型遥感地物特征的QuickBird-2 卫星遥感图像，图像大小均为像素，如图4所示。为了分析同时存在噪声和模糊时对影图的影响，对原始遥感图像进行高斯模糊处理，选取的高斯模糊窗口[9,9]，通过高斯模糊滤波器分别为方差σ1=0.5、1、2、3，获得一系列模糊影图；在同一高斯模糊的图像上再依次加入方差σ2=0.001、0.005、0.01、0.02的高斯噪声，获得一系列同时存在不同程度模糊和噪声的遥感影图共600幅。

图4 由Quickbird-2卫星获取的幅遥感图像

按照表1所示的质量等级划分表将不同失真强度的模糊和噪声图像划分质量等级，设5种质量等级分别为“Excellent”、“Good”、“Fair”、“Poor”、“Bad”。这5种质量等级作为本文提出的评价网络最后的输出。

表1 质量等级划分

将收集到的600幅遥感图像中取400幅作为训练集，剩下200幅作为测试集。为简化表示，由表1中质量等级的字母开头E、G、F、P、B代表相对应的质量等级。测试集中的类别构成如表2所示，

表2 数据库的样本类别构成

2.2 实验参数设置

根据上一节中所提出的根据重构误差(Reconstruction Error,RError)确定网络含有3个隐含层。对于隐含层神经元个数的选取尚无理论上的指导，没有统一的经验公式。因此通过设置不同的隐含层节点数，分析分类效果来确定最合适的节点数量。选取隐含层节点数为100，200，300，400，隐含层层数为3，通过分类效果选出合适的隐含层节点数。以下通过整体分类精度和Kappa系数指标来评价分类效果。

总体分类精度(Overall Accuracy,OA)是对分类结果质量的总体评价，等于被正确分类的像素总和除以总的像素个数(图5)。被正确分类的像素沿着混淆矩阵(表3)的对角线分布，它显示了被正确分类到真实分类中的像元数。Kappa系数采用一种多元离散分析技术，反映分类结果与参考数据之间的吻合程度(图6)。

图5 不同节点对应的OA结果

表3 DBN分类结果的混淆矩阵

由结果可以看出，当隐含层节点数为200时网络的性能更好。使用对比散度算法训练RBM需要一定数量的迭代才能收敛到最佳值，本文所选迭代次数为150次，设学习率为0.001。训练阶段，首先提取出样本集图像的特征，依据HVS特性提取出88个统计特征和2个视觉感知特征，共90个特征向量；再将提取的特征向量输入到包含3个隐藏层的DBN中，将DBN最后一层隐含层的输出作为Softmax分类器的激活函数，最后一层输出5个类别标签的概率。将可视层节点数设为200，网络拓扑结构设为90-200-200-200-200-5。在获取到特征向量后通过Softmax分类器实现遥感图像质量等级的分类。最终得到的用于评价遥感图像质量的DBN网络评价模型整体结构如图7所示。

图6 不同节点对应的Kappa系数

图7 评价遥感图像质量的DBN网络评价模型整体结构

2.3 实验结果及分析

为了说明本文方法中深度学习网络的有效性，直接采用 SVM、 BP神经网络和随机森林这些浅层分类模型代替 DBN 训练得到的分类模型，并预测遥感图像的质量等级，结果如表4和表5所示，采用本文方法得到的Kappa系数高于其他3种方法，分类精度也高于其他3种。

表4 分类精度评价结果比较

表5 Kappa系数结果比较

根据本文方法评价遥感图像质量的部分评价结果如图8所示。

图8 部分图像质量等级判别结果

3 结论

考虑人眼对图像质量感知的模糊性，利用自然场景统计特性和深度置信网络，将遥感图像质量的评价问题转化为图像质量等级分类问题。DBN 结合了无监督学习和有监督学习的优点，可自动发现遥感图像的自然场景统计特征与质量等级之间的规律，进而提高质量等级分类的准确性。实验表明：该方法可取得优于浅层网络和其他传统分类效果。本文方法能有效评价出同时存在噪声和模糊的遥感图像的质量等级，是一种准确可靠的遥感质量评价方法，并且易于实现。