融合全局-局部特征的双通道无参考图像质量评价算法研究

2024-04-28 12:27蒋圣超卓浩泽李泰霖王飞风

电视技术 2024年3期

王斌，蒋圣超，卓浩泽，李泰霖，王飞风

（广西电网有限责任公司电力科学研究院广西电力装备智能控制与运维重点实验室，广西南宁 530023）

0 引言

近年来，随着多媒体技术的发展，作为传递信息主要方式之一的数字图像在人们的日常生活中被大量采集。然而，图像在采集、压缩、处理、传输和显示等生命周期中会不可避免地产生各种各样的失真，从而降低图像的质量[1]。因此，对一张图像进行质量评估的算法研究成为当前计算机视觉领域内的重要研究方向。

图像质量评价（Image Quality Assessment，IQA）算法的研究可以应用于许多场合，如图像压缩、图像恢复、照片增强、图像重建、图像合成和图像筛选等[2]。根据对参考图像的依赖程度，IQA还可以进一步分为全参考（Full-Reference）、半参考（Reduced-Reference）和无参考（No-Reference）这3种类型[3]。其中，无参考图像质量评价（No-Reference Image Quality Assessment，NR-IQA）由于不需要任何原始参考图像的信息，仅仅使用待测失真图像自身的特征进行相应质量分数的预测[4]，相较于全参考和半参考更为灵活。

传统的Transformer模型最早应用在自然语言处理（Natural Language Processing，NLP）领域，虽然在计算机视觉领域也能使用，但是效果不够显著。这是因为Transformer的输入与输出维度相同，无法做到类似卷积神经网络（Convolutional Neural Networks，CNN）一样提取层级特征，导致该模型在视觉任务上达不到CNN的效果[5]。由微软亚洲研究院于2021年提出的Swin Transformer（以下简称Swin-T）模型是Transformer模型的变体[6]。Swin-T模型利用Patch Merging操作，实现了类似CNN的层级操作，同时利用基于窗口的自注意力机制来减少计算的复杂度，从而使得Swin-T模型能够在各类视觉任务中大放异彩。基于上述分析，利用Swin-T模型作为特征提取网络，提出一种结合全局-局部特征的双通道NR-IQA算法。

1 图像预处理

为了能够利用双通道网络同时提取图像的全局特征和局部特征，使得算法能够应用于任意尺寸的输入图像，需要对输入图像进行图像预处理操作。首先，对任意尺寸输入图像进行Resize操作，得到尺寸为224×224×3的全局通道输入图像，以便全局通道在训练时能够关注图像的全局信息。其次，局部通道图像预处理需要将任意尺寸的输入图像均匀划分为7×7个图像块，然后从每一个图像块中心取出尺寸为32×32的图像补丁。最后，将这些图像补丁按照原本处于图像中的位置进行重组，获得一个尺寸为224×224×3的重组图。

2 双通道网络

文章考虑了真实图像失真的非均匀性，利用两个通道同时提取全局特征和局部特征。由于局部特征能够反映图片中失真的非均匀情况，利用双通道网络学习的全局-局部特征更能反映真实图像质量的情况，通过回归预测后得到的分数更能贴合人们的视觉感知。

2.1 特征提取网络

Swin-T模型由Swin Transformer Block组成，而Block总是成对出现，如图1所示。Block1中采用基于窗口的自注意力机制（Windows Multihead Self Attention，W-MSA），Block2中采用基于移位窗口的自注意力机制（Shift Windows Multihead Self Attention，SW-MSA）。

图1 成对出现的Swin Transformer Block

2个连续的Swin Transformer Block的具体计算过程为

式中：为第l个Block中的W-MSA模块的输出特征，MW-SA为W-MSA模块，PLN为层归一化（Layer Norm，LN）处理，zl-1为第l-1个Block中的多层感知器（Multilayer Perceptron，MLP）模块的输出特征。

式中：zl为第1个Block中的MLP模块的输出特征，LMP为MLP模块。

式中：为第l+1个Block中的SW-MSA模块的输出特征，MSW-SA为SW-MSA模块。

式中：zl+1为第l+1个Block中的MLP模块的输出特征。

由式（1）～式（4）可知，输入经过LN和W-MSA后得到，经过LN和MLP后得到zl,再经过LN和SW-MSA得到，最后通过LN和MLP得到输出zl+1。

在Swin-T模型中，可调参数有Swin Transformer Block的个数、特征图的深度，即通道数、多头注意力中的头数以及窗口大小。文章使用Swin-T网络作为特征提取模块，输入图片尺寸为224×224×3，具体网络参数如表1所示。

表1 Swin-T特征提取网络结构信息

2.2 回归预测网络

回归预测网络用于完成特征到质量分数的映射。双通道各自提取的全局-局部特征均是长度为768的特征向量，将两者连接起来形成一个1×1×1 536的特征向量，然后经过回归预测网络得到最终的图像质量预测分数。这个回归预测网络由1 536×384和384×1这两个全连接层组成。

2.3 双通道网络架构

双通道网络设计如图2所示。首先，针对原图像分别进行Resize操作和局部重组操作，将所得的两个尺寸均为224×224×3的新图像作为两个通道的输入图像。其次，经全局网络通道和局部网络通道获得长度为768的图像全局特征向量和图像局部特征向量。再次，通过Cat操作将两个特征向量拼接成长度为1 536的图像质量特征向量。最后，通过两层全连接层组成的回归预测网络完成图像质量特征到分数的映射。

图2 结合全局-局部特征的双通道网络

双通道网络进行图像质量分数预测的整体过程为

式中：I为输入图像，G(*)为Resize操作，L(*)为图像局部分割重组操作，E(*)为特征提取，F(*)为Cat操作，ff为图像的全局与局部相结合的特征，R(*)为回归预测的全连接层，Q为最后所得的图像质量分数。

3 实验结果与数据分析

3.1 数据集与评估指标

LIVEC数据集于2016年由美国得克萨斯大学实验室建立。该实验组利用市面上常见的移动设备进行图像的拍摄采集，从而建立共计1 162张含有丰富的真实失真信息的图像。平均意见得分（Mean Opinion Score，MOS）是一种常用的主观质量评价方法，常用于视频、图像等的质量评价。不同MOS下的LIVEC数据集图像如图3所示。

图3 LIVEC数据集图像

SPAQ数据集由江西财经大学提出，制作者利用66种不同的智能手机进行图像的拍摄采集工作，从而建立共含有11 125张图像的真实失真图像数据集，如图4所示。这两个数据集中图像的质量分数标签均采用MOS值，取值范围为[0,100]，值越小表示图像失真越严重，图像质量也就越差。

图4 SPAQ数据集图像

评价指标采用斯皮尔曼秩相关系数（Spearman Rank Order Coefficient，SROCC）、皮尔森线性相关系数（Pearson Linear Correlation Coefficient，PLCC）、肯德尔秩次相关系数（Kendall Rank-Order Correlation Coefficient，KROCC）与均方根误差（Root Mean Squared Error，RMSE），分别用于评价模型预测的准确性、单调性、相关一致性与偏差程度。其中，SROCC是用来评估图像标签值与预测值之间单调关系的指标，PLCC是用来评估图像标签值与预测值之间线性相关性的指标，两者取值范围均为[0，1]，数值越接近1表示算法的图像质量评估准确性越高。

3.2 实验配置

实验平台的配置如表2所示。根据平台硬件设备性能，本实验将训练集与测试集比例设为8∶2，网络输入图像大小设为224×224，网络训练的批尺寸设为32，迭代次数设为150，初始学习率设为0.000 1，更新学习率的乘法因子设为0.9。

表2 实验平台相关配置

3.3 消融实验

为了验证所提出的全局-局部双通道算法的有效性，根据全局-局部通道的有无设计3组算法进行消融实验。其中，G_IQA算法是针对全局特征的基于Swin-T模块的单通道图像质量评价算法，L_IQA算法是针对局部特征的基于Swin-T模块的单通道图像质量评价算法，GL_IQA算法是无特征融合模块的双通道图像质量评价算法。实验数据如表3所示。

表3 在真实失真数据集上的消融实验

从表3实验结果可知，在两个数据集上采用GL_IQA算法，SROCC和PLCC指标均获得消融实验中的最佳数值。

3.4 对比实验

选择具有代表性且使用深度学习的算法，分析其在LIVEC数据集和SPAQ数据集上的性能表现进行对比实验，如TS-CNN、HOSA、DIQaM-NR、CORNIA 、CaHDC和NSSADNN算法。实验结果如表4所示。

表4 在LIVEC与SPAQ数据集上的性能对比

根据表4的结果可知，在LIVEC数据集和SPAQ数据集上，所提算法无论是SROCC指标还是PLCC指标均取得最佳指标值，说明所提出的结合全局-局部特征的双通道算法对真实图像进行质量评估效果显著。

4 结语

针对目前大多数IQA算法在面对真实失真数据集时效果不佳的原因进行分析，并基于分析结果提出结合全局-局部特征的双通道NR-IQA算法。相关实验表明,所提算法在对具有失真非均匀性的真实图像进行质量评估时效果显著，并且与人的主观视觉有着较高的一致性。同时，该算法在获取局部失真特征时对原图进行均匀的分块和截取，但是真实图像的内容分布并不均匀，因此未来工作可以考虑在进行局部失真重组时引入显著性检测算法，从而获取更具有代表性的局部失真重组图。