基于MOS的图像质量评估系统

2020-11-18 09:15韩东旭钟宝江

计算机工程与应用 2020年22期

韩东旭，钟宝江

苏州大学计算机科学与技术学院，江苏苏州215000

1 引言

视觉是人类最重要的能力之一，在从外界获取信息的过程中起着关键的作用。高质量、高清晰度的视觉信息一直为人们所追求，这也促进了当前图像处理技术的发展。然而，如何有效地评估各类图像处理算法，如图像插值、直线段检测、角点检测等，已经成为视觉和图像领域中的基本问题。根据参考图像的可利用性，图像质量评估可以被分为全参考、半参考和无参考三类方法[1]；从是否有人参与的角度，图像质量评估又可以分为客观评估和主观评估两种方法。

在客观评估方法中，最早提出的即均方误差（Mean Square Error，MSE）[2]以及峰值信噪比（Peak Signal to Noise Ratio，PSNR）[3]，这两个客观评估指标仅从数学角度来分析真实图像和待评估图像像素强度的差异，并没有考虑到人类视觉系统的特性。基于结构相似性，Wang 等人首先提出了“结构相似度”[4]，并衍生出“多尺度结构相似度”[5]、“基于梯度的结构相似度”[6]等指标；基于特征相似性，则有相位一致性[7]、边缘相似性[8]等客观评估模型；基于学习图像质量[9]的方法，程晓梅等人[10]提出了估计图像退化类型和质量评分的双目标卷积神经网络模型；陈慧等人[11]使用卷积网学习立体图像的局部自然场景统计特征，并预测其质量得分；基于双树复小波变换对立体图像进行处理，根据生成的纹理结构等参数，顾婷婷等人[12]使用AdaBoosting BP神经网络训练和预测立体图像的质量得分。

由于客观评估方法的结果很多时候与人眼的真实感知并不一致，对图像质量进行可靠的主观评估显得更为重要。主观评估通常分为心理物理法和标准法[13]。心理物理法评估方法要求人们检测某些信号（如光或色调）的存在，并从结果中获得检测阈值。基于视觉感知的模型，Ma 等人[14]从广泛的公共背景亮度范围中提取“差别阈限值”。基于更多其他的视觉模型，许多学者相继提出了自己的图像质量主观评估指标，如细节分辨能力和目标检测能力[15]等。心理物理法能够有效地提取主观阈值（用于区分激励因素的表现）。在图像质量主观评估中，这类方法能够有效地识别测试信号质量的可见变化。由于人眼视觉系统的复杂性，心理物理法很难建立完全有效的主观评估模型。而基于直接观察的图像质量主观评估标准法为获得高度复杂的媒体信号的一般评级提供了一条途径。

主观质量评估标准法通常征集测评者对待评估的图像、音频序列进行观察并给分，然后对所有测评者的给分进行统计，通常计算其平均值作为最终的评估结果，即平均意见得分（Mean Opinion Score，MOS）[13]。MOS是一种较为流行的感知图像质量的主观指标，根据不同的测试环境和目的，目前使用最为广泛的是以下五种基于MOS 的图像质量主观评估方法：有参考的双激励损伤度分级法（Double Stimulus Impairment Scale，DSIS）[16]、双激励连续质量分级法（Double Stimulus Continuous Quality Scale，DSCQS）[17]、SAMVIQ（Subjective Assessment Methodology for Video Quality）[18]方法、无参考的单激励连续质量分级法（Single Stimulus Continuous Quality Evaluation，SSCQE）[19]、ACR（Absolute Category Rating）[18]方法。与这五种方法配合使用的5分制[13]作为一种给分尺度，以其清晰的分级模式而广受欢迎。除此之外，还有11分制、连续分制等具备更强识别能力的高层次分级法。基于MOS的主观评估方法，Liu等人[20]在进行美学图像的感性评估时，认为主观评估结果在经过一致性检测后更为准确；Sun 等人[21]将其应用到虚拟现实图像的评估中，计算了常用的客观质量度量和主观评估间的相关性。

然而，当前对于各类图像处理算法的主观测评一般均由算法提出者自己完成。在文献[22]中，Xie 等人展示了对三组图像的去噪对比实验，以此验证所提出算法的强去噪能力；在文献[23]中，Li 等人通过放大比较各种算法重建后的图像，进行了主观评估，展示了其算法的优势。显然，算法提出者通常通过突出显示图像某一部分的细节来进行测评，对细节的挑选容易掺杂特定偏好，且样本数量少，并不能对算法进行全面的测评。而若要征集无利益相关的测评者来进行大样本的“第三方”测评，则存在操作的复杂度高、效率低等缺陷。为此，本文设计并实现了一款基于MOS 的图像质量主观评估系统。首先对相关的主观质量评估方法进行了介绍，接着详细描述了评估系统的设计，最后使用本系统对现有的直线段检测算法进行了主观评估，展示了系统的实际使用效果。主要贡献如下：（1）基于MOS标准建立了图像质量的主观评估系统；（2）在设计方面，实现了给分双确认、样本标签隐藏和样本次序隐藏等功能，克服了观察者可能存在的特定偏好，从而保证了主观测评结果的客观性和无偏性；（3）在实现方面，该系统支持对各类图像处理算法进行主观评估，为观察者提供了图像的同步放大和拖拽等便捷功能；（4）根据得到的主观评估结果，分析验证了不同客观评估指标的可靠性。该系统源码已发布在Github 网页https：//github.com/hdddx/SubjectiveEvaluation。

2 相关工作

基于平均意见得分的图像质量主观评估标准法通过统计多个对象的意见评分，得到最终的测评结果，这个结果通常也被称为“平均意见得分”，即MOS 值。MOS值是对在一组评分尺度下多个评分结果进行平均来获得的，公式如下：

其中，R 是N 个受试者对给定刺激的个人评级。

在评估过程中，测评者很多时候被要求以某种既定的规则来观察图像，并为每个图像选择一个预定义的分数标签。合理地设置评估分数标签是图像质量主观评估前的必要工作之一。5分制是目前最流行的评分尺度之一，其分为5个层级（劣、差、中、良、优），分别对应于1～5的离散分数。5分制包括“绝对评价全优度尺度”（见表1）[16]和“相对评价群优度尺度”（见表2）[16]，分别应用于有参考的和无参考的图像质量评估中。除了这种具有5 个离散尺度的分级方法，还存在粒度更高的分级方法，甚至接近连续尺度。但考虑到图像质量评估的便捷有效，使用高粒度的分级方法则会带来高复杂度，为此本文选择5分制作为给分标准。

表1 主观绝对评价全优度尺度

表2 主观相对评价群优度尺度

除了合理地设置评分尺度，还需要制定一种有效的观察规则。DSIS[16]要求测评者观察多个由真实图像（Ground Truth，GT）和对应的待评估图像组成的图像对。与该方法相似的DSCQS[17]同样要求测评者观看多个图像对，但测评者完全不知道哪一张是参考图像，哪一张是待评估图像。SAMVIQ 方法是DSCQS 的派生，该方法允许待评估图像对可以在任何时刻被重复显示与评分。相较于有参考的评估方法DSIS[16]、DSCQS[17]和SAMVIQ[18]，无参考的SSCQE[19]以随机的方式将待评估图像序列呈现给不同的测评者。与之类似的ACR[18]方法无需参考序列，每当播放完一张待测评图像（8 s），都会给出一段时间让测评者进行给分（<10 s）。在数据分析阶段，该方法不仅仅考虑了测评者给出的评分，还将每张图像的评分时间作为一个重要参考因素。

然而，对各类图像处理算法使用基于MOS 的主观质量评估标准法进行大样本的主观评估，通常存在操作复杂度高、效率低下的缺陷。为了使得主观评估简易可行，并保证评估结果的有效性和可靠性，本文研究并设计了一款综合的基于MOS 的图像质量主观评估系统，主要依据了MOS标准的以下三点优势：

（1）MOS 标准在使用过程中不受主观测试设计的限制。根据不同的测试环境和目的，该标准可以适用于多种主观评估方法，且不需要考虑待评估图像是如何获得的。

（2）对于高度复杂的测评样本信号，能够快捷地给出其一般评级。

（3）允许足够多的测评者参与图像质量的评估，从而保证了测评结果的无偏性。

具体来说，本系统基于图像质量主观评估标准法，融合了5分制中的“主观绝对评价全优度尺度”和“相对评价群优度尺度”，同时采用双激励的观察规则，设计并实现了给分双确认、样本标签隐藏、样本次序隐藏等功能，最后基于平均意见得分MOS 值对评估结果进行整理与分析。

3 评估系统的设计

本文设计的图像质量主观评估系统主要由输入模块、评估模块和输出模块组成（如图1）。各要点如下：输入模块用于自动加载准备好的图像，实现了由各类图像处理算法得到的待评估图像的批量导入与显示，同时初始化一些必要的参数。在评估模块中，基于双激励的图像质量主观评估标准法，将待评估图像序列以随机的方式呈现给每一位测评者，进行样本标签隐藏、样本次序隐藏和给分双确认评估。每一位测评者为每一张待评估图像选择的评分标签将实时存储，并在输出模块中计算其平均意见得分，将MOS值作为评分结果。

图1 设计的图像质量评估系统的框架

3.1 输入模块

输入模块包括评估参数的设置以及待评估图像的导入。分别如下：

（1）参数设置。包括图像处理算法数、待评估图像组数和给分双确认评估中的容忍阈值，这些参数将在下面的章节中详细介绍。以上参数均在图像质量主观评估前进行初始化，测评者无法修改。

（2）标签法导入。通过标签法将评估任务所需的图像进行批量自动化导入。每一组待评估图像都包括GT图像和多张由不同图像处理算法得到的图像，这些待评估图像通常都以图像处理算法的简称命名。本系统会将每一组中图像的名称作为标签来自动进行批量导入和分类。

3.2 评估模块

评估模块基于双激励损伤度分级法，融入了给分双确认、样本的标签和次序隐藏策略。本模块引导测评者进行可靠的图像质量主观评估，并记录每位测评者给出的评分。主要分为以下三部分：

（1）双激励损伤度分级评估。该评估方法要求测评者观察特定数量的图像，并为每一幅图像选择合适的评分。其中，DSIS 要求测评者对给定的图像对进行观察并给出分数，而该系统的观察对象是图像组。每个图像组中包括一张GT图像和多张由不同图像处理算法得到的待评估图像，测评者以GT图像作为参考，对待评估图像进行观察打分。考虑到同时对多张不同的待评估图像评分，本模块还引入了“单激励法”中的可重复评分机制，即允许测评者重复观察每张图像并修改评分。同时本系统支持待评估图像之间的相互切换比较，实现了绝对评价和相对评价的融合。为了获得更为可靠的评估数据，本系统对图像组中的图像类别进行了调整。在每组图像中，有一幅GT图像供参考，另一幅用于评估。测评者不需要对作为参考的GT 图像进行评分，而需要对另一幅用于评估的GT图像进行评分。本系统将GT图像随机插入到待评估的图像序列中，而不告诉测评者用于评估的GT 图像的真实位置。测评者对用于评估的GT 图像的给分会被记录并用于验证，若该分数不是最高的，则说明测评者存在恶意给分的情况；反之，认为给分是有效的。

（2）样本的标签和次序隐藏。研究表明，人们能够快速地对视觉捕捉到的信息载体（如图像）进行分类，而对于分类模式则会存在残留效应。比如说，当观察完一组图像并给分后，测评者往往会认为给分最高的那张图像对应的图像处理算法效果是最好的，而给分最低的那张图像对应的图像处理算法效果是最差的。当对下一组图像进行给分时，测评者会延续对上一组图像的评分偏好，从而导致评估结果不够准确。为了克服这种特定偏好和保证测评结果的客观性，本系统对观察者隐藏了每组图像的标签。尽管测评者在给分的过程中不会存在对某类图像特定的偏好，但仍然会对特定的图像次序较为敏感。因此说仅仅隐藏样本的标签是不够的，还需要对测评者隐藏样本的次序。例如，第一组与第二组的待评估样本序列是不一致的，每一组样本序列的次序都是随机生成的。

值得说明的是，本系统只是在面向测评者时，隐藏了样本的标签和次序，但这些有效信息都记录在系统的后台数据中，并不会删除。因此，样本标签和次序的隐藏并不会影响图像有效信息的完整性。具体来说，记输入的一组样本标签为l={l1,l2,…,lm} ,m 为样本数量。系统会为该组样本生成一个随机样本序列，记为：

其中，π(·)是一个生成和记录随机映射的函数，存储于系统的后台数据中，fπ(l)为l 的一个双映射表示。在测评过程中，系统根据该随机序列向测评者有序地展示待评估样本，并保存测评者对所有样本的给分（记为S），则测评者对样本li的评分可以记为S(Li)。

当进行大样本的测评时，用矩阵L=[l(1),l(2),…,l(n)]∈ℝm×n来表示n 组样本的随机序列集合。其中l(j)∈ℝm是一个列向量，存储了第j 组样本的随机序列。分数矩阵S ∈ℝm×n用于存储评估过程中测评者对每张图像的给分。最终，通过计算获得一位测评者评估后各图像处理方法的评分向量s(s1,s2,…,sm)∈ℝm，即：

其中，j=1,2,…,n 且i=1,2,…,m。

（3）给分双确认。本系统采用给分双确认策略的目的是为了阻止无效数据（如“乱”打分）的生成。目前“第三方”测评通常直接收集测评结果，再排除无效数据，即单确认方式，很大程度地影响了主观测评的效率。因此，在评估过程中阻止无效数据的生成是很有必要的。本系统采用给分双确认的策略，当测评者给出两轮测评的分数，通过阈值法来确认数据的有效性。测评者需进行两轮图像质量主观评估（对n 组图像评分视为一个轮次），值得说明的是，这两轮测评样本的标签和次序都被隐藏，且其次序所对应的随机映射函数是不同的。记两轮评分向量的欧式距离为d，即：

其中，k=2 是测评者需要进行主观评估的轮次，s(k)是在第k 轮次中计算得到的各类图像处理方法的评分向量。当测评者完成了两个轮次的主观评估后，本系统会比较这两个轮次的评分结果（第一个轮次和第二个轮次）的距离。如果距离小于容忍阈值t ，则输出两个轮次评估结果的均值；否则，认为本次评估结果是离群的、无效的。为了说明这一点，可以写作以下公式：

其中，E(k)∈ℝm是由一位测评者进行一次完整的独立评估最终输出的评分向量。

表3 描述了给分双确认在该系统中的应用样例。如表中所示，假设给定的容忍阈值t=30，显然，第一轮的评估结果没有可比较的对象，因此当前轮次与上一轮次评分向量间的距离为NaN（Not-a-Number）。而第一轮和第二轮评分间的距离为，这两轮评分结果具有良好的相关性，则这两个轮次评分的均值将作为一位测评者给出的最终评分结果。

表3 给分双确认的示范性样例

3.3 输出模块

由于测评者的个体具有差异性，图像质量的主观评估很多时候需要征集多个无相关利益的测评者。该系统为测评者提供一次完整的、便捷的、独立的图像质量主观评估，并输出测评结果作为Ei计算平均意见得分MOS值的个体评分。则参与测评者对各类图像处理算法yj给出的平均意见得分MOS值可以表示为：

其中，N 为测评者总人数，m 为待评估的图像处理算法总数，xj表示第i 位测评者对第j 类图像处理算法对应的所有待评估图像的平均给分。本模块除了统计输出MOS值，还根据评估结果对算法进行了排序，完成了与客观质量评估的相关性分析。

4 评估系统的实现

本系统基于Matlab语言，为测评者提供了友好的人机交互操作，尝试引导测评者进行图像质量主观评估。测评者可以查阅根目录中的自述文件，以便了解此系统运行的过程。此外，测评者还可以在GUI图形化界面中单击工具栏上的问号按钮以获取帮助。当执行错误的操作时，该系统将自动提示接下来需要如何操作。图2展示了该系统对图像进行显示、评分的主页面，该页面还包含了三个使得图像质量主观评估更为便利的基本功能，包括对图像的放大、缩小、拖拽等功能。在主页面的左半侧显示的是待评估的各图像处理算法所得到的图像。在图形化界面的中部是可供选择切换的待评估图像按钮，除此之外，测评者需要为当前显示的待评估图像从右侧的5 分制标签中选取一个合适的评分。同时该图形化界面具有自适应的功能，当被拉伸或放大时，更多的隐藏信息会显示出来。如图3 所示，主页面中右下角的表格用于记录与显示在评估过程中测评者给出的待评估图像序列的评分，当GUI 图形界面拉伸时，待评估图像也会自动放大。

图2 评估系统图形化界面演示

图3 评估系统拉伸后的图形化界面演示

如图4所示，所有的相关参数都可以根据各种需求而被重新设置。在图5中，每一位测评者在完成图像质量的主观评估后，都可以看到自己的评估结果，评分以柱状图的形式在GUI 图像化界面中显示。该系统还提供了友好的人机交互对话窗口，如图6 所示，测评者在系统的引导下能够更顺利地完成评估。此外，该系统为测评者提供了对待评估图像放大、缩小、拖拽等功能，图7给出了一个同步放大功能的示例。所谓的同步放大，就是当图像组中的一张图像被局部放大时（无论是GT 图像还是待评估图像），该图像组中的其他图像应当在同样的位置保持同样的缩放倍数。该系统实现了最近邻插值算法来放大图像，而不是使用Matlab自带的放大功能。当测评者需要近距离地观察待评估图像时，该操作为评估节约了很多时间。

图4 评估系统的参数设置界面演示

图5 评估系统的结果输出界面演示

图6 用于引导的对话框演示

图7 设计的图像质量主观评估系统具备的同步放大功能

由于待评估图像间的差异非常小，这对于不具备专业知识的测评者如何做到准确地评估图像质量是非常困难的。该系统通过鼠标滑轮的前后滚动，来完成两张图像的快速切换，相较于点击切换更加便捷。测评者通过捕捉前后切换的图像间的轻微差异，能够给出相对的、更为准确的评分结果。

表4 对比了本文方法和其他两种不同主观测评方式的性能。自评估方式即由算法提出者自己挑选图像进行主观比较，并总结自己的主观感受。这种做法通常存在样本量小等缺陷，并不能体现测评结果的客观性和无偏性。“土耳其机器人”[24]是一款“第三方”网络评估平台，与本文设计的评估系统类似，都允许征集足够多的测评者进行大样本的测评，因此测评结果的无偏性可以得到保证。然而，“土耳其机器人”通常在收集测评结果后排除无效数据，操作复杂度较高，效率低，且其收集到的测评结果并不具备足够的客观性。本文设计的评估系统通过三个主要功能（隐藏样本标签，隐藏样本次序，给分双确认），保证了测评结果的客观性。同时，本系统实现的给分双确认功能，可以阻止无效数据（如“乱”打分）的生成，使得测评更简易便捷，效率更高。

表4 不同主观测评方式性能分析

5 评估系统的演示

为了展示系统的实际使用，本文对现有的直线段检测算法进行主观评估。值得说明的是，本例的作用是演示系统的使用过程，对单个测评者来说，测评结果的客观性、无偏性可以由系统的三个功能（样本的标签隐藏，样本的次序隐藏，给分双确认）来保证；若要加强基于测评者群体的结果客观性、无偏性，则需要保证测评者的数量充分即可。

直线段作为一种重要的图像特征，能够有效表达场景的几何信息和拓扑信息。往往通过以下4 个指标来实现对直线段的客观评估：精度（Precision）、召回率（Recall）、IoU（交并补）和F-值（F-score）。而对检测到的直线段进行准确的客观评估是非常困难的。其难点为检测到的直线段很难与GT 图匹配，常常会出现一对多、多对一、多对多的情形。

目前被广泛使用的直线段客观评估算法是由Cho等人[25]在2018 年提出的。该算法基于一些误差容忍值来识别检测到的直线段的真阳性。其核心思想如下，对任一检测到的直线段ld，若其为真阳性，必能找到满足以下3 个条件的GT 直线段lg：（1）ld中点至lg的距离小于误差容忍值τp；（2）ld与lg形成的夹角小于误差容忍值τang；（3）ld与lg相交的部分大于比例误差容忍值τarea。郑行家等人[26]指出，该直线段匹配算法对于过长的直线段并没有做到很好的抑制作用。

为了进行主观评估，24位不具备专业能力的学生被招募为志愿者来评估由不同直线段检测算法得到的直线段图像的视觉质量。为了使得志愿者们集中注意力做出可靠的评估结果，只考虑了6种目前先进的直线段检测算法（CannyLines[27]、EDLine[28]、ELSDc[29]、Linelet[25]、LSD[30]、MCMLSD[31]），如图8 所示。从YorkUrban 直线段数据集[25]中随机挑选了8张分辨率为640×480的图像作为测试图像，因此每一位志愿者需要对56 张图像进行评估，即8组直线段图像（每组包含6张分别由上文提到的6 种直线段检测算法独立运行得到的直线段图像和1张在3.2节中提到的用于评估的GroundTruth图像）。每个直线段检测算法的平均意见得分都将被记录用于比较。如图9所示，雷达图中的每条辐线代表24名招募志愿者中的一位，且每条辐线上的实点标记了该雷达图下方标记相应直线段检测算法检测到的8 张直线段图像的总分。分数越高，表明视觉效果更好。

结合Cho 等人[25]提出的客观评估方法得到如图10所示的主客观评估结果，为了便于观察比较，MOS值都缩小到了10%。在主观评估中，算法EDLine和MCMLSD并驾齐驱，CannyLines 稍逊一筹。MOS 值为0.380 7 的EDLine和MOS为0.398 0的MCMLSD远高于CannyLine（0.338 5）、ELSDc（0.255 2）、Linelet（0.251 0）和LSD（0.250 5）的平均意见得分。相较于客观评估指标，IoU值表现得较为平稳，差异性不明显，指标F-值、精度的变化趋势与MOS值相似，略有不同。这也说明指标F-值、精度与人眼的感知能力较为一致。其中，MCMLSD的精度值较低，但得益于其较高的召回率，其F-值表现得较为出色。由此可以发现，人眼对于直线段的长度、方向、位置更为敏感，对于直线段评估的准则显然更为明确、更为全面。人眼倾向于检测到与GT 长度一致的直线段，而不是如MCMLSD检测到的过长的直线段，也不是如Linelet、ELSDc 检测到的断断续续的直线段；相比LSD，人眼更倾向于如EDLine 和CannyLines 检测到的方向更准确的直线段。这也更加说明了直线段检测算法的客观评估指标并不全面，而利用主观评估能更好地验证客观评估指标的有效性。

图8 评估系统在直线段检测上的应用样例

图9 6种不同的直线段检测算法的平均意见得分

图10 直线段检测算法主客观评估结果

6 总结

伴随着图像处理技术的快速发展，图像质量评估方法变得尤为重要。可靠的主观质量评估不仅能够用于分析各类图像处理算法的性能，还能够对不同的客观评估指标进行验证。而若要征集无利益相关的测评者来进行“第三方”测评，则存在操作的复杂度高、效率低等缺陷。本文研究并设计了一款基于MOS的图像质量主观评估系统。基于本文的系统及公开的软件，不同研究者可根据自己需求对不同类型的图像质量征集足够多的测评者进行大样本的测评与分析。本文系统结合了目前主流的双激励损伤度分级评估，设计并实现了给分双确认、样本的标签和次序隐藏等功能，保证了测评结果的客观性和无偏性。最后，利用本文系统对六款先进的直线段检测算法进行了主观评估实验，展示了系统的实际使用效果。