李瑞东 刘海 杨环
摘要: 针对传统图像质量评价模型在屏幕内容图像上存在的无法取得满意结果的问题,本文提出一种基于深度学习模型的屏幕内容图像评价模型。首先将屏幕内容图像进行归一化处理,用局部二值化(local binary pattern,LBP)算法旋转不变均匀模式求得特征图,并运用卷积神经网络对局部二值化特征图进行质量评价。为验证所提出的屏幕内容图像质量评价模型的准确性,采用斯皮尔曼秩相关系数和皮尔斯线性相关系数两种流行的评估标准进行验证。验证结果表明,本文模型与传统的质量评价模型相比具有明显的优势,表明本模型比大多数现有的图像质量评估(image quality assessment,IQA)模型更符合主观评估结果,相比于其他评价模型更具有竞争性。该研究为提升评估结果的精准度提供了理论依据。
关键词: 图像质量评价; 屏幕内容图像; LBP; 卷积神经网络
中图分类号: TP391.413; TN911.73文献标识码: A
目前,随着互联网技术的发展及现代多媒体通信终端的普及,使用户能够执行许多复杂的通信任务,这些移动终端在使用期间呈现给消费者的可视内容,不再是单一的自然图像,而是包含文本、图像、地图和计算机生成的图形等混合图像,类似于上述视觉内容的图像通常被称为屏幕图像。屏幕图像在产生、处理及传输过程中都不可避免的产生失真,造成图像质量的下降,最终影响用户体验。在已有的研究中,许多客观的图像质量评估方法被提出,较为简便的方法有峰值信噪比(peak signaltonoise ratio,PSNR)[1]与均方误差(mean squared error,MSE),根据像素值强度的差异进行质量预测;著名的有结构相似性(structural similarity,SSIM)[2]模型,此模型分别计算亮度、对比度和结构相似性,考虑到图像是因结构而产生失真,而不是像素之间的差异;Xue W等人[3]构建了针对图像梯度幅值相似度标准差(gradient magnitude similarity deviation,GMSD)[4]模型,此模型不但提升了评估结果的精准度,还极大程度上简化了计算步骤。这些评估方法在自然图像质量评估上表现良好,但在屏幕图像质量评估上取得的成绩并不好,其原因是屏幕内容图像具有比自然图像更复杂的构图。屏幕内容图像不仅包含自然图像,还添加了计算机生成的文本、图形和图标等各种组件,这导致屏幕图像通常包含非常锋利的边缘、相对简单的形状、具有少量颜色的细线、甚至单像素宽的单色线[4]。因此,屏幕内容图像的质量评价不应与自然图像一样以整体为单位进行预测。近年来,也有一些对屏幕内容图像的研究,Yang H等人[5]根据屏幕图像内文字与图像部分视觉误差,提出可率先分别评估屏幕图像内的文字与图像部分,然后再通过加权融合处理来评价屏幕图像。随着深度学习在计算机视觉领域的广泛应用,研究人员提出了许多深度学习网络来解决图像质量评估问题,并且具有优于传统算法的性能。将屏幕图像直接运用现有的卷积神经网络模型(convolutional neural network,CNN)進行学习训练时,由于屏幕图像的特殊及复杂的结构特点,网络模型很难同时学习和区分不同区域的特征,从而不能准确的进行评估。此外,深度学习网络的训练过程需要大量数据,现有图像数据库中的样本有限,可通过将图像切割成图像块,将图像块作为卷积神经网络模型中的训练样本[6],以解决训练样本不足的问题。基于此,本文提出一种基于局部二值化算法(local binary pattern,LBP)[7]的屏幕图像质量评价CNN模型。该模型与传统的质量评价模型相比具有明显的优越性。
1屏幕内容图像数据库
本文在屏幕内容图像数据库(screen image quality assessment database,SIQAD)[5]中验证提出方法的准确性。SIQAD包含20张参考图像,每张图像具有7种失真类型,包括高斯噪声(gaussian noise,GN)、高斯模糊(gaussian blur,GB)、运动模糊(motion blur,MB)、对比度变化(contrast change,CC)、JPEG(JPEG Compression)压缩、JPEG2000压缩(JPEG2000 Compression)和基于分层的压缩(layer segmentationbacked coding,LSC),每种失真类型包括7个等级。因此,SIQAD中有980张失真的屏幕内容图像,而且每张图像都有专业评审人员进行的主观质量评价得分。截取SIQAD中一副屏幕内容图像,其中,参考屏幕内容图像如图1所示,高斯噪声失真图像如图2所示,对比度变化失真图像如图3所示,JPEG压缩失真图像如图4所示。
2特征
LBP是一种描述图像特征像素点与各个像素点之间灰度关系的局部特征非参数算法,同时也是一张高效的纹理描述算法。在计算LBP特征图之前,先将图像进行归一化处理,令I(i,j)表示图像(i,j)处的像素值,归一化值(i,j)计算方式为
式中,i∈(1,2,…,m);j∈(1,2,…,n);i和j表示图像的长度和宽度;μ为平均值;σ为归一化窗口中强度值的方差;C表示一个常数,为了防止除数为0,在这里将其设置为1。
采取旋转不变均匀的LBP,普通LBP的计算方式为
式中,R和L表示相邻像素的数量和与相邻像素距离的半径;i表示R个圆形对称相邻像素的像素值,i∈(0,1,…,R-1);c表示局部区域中心像素的像素值。旋转不变均匀LBP算法为
式中,λ表示数位转换[8]。
根据上述方法,得到屏幕图像的旋转不变均匀LBP特征图,将其切割为若干个大小为32×32的图像块,将图像块作为卷积神经网络的输入。
3CNN模型
本文设计了一个端到端的CNN模型,CNN模型如图5所示。该模型以32×32的图像块作为输入;第1层为卷积层,具有30个大小为7×7的内核,步长为1像素,得到30个大小为26×26的特征图;第2层为池化层,具有3部分:最大值、最小值和平均值,以3×3为窗口,步长为2,得到3组13×13×30的特征图;第4层为池化层,具有3部分:最大值、最小值和平均值,以2×2为窗口,步长为2像素,得到3组4×4×90的特征图。将得到的特征图进行汇集处理,得到一个2 880×1的矢量特征;第5层~第7层为全连接层,节点个数分别为4 096,4 096和1 024;最后回归为一个值,该值为输入图像块的质量评价得分。
图5CNN模型为确保图像块的预测得分与原图像的主管评分具有线性关系,在最后的输出层采用支持向量机回归(support vactor regerssion,SVR)[9],最终目标函数定义为
L=1M∑Mm=1‖f(Pi)-Qi‖l2(6)
式中,L为损失函数;Pi表示输入的图像块;f(·)为非线性函数;Qi为输入补丁原图像的主管得分;M为每批输入图像块的总数。
为了更好地保留图像中的有用信息,使模型预测结果更加精准,在网络的3个全连接层中,使用线性整流函数(rectified linear unit,Relu)作为激活函数[10],描述如下
式中,xi表示Relu的输入;g表示Relu的输出;wi表示Relu的权重[11]。
本实验随机选择了SIQAD中80%的失真图像作为CNN模型的训练集,10%的失真图像作为验证集,10%的失真图像作测试集[12]。模型是在Matlab中的Caffe工具箱进行搭建[13]。CNN模型在训练过程中,将基本学习率设置为001,学习速率衰减量设置为09,动量初始值为09,逐渐下降后最终保持在05[14]。
4汇集质量评价得分
得到每个图像块的质量得分Qi后,即可计算整幅屏幕内容图像的质量评价得分,采取的汇集方式为平均每张图像块的质量得分[15]。最终屏幕内容图像的评价得分为
S=∑mm=1Qi/m(8)
式中,m为该屏幕内容图像分割成的图像块数量。
5实验结果
SIQAD中的失真屏幕内容图像都具有主观评价得分,评价模型所预测的得分与主观评价得分越接近,则说明该预测模型的性能越优越。图像质量评价性能可由几个常用的指标表示。使用两种流行的评估标准来验证所提出的屏幕内容图像质量评价模型的准确性,这两种方法是斯皮尔曼秩相关系数(spearman rank correlation coefficient,SROCC)和皮尔斯线性相关系数(pearson linear correlation coefficient,PLCC)[16]。
SROCC主要测量两组数据的秩相关,PLCC主要测量两组数据之间的线性相关。SROCC为
SROCC=1-\[6∑ni=1d2i/n(n2-1)\](9)
式中,n表示测试图像的总数;di表示第i个图像的模型预测得分的排名与主观评价得分的排名之间差值。SROCC的范围是[0,1],数值越高,表示算法的精度越高。PLCC为
PLCC=∑ni=1(yi-yk)(i-k)/∑ni=1(yi-yk)2∑ni=1(i-k)2(10)
式中,yi和i分别表示第i个图像的主观评价得分和模型预测得分;yk和k分别表示所有yi和i的均值。PLCC的范围是[0,1],数值越高,表示算法的精度越高。
本文所提出的模型与几种优秀的传统质量评价模型进行比较,传统质量评价模型包括峰值信噪比(peak signaltonoise ratio,PSNR)[1],结构相似性(structural similarity,SSIM)[2],特征相似性(feature similarity,FSIM)[17],梯度幅度相似性偏差(gradient magnitude similarity deviation,GMSD)[3]和SCI感知質量评估(sci perceptual quality assessment,SPQA)[5]。本文模型与多种评价模型的性能对比如表1所示。
由表1可以看出,本文提出的预测模型,SROCC值为0862 4,PLCC值为0879 5。相比于传统的3种简单的评价方法PSNR、SSIM及FSIM,本文提出方法具有明显的优势。而相比于目前流行的高效方法GMSD以及针对屏幕内容图像质量评价方法SPQA,本文提出的方法,SROCC值和PLCC值略高于上述两种方法,可见本文提出的方法具有优秀的性能,相比于其他评价模型具有竞争性。
由表2可以看出,以LBP特征图作为样本比原始图像作为样本性能更优异。原始图像作为样本时,图像质量评价的结果只取决于CNN模型的设计;以原图像的LBP特征图作为输入时,事先突出了显示图像容易被辨识的纹理特征,使CNN模型更加直接的对引起失真的纹理差异进行学习训练。
由此可以证明,以LBP纹理图像作为卷积神经网络的样本时,可以提高图像的质量评价结果。
6结束语
本文提出的传统图像特征与深度学习模型相结合的方法虽取得不错的实验结果,但屏幕内容图像质量评价仍然是图像质量评价领域中具有挑战性的新颖课题,还有许多方面需要进一步完善。运用旋转不变均匀的LBP算法将图像进行预处理,得到的LBP特征图作为CNN模型的输入,相比于直接将图像进行训练学习,此法可使CNN模型更加直接和准确的学习图像的纹理特征。本研究所设计的端到端CNN模型以图像块为输入,而不是以整幅图像为输入,解决了训练样本不足的问题。在后续工作中,将继续提升CNN模型的结构,探究更加合理的训练方式和汇集策略。
參考文献:
[1]Wang Z, Bovik A C. Modern image quality assessment[M]. San Rafael, CA, USA: Morgan and Claypool, 2006.
[2]Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600612.
[3]Xue W, Zhang L, Mou X, et al. Gradient magnitude similarity deviation: A highly efficient perceptual image quality index[J]. IEEE Transactions on Image Processing, 2014, 23(2): 684695.
[4]Yi Z, Chandler D M, Xuanqin M. Quality assessment of screen content images via convolutionalneuralnetworkbased synthetic/natural segmentation[J]. IEEE Transactions on Image Processing, 2018, 27(10): 11.
[5]Yang H, Fang Y, Lin W. Perceptual quality assessment of screen content images[J]. IEEE Transactions on Image Processing, 2015, 24(11): 44084421.
[6]Kang L, Ye P, Li Y, et al. Convolutional neural networks for nofeference image quality assessment[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE Computer Society, 2014: 17331740.
[7]Fang Y, Yan J, Li L, et al. No reference quality assessment for screen content images with both local and global feature representation[J]. IEEE Transactions on Image Processing, 2018, 27(4): 16001610.
[8]Beamer L J, Carroll S F, Eisenberg D. The BPI/LBP family of proteins: a structural analysis of conserved regions[J]. Protein Science, 2008, 7(4): 906914.
[9]Smola A J, Bernhard S. A tutorial on support vector regression[J]. Statistics and Computing, 2004, 14(3): 199222.
[10]Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines[C]∥Intemational Conference on Leaming. ICML, 2010: 807814.
[11]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]∥Conference and Workshop on Neural Information Processing Systems. Lake Tahoe, Spain: NIPS, 2012.
[12]Sheikh H R, Bovik A C, de Veciana G. An information fidelity criterion for image quality assessment using natural scene statistics[J]. IEEE Transactions on Image Processing, 2005, 14(12): 21172128.
[13]Li C, Bovik A, Wu X. Blind image quality assessment using a general regression neural network[J]. IEEE Transactions on Neural Networks, 2011, 22(5): 793799.
[14]Ciresan D C, Meier U, Schmidhuber J. Multicolumn deep neural networks for image classification[J]. In Computer Vision and Pattern Recognition, 2012: 36423649.
[15]Wang Z, Li Q. Information content weighting for perceptual image quality assessment[J]. IEEE Transactions on Image Processing, 2011, 20(5): 11851198.
[16]Ye J, Bhagat S K, Li H M, et al. Differentiation between recurrent gliomas and radiation necrosis using arterial spin labeling perfusion imaging[J]. Experimental & Therapeutic Medicine, 2016, 11(6): 24322436.
[17]Zhang L, Zhang L, Mou X, et al. A feature similarity index for image quality assessment[J]. IEEE Trans Image Process, 2011, 20(8): 23782386.
CNN Model for Screen Content Image Assessment Based on LBP
LI Ruidong, LIU Hai, YANG Huan
(College of Computer Science & Technology, Qingdao University, Qingdao 266071, China)Abstract: Due to the fact that traditional image quality assessment model cannot obtain satisfactory results on the screen content image, this paper proposes a screen content image assessment model based on the deep learning model. First, the screen content image is normalized, and the local binary pattern (LBP) algorithm is used to obtain the feature map by rotating the invariant uniform pattern. The convolutional neural network is used to evaluate the quality of the local binary feature map. In order to verify the accuracy of the proposed screen content image quality assessment model, Spearman′s rank correlation coefficient and Pierce′s linear correlation coefficient are used for verification. The verification results show that the model in this paper has obvious advantages compared with traditional quality assessment models, indicating that this model is more in line with the subjective assessment results than most existing image quality assessment (IQA) methods. Compared with other models, the model is more competitive. This study provides a theoretical basis for improving the accuracy of the assessment results.
Key words: image quality assessment; screen content image; LBP; convolutional neural network
收稿日期: 2020-02-11; 修回日期: 2020-03-09
基金項目: 青岛市应用研究资助项目(2016025)
作者简介: 李瑞东(1994-),男,硕士研究生,主要研究方向为计算机视觉。
通信作者: 杨环,女,博士,硕士生导师,主要研究方向为人工智能和计算机视觉等。 Email: cathy_huanyang@hotmail.com