王思琦 周强 田杏芝
摘 要:针对传统纸病检测中相似纸病辨识准确率低及纸病提取特征维数高致使纸病辨识过程时间较长的问题,提出一种基于主成分分析(PCA)的纸病特征再提取算法。该算法以多种纸病的图像为研究对象,对可能存在相关关系的高维原始纸病特征量进行PCA降维处理并去除相关成分,形成相互独立且更具代表性的纸病新特征,在减少数据处理量的同时使纸病辨识准确率明显提高。实验表明,PCA算法可显著提高纸病辨识准确率并可大幅缩短算法平均运行时间。
关键词:纸病特征;特征维数;主成分分析;检测算法;运算量
中图分类号:TS736+.2
文献标识码:A
DOI:10.11981/j.issn.1000-6842.2019.03.54
随着现代造纸技术的改进和纸张大批量的生产,在复杂工序中,机械设备调试不当或纸浆纤维质量不高等原因会使纸张出现瑕疵(也称纸病),从而影响纸张质量。因此,纸病检测成为纸张生产过程中必不可少的一项工作。此外,对各类纸病的准确识别也对纸张生产过程起着重要的指导作用。
传统的纸病依靠人工检测,但人工检测具有实时性差、效率低等缺点,已经越来越不适应于现在的造纸生产过程。随着机器视觉技术的发展,人们开始将自动检测纸病的方法引入纸病检测领域以代替传统人工检测方法[1-2]。其中,基于机器视觉的纸病检测方法利用工业相机拍摄纸病图像,对纸病图像进行预处理、初步提取出纸病区域后,在图像灰度空间、几何空间以及形态空间构建合适的纸病特征量[3-4],最后,根据纸病图像在特征空间的投影,使用特征分类器辨识出有无纸病并断定纸病类型[5]。
纸病检测方法的核心是纸病辨识特征的提取环节,支撑该环节的是由人工完成的纸病特征量确定技术。利用该技术,算法设计者所确定的特征量直接关系到整个纸病检测系统的检测精度和效率[6]。但是目前,这一工作具有盲目性,无法保证纸病特征量的完备性和独立性;因此,现有的检测方法难以对特征相似的纸病进行准确区分[7-8]。例如,褶皱纸病和划痕纸病,都呈条状,周长、面积等形态特征较为相似,且纸病区域灰度与其他部分的灰度差别不大;若仅依靠灰度特征与周长、面积等形态特征则难以取得
理想的纸病辨识效果。因此,相似的纸病特征给纸病辨识特征量的确定增大了困难[9-10]。通常,只能依靠增加纸病特征量的维数才能勉强达到区分纸病的目的。但是,过多的纸病特征量维数必然会造成计算量膨胀,导致纸病辨识系统运行时间长[11],且人工选取的纸病特征量之间往往不具有独立性,易發生耦合干扰,影响辨识效果,从而造成某些纸病的辨识准确率始终难以提高[12]。
针对以上问题,本课题提出了基于主成分分析(PCA)的纸病特征再提取算法,通过去除纸病原特征的相关成分,保留独立成分的线性变换过程[13],将之转化为少数综合的纸病新特征(主成分),在保留绝大部分有效信息的同时达到了降低纸病特征维数的目的。实验结果表明,采用该算法所获取的纸病新特征包含的信息能更加突出各种纸病的特点,使数据处理量减少的同时达到了较高的纸病辨识准确率。
1 纸病类型及当前主流辨识方法效果分析
1.1 纸病类型及其特征描述
目前,纸张生产过程中常见纸病包括黑斑、亮斑、孔洞、褶皱、划痕、边裂等[14]。黑斑是指纸面上灰度较小、图像中有明显较暗斑点状的纸病,如图1(a)所示;亮斑则是由于纸张某处纤维层较薄但尚未穿透、透光度比其他部分大导致图像中呈现较亮点状区域的纸病,如图1(b)所示;孔洞纸病指在纸张上有完全穿透纸张且穿透部分没有留下纤维的孔眼,
如图1(c)所示;划痕纸病为造纸生产过程中,机械部件在纸张表面摩擦划过而留下的印痕,如图1(d)所示;而边裂纸病是指纸张中部或边缘出现的裂缝或破损口,如图1(e)所示;褶皱纸病则为纸张在传送过程中,由于传送器械等原因造成的纸张不平整[15],如图1(f)所示。
由于产生的原因不尽相同,理论上,每类纸病图像都应具有能够区别于其他类纸病的自身特征,即在纸病特征空间的各个特征上应有不同程度的体现,各种纸病的具体特征表现如表1所示。
如表1所示,黑斑、孔洞、亮斑纸病的灰度特征(灰度均值、灰度标准差)、面积、周长和圆形度等形态特征表现明显或较明显。由于灰度和背景较为相似,因此,边裂、褶皱、划痕3种纸病在灰度特征方面表现并不明显;但此3种纸病呈条形,因此,它们的面积、周长、致密性和长宽比等形态特征表现为明显或较明显,与其他纸病有明显区别。
每种纸病都具有区别于其他纸病的特征,正是由于这些特征的存在,使得纸病辨识具有科学依据,也使机器视觉在纸病检测领域有了较为广泛的应用。
1.2 当前主流辨识方法核心技术及其不足
目前,主流的纸病检测过程都是在对原始纸张表面图像进行预处理、划分出纸病区域之后,根据人工确定的、能够反映各种纸病的共性特征,从纸病图像中提取出多个纸病特征并借助分类器实现纸病类型的辨识分类,具体过程如图2所示。
纸病检测过程中,最关键的环节是纸病特征的提取。纸病特征的作用是将纸病与背景图像及不同类型的纸病区分开。从当前的研究成果来看,纸病特征主要集中在灰度和形态两大特征空间中。灰度特征主要是通过空域分析、频域分析、统计分析等方法,提取出图像的灰度均值、灰度标准差、灰度熵等特征,而形态特征主要包括纸病图像区域面积、长宽比等特征信息[3]。
目前,利用一个或若干个特征将纸病与背景图像分离,或将相似纸病进行进一步辨识的难度还很大。以孔洞和黑斑两种纸病为例,它们的灰度均值、灰度标准差等灰度特征虽然较为突出,但这两种纸病的灰度特征十分接近,利用这些特征虽然能够将孔洞和黑斑与其他纸病区别出来,却很难将这二者加以区分。由于需要辨识的纸病较多,且其中有些纸病特征十分相似;因此,纸病特征空间的构建过程中,特征量的完备性、独立性和高效性很难完全满足。通常,在纸病辨识前,必须从多个特征空间中确定一组能够准确反映纸病的存在和有效区分纸病类型的特征量来涵盖各种纸病具有的所有特征,即具有完备性的纸病特征空间。但是,这样做在满足纸病特征完备性的同时会使纸病特征维数增加、纸病特征量稀疏性变差,从而产生运算量增大的问题;且由于这些纸病特征量之间往往具有相关性,反映出来的信息便会出现一定的耦合作用,在不同程度上会造成相互干扰[11],使得纸病辨识准确率不甚理想。
针对以上问题,本课题提出了一种基于PCA的纸病特征再提取算法,此算法可以去除原纸病特征量之间的相关性,对数据进行降维,达到提高运算速度及纸病辨识准确率的目的。
2 基于PCA的纸病特征再提取算法
2.1 总体思路
PCA是一种多元统计方法,其总体思路就是将一组可能存在相关性的变量转换为相互独立的变量[16]。本课题所提出的基于PCA纸病特征再提取算法就是利用线性拟合的思路对原纸病特征进行线性组合,将分布在多个维度的高维数据从原空间投影到所选的低维特征空间中,形成少数综合性强的纸病新特征,以尽可能多地反映原来各纸病特征的信息,其数学表达式为:
式中,X1,X2,…,Xp 为纸病原特征向量,Y1,Y2,…,Yp为线性变换后的纸病新特征变量,u1,u2,…,up为线性表达式的系数向量,其中,ui=(ui1,ui2,…,uip)。为了使纸病特征信息的损失尽可能小,在降维过程中,保留特征空间坐标中方差贡献较大的纸病特征方向,即“主成分”。
基于PCA纸病特征再提取算法将可能存在相关性的多维纸病原特征进行线性变换,形成相互独立的纸病新特征,以其中灰度标准差最大的纸病新特征构建新的低维纸病特征空间;在保留主要纸病特征信息的同时完成降维提取,最后将纸病新特征输入分类器中进行辨识分类,具体过程如图3所示。
由图3可知,对所有纸病图像进行预处理之后,原特征较为明显的纸病图像可以直接提取进入分类器,对于原特征不明显、需要增加特征维数来进行判断的纸病图像,则需要利用基于PCA纸病特征再提取算法,对原特征进行降维操作,提取出低维的新特征,之后再输入分类器中进行辨识分类。
2.2 基于 PCA的纸病特征再提取算法
本课题中,基于PCA的纸病特征再提取算法步骤如图4所示。
经过上述变换过程,标准正交特征向量矩阵u中的元素为式(1)中每个特征向量的系数,而系数绝对值的大小也决定着纸病原特征量在纸病新特征量中的比例。本课题依据纸病原特征协方差矩阵C的特征值大小来进行主成分的选择,将特征值比例较大的前几个特征值的个数i(i
由此便选出了主成分,最后,根据选择出的纸病新特征,结合分类器来進行纸病类型的辨识。
3 实验结果及分析
本文对黑斑、孔洞、亮斑、褶皱、边裂和划痕等主要纸病进行了仿真实验,具体实验过程如图5所示。
(1)预处理。对纸病图像进行去噪和图像分割处理。使用中值滤波去除纸病图像的多余噪声,并根据检测需要使用的阈值分割划分出纸病区域。在分割过程中,形状较为细长的纸病可能会存在多连通域的情况。因此,本课题利用形态学处理方式(膨胀、腐蚀等)去除多余噪点,使这种纸病区域更为完整。
(2)纸病原特征提取。对纸病图像进行初步的特征提取操作,主要包括灰度均值、灰度标准差、周长、面积、致密性、矩形度、圆形度及长宽比8个纸病特征,并按顺序组成纸病原特征矩阵X。由于纸病类型及特征数较多,文中仅列出褶皱及划痕纸病的部分图片特征数据,如表2和表3所示。灰度均值等纸病原特征分别表示为式(1)中的X1,X2,…,X8。
(3)PCA纸病特征再提取。基于步骤(2)所提取出的纸病原特征矩阵X,求出它的协方差矩阵C,继而计算出协方差矩阵C的特征值λ与标准正交特征向量阵u,由特征值比例选择主成分维数。由于褶皱与划痕纸病前4个特征值所占比例分别为97.0832%与97.4305%,所以选择降维后的纸病特征数为4。选择后的褶皱纸病和划痕纸病的特征值及其对应的特征向量阵如表4和表5及表6和表7所示。其中,表6和表7中的每一列分别为式(1)中的ui1,ui2,…,ui8(1≤i≤4),uTX的结果为降维后的纸病新特征量。这一步完成了纸病特征数的降维,即将纸病特征数从8维降为4维。
由表6可知,褶皱纸病新特征3中,灰度均值、矩形度和长宽比的系数绝对值较大;由表7可知,划痕纸病新特征3中,灰度均值、灰度标准差、矩形度、面积、圆形度和长宽比的系数绝对值较大。因此,这些特征值在纸病新特征中占比较大,在重构纸病新特征时需重点体现。
(4)纸病类型辨识分类。本课题采用支持向量机(Support Vector Machine,SVM)作为辨识分类器对步骤(3)uTX的结果进行多分类。首先,实验针对黑斑、孔洞、亮斑、褶皱、边裂和划痕6类纸病进行辨识分类,结果如表8所示。
基于PCA的纸病特征再提取算法可在去除纸病原特征间相关性的同时对纸病进行降维操作,保留了原数据的绝大部分信息,且脱耦及提升纸病辨识准确率的效果明显。由表8和表9可知,与传统方法相比,基于PCA的纸病特征再提取算法的纸病辨识准确率提高了4.40个百分点,运算时间降低了54.6%;对褶皱、划痕、边裂此3种特征相似纸病的辨识准确率提高了5.74个百分点,运行时间降低了49.2%。
本课题中,保留的纸病新特征维数为4,在实际操作过程中,新特征维数的选择对最后的辨识结果也有着一定的影响。因此,新特征的选择情况会随着具体情况的不同而发生改变。
4 结 语
本课题以含有多种纸病的纸张表面图像为研究对象,提出了基于主成分分析(PCA)的纸病特征再提取算法,通过构建纸病新特征空间,降低了纸病原特征量的维数,该算法能够明显提高纸病辨识的速度,改善相似纸病的检测精度,在实际的纸病检测应用中具有明显优势。
参 考 文 献
[1] HU Nan. A study and reflection on Paper Industry Development Policy[J]. China Pulp & Paper Industry, 2009, 30(4): 6.
胡 楠. 关于《造纸产业发展政策》的学习与思考[J]. 中华纸业, 2009, 30(4) : 6.
[2] ZHOU Xin, ZHANG Feng. Identifying the Source of Sheet Flaws[J]. World Pulp and Paper, 2011, 30(2) : 42.
周 信, 张 锋. 纸病来源的鉴别[J]. 国际造纸, 2011, 30(2): 42.
[3] ZHOU Qiang, CHEN Ying, SHEN Tian-yu, et al. Review on Development of Paper Defect Detection System Based on Machine Vision Technology[J]. China Pulp & Paper, 2016, 35(5) : 72.
周 强, 陈 颖, 沈天宇, 等. 基于机器视觉的纸病检测系统发展综述[J]. 中国造纸, 2016, 35(5) : 72.
[4] Iivarinen J, Heikkinen K, Rauhamaa J, et al. A defect detection scheme for web surface inspection[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2000, 14(6) : 735.
[5] DANG Hong-she, WANG Li, ZHOU Qiang. Design of Paper Defect Extraction System Based on FPGA[J]. Transactions of China Pulp & Paper, 2014, 29(3) : 43.
党宏社, 王 黎, 周 强. 基于FPGA的纸病提取系统的设计[J]. 中国造纸学报, 2014, 29(3) : 43.
[6] YANG Bo, ZHOU Qiang, ZHANG Gang-qiang. Study on Algorithm of Paper Defect Detection Based on Geometric and Gray Feature[J]. China Pulp & Paper, 2011, 30(9) : 50.
楊 波, 周 强, 张刚强. 基于几何及灰度特征的纸病检测算法研究[J]. 中国造纸, 2011, 30(9) : 50.
[7] ZHI Chuan, LIANG Qiao-ping, LU Zhao-qian, et al. Application of principal component analytical method in the evaluation of coated paper performance[J]. China Pulp & Paper Industry, 2010, 31(22) : 53.
智 川, 梁巧萍, 陆赵情, 等. 主成分分析法在涂布纸质量综合评价中的应用[J]. 中华纸业, 2010, 31(22) : 53.
[8] PAN Si-lu. The Study of Detection Algorithm of Paper Defects Based on Machine Vison[D]. Xian : Shaanxi University of Science & Technology, 2016.
潘思璐. 基于机器视觉的纸病检测算法研究[D]. 西安: 陕西科技大学, 2016.
[9] YUAN Jin-biao, ZHOU Qiang, ZHENG Hai-ying, et al. Paper Defects Offline Static Identification Based on Naive Bayes Classifier[J]. Transactions of China Pulp & Paper, 2014, 29(1) : 58.
院金彪, 周 强, 郑海英, 等. 基于朴素贝叶斯分类器的纸病离线静态辨识方法研究[J]. 中国造纸学报, 2014, 29(1): 58.
[10] WANG Yong-jun, CHEN WEN-kai, XIONG Zhi-xin, et al. Web Inspection Based on Hough Transform[J]. China Pulp & Paper, 2010, 29(3) : 59.
王勇军, 陈文凯, 熊智新, 等. 基于Hough变换的纸病检测分析[J]. 中国造纸, 2010, 29(3) : 59.
[11] Kang Jie, Pan Si-lu, Wang Xiao-dong. Segmentation Algorithm of Paper Defect Images Based on RPCA[J]. Transactions of China Pulp & Paper, 2017, 32(2) : 39.
亢 洁, 潘思璐, 王晓东. 基于RPCA的纸病图像分割算法[J]. 中国造纸学报, 2017, 32(2) : 39.
[12] He Xiao-qun. Modern Statistical Analysis Methods and Applications[M]. 3rd Ed. Beijing: China Renmin University Press, 2012: 152.
何晓群. 现代统计分析方法与应用[M]. 3版. 北京: 中国人民大学出版社, 2012: 152.
[13] LI Xin-rui. Compare and Application of Principal Component Analysis, Factor Analysis and Clustering Analysis[J]. Journal of Shandong Education Institute, 2007(6) : 23.
李新蕊. 主成分分析、 因子分析、 聚類分析的比较与应用[J]. 山东教育学院学报, 2007(6) : 23.
[14] NIE Feng-mei, ZHANG Jun-mei. Paper Disease Detection Based on Machine Vision[J]. Mechanical Engineering & Automation, 2016(2) : 37.
聂凤梅, 张俊梅. 基于机器视觉的纸病检测[J]. 机械工程与自动化, 2016(2) : 37.
[15] REN Peng. Detection System of Paper Defects Based on Machine Vision and ImplemenTtation with C/C++[D]. Xian: Shaanxi University of Science & Technology, 2013.
任 鹏. 基于机器视觉C/C++实现的纸病检测系统的研制[D]. 西安: 陕西科技大学, 2013.
[16] WANG Wen-bo, CHEN Xiu-zhi. Comparison of Principal Component Analysis with Factor Analysis in Comprehensive Multi-indicators Scoring[J]. Statistics & Information Forum, 2006(5) : 19.
王文博, 陈秀芝. 多指标综合评价中主成分分析和因子分析方法的比较[J]. 统计与信息论坛, 2006(5) : 19.
Abstract:Because of the low accuracy in identification of similar paper defects in traditional paper defect detection and the slow running speed of the system caused by high feature dimension extraction, a PCA-based paper defect feature re-extraction algorithm was proposed. This method took various paper defect images as the research object, PCA was adoped to deal with the dimension reduction of high-dimensional original features that may have correlations and remove their related components so as to form new defect features which were indepen-dent and more representative, so that the data processing amount was reduced. At the same time, the identification accuracy of paper defects could be significantly improved. Experiments showed that the algorithm could significantly improve the accuracy of paper defect identification and the average running time of the system was greatly shortened.
Keywords:paper defect features; feature dimension; principal component analysis; detection algorithm; computation amount
(责任编辑:杨 艳)