胡方尚, 郭 慧
(华东理工大学机械与动力工程学院,上海 200237)
基于改进多类支持向量机的印刷缺陷检测
胡方尚, 郭 慧
(华东理工大学机械与动力工程学院,上海 200237)
针对印刷品缺陷检测问题,为了对缺陷位置、形状、类型等信息进行有效的识别和分析,提出了一种基于改进多类支持向量机的印刷缺陷检测方法。首先根据人眼视觉特性,将配准后的印刷图像通过基于动态阈值的差分运算,快速地得到二值缺陷图像;然后采用由缺陷几何特征和形状特征构成的特征向量对缺陷信息进行分析和描述;最终通过改进的多类支持向量机实现印刷缺陷的准确识别。实验结果表明,相对于一对一型支持向量机(OVOSVM)和一对多型支持向量机(OVRSVM),在实际训练样本较少的情况下,该方法具有检测速度快、识别准确率高的特点,能够有效解决印刷品缺陷检测问题。
缺陷检测; 差分运算; 支持向量机; 动态阈值; 印刷品
随着现代印刷行业的自动化程度越来越高,企业对缺陷检测技术的要求也越来越高。机器视觉具有实时性强、准确率高和稳定性好等特点,能够很好地适应和满足印刷质量检测的要求[1]。因此,它对传统印刷检测水平的提高具有重要的现实意义。
目前,国内外对基于机器视觉和图像处理技术的印刷缺陷检测进行了一些研究。Luo等[2]提出了一种基于人工神经网络的彩色印刷品检测算法,它通过分析颜色直方图提取图像特征,利用人工神经网络对提取的特征信息进行模式识别,最终判定印刷图像是否存在缺陷;Mehenni等[3]提出了一种n-tuple和逐像素比较相结合的检测方法,但它通过对所有的像素点进行比较只能检测到缺陷位置,并不能获得缺陷的具体形状、类型等信息,而且缺陷检测的速度较慢;徐敏等[4]提出了一种基于Blob的印刷缺陷形态学分析方法,通过区域生长分割算法对图像中存在像素差异的区域进行划分,但采用Blob算法只能分析和描述完全连通缺陷区域的图像特征,而对于不完全连通缺陷区域要借助数学形态学处理。
为了克服上述检测方法的局限性,有效识别印刷图像中缺陷位置、形状、类型等信息,本文提出了一种基于改进多类支持向量机的印刷缺陷检测方法。首先根据人眼视觉特性,将配准后的印刷图像通过基于动态阈值的差分运算,快速地得到二值化缺陷图像;然后采用由缺陷边缘特征和区域特征构成的特征向量对缺陷信息进行分析和描述;最终通过改进的多类支持向量机实现印刷缺陷的准确识别。
1.1 常见的印刷缺陷
印刷质量一般是指印刷品各种外观特性的综合效果,本文讨论的印刷缺陷则是待检印刷图像相对于标准模板图像的忠实程度,即与模板存在像素差异的区域则认为印刷缺陷[5]。根据数字印刷生产工艺特点和印刷产品质量评价标准,综合各种缺陷特征,本文将印刷缺陷分为3大类,如表1所示。
表1 印刷缺陷分类
图1所示为实际印刷生产过程中常见的缺陷,为了能够清晰地显示印刷缺陷信息,图像均经过二值化处理。
1.2 印刷缺陷检测流程
印刷缺陷检测的基本原理是将印刷图像与标准模板进行比较,寻找二者之间的差异并进行分析,从而获得印刷图像中的缺陷信息。因此,本文在图像匹配完成的基础上重点研究和实现印刷缺陷检测的关键技术。图2所示为本文设计的印刷缺陷检测流程图,虚线框内部分为图像处理和分析模块。
图1 二值缺陷图像
图2 印刷缺陷检测流程图
2.1 基于动态阈值的图像差影
为了能够直观地显示印刷图像与标准模板之间的差异,通常的做法是图像差影,即将二者对应像素的灰度值进行差分运算,然后按照设定的灰度阈值对图像匹配的结果进行判决。对于印刷缺陷检测而言,采用固定的灰度阈值并不能得到较好的检测结果,因此,本文提出一种基于动态阈值的图像差影。
设f(x,y)为标准图像,g(x,y)为待检图像,则差分图像s(x,y)可以表示为
(1)
本文动态阈值是在全局最优准则下,首先确定出一个固定阈值,该阈值具有一定的抗噪声能力,然后利用差分点所在位置的灰度分布特性,对其进行修正,所得阈值即为动态阈值,如式(2)所示。
(2)
式中:Txy为动态阈值;T为固定阈值;α为修正系数。若α=0,表示阈值按全局灰度特性确定;若α=1,表示阈值完全按局部灰度特性确定。本文具体算法中调整系数α的选取通过实验予以确定,固定阈值T根据最大类间方差法自动选择。
由于修正系数α的存在,使得图像上各像素点都有随灰度变化的动态阈值。它能同时兼顾全局最优和局部感兴趣细节,更符合人眼视觉特性,即在灰度值不同的区域,人眼对相同的灰度差值也会有明显的感官差异。因此,二值缺陷图像B(x,y)可以表示为
(3)
根据人眼的视觉特性,在相同亮度的刺激下,人眼对不同背景亮度所感觉到的明暗程度也不同[6]。从视觉感官效果来看,人眼对于处于较暗(灰度值较小)的区域更为敏感,能分辨更小的灰度差异,而对于较亮(灰度值较大)的区域却很难分辨灰度的差异。图3所示为视力与亮度关系曲线,横坐标为亮度的对数,纵坐标为白地黑圈兰道尔环视力。图像灰度的取值范围为0~255。
图3 人眼视觉特性曲线
图4所示为不同灰度区域的动态阈值范围,图中矩形框的上下底边表示灰度值所决定的灰度阈值范围。可以看出,所设定的动态阈值对于高灰度区域的像素点有更大的允许范围。
图4 灰度阈值范围
2.2 缺陷区域分割与特征提取
印刷缺陷的区域分割实际上是对二值图像中缺陷像素点(灰度值为255)进行搜索与聚类的过程。区域生长法是最基础的图像分割技术,其基本思想是从一组生长点开始,将与该生长点相似的相邻像素或区域与生长点合并,形成新的生长点,重复此过程直到不能生长为止[7]。区域生长一般包括3个基本要素:选择合适的生长点;确定相似性准则即生长准则;判断生长停止条件。图5所示是一个区域生长的实例,其中加括号的像素表示已被生长点,未加括号的像素表示未被生长点。图5(a)所示为原图像,数字表示像素的灰度值,初始生长点选择灰度值为255的像素,图5(b)所示为生长停止后的区域生长结果。
00254000254(255)2540025225300002530000000éëêêêêêêùûúúúúúú00(254)000(254)(255)(254)00(252)(253)0000(253)0000000éëêêêêêêùûúúúúúú(a)初始生长点(b)区域生长结果
图5 区域生长示意图
Fig.5 Regional growth
为了提高缺陷区域分割的速度,本文提出了一种混合型的区域生长算法,它把图像分成若干小区域,通过比较相邻区域的灰度特征实现区域生长。由于实验采用的CCD分辨率为500 ppi,要求检测到的最小缺陷为0.025 mm2,而一个像素的大小为0.002 6 mm2,即可检测到的最小缺陷面积大概是9个像素的大小。因此,可以将每9个像素看成一个小区域作为最小基本单元,这样整个图像就被重新划分成众多边长为3个像素的正方形区域。图像分区如图6所示,以图像的左上角为坐标原点,分别作x和y轴,建立坐标系,其中,区域A坐标为(3,2)。
本文用每个分区内9个像素的灰度平均值表示分区的灰度信息,然后有分区代替单个像素完成区域生长。通过图像分区,大大减少了计算量,加快了程序的执行速度,而且由于连续色调图像各像素间的关联性及数据的冗余性,这种方法对缺陷区域分割结果并没有太大的影响。
图6 图像分区
通过对缺陷点的搜索聚类完成缺陷区域分割,进一步统计缺陷信息可以提取缺陷区域的各种特征参数,包括面积、周长、边缘、长宽比、分布方向等。
根据印刷品生产过程可知,飞墨、脏点等缺陷往往为圆形或者椭圆形,且形状大小不唯一。取长径l和圆形度ρ表示缺陷形状特征,则计算公式如下:
l=max(lx,ly)
(4)
式中:lx为x方向长度;ly为y方向长度。
(5)
式中:s为面积,即缺陷区域中的像素总数;c为周长,即位于缺陷区域边界上的像素数目。
刀丝、刮板等缺陷大多为均匀直线,且一般沿印刷品行走方向。取长宽比k表示直线特征,则计算公式如下:
(6)
颜色失真、墨色浓淡等缺陷通常与标准图像色差相对较小,且分布均匀。取差分图像(未二值化的灰度缺陷图像)的灰度标准差σ表示颜色特征,则计算公式如下:
(7)
式中:hi为差分图像的缺陷区域中各像素灰度值;E为差分图像中缺陷区域的灰度均值。
(8)
标准差越小,缺陷区域的灰度分布越均匀,反之核心物体的灰度分布不均匀。
2.3 基于改进多类SVM的缺陷识别
印刷图像经过缺陷区域分割和特征提取之后,需要对获得的缺陷信息进一步处理和分析,才能完成印刷缺陷的分类和识别,这是一个模式识别过程。传统模式识别技术(如人工神经网络)采用经验风险最小化准则,在缺乏代表性的小训练集情况下,一味地降低训练集上的分类错误就会导致过度拟合[8]。支持向量机依据统计学习理论采用结构风险最小化准则,同时兼顾训练误差与测试误差的最小化,因而对于未见过的测试样本具有更好的推广能力[9]。为了提高缺陷检测速度和识别率,本文将二叉决策树与向量支持机相结合,并引入优先级概念,采用改进的多类分类算法实现印刷缺陷准确识别,图7所示为本文改进的多类SVM结构示意图。
图7 改进的多类SVM结构示意图
在每次对k类训练样本进行训练生成二叉树结构时,首先是将类间距最小的两类合并为新簇Ⅰ得到一个新的父结点,同时训练生成一个子SVM分类器。同理再对其余k-2类样本中类间距最小的两类合并为新簇Ⅱ,并训练生成另一个子SVM分类器,直至最终得到二叉树的根结点,即训练完成。对测试样本的分类过程为训练过程的逆方向,从根结点开始进行判断,经相应结点的SVM分类器测试后生成左、右两个子结点,若子结点是叶结点则直接确定样本所属类别,否则继续测试直到找到叶结点为止。具体算法流程如下:
Step 1 在特征空间中,每个类都会存在k-1个与其他类的距离值。根据式(9)计算类i与类j间的距离dij(i,j= 1,2,…,k,且i≠j)。
(9)
Step2 将第i类与其他k-1个类的距离值按从小到大的顺序排列,并重新编号为
Step3 通过聚类的方法将类间距最小的两个类合并成一个新簇Ⅰ,并训练生成第1个子SVM分类器;同理对剩下的k-2个类进行类间距的计算,将类间距最小的两类合并成新簇Ⅱ,并训练生成第2个子SVM分类器,直至得到第k-1个子SVM分类器,此时训练结束。
Step4 对测试样本进行分类决策,在Step3形成的二叉树根结点处利用SVM子分类器测试,判断生成的子结点是否为叶结点(即层级为0)。若是则转Step7;否则转Step5。
Step5 利用该结点的SVM子分类器进一步测试,确定测试样本属于该结点下一级左结点还是右结点。
Step6 判断Step5的左结点(或右结点)是否为叶结点,若是则转向Step7;否则转向Step5。
Step7 确定样本所属类别,程序结束。
为验证本文印刷缺陷检测方法的效果,实验在64-bitWindows7操作系统上使用LibSVM作为开发平台,基于C++语言对源代码进行修改编译,实现本文印刷缺陷检测算法。选取600张印刷缺陷样本,其中包括脏点、飞墨、刀丝、刮板、糊版、色墨浓淡样本各100张。根据2.2节中的统计特征参数对缺陷样本进行训练测试,训练集样本数为300,测试集样本数为300,且各类别样本数比例相同。
按照LibSVM应用程序运行要求,在训练之前需要对印刷缺陷特征向量X=(s,l,k,ρ,σ)进行归一化处理,使得数值分布于[-1,+1]范围内。满足格式要求的数据准备完成后,实验选用径向基核函数K(x,y)=exp(-γ‖Xi-Xj‖2)作为核函数,利用交叉验证方法对γ以及C进行评估。根据最佳核参数γ和惩罚系数C对整个训练集进行训练从而获取相应的支持向量机模型,最后通过构建的二叉树多类SVM模型对剩余的300个样本进行测试。以SVM1为例,通过参数选择工具grid.py得到最佳核参数γ为0.007 812 5,最佳惩罚系数C为128,对应交叉验证的识别率为97.5%。
为了进一步验证改进的多类支持向量机性能,本文同时与一对一和一对多型支持向量机进行比较。表2所示为3种算法的训练时间、分类时间以及识别率的对比结果、表3所示为各种缺陷类型在不同算法下的识别率统计结果。
表2 实验数据对比结果
表3 缺陷识别率统计结果
由表2可知,本文改进的多类支持向量机无论在训练时间、测试时间还是识别率方面都有较好的表现。由于本文引入优先级概念,把类间距最小的两类结合起来先进行分类,有利于排除对后续分类产生的干扰,同时减少了SVM分类器的数量(本文只需要构造k-1个)。因此,算法大大节省了训练和测试时间,提高了整体分类的速度以及识别率。由表3可知,本文算法对各种类型的印刷缺陷均有较好的识别效果,而且刮板缺陷识别率到达100%。另外,由于糊版缺陷相对难以分割,容易造成特征信息丢失,从而增加了缺陷识别难度,导致糊版相对于其他类型缺陷在3种算法中都有比较低的识别率。
本文在图像匹配的基础上对印刷缺陷检测关键技术进行研究,提出了一种基于改进多类支持向量机的印刷品缺陷检测方法,得到以下结论:
(1) 设定动态阈值,以同时兼顾全局最优和局部感兴趣细节,使二值缺陷更符合人眼视觉特性;
(2) 运用图像分区,大大减少了计算量,加快了程序的执行速度;
(3) 引入优先级概念,有利于排除分类干扰,提高整体分类的速度和识别率;
(4) 实验结果表明,本文方法能够有效地识别和分析缺陷位置、形状、类型等信息,具有较高的检测速度和识别率。
[1]张媛.基于DSP的印刷品质量检测系统研究[J].淮海工学院学报,2014(1):11-14.
[2]LUO J,ZHANG Z.Automatic colour printing inspection by image processing[J].Journal of Materials Processing Technology,2003,139(1):373-378.
[3]MEHENNI B,WAHAB M A.APRIS:Automatic pattern recognition and inspection system[J].Computers in Design,Manufacturing and Production,1993(5):23-28.
[4]徐敏,唐万有,马千里,等.基于Blob算法的印刷缺陷在线检测的研究[J].包装工程,2011(9):20-23.
[5]吴鹏.数字印刷品质量检测与评价方法[J].印刷技术,2015(9):33-35.
[6]王锋,阮秋琦,徐金强.基于动态阈值和分层检测的图像缺陷识别算法的研究与应用[J].北京交通大学学报,2002,26(1):19-22.
[7]LIRA J,MALETTI G.A supervised contextual classifier based on a region-growth algorithm[J].Computers & Geosciences,2002,28(8):951-959.
[8]HASSOUN M H,INTRATOR N,MCKAY S,etal.Fundamentals of Artificial Neural Networks[M].Massachusetts,USA:MIT Press,2010:906.
[9]HSU C W,LIN C J.A comparison of methods for multi-class support vector machine[J].IEEE Transaction on Neura1 Network,2002,13(2):415-425.
Printing Defects Inspection Based on Improved Multi-Class Support Vector Machine
HU Fang-shang, GUO Hui
(School of Mechanical and Power Engineering,East China University of Science and Technology,Shanghai 200237,China)
To recognize the defects of printed matter effectively,a method of printing defect inspection based on the improved multi-class support vector machine is proposed.According to the human visual characteristics,the binary defect image is rapidly obtained by the subtraction operation of registered image based on dynamic threshold.A feature vector consisting of defect geometric feature and shape feature is used to describe the defect of printing,and finally the accurate identification of printing defects is realized by the improved multi-class support vector machine.The experimental results show that in the case of less training samples the proposed method has faster detection speed and higher recognition accuracy than OVOSVM and OVRSVM,which can effectively solve the problem of printing defect inspection.
defect inspection; subtraction operation; SVM; dynamic threshold; printed matter
1006-3080(2017)01-0143-06
10.14135/j.cnki.1006-3080.2017.01.022
2016-06-29
胡方尚(1992-),男,硕士生,主要研究方向为计算机图形学、机器视觉。
郭 慧,E-mail:huiguo@ecust.edu.cn
TP391
A