王小明 魏甲欣 马 飞 王艺斌 许文武 靳亚伟 李 琪
(1. 河南中烟工业有限责任公司许昌卷烟厂,河南 许昌 461000;2. 南京焦耳科技有限责任公司,江苏 南京 210000)
传统的烟丝识别方法测定步骤复杂,检测效率低下且测量误差大。刘晓萍等[1]、胡立中等[2]提出了一种基于近红外光谱的烟丝识别方法,但由于叶丝中混合较多其他的杂质如烟末、烟梗、碎烟片等,而这些杂质成分的红外光谱信息与烟丝其他组分太过相似,差异性较小,会导致识别时误差较大,不能很好地对烟丝进行区分;高振宇等[3]提出了一种基于卷积神经网络的识别方法,但其在测试集上的准确率相对来说并未达到较高的水准,而且模型泛化能力较低;钟宇等[4]提出一种基于残差神经网络的烟丝分类识别的方法,该方法相比于卷积神经网络方法在识别率上有了一定的提高,但对于一部分宏观差异不明显的烟丝的识别效果较差。
基于不同组分之间的烟丝在纹理、颜色、形状上存在差异性,研究拟提出一种基于AdaBoost集成学习的烟丝识别方法,利用F-score特征选择方法和AdaBoost集成学习方法对烟丝组分进行识别,提取烟丝的纹理、颜色、形状特征作为模型的输入,通过F-score特征选择方法降低特征维度,以SVM[5]作为基分类器,再利用AdaBoost集成学习方法,得到烟丝的分类模型,通过烟丝模型对烟丝进行分类,旨在实现烟丝的快速准确识别,提高烟丝的识别效率。
如图1所示,通过烟丝结构检测系统采集烟丝的图像,对图像进行预处理,分割出烟丝,再提取烟丝图像的颜色、纹理、形状特征,利用F-score特征选择方法对特征数据进行优化选择,通过AdaBoost集成学习方法得到烟丝的分类模型,并对烟丝的组分进行判别统计。
图1 基于AdaBoost集成学习的烟丝识别方法的流程示意图Figure 1 Flowchart of cut tobacco recognition method based on AdaBoost ensemble learning
烟丝结构检测系统的硬件平台如图2所示,主要由喂料机、烟丝输送皮带、可见光光源、光源控制器、高速CCD相机、采集卡、工控机、触摸屏组成。
1.喂料装置 2.风选仓 3.分散装置 4.相机镜头 5.LED光源 6.高速皮带机 7.收料仓图2 烟丝结构检测系统三维图Figure 2 Three-dimensional diagram of cut tobacco structure detection system
利用工业相机分别采集了薄片丝、梗丝、叶丝的图像,分辨率为8 192×8 000,3个等级分别对应标签0,1,2。为了采集到每一片烟丝的特征,需要对图像进行分割[6],分割出每一片烟丝。首先对图像进行预处理,对采集到的烟丝图像进行去除噪声。去噪方式选用中值滤波法[7],采用3×3的滤波窗口,以尽可能保存图像的细节信息。由于烟丝图像中的背景部分存在略微明显的白色噪点,采用中值滤波可以取得较好的抑制效果。因为全局阈值分割的效果并不理想,所以采用OTSU算法[8],通过自动计算最佳阈值来对烟丝进行分割,提取烟丝的连通区域。通过对烟丝连通区域的外接矩形[9],提取到每一片的烟丝图像,方便之后的特征提取。如图3所示。
图3 烟丝图像Figure 3 Image of cut tobacco
1.2.1 纹理特征 纹理特征实际上是一种全局特征,通过对图像区域内灰度级变化的特征进行量化得到的一个值。纹理特征具有旋转不变性,且对噪声有较强的抵抗能力。
灰度共生矩阵是利用条件概率来反映纹理特征,是相邻像素之间的灰度相关性的表现,可以显示出图像在灰度空间分布的一些特性[10]。通常灰度共生矩阵的维数与图像中的灰度级数相同[11]。
根据灰度共生矩阵可以计算出对比度、差异性、同致性、二阶矩、能量、相关性,其数学表达式为:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
式中:
Contrast——对比度;
Dissimilarity——差异性;
Homogeneity——同致性;
ASM——二阶矩;
Enregy——能量;
Correlation——相关性;
ui——第i行的加权平均值;
uj——第j列的加权平均值;
i、j——灰度值;
k——灰度值的级数;
P(i,j)——灰度值i、j同时出现的概率。
1.2.2 LBP等价模式 为了更好地对烟丝进行区分,引入纹理特征局部二值模式[12](Local Binary Pattern,LBP)。其是一种描述图像局部纹理特征的算子,具有旋转不变性[13]和灰度不变性[14],可在一定程度上缓解光照变化带来的影响。由于原始的LBP模式维数过大,为了提高效率,采用改进后的LBP等价模式[15]。而且该模式也可以减少高频噪声带来的干扰。
1.2.3 颜色特征 颜色特征是区分不同种类烟丝的重要特征之一。颜色矩是由Stricker等[16]提出的一种简单有效的颜色特征表示方法。由于颜色信息主要分布在低阶矩中,所以用一阶矩、二阶矩和三阶矩足以表达图像的颜色分布,因此分别计算RGB颜色模型和HSV颜色模型各通道的一阶矩、二阶矩和三阶矩作为烟丝的颜色特征。
一阶矩、二阶矩、三阶矩的数学定义如下:
(11)
(12)
(13)
式中:
μi——颜色一阶矩;
σi——颜色二阶矩;
si——颜色三阶矩;
Pij——第i个通道的第j个像素的强度值;
N——图像中的像素个数。
1.2.4 形状特征 以分散度、矩形度、圆形度反映烟丝的形状特征。为了提取形状特征,首先对彩色图像做灰度化处理,转为灰度图,然后利用OTSU算法对灰度图像进行阈值化处理,得到二值图,最后计算其轮廓。烟丝原图如图4所示。
图4 烟丝原图Figure 4 Original picture of cut tobacco
经过OTSU算法阈值化处理后得到如图5的二值图的轮廓,计算轮廓像素个数为周长L,轮廓包含的像素个数为面积S。由周长和面积可得分散度:
图5 烟丝二值图Figure 5 Binary picture of cut tobacco
(14)
式中:
D——分散度;
L——轮廓像素个数的周长;
S——轮廓包含的像素个数的面积。
如图6所示,每个轮廓都包含了最小外接矩形。
图6 烟丝最小外接矩形图Figure 6 The minimum circumscribed rectangle of cut tobacco
矩形度的计算公式:
(15)
式中:
R——矩形度;
SMER——最小外接矩形面积;
S——轮廓包含的像素个数的面积。
圆形度计算公式:
(16)
式中:
R0——圆形度;
L——轮廓像素个数的周长;
S——轮廓包含的像素个数的面积。
传统的F-score方法是一种衡量特征在两类之间分辨能力的方法,它能够衡量特征在两类之间的辨别力大小。但是此方法存在一定的局限性,只适用于两类情况的特征选择,不能直接应用于多类问题中的特征选择。而改进后的F-score方法[17]则解决了这一问题。它既能够衡量特征在两类之间的辨别能力大小,也能够衡量特征在多类之间的辨别力大小。因此选择改进后的F-score方法进行特征选择。改进后的F-score特征选择方法描述如下:
给定训练样本集xk∈Rm,k=1,2,…,n,则训练样本第i个特征的F-score定义为:
(17)
式中:
Fi——第i个特征的F-score;
xi——第i个特征在整个数据集上的平均值;
l——样本类别数,l≥2;
nj——第j类的样本个数(j=1,2,…,l0)。
改进的F-score特征选择方法基于类别可分准则,F-score值越大,则该特征的分类辨别力越强,即类间越疏,类内越密,分类的效果越好。图7所示的多类情况即达到了理想效果。
图7 多类情况Figure 7 Multiple cases
AdaBoost集成学习算法是一种迭代算法,其核心思想是集合弱分类器构成一个强分类器[18]。它是提升方法中最为广泛的一种实现形式。它通过对个体分类器有序地训练来进行提升,而且各个分类器的结果是互相关联的,后一个分类器的分类过程会受到前一个分类器的影响,所以每一个分类器的权重不一样,通过增加当前基分类器错分样本的权重,使得下一个基分类器去关注错分样本,从而提高集成分类器的精度。
AdaBoost算法分类精度较高,能够较为灵活地使用各种回归分类模型来构建弱学习器,不仅构造相对简单,而且也不易发生过拟合的情况。因此,使用支持向量机作为基分类器,通过AdaBoost集成学习的方法对烟丝进行分类。
为了验证AdaBoost集成学习方法的可行性与效果,将其与人工识别、卷积神经网络方法[3]以及残差神经网络方法[4]作了对比试验,并分析了是否使用F-score方法、SVM中使用到的核函数、特征的组合使用等参数设置来寻求最佳识别准确率。
2.1.1 方法对比试验数据集 为了检测AdaBoost集成学习方法的实际分类效果,其与人工识别、卷积神经网络方法和残差神经网络方法对比是否具有优越性,采用3组混合烟丝进行试验。具体烟丝成分构成如表1所示,第1组混合烟丝叶丝较多,第2组混合烟丝梗丝较多,第3组薄片丝较多。
表1 混合烟丝试验组Table 1 Experimental group of mixed cut tobacco g
2.1.2 参数择优试验数据集 为了对AdaBoost集成学习方法的参数进行择优选取,选择5组数据集进行训练与测试,见表2。5组数据集均在不同批次的烟丝中进行选取采集,具有一定的代表性。
表2 数据集样本划分Table 2 Data set sample division
如表3~表5所示,人工识别方法的平均相对误差较大,卷积神经网络方法和残差神经网络方法虽然相对误差较小,但与AdaBoost集成学习方法相比效果较差。主要原因是人工识别方法本身操作过于复杂,在多次测量时容易产生较大的误差。而卷积神经网络法在实际操作中,训练集的正确率与测试集的准确率相差较大,存在一定的“过拟合现象”,导致模型泛化能力较低,因此最终的识别率不理想。残差神经网络法对比卷积神经网络法在识别的准确率上确实有了明显的提升,但是对于那些宏观差异较小,区别程度不大的烟丝,比如部分薄片丝和叶丝,仅从外观来看,肉眼很难区分,对于这一部分烟丝较难进行正确识别,导致该方法的识别准确率存在一定的局限性。AdaBoost集成学习方法在实际操作中对每一种烟丝样本添加分类器进行训练,并对那些识别错误的样本,通过降低其分类权值以提高烟丝识别的准确率。通过试验,AdaBoost集成学习方法的相对误差都≤5%,也验证了AdaBoost集成学习方法的准确性与可行性。
表3 第1组混合烟丝识别率统计Table 3 Statistics of recognition rate of the first group of mixed cut tobacco %
表4 第2组混合烟丝识别率统计Table 4 Statistics of recognition rate of the second group of mixed cut tobacco %
表5 第3组混合烟丝识别率统计Table 5 Statistics of recognition rate of the third group of mixed cut tobacco %
2.3.1 LBP特征维数 利用等价模式LBP对图像进行处理后,图像的像素级会变为59。统计图像中每个像素级对应的像素点个数,即求取直方图特征,因此一张图像的LBP特征共有59维。而在实际应用中,还会对图像进行分块,之后提取每一块的LBP特征来增加特征的复杂性,使LBP特征更能代表图像的每个部分的纹理信息。试验中,将未进行分块的原图像分成2×1以及4×1的图像分别提取LBP特征,其对应的特征维数分别为59,118,236。如表6所示,当图像分成4块,即特征维数为236时,准确率最高。这可能是因为相对于不分块或者将图像分成2块,分成4块后提取的LBP特征更容易提取图像中的细微特征。而对图像进行更多的分块不仅会增加提取特征的时间,而且过多的特征可能会造成冗余,加重了之后特征选择的负担。因此,将图像分成4块,LBP特征的维数为236维。
表6 LBP取不同特征维数时在测试集上的准确率Table 6 Accuracy of LBP in test set with different featuredimensions %
2.3.2 F-score特征选择 由表7可知,使用了F-score方法后,测试集的准确率明显提高,其平均准确率比未使用F-score方法的高出5.9%。在选用烟丝颜色、纹理、形状特征时,其特征维数会达到几千甚至上万,但识别烟丝时,这些特征并不能全部被用上,而且有些特征可能还会存在一定的干扰,为了验证这些特征是否会存在干扰,需将特征维数进行缩小,排除掉干扰特征,提高烟丝识别的准确率。
表7 模型在测试集上的准确率Table 7 Accuracy of the model on the test set %
2.3.3 SVM核函数 从表8可以看出,线性核函数的识别率较低,多项式核函数的识别率相对较高,但其与RBF核函数相比的识别率较低。核函数的本质是特征转换函数,是将数据映射到高维空间来解决在原始空间中线性不可分的问题。线性核函数是最简单的核函数,是直接对两个输入特征向量的内积进行计算,使用起来简单高效,但仅适用于线性可分的数据集,就测试集的准确率78.23%来看,线性核函数并不能对烟丝进行有效的识别区分。而多项式核函数和RBF核函数都可以将数据拟合到复杂的多维平面,但多项式的参数选择较为复杂,通过对数据集的实际准确率统计,RBF核函数要略优于多项式核函数,综合考虑选用RBF核函数。
表8 各核函数模型在测试集上的准确率Table 8 Accuracy of kernel function models in test set %
2.3.4 特征组合 表9展示了不同特征组成对于烟丝识别准确率的影响。形状上,薄片丝、梗丝和叶丝3种烟丝都有较为相似的部分,单从形状很难进行区分,所以形状的识别准确率很低。而通过肉眼观察其颜色和纹理,三者确实存在一定的差异,但也存在极为相似的部分,所以单论纹理、颜色或形状均不能很好地区分烟丝。当选取不同特征进行组合时,纹理和颜色特征组合的平均准确率达到了92.10%,而纹理、颜色和形状特征组合的平均准确率达到了96.05%,因此,选用纹理、颜色、形状3种特征提取。
表9 模型在训练集上选取不同特征做测试集的准确率Table 9 The accuracy of the model in selecting different features on the training set for testing %
2.3.5 集成学习方法 逻辑回归[19]、Voting[20]和AdaBoost 3种集成学习方法的处理过程较为相似,均可以对多特征的样本数据进行有效区分。利用这3种框架对5个数据集进行验证。如表10所示,与逻辑回归和Voting的集成学习方法相比,AdaBoost集成学习方法的准确率是三者之中最高的。采用Adaboost算法进行集成,可以更综合地考虑每一个弱分类器的偏好,各分类器的级联也更合理。因此,选用AdaBoost集成学习方法来进行模型训练。
表10 不同集成学习方法的测试集准确率Table 10 Test set accuracy of different ensemble learning methods %
针对人工烟丝组分检测效率低,步骤复杂的缺点,提出一种基于AdaBoost集成学习的烟丝分组识别方法。利用F-score特征选择方法对特征进行降维处理,并使用集成学习集成多个SVM,进一步优化特征选择和分类性能,提高了模型的分级性能。与传统方法相比,该方法能更快捷、方便,更安全、有效,而且识别率在95%以上。后续可以对烟丝特征的计算进行优化,提高计算精度,进一步提高烟丝组分识别的准确率。