汪金花 刘 巍 李孟倩 戴佳乐 韩秀丽
(1.华北理工大学矿业工程学院,河北 唐山 063210;2.河北省矿业工程开发与安全技术重点实验室,河北 唐山 063210)
影像自动识别与检测分析是智能与绿色矿山技术融合发展关键技术之一。 在图像识别和计算机视觉领域,基于特征影像识别技术具有非接触性、直接性优点,广泛应用于信息安全、人脸识别、指纹识别、档案管理、可视通信等领域[1-2]。 在过去的几十年里,学者们提出了许多经典的影像识别方法,主要包括卷积神经网络方法(Convolutional Neural Network,CNN)、支持向量机(Support Vector Machine,SVM)、主成分分析法(Principal Component Analysis,PCA)等。 卷积神经网络的深度学习架构对图像处理快速高效,使其成为近几年智能识别主流方法之一[3-4]。唐小佩等[5]在飞机类型影像识别过程中,利用Canny算子获取飞机边缘轮廓,通过卷积神经网络结合SVM 分类器,简化了飞机目标识别算法,具有良好的鲁棒性。 徐岩等[6]将纹理特征和几何特征进行融合,提出一种新的Chu-GLCM 识别特征,通过支持向量机分类器提取人脸图像进行试验,发现该方法能够提高人脸识别率4 个百分点。 同时,选用了目标颜色、纹理及形态的组合特征能够有效提高目标识别的精准度。 王左帅等[7]对车辆图像的方向梯度直方图(HOG)特征、不变矩特征和灰度共生矩阵特征进行了降维和线性融合法变换,多类特征融合识别试验结果验证了算法的有效性,基于融合后形成的新特征的车辆识别准确率达到了97.22%。 王玉晶[8]选取了图像的纹理特征与颜色特征进行特征组合,同时采用混沌粒子群优化算法对特征进行了优选,试验结果组合特征提高了分类准确率,减少了分类时间。 一些研究对特征参与识别权值进行了优化,通过特征加权处理,提高了算法识别效率和精度。 党宏社等[9]在ReliefF 算法基础上提出了一种基于特征和距离加权的KNN 分类算法,通过对自然图像分类,证明了该方法相比于标准KNN 算法具有更高的准确率。 关于矿物岩石遥感影像或者镜下影像鉴定识别,一些研究应用了智能自动识别算法[10-11]。 徐述腾等[12]应用Tensor Flow 深度学习算法,对吉林夹皮沟金矿和河北石湖金矿的黄铁矿、黄铜矿、方铅矿、闪锌矿等硫化物矿物进行了卷积神经网络模型识别,自动提取了目标矿相显微镜下的矿物深层特征信息。 郭艳军等[13]针对石英、角闪石、黑云母、石榴石和橄榄石的偏光显微图像,采用卷积神经网络残差约束算法进行了自动识别试验,识别精度达到了89%。
目前,镜下影像识别以颜色特征识别为主,结合部分形态指标进行检测,总体识别精度较低[14-15]。本研究以镜下矿物影像智能识别为例,融合影像目标的颜色矩、纹理矩和形状RSTC 矩3 类特征指标,以指标熵权和变异系数权为智能识别贡献率权值,构建一种多矩融合机器学习智能识别模型。 利用磁铁矿、云母、方解石、黄铜、铁酸钙等影像进行识别试验,分析算法的有效性。
图像特征提取是目标影像识别最为重要的环节,直接决定识别结果的准确性和精度。 识别特征提取应满足区分度、不变性和鲁棒性要求。 所谓特征区分度是不同类型目标特征应有显著差异;特征不变性指相同类型目标的特征指标差异无显著变化;特征鲁棒性是同一个目标经过旋转、缩放、扭曲变换后,依然能够识别出特征。 镜下不同类型矿物影像色彩不同,同一类型矿物影像色彩相似,有明显区分度。 对于同一种矿物由于结构不同,表现出不同的纹理和形态,识别有一定难度。 因此为了提高镜下矿物识别准确度,可以从颜色、纹理和形态3 个层次构建矿物目标影像识别特征模型。
1.1.1 颜色Color 矩
影像表达形式有RGB(红色、绿色、蓝色)、HSV(色调H、饱和度S、亮度V)多种色彩模型。 其中,HSV颜色模型更接近人类视觉感知特点,并且支持大量的图像分析算法。 为了便于影像智能识别,本研究构建了基于HSV颜色模型的Color 矩。
由于图像剪切出单个目标通常是不规则图形,设单个目标的最大长度为M、最大宽度为N,则对于包含目标的M×N矩形图像的像素值可以表示为
式中,A为目标图像的空间点域;f(x,y)为图像空间点(x,y)的像素值。
图像如果用HSV模型进行表达,其Color 矩分别是H、S和V的3 个通道像素均值、中误差[16],即
式中,M、N为图像剪切出单个目标的最大长度和最大宽度;f(x,y)为目标上点(x,y)的像素值;An为目标图像的空间点域A对应的非0 像素值个数和。
1.1.2 纹理GLCM 矩
纹理特征反映了图像均匀程度和纹理粗糙程度。灰度共生矩阵是常用的一种图像纹理提取方法,是指以灰度级i这个点离开了特定的位置d= (Δx,Δy)进而到达灰度为j的概率。 通过图像灰度共生矩阵可以计算图像能量、对比度、相关性及熵的4 个统计特征[17],结果见表1。
表1 图像纹理的GLCM 矩Table 1 GLCM moment of image texture
1.1.3 形态RSTC 不变矩
不同类型目标一般形状不同,有时形态不同却代表了同一种物质。 形状特征因子是影像目标识别的关键因素,可以通过不变矩来表示。 不变矩是指图像在经过旋转、平移、缩放等变换后仍保持不变的一种特征量,对于离散的二维图像f(x,y),其中(p+q)阶原点矩mpq、中心距μpq的计算公式[18]为
通过大量试验研究,为了保证目标发生平移和旋转后也具有不变性,学者们构建了7 个Hu 不变矩,随后优化的RSTC 不变矩,可以满足目标影像发生旋转、缩放等变化后的不变性,见表2。 实际应用时一般采用取对数方式对数据进行压缩,RSTC 不变矩。
表2 Hu 不变矩与RSTC 不变矩Table 2 Hu invariant moment and RSTC invariant moment
为了提高目标影像的自动识别精度,将颜色、纹理和形态3 类特征进行融合,构建智能识别过程的多矩特征融合矩阵。 为了提高模型识别准确率,防止出现神经网络智能识别过程的泛化现象,设置输入特征指标的初始权。
1.2.1 构建多矩特征融合矩阵
目标影像通常有颜色、纹理和形态3 类特征,那么对应的影像识别特征集C是图像颜色CC、纹理CG和形态CR的特征集合,共计16 个因子。 其CC包括颜色空间H、S、V通道的均值、标准差的6 个指标,纹理CG由灰度共生矩阵求解的能量、对比度、相关性和信息熵4 个指标构成,形状CR包括RSTC 不变矩特征6 个指标。 相关公式为
假设由n个目标样本的影像特征构成多矩特征融合矩阵A,那么其行秩即为特征指标个数。
为了消除不同指标的量纲影响,考虑特征对模型识别的贡献率,可以采用效益型指标进行归范化处理,得到规范后的矩阵R:
式中,效益型指标rij为
式中,min {aij}为第j个指标的最小值;rij为规范后的数值,0≤rij≤1。
1.2.2 确定指标因子熵权Pa
熵是对不确定信息的度量。 某一个指标的差异程度越大,其对应的信息熵就越小,表明该指标所提供的信息量越大,在综合评价中发挥的作用越大,权重也越大。 本研究应用熵权法计算每类特征中的指标权值时的主要依据是各个指标的差异程度[19]。
首先,根据式(9)多矩特征融合规范后的矩阵R,计算每个样本值占第i项指标样本之和的比重,公式为
然后计算第i个指标样本信息的熵值:
式中,k=-(lnn)-1;n为样本数。
于是,第i个指标的熵权重Pai可进行如下计算:
式中,m为特征识别指标个数。
1.2.3 计算变异权值Pb
在目标影像识别过程中,颜色、纹理和形态特征类型对识别结果的贡献率不同,每个类型中不同因子对识别结果影响程度也不同,如区分云母和方解石2 种物质,颜色因子贡献率的影响比较突出;而一类物质铁酸钙颜色大致相同,当区分铁酸钙的针状、柱状和他形铁酸钙时,其纹理和形态特征因子对建模贡献率的影响会比较突出。 因此需要确定每类特征权值,以便突出目标异类特征[20]。
图像颜色CC、纹理CG和形态CR有3 类特征,每一类每个特征的变异系数可定义为
式中,ti为类特征变异系数;di为类特征指标中误差;xi为类特征指标均值。
那么,类特征权值Pbi为
1.2.4 计算多矩特征融合的初始权阵
多矩融合特征权值包含颜色CC、纹理CG和形态CR,共计16 个指标的权值。 为了削弱异常值的影响,使得权重分配更加客观合理。 同时又防止某类特征不突出,减少智能识别计算量,因此最后多矩特征融合的初始权Pi通过每个指标的熵权和变异系数权值的组合确定公式为
当某一类特征权值小于阈值d时,认为该类特征指标对目标识别的贡献率不突出。 为减小特征识别过程中的计算量,可以对其初始权强制归零,不参与目标智能识别运算。 当某一类特征权值大于等于阈值d时,该类特征指标的初始权为指标因子熵权Pai。
镜下影像是多种类型图斑的混合,智能识别之前需要进行图斑的自动分离。 将镜下影像进行自动分割、合并尺度后,利用对象的色彩、纹理及结构形态因子,进行面向对象的分类。 同一类镜下图斑自动分成一个图层,对图层内的图斑进行边缘检测和分割处理,得到大量的单独图斑,作为下一步智能识别的数据集。
本研究采用BP 神经网络进行图斑智能识别试验,网络包含输入层、隐含层和输出层。 文中参考前文1.2 节,对输入层进行了优化。 输入层为多矩特征融合矩阵A,包括6 个颜色特征因子,4 个纹理特征因子,6 个形状特征因子。 试验根据每种特征因子贡献率确定输入初权值,以便加快收敛。 对应输入权可以采用指标熵权、变异系数权和综合定权。 隐含层激励函数选取默认的Sigmoid 变换函数,输出层是图斑识别类型。
本研究模式识别网络采用量化连接梯度函数(trainscg 算法)进行训练。 神经网络从特征输入的训练集开始学习,通过监督分类训练输出期望值,训练过程采用误差反向传播方法,不断迭代优值赋予初始权值,直至误差最小。 具体流程如图1 所示。
图1 基于加权多矩融合的矿物影像识别流程Fig.1 Mineral image recognition model based on weighted multi-moment fusion
本研究试验选取了两大类样本。 第一类样本选取了金属矿石中经常出现的磁铁矿、云母、方解石、黄铜4 种矿物进行试验,主要是为了测试图斑的色彩、纹理和形态特征对目标识别算法的贡献率,测试多矩融合特征识别算法的有效性。 样本中的4 种矿物具有一定的代表性,色彩各异,区分度明显,纹理和形态方面也有较大差异性。 但实际的镜下影像较为复杂,图斑形态各异,为了验证智能识别算法对实际情况的适用性,选取了烧结矿镜下影像作为第二类样本。 除了有不同颜色、纹理的图斑外,还有针状、柱状以及他形不同形态的铁酸钙,这类烧结矿具有典型性。
第一类样本有400 幅图像(图2),第二类样本有200 幅图像(图3)。 神经网络训练样本按照70 ∶15 ∶15 的比例划分,70%的训练集,15%的验证集,15%的测试集。 同时为了测试算法的鲁棒性,对部分样本图像进行了旋转、缩放等预处理,并统一尺寸为100×100。
图2 矿物图像的第一类样本Fig.2 Mineral images of type Ⅰ samples
图3 矿物图像的第二类样本Fig.3 Mineral images of type Ⅱ samples
计算数据集图斑的颜色、纹理和形态特征指标时,由于同一幅图像上不同特征值之间的数值差异较大,为了避免数值干扰识别效果,将特征值归一化至0~1 区间内。 第一类样本不同类型矿物的Color 矩、GLCM 矩和RSTC 不变矩特征指标的部分计算结果见表3。 由表3 可知:不同类型矿物6 个Color 矩的指标数值差异明显,如方解石S4色度均值为0.69,方差为0. 51,而黄铜S7分别为0. 14,0. 13,区分度高;同一类型矿物GLCM 矩也有一定的差异,如磁铁矿2 个样本的对比度CON指标分别为0.16 和0.29,黄铜2 个样本相关性COR指标分别为0.25 和0.36,均为很好的目标识别特征。 不同类型图斑RSTC 不变矩结果也有一定的区分度,方解石y7不变矩为0.21 和0.32,黑云母分别为0. 39 和0. 36。 说明颜色、纹理和形态3 类指标的识别区分度不同,从而对智能算法贡献程度也应不同。
表3 第一类样本不同类型矿物识别特征指标(部分)Table 3 Identification characteristics of different types of minerals in type I samples (part)
根据磁铁矿、云母、方解石、黄铜4 类样本16 个特征因子的差异程度计算出熵值、变异系数值,并结合式(13)~式(15)计算出多矩特征融合权值,结果见表4。 由表4 可知:综合权值中Color 矩类特征权值贡献率较高,特征明显。 纹理中相关系数有一定的突出权值,形态因子贡献率不明显。
表4 第一类样本训练的初始权值Table 4 Initial weight of the training of type I samples
开展第一类样本目标图像的智能识别试验时,在单位权、熵权、变异系数权及综合权4 种初始权的情况下,采用Color 矩、Color 矩&GLCM 矩、Color 矩&GLCM 矩& RSTC 矩作为特征输入进行智能识别。选用识别正确率和识别时间作为识别效果的评价指标[21]。 表5 只列出了部分结果,从表中可以看出,单独利用Color 矩一类指标进行识别时,平均精度约95%。 使用两类组合特征指标进行识别时,平均精度约97%。 使用多矩融合特征进行识别时,识别正确率达到了98%左右,算法识别效果显著[22],说明随着输入特征数量增加,训练结果精度有所提升。
表5 不同初始权的影像智能识别效果Table 5 Image intelligent recognition effect with different initial weights
由表5 可知:随着初始权值参与训练,各类方案识别正确率略有升高。 当以综合权值为初始权进行影像智能识别试验时,识别时间相对减少,识别精度上升至99%。 可见,采用不同的特征指标进行智能识别时效果存在差异,主要取决于该类特征能否有效描述图像的本质特征。由于每一维特征对分类的重要程度或识别贡献率是不相同的,在对特征进行加权融合后,可以有效提高分类的准确率。 另外,特征的维数也会影响分类结果,并且在输入端通过降低某类低贡献率特征权重的方式,可以有效避免分类特征相互干扰。 同时,给定输入数据初始权,有助于显著提升智能识别过程中的收敛速度。
为了验证多矩融合识别模型的有效性,开展了烧结矿镜下图像目标的识别试验。 烧结矿样品按3 种方案进行配料,均采用化学纯CaO(C)和Fe2O3(F)按摩尔配比,制作C2F(41. 18 ∶58. 84)、CF(25. 93 ∶74.07)、CF2(14.89 ∶85.11)3 种混匀压块,使用可控温箱式马弗炉进行微型烧结,升温至1 400 ℃恒温0.5 h 后分别降温至1 100 ℃并恒温6 h,获得3 组烧结矿样品。 制作烧结矿切片并在电子显微镜下观察获取的试验原始图像如图4 所示。
图4 烧结矿样品镜下原始图像Fig.4 Original image of sinter sample under microscope
首先将镜下图像进行面向对象分类(图5),得到玻璃相、磁铁矿和针状、柱状、他形的铁酸钙目标图斑,见表6。 对镜下图像进行面向对象分类,经过边缘分割后,提取玻璃相、磁铁矿和针状、柱状和他形的铁酸钙5 类样本,每类样本为40 个,共计200 个。
图5 烧结矿镜下图像面向对象分类后影像Fig.5 Image of sinter under microscope after object-oriented classification
表6 烧结矿镜下图斑样本类型Table 6 Type of spot samples in sinter mirror
对烧结矿镜下图像的数据集图斑进行了颜色、纹理和形态指标特征的熵值及变异系数计算,结果见表7。 由表7 可知:玻璃相、磁铁矿、铁酸钙不同类型目标的Color 矩、 GLCM 矩和RSTC 不变矩特征指标的熵权差异不明显,但是变异权值明显不同。 针状、柱状和他形的不同形态铁酸钙的RSTC 不变矩识别特征明显不同,权值相差较大。 对于综合定权,根据不同指标变异权值大小,设定阈值d=0.02,即对于变异权小于等于0.02 的指标,其神经网络输入端的初始权值为0。
表7 烧结矿镜下图斑样本训练的初始权值Table 7 Initial weight of spot samples training in sinter mirror
对采集的图像特征进行智能识别训练,颜色矩、纹理矩和RSTC 不变矩及对应权值作为神经网络输入端进行训练,结果见表8。 由表8 可知:如果单独使用一类特征指标识别图班,平均精度很低。 利用两类特征指标识别图班时,精度明显提升,达到了90%左右。 当利用RSTC 矩&GLCM 矩&Color 矩的多矩融合特征指标,在综合权作为智能识别输入初始权时,精度达到了97%,虽然训练时长有所增加,但增加幅度微小。
表8 烧结矿镜下目标图斑识别结果Table 8 Target pattern recognition results of sinter under microscope
推进矿山智能化建设,需要信息化、数字化技术融合发展。 镜下矿物影像自动识别是矿物智能化检测的关键技术。 本研究针对镜下矿物影像神经网络智能识别算法展开了研究,主要结论如下:
(1)集成了镜下矿物影像的颜色Color 矩、纹理GLCM 矩及形态RSTC 不变矩的量化指标,根据3 类统计特征差异度确定因子的熵权值,并根据特征识别贡献率确定因子的变异权值,构建了基于多矩特征融合的权值算法模型。 模型通过优化特征因子的初始权值,有效控制了网络训练的泛化现象和每个因子的参与度,弱化了训练过程中不确定性特征指标的干扰。
(2)采用镜下磁铁矿、云母、方解石、黄铜4 种矿物400 个样本进行试验,模型自动识别的平均正确率达到了98%以上。 选取烧结矿镜下图像200 张数据集图斑进行了不同形态的目标识别试验,总体精度达到了97%。 结果表明:基于综合定权的多矩特征融合图像识别算法可靠性好,是一种简单有效的镜下目标图斑智能识别方法。
(3)所提模型改善了镜下影像智能识别效果,为镜下影像智能化分类提供了一种新方法,镜下图斑自动分割是后续研究重点。