胡雅祺 孔 静 李宇恒 陈天星
(西安建筑科技大学 资源工程学院,西安 710055)
矿产资源是一种自然资源,是人类社会可持续发展的重要物质基础[1]。为了实现矿产资源可持续发展的目标,需要对矿产资源进行科学合理的加工利用。在选矿厂中,由于原矿性质的波动,成熟的选矿工艺仍需进行实时调整和优化。同时选矿过程中需实时监测精矿品位、回收率等选别指标,但由于取样和化验过程耗时较长,导致监测结果存在较大滞后性。此外,操作工人在工艺指标的调整上也存在主观随意性,容易受到疲劳度和责任心的影响,导致不同班组选矿指标存在差异[2]。因此,采用机器视觉检测设备,代替人工肉眼从选别过程图像中实时提取各种信息,并基于深度学习建立选矿生产智能优化模型,对于实现选矿过程智能控制、保证选别指标稳定性和提高矿产资源利用率具有重要意义。
图像识别是一种计算机视觉技术,通常利用深度学习算法如卷积神经网络(Convolutional Neural Network,CNN)来训练模型[3],以识别图像中的特征和模式。随着深度学习在图像处理中的发展,图像识别技术在如农业、医学、废品回收等领域也得到广泛应用[4]。与传统选矿相比,将图像识别技术应用到选矿工艺中,将有效解决选矿厂生产效率和能源利用效率不高、矿产资源利用水平低等难题,提升选矿智能化水平。本文简述了图像识别的相关技术及方法,介绍了图像识别技术在重选、浮选、磁选中的研究现状,并对图像识别技术在选矿领域中的应用进行了总结和展望。
图像识别技术能够自动识别和分析图像,为各种应用场景中的数据分析和决策提供支持,具有高的效率和准确性。图像识别技术的实现主要包括图像采集、图像预处理、特征提取和选择、建立深度学习模型[5]等几个重要环节。该技术采用主流的Pytorch或Tensor Flow深度学习框架来实现,编程语言多采用Python,代码编辑器往往采用交互性能好的PyCharm[6]。
图像采集是指使用相机、扫描仪等设备对现实世界中的物体、场景等进行数字化获取的过程。通常情况下,图像采集设备会将物体、场景等的光学信息转换成电信号,并通过AD转换器将其转换为数字信号,然后存储在计算机或其他数字设备中。图像采集的设备包括数码相机、工业相机、扫描仪等,可以应用于医学影像、工业检测、安防监控、虚拟现实等多种领域。
常见的图像采集方法包括模拟信号采集和数字信号采集。目前,在图像识别技术中主要采用数字信号采集技术。数字信号采集是指将模拟信号转换为数字信号的过程,并将数字信号存储在计算机或其他数字设备中进行后续处理和分析。陈烨等[7]设计了一种基于图像识别的采集与检测系统,该系统能够夹取管材截面的拍摄,将拍摄到的图像发送至计算机终端,实现对被测管材管径与壁厚的快速检测。李成勇等[8]在设计车道偏移识别的汽车辅助驾驶时,选用CMOS型摄像头作为路面信息的采集提取,通过内部编写的图像处理程序,实现了车道线图像特征的提取,得到了车道线轮廓清晰的图像。邓小云[9]提出以ARM为基础的CMOS数字图像传感器图像采集系统,该系统与传统的CCD图像采集系统相比,具有更加丰富的功能、强大的处理能力和灵活的接口等优点。
随着数字图像采集技术的不断发展,数字图像采集技术已经成为图像处理和分析的关键技术之一,为各行各业提供了高质量、高效率的图像获取手段,并推动了图像处理和分析领域的快速发展。
图像通过工业相机获取后,往往存在噪声大、边界模糊等情况,预处理的主要目的就是消除图像中的无关信息,增强有用的真实信息,增强有关信息的可检测性、最大限度地简化数据,从而改进特征提取、图像分割、匹配和识别的可靠性。图像的预处理是图像分析的第一步,图像质量会直接影响识别算法的设计与效果的精度。一般的预处理流程为灰度化、几何变换、图像降噪和增强。
1.2.1 图像灰度化处理
图像灰度化是将一幅彩色图像转换为灰度化图像的过程。图像的灰度变换可以通过有选择地突出图像感兴趣的特征或者抑制图像中不需要的特征,从而改善图像的质量,凸显图像的细节,提高图像的对比度,能有效地改变图像的直方图分布,使图像的像素值分布更为均匀。廖一帆等[10]提出了一种基于辅助变量增强的可逆彩色图像灰度化方法。该方法通过可逆神经网络的正向过程实现彩色图像灰度化,逆向过程实现灰度图像的色彩复原。将所提方法在数据集上进行定性和定量比较。结果表明,无论是在全局还是局部,生成图像都可以最大程度地保留亮度、颜色对比度和结构相关性等特征。赵子皓等[11]根据RGB分量的重要性,利用加权平均法对番茄叶片病虫害图像进行灰度化处理,并对图像进行去噪。结果表明,该方法避免了温室内光照对图像的干扰,从而加强了图像特征提取的精度。
1.2.2 图像变换
图像变换,即图像的几何变换,是指在不改变图像内容的情况下,图像在空间上进行收缩、放大、平移、旋转等,从而得到新的图像。有时数据收集量不够,可以采用数据增加的方法来获得额外的训练数据。TANG等[12]采用随机裁剪和镜像翻转来增加原始数据集。将最初的400张照片放大到9 000张照片,从而达到训练一个深度神经网络的数据量。利用Deeplabv3+网络,基于深度学习理论建立了目标矿物识别网络模型。该模型能有效自动提取偏光显微镜下矿石矿物图像的深层特征信息,并实现对透明矿物和非透明矿物的智能识别和分类。
1.2.3 图像降噪和增强
在图像从获取、传输及存储的每一个环节都会造成图像信息失真和引入噪声[13],而这些噪声会对图像的质量、清晰度和可用性产生负面影响。因此需要对图像进行降噪处理。常用的图像降噪方法有均值滤波、高斯滤波和中值滤波等。
阳恩慧等[14]在沥青路面表面纹理重构与构造深度预测中,通过均值滤波对采样数据进行降噪处理后,三维重构了试样表面并提取了特征。结果表明,均值滤波在去除噪声信号的同时也比较完整的保留了高程轮廓特征,得到的预测值与实测值的决定系数R2在0.95以上。周牧等[15]在量子成像研究中,对小波系数中的高频成分进行高斯滤波去噪,并通过小波逆变换得到去噪后的符合计数值。与现有的小波变换、高斯滤波和中值滤波去噪方法相比,该方法虽然在某些光子遮挡部分会出现错误亮斑,但其成像质量在整体上为最优。常文帅等[16]利用均值滤波、中值滤波和高斯滤波的算法比较了岩石裂隙图像处理方法的优缺点。结果表明,在对岩石裂隙图像处理中,中值滤波优于均值滤波和高斯滤波。
在图像通过降噪处理之后,图像中的噪点会消除但同时会使图像变得模糊,这时就需要对图像进行增强。图像增强是将不清晰的图像变清晰或强调突出图像中的有用信息,削弱或去除无用的信息,从而改善图像质量,快捷地筛出关键信息[17],满足某些特殊分析的需要。常用的图像增强方法有直方图均衡化、图像锐化、对比度增强等。
胡新钟等[18]为了应对快速识别大气环境下早期镀层腐蚀形貌特征的需求,开发了便携式形貌特征识别装置。通过对镀层的腐蚀形貌图像进行降噪后,利用直方图均衡方法,增强图像对比度,再通过分割获取腐蚀图像的二值化特征。结果表明,该方法与人为标注的腐蚀区域相似度能达到0.844 1,处理速度能满足便携式装置的实时要求。KUMAR等[19]提出了一种基于模糊C-means 聚类的图像增强方法,该方法在增强感知不可见图像的同时,还能保持图像的色彩和自然度。SUGIMOTO等[20]提出了一种同时提高亮度、对比度、饱和度的彩色图像无损处理方法。与以往研究的灰度图像的无损对比度增强相比,引入了可逆数据隐藏的思想。结果表明,与以往的方法相比,该方法能在保证可逆性的同时控制亮度、对比度和饱和度。
特征提取是计算机视觉和图像处理的关键步骤,他体现着从图像数据表达到非图像数据表达的过渡。特征提取包括特征点检测和描述子计算两个过程。首先将图像中的角点检测为每个图像的关键点,然后在这些关键点的领域提取局部描述子,得到的结果可以用作多模式识别和分类技术的输入量,用于标记、分类、识别图像或其中目标的语义内容。
人工提取特征常用的方法主要利用基本统计特征对图像进行描述,常见的图像特征包括颜色特征、纹理特征和形状特征等。颜色特征是一种全局特征,描述了图像或图像区域所对应景物的表面性质。常用颜色空间模型有RGB、HSV、Lab等。对于每一个颜色空间模型,通过分多个区域取样求均值及整体均值的方法来获取每个通道的特征值[21]。蒋存波等[21]对于珍珠图像的颜色特征提取及检测方法研究中,先将珍珠图像进行了预处理,在Lab颜色空间提出了基于珍珠回音廊效应区域的颜色特征提取,使用了GA-SVM作为珍珠颜色识别方法,并提出了二次颜色检测策略,通过两次颜色检测来确定珍珠颜色类别。通过对比试验结果发现,珍珠体色色系检测准确率达到100%,珍珠颜色检测准确率达到98.7878%。SHRIVASTAVA等[22]提出了一种仅使用颜色特征的基于图像的水稻病害分类方法,探索了14种不同的颜色空间,并从每个颜色通道中提取了4个特征,从而得到172个特征。由识别结果的归一化混淆矩阵可以看出,矩阵的颜色与矿物识别的准确率有关,即颜色越深,准确率越高。SUTOJO等[23]在识别奶牛的类型的研究中,对图像进行颜色和纹理特征提取,计算每个颜色分量的颜色强度的平均值和标准差,用颜色和纹理特征作为属性,利用欧几里得距离进行计算,从而得到图像之间的相似度。结果表明,用该方法进行识别,准确率达到95%,而精确率和召回率均为100%。
纹理特征可以是全局的特征,也可以是局部的特征,他对研究图像的对比度、粗糙度等属性非常重要。常用的纹理特征提取方法有灰度共生矩阵(GLCM)、局部二值模式(LBP)、小波变换等。ZAREEN等[24]将获取的ISIC图像数据集转化为一阶直方图和GLCM特征相结合的纹理特征数据集。再从这些数据集中获得了137 400(229×3×200)个纹理特征。然后采用主成分分析聚类方法,基于平均相关系数加误差概率和Fisher两种不同的统计特征方法以及相关性的特征选择(CFS)方法来对特征数据集进行降维、提取,优化最具区别性特征。结果表明,该方法可以提取更多关于皮肤癌种类特征的信息,减少参数数量,提高准确率。谢跃辉等[25]以灾损建筑数据为研究对象,采用LBP与SegNet深度卷积神经网络提取了特征,实现震后灾损建筑物自动分类提取,并与传统面向对象提取方法进行对比。结果表明,LBP纹理特征与SegNet卷积神经网络模型相结合,对于震后灾损建筑物的提取能提高预测精度,总精度为96.74%。MISHRA等[26]提出了一种从显微镜图像中区分正常白细胞和病变细胞的有效方法。将预处理后的图像利用离散正交S变换(DOST)提取纹理特征,并使用线性判别分析对其进行降维,将降维的特征提供给随机森林算法来进行预测。结果表明,与现有方案相比,他们提出的方法具有更高的准确性,准确率可达99.66%。
形状特征有两类表示方法,一类是轮廓特征,另一类是区域特征,轮廓特征主要针对物体的外边界,而区域特征则关系到整个形状区域的整体属性。BAKHSHIPOUR等[27]采用了支持向量机和人工神经网络对甜菜地里常见的4种杂草进行了研究,形状特征集包括傅里叶描述子和矩不变特征,结果表明,人工神经网络的总体分类正确率为92.92%,其中杂草的正确率为92.50%。使用SVM作为分类器时,总体正确率为95.00%,而杂草的正确率为93.33%。侯晶等[28]利用颜色特征对物料进行面积计算,用形状特征确定物料的位置,使用层次分析法计算出颜色和形状特征的权重大小,将两者进行融合,实现物料的识别及抓取顺序判断,结果表明该算法抓取成功率可提高至99.8%。
深度学习是机器学习领域的一个新的研究方向,是近年来机器学习领域的重大突破和研究热点之一[29]。他是通过模拟人类的大脑来对所提取的特征进行学习,利用海量的数据进行训练,使训练结果无限逼近真实值,从而最终得到适合模型的参数[30,31]。随着深度学习的快速发展,其应用领域也变得逐渐广泛,覆盖了计算机视觉、数据挖掘、自然语言处理、无人驾驶等,为我们日常生活和工作带来了巨大的便利。
其中,卷积神经网络是深度学习的代表算法之一,他是一类包含卷积计算且具有深度结构的前馈神经网络,具有局部连接、权值共享及池化操作的特性[32],可以有效降低网络的复杂度,减少参数的数量,并提高所提取特征的精度[33]。典型的卷积神经网络包括VGG、AlexNet、ResNet,而这些网络都是以卷积神经网络(CNN)为基础发展的。如图1所示,CNN的结构基本上由输入层、卷积层、池化层、全连接层和SoftMax层这五种结构组成[34]。
图1 CNN结构[34]Fig.1 CNN structure[34]
1)AlexNet
在2012年,AlexNet由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton所提出,这是第一个深度学习算法在ImageNet图像识别挑战赛上拿到冠军的模型[35]。AlexNet采用了卷积和池化操作,使用局部响应归一化(Local Response Normalization)和随机失活(Dropout),从而增强了模型的泛化能力,避免了模型过拟合风险。AlexNet的缺点是神经网络模型的层数和参数量较少。在实际应用中,需要根据任务的复杂度、数据规模等因素,在深度和性能之间进行权衡和选择。杨秀璋等[36]提出了一种自适应图像增强和AlexNet的水书文字识别算法,通过预处理来对图像进行降噪、变换等操作,最后构建AlexNet神经网络模型实现水书古文字的自动识别。结果表明,该算法能有效识别复杂环境下的水族古文字,其精确率、召回率和F1值分别可达到0.975 5、0.974 3和0.974 3。何前等[37]在对葡萄叶部黑腐病、埃斯卡病和褐斑病这3种病害图像及健康叶部图像进行分类识别时,采用在传统的AlexNet算法基础上增加池化层层数,压缩特征量,调整激活函数,把ReLU函数换成Leaky ReLU函数,解决了神经元“死亡现象”。结果表明,该算法对葡萄叶部病害的分类准确率为99.1%,高于传统AlexNet算法。YABO等[38]针对t型逆变器开路故障特征相似度高等问题,提出了一种基于格拉姆角求和场和改进的AlexNet网络的端到端故障诊断方法。通过格拉姆角求和场算法将采集的一维时序信号映射为二维图像。再利用改进的AlexNet进行特征提取,最后通过Softmax层输出故障诊断结果。结果表明,该模型的故障诊断率高达99.72%,不仅可以诊断单个故障,还可以诊断不同阶段的多个故障。
2)VGG
在2014年,SIMONYAN和ZISSERMAN[39]提出VGG模型,详细描述了VGG模型的基本架构和关键特性,它的特点是采用了连续的卷积层,其中提到了使用多个小的3×3卷积核来替代大的卷积核,以及如何堆叠多个卷积层和全连接层来提取图像特征。目前的VGG16 卷积神经网络模型包括 13个卷积层、3个全连接层及5个池化层。其中,卷积层和全连接层具有权重系数,因此也称权重层(池化层不涉及权重,因此不属于权重层,不被计数)。VGG的优点是具有很好的泛化性能,即可以在尽可能多的数据集上进行训练。但是,VGG的缺点是网络深度较大,需要大量的计算资源(计算机的处理器、显卡、内存等)和时间来训练。VGG模型引入更多的卷积层以及小卷积核来进行细致的特征提取,解决了网络深度对模型表现的限制。然而,随着网络深度的增加,模型出现了“退化”问题,即网络的深度加深反而影响了模型的泛化能力。该模型的发展为图像识别的任务提供了重要的基础和指导,许多研究者也提出了一些改进的VGG模型来进行图像识别的任务。金守峰等[40]提出了一种融合改进VGG16模型与SVM的抓毛织物的检测方法,将预处理后的抓毛织物图像输入改进的VGG16模型来获取毛织物样本的特征,该模型使用MatLab深度学习工具箱deepNetworkDesigner构建改进的VGG16网络模型。最后再把获取的毛织物输入到支持向量机中来进行分类。结果表明,该方法在测试集平均识别准确率为99.96%。翁羽洁等[41]通过比较VGG的3个模型(VGG-11、VGG-13、VGG-16)对新冠肺炎CT图像诊断准确率发现,VGG-13的效果最好。同时在VGG-13模型的基础上,通过改进阈值的方式使准确率由86%提高到89%,进一步提高了诊断的准确率。
3)ResNet
在2015年,ResNet模型由Kaiming He、Xiangyu Zhang、Shaoqing Ren和Jian Sun所提出,他通过引入残差块(Residual Block)解决了深层网络训练难以收敛的问题[42]。Residual Block通过将输入数据直接与输出数据相加来形成一个跨层连接,这种跨层连接减少了网络层数的增加对梯度消失的影响,使得模型能够更加容易地训练和收敛。ResNet模型引入了残差结构的思想,在训练时,让输出的恒等映射存在于各神经层的之中,使训练之后的神经网络不会因为增加层数导致性能衰减。ResNet的提出有效地解决了更深层次的神经网络带来的性能损失的问题,同时进一步提高了图像分类和识别的准确率。这也激发了许多研究者将此模型应用到各个领域中去。郑显润等[43]提出了一种多尺度特征提取的深度残差网络,采用改进的残差结构,使用等级制的类残差连接取代了原本的3×3卷积核,增加了每个网络层的感受野,可以更细地提取多尺度特征。结果表明,该方法在识别自然背景下常见22种水稻害虫上,平均识别准确率达到92.023%。SARWINDA等[44]在结肠腺体图像上训练ResNet-18和ResNet-50,该模型用于区分结直肠癌的良恶性。分别在三种不同的测试数据(占整个数据集的20%、25%和40%)上评估了这两个模型,结果表明,在三种测试数据中,ResNet-50比ResNet-18的准确性、灵敏度都要高,并且在20%和25%测试集上性能最佳,分类准确率在80%以上,灵敏度在87%以上。PAN等[45]利用Inception V3和ResNet-50深度学习模型将眼底图像分为正常、黄斑变性和块化眼底三大类,来识别和治疗眼底疾病。结果表明,ResNet-50比Inception V3分类的准确率高,达到93.81%。
重选具有作业成本低、见效快、环保等优点,广泛应用于煤、有色金属、稀有金属、贵金属以及一些非金属矿石的选别中。重选工艺中需要现场工人对设备及选别指标做出相应的判断,从而对重选工艺参数进行调整,以维持要求的选矿指标。利用图像识别技术与重选相结合的方式,能够提高重选参数精度,优化了重选流程。
刘惠中等[46]针对螺旋选矿机矿带分界模糊、识别难度大等难题,提出了一种优化的Canny边缘检测算法和基于深度学习的HED边缘检测算法,并分别对螺旋选矿机矿物分带图像进行了矿带分割位置提取试验。对比两种算法在图像处理算法中的ODS和OIS评估指标发现,基于深度学习的HED边缘检测算法的检测效果值比优化的Canny边缘检测算法的检测效果值分别高了31.1%和18.6%。赵玉华等[47]将摇床矿带图像进行预处理后,作为VGG-16模型的输入,并使用均方损失和Adam优化器进行训练,输出为接矿位置的预测。该模型在华联锌烟公司新田选矿厂精选段摇床开展了试验研究。结果表明,验证集中85%的样本预测误差小于19.5 mm,93.7%的预测误差小于29.25 mm,该模型为现场生产提供了便利。KESHUN等[48]为了实现摇床多个控制参数的自适应优化,提出了一种以选矿效率最大化为目标的振动台控制参数自适应优化方法。结果表明,采用的深度学习视觉算法能够提取最大维数的矿带图像特征,即使在样本量有限的情况下也能解决满足工业要求的问题。
浮选是选矿领域中应用最广泛的分选技术,它是在固-液-气三相接触时进行的,利用矿物表面湿润性的差异,将有价值的矿物从脉石矿物中分选出来[49]。然而,在实际的选矿厂中往往需要根据操作工人的现场经验,来对浮选参数进行实时调整[50]。随着深度学习在图像处理中的不断发展,利用图像识别的方法改善浮选工况的控制,进一步提高了矿石浮选的效率和精度,实现了更好的浮选效果,为矿石加工提供了更多的技术支持。
ZARIE等[51]采用CNN对工业浮选柱在不同工艺条件下采集的泡沫图像进行分类。通过CNN对不同空气流速下捕获的泡沫图像和不同工况下拍摄的整体图像进行分类。结果表明,基于CNN的泡沫分类系统在分类精度上总体准确率达到93.1%。WEN等[52]提出了一种利用泡沫图像和卷积神经网络结构预测煤炭浮选精矿灰分含量的浮选软测量方案。根据精矿灰分含量将现场的泡沫图像划分为7个区间类,并对该数据集进行数据增强。通过卷积神经网络对不同浓缩物灰分含量区间的泡沫图像进行分类训练。结果表明,ResNet_101网络经过微调后,分类精度达到97.1%。孙友森等[53]提出一种CNN-SVM混合模型,对选煤厂煤泥浮选泡沫图像进行分类识别。试验采取山东某选煤厂的20 000张浮选图像制作数据集,根据灰分不同将图像分成8个类别,并针对图像的噪声特点,对其去除高斯椒盐噪声做增强预处理。通过CNN进行特征提取,再将提取到的特征输入给SVM进行预测分类。结果表明,在此次煤泥浮选泡沫分类中取得了87.66%的准确率。
磁选是根据矿物中不同颗粒之间的磁性差异,在非均匀磁场中颗粒受到磁力、机械力的作用下,磁性不同的矿粒会沿着不同的路径运动,进而会使矿粒分离开。将图像识别技术引入到磁选过程,通过对分选过程图像实时监控实现工艺参数调控,对提高磁选过程智能化具有重要意义。
武琦[54]利用Visual C++6.0设计了一个用于识别磁选柱溢流液面状态的数字图像处理系统。通过图像采集、图像预处理、图像分析、数据识别建立样本数据库,识别当前溢流液面的图像数据是否符合要求。该系统通过图像处理技术监控溢流液面跑矿情况,以便及时调节给矿量,能够有效提高磁选效率。KURSUN等[55]通过长石和脉石矿物之间的颜色差异,采用数字图像处理方法来测定样品中磁性矿物和非磁性矿物的相对含量。结果表明,与传统方法相比,数字图像处理方法可以作为一种简单、可靠和可重复的测定磁选精矿中脉石含量的方法。
随着深度学习技术的发展,将选矿工艺与图像识别技术相结合,通过分析和识别选矿过程中的图像信息,可以实时监测和控制选矿工况,从而提高选矿效率、降低人工成本、减少资源浪费。同时,通过数据分析可以实现选矿工艺优化,为选矿行业的可持续发展提供技术支持。
图像识别在重选、浮选、磁选等相关领域研究成果显著,但也存在一些局限:一是图像识别技术需要大量的数据样本进行训练,而生产过程中获取的现场图像和工艺数据误差较大,导致图像识别技术准确度不高;二是由于选矿流程繁杂,选矿工艺需要对多个点位进行控制监测,每个点位所需要建立的模型也不相同,从而增加了全流程智能化控制的难度。