基于视觉检测的非接触式膏体浓度识别方法

2023-07-06 01:03马博渊周佳城班晓娟袁兆麟阮竹恩

中南大学学报（自然科学版） 2023年5期

马博渊，周佳城，班晓娟，袁兆麟，阮竹恩

(1. 北京科技大学北京材料基因工程高精尖创新中心，北京，100083；2. 北京科技大学顺德创新学院，广东佛山，528300；3. 北京科技大学材料领域知识工程北京市重点实验室，北京，100083；4. 北京科技大学人工智能研究院，北京，100083；5. 北京科技大学计算机与通信工程学院，北京，100083)

矿产资源是人类赖以生存、社会发展不可缺少的基础资源，绿色矿山建设是实现矿业高质量发展的重要途径和必然要求，是我国实现由矿业大国向矿业强国转变的必由之路[1-2]。膏体充填是绿色矿山建设过程中的重要组成部分，针对采矿作业造成的地下采空区，使用经过科学配制的充填料浆对采空区进行回填，控制覆岩开采破坏和地表沉陷，降低地表塌陷等灾害发生的风险，保护生态环境，减少土地资源的破坏与占用[2]。基于此，膏体充填技术已成为当前我国矿山开采过程中的重要环节之一。

膏体充填对地表沉陷的控制效果主要取决于膏体料浆的浓度[3-4]，因此，膏体浓度的检测精度是保证充填质量的关键因素。合格的膏体具有浓度适中、不沉淀、不析水、不离析和便于输送等特点[5-6]，因此，在膏体充填过程中，对膏体浓度的准确检测是提高充填质量的关键环节。若膏体浓度太低，则会造成充填强度较低，存在地表塌陷的风险，若膏体浓度太高，则会造成充填管道堵塞，无法泵送膏体至采空区，甚至损坏设备[7]。传统的膏体浓度测量方法包括浓度壶测量法、烘干法、射线测量法、压差法、浮子法和电磁法[6]等，然而，由于这些方法均属于接触式测量方法，在搅拌机高速运动过程中，容易损坏测量设备或因测量时间长而无法获取实时浓度。在工业生产中，也常使用浓度计对膏体浓度进行测量，主要包括超声浓度计和核子浓度计。经过实际工业生产验证，超声浓度计在高浓度下的精度偏低，并且容易被损坏。核子浓度计存在大量的辐射，出于安全考虑，国内并不允许使用核子浓度计测量膏体浓度[4]。基于视觉检测的非接触式膏体浓度实时识别方法成为适用于矿山生产的必然选择。

通过现场大量现场实验分析，本文作者发现不同浓度的膏体在纹理表观上具有明显差异，如图1所示。因此，图像识别方法为膏体浓度识别提供可能的技术手段。

图1 不同浓度的膏体形态Fig. 1 Different morphology of paste with different concentrations

近年来，随着硬件计算能力的提高和人工智能理论的发展，基于深度学习的卷积神经网络(convolutional neural networks, CNN)依托于其强有效的特征提取能力[8-9]成为图像处理与分析领域中的主流方法[10-11]。LECUN 等[12]提出卷积神经网络，KRIZHEVSRY 等[13]提出ALEXNET，在超大型数据集ImageNet 上将图像识别的Top-5 错误率降低至16.4%(Top-5错误率指对每幅图像同时预测5 个标签类别，若预测的5 个类别任意之一为该图像的正确标签，则视为预测正确，否则视为预测错误，Top-5错误率指预测错误的图像数目与总图像数目之比)。VGG[14]，GoogleNet[15]，ResNet[16]和DenseNet[17]等网络多次将错误率降低，截至2017年最后一届ImageNet图像识别竞赛，SENet[18]将图像识别的Top-5错误率降低至2.991%，远低于人类错误率5.1%。目前，针对专有领域的特殊问题，如图像细粒度分类[19-20]、神经网络的可解释性分析[21-23]、视频序列分类[24-25]、小样本图像学习[26-27]等，科研人员进一步优化卷积神经网络结构，旨在让人工智能方法解决应用过程中的实际问题。

在膏体图像浓度识别任务中，膏体图像具有纹理特征精细、干扰多、光照条件不均等特点。基于卷积神经网络的膏体图像识别面临如下挑战：

1) 膏体图像具有图像尺寸大且纹理特征精细的特点，而在传统的卷积神经网络分类应用中，需要将图像缩小成固定尺寸(如224 像素×224 像素)，以减少硬件资源的占用，提高训练效率。然而，如果缩小膏体图像尺寸训练网络模型，将损失图像中的精细纹理特征，产生模型过拟合的风险。

2) 由于膏体图像识别方法需要在实时工业生产环境中运行，搅拌机的转动将会干扰图像识别进程，导致模型识别不准确。

3) 在工业条件下，光照不均问题将影响卷积神经网络对纹理细节的分析。

为了解决以上问题，迫切需要针对膏体浓度识别领域中独有问题改进卷积神经网络的结构和训练过程。采用卷积神经网络单独分析局部纹理特征可为浓度识别提供充足的信息，但局部图像不具有代表性且容易对转动的搅拌机叶片造成干扰，由此通过特征融合的方式融合多个局部区域进行识别为大尺寸膏体图像识别任务提供了可能性。通过预处理方法进行数据增广，可有效提高卷积神经网络对于工业现场不同光照条件的稳健性。

综上所述，本文针对膏体浓度检测领域中传统接触式浓度计识别精度低、易损坏且对人体产生有害辐射等问题，提出一种基于视觉检测的非接触式膏体浓度识别方法，利用图像分析方法在非接触条件下识别膏体的浓度，从而避免接触式测量对仪器的侵蚀和核子浓度计的辐射对人体的损害。针对膏体监测场景下图像纹理特征精细、干扰多、光照条件不均等特点，设计基于深度特征融合的深度卷积神经网络模型，通过多模型全连接层融合的方式融合局部区域的细节特征，并引入伽马(Gamma)矫正数据增广策略，有效提高膏体料浆纹理的识别准确性及不同环境光照条件下的稳健性。

1 基于深度特征融合的膏体图像浓度识别

1.1 膏体数据集采集

在北京科技大学进行模拟膏体制备实验，并拍摄不同浓度的膏体视频图像。整个实验环境包括摄像机、三脚架、搅拌缸、搅拌机、照明灯光以及混合膏体等。图2和图3所示分别为制备实验示意图和流程图。

图2 模拟膏体制备及图像采集实验环境示意图Fig. 2 Simulation paste system preparation and image acquisition experiment environment diagram

图3 模拟膏体制备及图像采集流程图Fig. 3 Simulation paste system preparation and image acquisition flow diagram

主要针对灰沙比为1∶16 的混合膏体浓度进行研究，成分主要包括尾砂、粗骨料、水等，颜色呈灰色状。在制备环境中，使用2 支为功率400 W，色温为5 000 K，光通量为110 lm的LED灯给图像采集提供照明。固定在搅拌机上方两侧，距底部80 cm。用三脚架将1 台摄像机固定于搅拌机正上方140 cm 处，距离料浆80 cm 以上，拍摄画面中心与料浆中心一致。

在保证实验效果的前提下，为节省财力、物力以及时间成本，使用灰沙比为1∶16 固体物料(包括尾砂、粗骨料等)以及不断增加清水的方式进行混合膏体配制。即先测量高浓度的膏体，然后增加定量的清水以逐级降低浓度。通过初始固体物料的质量和每次增加清水之后的膏体总质量，确定当前的料浆实际浓度。

在数据采集前均匀搅拌，以确保浓度识别的准确性。多浓度膏体视频数据为基于图像分析的膏体浓度高精度识别提供了关键信息。

在膏体制备过程中，将灰砂比为1∶16 的固体物料(包括尾砂、粗骨料等)和水按配比倒入搅拌缸中，并调整摄像头进行对焦[28-29]，再用搅拌机搅拌均匀。其中搅拌方式包括手动搅拌和自动搅拌。

本次拍摄的2 组膏体质量分数视频有45 种(由于工业现场通常关注高浓度膏体识别的准确性，因此本文进行分阶段采样，当质量分数为20%～60%时，按照5%的梯度采集；当质量分数为60%～78%时，按照0.5%的梯度采集)。每种浓度均按照25 帧/s 的帧率录制5 min，共有7 500 帧图像。本文从中选取搅拌均匀、各个参数一致的5 000 帧，用以制作得到不同浓度的膏体数据集，最终在手动搅拌和自动搅拌2 种方式下对均具有112 500帧图像的数据集用于深度学习模型分析。

1.2 Gamma矫正策略

在拍摄采集膏体图像数据集时，由于拍摄角度与液位高度的变化，以及随着拍摄时间的改变，现场光照亮度不稳定，并且识别结果容易受到现场实验条件下环境光的影响，导致图像存在噪声。因此，本文采用Gamma 矫正策略改变膏体图像的亮度，作为数据增强策略驱使网络模型学习真正的纹理细节信息，以降低环境光对浓度识别的干扰，从而提高浓度识别的准确性。

Gamma矫正策略是指对膏体图像的Gamma曲线进行转换。其公式表示为

式中：I为原始输入图像矩阵(取值为[0，1])；f(I)为Gamma 矫正结果；λ为系数。当λ＞1 时，图像整体亮度变暗，当λ＜1 时，图像整体亮度变亮，如图4所示。

图4 Gamma矫正示意图Fig. 4 Schematic diagrams of Gamma correction

1.3 单模型特征提取

由于CNN 模型只能输入固定大小的图像块用于分析和计算[30-31]，为充分考虑全局特征和纹理细节，本文针对输入模型的图像，设计全图缩小(full size shrinking)和随机裁剪(random cropping) 2 种图像预处理方式，将图像尺寸由1 920 像素×1 080 像素缩小到224像素×224像素输入CNN模型，如图5所示。

图5 2种图像预处理方法Fig. 5 Two image processing methods

由图5可知：全图缩小的方式虽然可以使网络模型访问到全局图像信息，但由于缩减过程中造成的纹理细节信息缺失，不利于对精细的膏体纹理细节进行分析。而随机裁剪的方式会丢失全局信息，并且容易受到旋转过程中的搅拌机叶片干扰，降低识别准确率。

因此，本文采用模型融合的方式进行浓度分类，设计包括局部图像级联融合、全连接层融合和特征图融合在内的3种模型融合方式，通过结合全局和局部图像特征，提升膏体图像分类准确率。由于模型融合是把独立的学习器组合起来，因此，需要将裁剪得到的5 幅图像分别输入5 个CNN 模型，并且通过参数共享策略提升模型训练结果，从而提升学习效果。

1.4 多模型特征融合

本文采用多图融合的方式实现模型融合，具体实现思路是在随机裁剪的基础上，从1 920 像素×1 080 像素的原图中，按固定位置裁剪出5 幅224 像素×224 像素的小图(如图6 所示)，在模型参数共享的基础上，分别送入模型进行训练、验证和测试，然后使用2种模型融合方式，提升膏体图像分类的准确率。本文选择局部图像级联融合、全连接层融合以及特征图融合3种方式进行对比分析，模型融合网络模型如图7所示。

图6 从膏体图像原图中按固定位置裁剪5张小图示意图Fig. 6 Schematic diagram of cut out five small pictures from original paste image in a fixed position

图7 3种模型融合算法Fig. 7 Three model fusion algorithms and image stitching algorithm

本文使用的局部图像级联融合方式指将随机裁剪得到的5张小图融合为1张图片，并将融合得到的图片送入1 个深度神经网络中进行分析、训练、测试，以验证与局部裁剪的方式相比，膏体浓度识别准确率是否有所提升。

使用的全连接层融合方式指将1张大尺寸膏体图像中得到的5张局部图像分别送入网络的5个参数共享的特征提取分支中，使每张图片经过的每一层计算参数都保持一致，最后经过逐个提取分支特征，每张局部图像得到1个包含其属于每一个分类概率的数组。然后，将5张局部图像得到的数组进行平均，再根据最终求得的概率，将概率最大值的分类作为对应大尺寸膏体图像的预测分类。

使用的特征图融合方式指将特征提取分支输出的5张局部图像特征图进行通道级联，再进行全连接分析操作，得到概率矩阵，最后取最大概率对应的分类作为预测结果。

通过后续实验分析，本文选择VGG16 作为特征提取分支。

2 实验

首先选择在图像分类竞赛(imagenet large scale visual recognition challenge, ILSVRC)中典型的3 种模型(VGG16[14]，resnet50[16]和DENSENET121[17])作为特征提取分支的基线模型进行分析，并选择分类效果最好的模型进行下一步模型融合实验。本文仅选择上述基线模型以证明本文提出的深度特征融合方法的有效性，在实际应用中可根据实际需要更换基线模型。

以经过ImageNet 预训练的CNN 模型为基础[32]，再用提前划分得到的膏体图像训练集，对模型进行再训练。本文在手动搅拌和自动搅拌2种数据集中均有112 500帧图像，并按照3∶1∶1的比例分为训练集、验证集和测试集，即训练集有67 500帧图像，验证集和测试集均有22 500 张图像，并分别标记浓度标签。本文在预处理图像的过程中，对比是否应用Gamma 矫正的实验结果，以验证Gamma矫正对减弱光照条件变化带来的误差影响。

使用开源的深度学习框架Pytorch 进行代码编写和资源管理，并采用4 块NVIDIA GeForce GTX 1080Ti 对图像识别网络模型进行训练，以提高网络模型训练的运算速度。统一设置网络模型的参数：训练轮次为20 轮；batch size 为25；学习率初始为0.01，并采用cosine函数递减算法，每轮次更新学习率，逐渐减小；动量设置为0.9，并利用交叉熵损失函数(cross entropy loss)与随机梯度下降(stochastic gradient descent, SGD)优化器算法逆反馈优化网络参数，优化网络模型[33]。

2.1 单模型识别结果

针对同一预处理算法，3种模型的浓度识别准确率结果如表1所示，其中，VGG-16与ResNet-50的准确率明显比DenseNet-121 的准确率高，本文推测底层纹理特征适用于膏体浓度识别，而使用深层的卷积神经网络具有过拟合的风险。以VGG-16网络为例，输出局部裁剪的图像及前5种浓度预测概率如图8所示(实际质量分数标注于图片下方，以横向柱状图展示预测结果中置信度最高的5个类别的置信度，带有条纹横向柱代表实际浓度对应的置信度)。

表1 不同模型与预处理算法的膏体浓度识别准确率Table 1 Paste concentration identification accuracy of different models and preprocessing algorithms

图8 单模型膏体浓度识别结果Fig. 8 Recognition results in single model of paste concentration

从表1可以得出：采用单图随机裁剪的预处理方式，得到的实验结果和全图缩小的实验结果相差约10%。从图8可看出：运用单模型的识别准确率不高，甚至Top-5中不存在预测正确的浓度。经对此分析，单纯的局部裁剪无法有效地减弱搅拌机图像对膏体信息的干扰，即存在影响浓度识别的噪声信息，同时，全图缩小的浓度识别准确率在无Gamma矫正时超过95%，然而，应用Gamma矫正后正确率骤降至25%。本文认为该波动超出正常范围，原因在于采用全图缩小的模型无法访问到精细的膏体纹理特征，将环境光照亮度变化也作为分类依据，但这一特征与浓度无关，据此，本文设计全新的模型融合算法，以增强实验结果置信度，并降低噪声信息。

2.2 单模型局部图像级联融合识别结果

上述结果表明，直接进行局部裁剪并输入网络模型训练难以达到预期效果，因此，本文设计局部模型融合算法，将5张经过局部裁剪得到的图片进行拼接融合，输入网络训练与测试。结果如表2 所示。以VGG-16 网络为例，输出图像及前5种浓度预测概率如图9 所示(实际质量分数标注于图片下方，以横向柱状图展示预测结果中置信度最高的5个类别的置信度，带有条纹横向柱代表实际浓度对应的置信度)。

表2 单模型局部图像级联融合算法的膏体浓度识别准确率Table 2 Paste concentration recognition accuracy of local original image fusion

图9 单模型局部图像级联融合膏体浓度识别结果Fig .9 Recognition results in single model local image cascade fusion of paste concentration

从图9可以看出：局部图像级联融合算法比上述单图局部裁剪的算法的浓度识别准确率更高，且在Gamma 矫正后，没有出现识别准确率骤降的情况。对比图8，所有的Top-5 都包含了正确的浓度，且几乎所有浓度都在Top-1(预测结果中置信度最高的一个类别)位置预测正确。证明此方法可以明显减小由于光照变化带来的膏体浓度特征识别误差，但是其准确率较低，难以应用于实践。为进一步提高膏体浓度识别准确率，本文设计2种基于基线模型的模型融合算法：全连接层融合与特征图融合。

2.3 多模型融合识别结果

如前文所述，本文设计并实现2种基于基线模型的模型融合算法：全连接层融合与特征图融合。得到结果如表3所示。以VGG-16网络和全连接层模型融合为例，输出图像及前5种浓度预测概率如图10所示(实际质量分数标注于图片下方，以横向柱状图展示预测结果中置信度最高的5个类别的置信度，带有条纹横向柱代表实际浓度对应的置信度)。

表3 不同模型融合算法的膏体浓度识别准确率Table 3 Paste concentration recognition accuracy of different model fusion algorithms

图10 多模型全连接层融合膏体浓度识别结果Fig .10 Recognition results in multi-model full-connection layer fusion of paste concentration

由图10可知：2种模型融合算法都比前述单图随机裁剪算法和单模型局部图像级联融合算法的浓度识别准确率高。对比3种模型，与上述实验结果类似，VGG-16 的浓度识别准确率最高，而ResNet-50 与DenseNet-121 的结果与之相比，相差7%～15%。对比2 种模型融合算法，全连接层融合的效果普遍比特征图融合的效果好，证明对各自独立的全连接层结果进行平均能够更好地提取浓度特征，提升浓度识别准确率。

2.4 Gamma矫正策略对比

应用Gamma 矫正策略可以中和图像的光照信息，降低环境光噪声信息对图像浓度特征信息的干扰，据此，设计对比实验将Gramma矫正作为数据增强策略训练CNN模型。

结果表明，应用Gamma 矫正策略可以显著提高浓度识别准确率。全图缩小预处理方法在应用Gamma 矫正策略后，浓度识别准确率骤降，证明全图缩小方法由于未访问到膏体精细纹理特征造成该方法的泛化性能不强，而全连接层融合算法则可以很好的解决这一问题。全连接层融合算法针对手动搅拌数据集和自动搅拌数据集在增加Gamma矫正后，浓度识别准确率均提升约2%。

3 讨论

本文针对膏体充填任务中关键的浓度识别问题，提出一种基于视觉检测的非接触式膏体浓度识别方法，以膏体图像数据集为基础，对膏体浓度监测准确率进行分析。实验证明，本文提出的方法为膏体浓度识别提供一套全新的解决方案，即通过分析膏体的纹理特征可有效对浓度进行监测。但该方法需要充分考虑现场环境因素的影响。实验证明，在引入Gamma 矫正的情况下，模型的准确率受到一定的影响，但模型的稳健性得到提高。

在未来的研究中，拟采用基于视频分类的分析方法，以充分提取膏体搅拌过程中的纹理信息和运动信息，即在同一搅拌机转速下，浓度高的膏体运动慢，浓度低的膏体运动快。本文认为通过有效提取膏体料浆的运动信息有助于提高浓度识别的准确率。

本文在预研实验中仅采集灰砂比为1∶16 的膏体，然而，在实际工业生产的充填膏体配料中，灰砂比有1∶4，1∶8，1∶16 和1∶24 这4 种配料方式，本文后续将验证模型在其他不同材料配比的膏体浓度分类的准确率，并在轻量化模型部署、模型高速计算等方面进行研究与实验。

4 结论

1) 采用深度学习算法，以膏体图像数据集为基础的基于视觉检测的非接触式膏体浓度识别方法可以有效实现膏体浓度监测。

2) Gamma 矫正策略应用于模型融合的各项对比实验中，识别准确率均提升1.2%以上，对提升算法对不同环境的适应性具有显著效果。

3) 单模型局部图像级联融合算法比单模型非级联算法具有更高的环境适应性，多模型融合算法相较单模型局部图像级联融合算法的浓度识别准确率提升7%以上，全连接层融合相较特征图融合的准确率提升1%以上，其针对手动搅拌数据集和自动搅拌数据集的浓度识别准确率分别达到88.79%和91.42%。

4) 基于视觉检测的非接触式膏体浓度识别方法，可有效提高膏体料浆纹理的识别准确性及对不同环境条件下的稳健性，对于解决传统接触式浓度计识别精度低、易损坏且对人体产生有害辐射等问题有重要意义。