摘" 要: 针对结晶过程中晶体原位图像存在的目标像素低、晶体重叠以及背景干扰等导致的分割检测困难等现象,提出一种改进YOLOv8的晶体原位图像分割方法。为了提高模型的分割检测性能,首先引入高效多尺度注意力机制(EMA),增强模型的感知能力;其次使用空间到深度非跨步卷积(SPD⁃Conv)对原卷积块进行改进,在提升对低像素、小目标晶体分割精度的同时降低了模型的计算量;最后采用高效交互比(EIoU)损失函数优化对遮挡和重叠目标的检测效果。实验结果表明,文中提出的算法晶体检测精度(mAP)达到71.3%,精度提高了5.3%,浮点运算量降低了1.9 GFLOPs。此外,该方法对改善结晶图像质量较差以及存在晶体重叠的工况也具有明显的优势。
关键词: 原位图像; 晶体; 图像分割; YOLOv8; 注意力机制; 损失函数
中图分类号: TN911.73⁃34; TP391.4" " " " " " " " "文献标识码: A" " " " " " " " " 文章编号: 1004⁃373X(2024)23⁃0055⁃07
Deep learning based in⁃situ image segmentation method for crystallization process
CHU Tengfei1, SUN Ke2, ZHANG Fangkun1, SHAN Baoming1 , XU Qilei1
(1. College of Automation and Electronic Engineering, Qingdao University of Science and Technology, Qingdao 266061, China;
2. Shandong Xinhua Pharmaceutical Co., Ltd., Zibo 255000, China)
Abstract: A crystal in⁃situ image segmentation method based on improved YOLOv8 is proposed to address the crystal segmentation difficulties caused by low pixels, overlapped crystals and background interference of the in⁃situ images in the process of crystallization. To improve the segmentation detection performance of the model, the efficient multi⁃scale attention (EMA) mechanism is introduced to enhance the perception ability of the model. Subsequently, the original convolutional block is improved by the space⁃to⁃depth non⁃strided convolution (SPD⁃Conv) method, so as to enhance the segmentation accuracy of crystals (the objects) with low pixel and small size while reducing the computational effort of the model. Finally, the efficient intersection over union (EIoU) loss function is used to optimize the detection results of the occluded and overlapped crystals (the objects). The experimental results show that the crystal detection accuracy (mAP) of the proposed algorithm reaches 71.3%, its accuracy is improved by 5.3%, and its floating⁃point calculation burden is reduced by 1.9 GFLOPs. In addition, the proposed method has advantages in improving the quality of crystal image and eliminating the crystal overlap.
Keywords: in⁃situ image; crystal; image segmentation; YOLOv8; attention mechanism; loss function
0" 引" 言
结晶已广泛应用于医药、电子元件以及材料等行业[1⁃2]。晶体的关键质量属性如形状、尺寸分布等不仅影响产品质量和品质,还影响下游工艺工序,如过滤、干燥、包装等处理步骤[3]。然而,由于工业结晶过程体系复杂且晶体具有动态、微观性、多形态、多维度等特征,晶体信息的在线监测极具挑战。近年来,随着光电传感技术的发展,极具有潜力的图像测量技术在工业结晶领域受到了广泛关注和研究[4]。
将晶体从溶液背景中识别并分离出来是原位分析的前提,算法分割效果将直接影响后续的晶体特性分析与研究[5]。为了获取晶体信息,国内外学者基于阈值[6]、边缘检测[7]、形态学[8]等原理开展了自动分割算法的研究。这些基于传统的分割方法在一些相对简单的情况下表现良好,但其准确性通常会受到许多因素的影响,例如图像质量、固体浓度以及颗粒重叠等[9]。
随着机器视觉技术的快速发展,基于深度学习的分割算法因其适应性、抗干扰能力强以及更优秀的分割精度,逐渐成为了晶体图像处理的主流方法。目前,根据候选框的生成可以将目标检测算法分为两大类:单阶段检测算法与双阶段检测算法[10]。其中,单阶段检测器的检测精度略逊于双阶段检测器,但有着更高的检测速度[11]。
近年来,由于更高的分割精度以及鲁棒性,基于深度学习的分割方法被广泛应用于晶体的原位监测。文献[12]使用YOLOv4实现了晶体团聚与伪团聚的分析与分类,但YOLOv4本身不包含分割功能,因此不利于对晶体形态的后续研究。文献[13]使用Mask⁃RCNN算法分割并分类β型L谷氨酸晶体,但双阶段的网络构造实时性较差。文献[14]提出了一种改进的Unet算法,改善了溶液搅拌和颗粒运动的负面影响,但跨越连接的构造会造成信息的丢失,不利于低像素、小目标晶体的检测。
本文针对晶体原位图像存在的目标像素较低、颗粒重叠以及背景干扰问题,综合考虑了检测精度与速度,提出了一种改进的YOLOv8晶体分割算法。首先,将EMA(Efficient Multi⁃Scale Attention)模块与C2f结合,提出了EMA_C2f模块,提高对图形特征的提取能力;其次,考虑到晶体图像存在目标模糊、微观性等特征,引入SPD⁃Conv对网络进行改进,减少浅层信息的丢失并减少模型的参数计算量;最后,采用高效交并比(Efficient Intersection over Union, EIoU)损失函数,改善遮挡和重叠晶体的漏检问题。经过实验对比证明,改进后的算法在实现模型轻量化的同时提高了分割检测精度。
1" YOLOv8算法原理
YOLO系列是单阶段检测器的代表算法,该框架因兼顾速度和精度而受到广泛关注,其能够快速可靠地识别图像中的目标。YOLOv8于2023年由Ultralytics团队开发,因其优秀的检测性能而被广泛应用[15]。YOLOv8网络支持对象检测和跟踪以及附加任务,例如实例分割、图像分类和关键点检测。YOLOv8网络结构如图1所示。
YOLOv8⁃seg是YOLOv8的实例分割模型,与目标检测模型相比,实例分割模型在头部结构中具有掩模分支和掩模系数,通过分割头学习来预测输入图像的语义分割掩码。
YOLOv8⁃seg网络可以分为Backbone、Neck以及Head三部分。Backbone主干网络用于提取输入图片的特征信息,该部分由CBS、C2f和SPPF三种模块组成。其中,CBS包括Conv2d、BN以及SiLU激活函数,主要用于提取图像的特征信息。C2f模块的设计参考了C3模块以及ELAN思想,在保证轻量化的同时提供了更多的特征信息;SPPF为空间金字塔池化结构,用于处理不同尺度的特征。Neck颈部网络采用了FPN+PAN结构,可以对主干网络提取的特征进行聚合与细化,起到特征融合的作用,并能够增强多个尺度上的语义表达和定位能力。Head检测头作为输出端,采用无锚框(Anchor⁃Free)解耦头降低模型复杂度的同时提高了定位精度与泛化能力。损失函数方面,YOLOv8采用CIoU和DFL作为边界框损失函数,二元交叉熵作为分类损失,从而提高目标检测的性能。
YOLOv8⁃seg分为五个模型:YOLOv8n⁃seg、YOLOv8s⁃seg、YOLOv8m⁃seg、YOLOv8l⁃seg、YOLOv8x⁃seg。其中,YOLOv8s⁃seg兼顾了精度与速度,因此选择YOLOv8s⁃seg作为基准模型。
2" 改进YOLOv8算法原理
结晶过程中晶体具有动态、微观性等特征,导致拍摄到的原位图像往往存在像素较低以及晶体重叠等干扰,给晶体的分割带来了极大的挑战。根据图2的分割结果,原始的YOLOv8对于像素较低以及重叠的晶体检测效果较差,容易出现漏检等问题,不利于结晶过程的原位分析。因此为了获得更好的检测效果,对YOLOv8进行了一系列的改进。
2.1" 改进后的YOLOv8算法
为了提高算法对晶体目标的分割性能,首先,在主干网络引入EMA注意力机制对C2f进行改进,以提高目标检测的准确性与鲁棒性;其次,使用SPD⁃Conv改进卷积模块,避免了浅层特征信息丢失的问题;同时,SPD⁃Conv由于去除了池化与步长的部分,可以有效降低模型的参数计算量;最后,采用EIoU损失函数代替CIoU,优化对遮挡和重叠目标的检测效果。相比于基准模型YOLOv8s⁃seg,改进后的算法对晶体原位图像有着更好的分割检测效果。改进后的YOLOv8网络结构如图3所示。
2.2" EMA注意力机制
注意力机制能够捕获局部重要信息,从而提高模型在各种任务中的性能和准确性。对于结晶过程所拍摄的原位图像,往往存在较多的背景干扰,因此在基准算法YOLOv8的基础上加入了注意力机制,帮助算法聚焦于晶体目标,提高算法的识别性能。
EMA是一种高效多尺度注意力机制[16],它采用并行子结构减少网络深度,并通过跨维度的交互作用保留每个通道上的信息。EMA机制结构如图4所示。
EMA聚合了多尺度空间结构信息,将1×1卷积内核与3×3卷积内核并行放置从而保证检测速度。对于输入特征[X∈Rc×h×w],EMA按通道数将其划分为[g]个子特征,以学习不同的语义。其中[g≪c],保证符合一般性的条件。
通过在C2f结构中引入EMA模块,使得模型能够更加专注于目标区域的位置信息,从而提高对目标区域的检测精度。EMA_C2f模块的网络结构如图5所示。
2.3" SPD⁃Conv
在卷积神经网络结构的早期层中,图像分辨率适合研究大目标,并且可以在步长体积内很好地过滤大量冗余信息,使得模型学习的特征效果更好。然而,当图像像素数量较少或检测目标较小时,冗余数据量较少。在这种情况下,跨步卷积和池化会导致细节信息的丢失,卷积神经网络在图像分辨率较低或目标较小的情况下,其网络性能会迅速下降。
为了提升算法对低像素、小目标晶体的检测效果,在YOLOv8中引入SPD⁃Conv[17]模块以减少特征提取过程中信息的丢失,改善模型对模糊、小目标晶体的分割检测性能。在SPD⁃Conv中,使用空间到深度卷积SPD提取更深层次的特征信息,并通过降维来加快运算速度。随后,无步长卷积Conv(步长为1)对经过SPD处理的特征信息进行卷积操作,逐层提取特征。由于去除了步长和池化,不会造成浅层信息的丢失并且降低了计算量。SPD⁃Conv网络结构如图6所示。
对于输入大小为[S×S×C1]的原始特征图[X],SPD⁃Conv按比例因子[q]对子特征图进行下采样,将[X]切分成一系列的子特征图。通常比例因子[q]设定为2,经过下采样的[X]空间维度缩小一半,通道维度扩大为4倍,从而得到4个大小均为[(S2,S2,C1)]的子特征图。再沿着通道维度将这些子特征图连接起来,将4个子特征图按通道维度拼接,得到一个中间特征图[X]。随后,添加一个带有[C2]过滤器的Conv,再进一步进行转换,将[X(Sq,Sq,q2C1)]转换为[X(Sq,Sq,C2)],其中,[C2lt;q2C1]。
通过在网络中融合SPD⁃Conv,帮助模型有效地融合不同层次的特征,减少信息丢失,从而提高模型对低分辨率、小目标晶体的检测性能。
2.4" EIoU损失函数
YOLOv8采用了CIoU损失函数,能够对中心点距离、重叠面积和纵横比三个方面进行调整,实现边界框回归过程的优化。但CIoU由于无法反映锚框宽高的实际差距,当锚框宽高比值相同时损失为0,因此不利于预测框的回归优化[18]。所以在CIoU的基础上,将纵横比部分拆分,提出了可以描述宽高的EIoU[19]损失函数,其计算公式如下:
[LEIoU=LIoU+LDis+LAsp=1-IoU+ρ2(b,bgt)(wc)2+(hc)2+ρ2(w,wgt)(wc)2+ρ2(h,hgt)(hc)2]
式中:[LIoU]表示I[o]U损失;[LDis]表示距离损失;[LAsp]表示纵横比损失;[b]、[w]、[h]分别表示预测框的中心坐标、宽度和高度;[bgt]、[wgt]、[hgt]分别表示真实框的中心坐标、宽度和高度;[wc]、[hc]分别表示预测框和真实框最小外接矩形的宽度和高度;[ρ2(b,bgt)]表示[b]和[bgt]之间的欧氏距离;[ρ2(w,wgt)]表示[w]和[wgt]之间的宽度差值;[ρ2(h,hgt)]表示[h]和[hgt]之间的高度差值。
EIoU损失可以反映锚框宽高的实际差距,帮助算法选择最合适的边界框来准确定位目标,有助于改善晶体重叠导致的检测框失真现象,从而有效降低重叠晶体漏检问题。
3" 实验与分析
3.1" 实验环境
实验使用的服务器环境配置如表1所示。
3.2" 实验数据集采集
数据集来自β型L谷氨酸的冷却结晶过程实验,使用非侵入式在线成像系统对晶体图像进行原位采集,实验装置如图7所示。
晶体的原位图像通过外部CCD相机获取,拍摄的晶体原位图像样图如图8所示。其中每张图片中都含有多个晶体目标,并在标注过程中针对晶体类型(单个晶体(single)与重叠晶体(overlapped))进行了分类。
3.3" 消融实验
为了证明各项改进措施对晶体原位图像中目标分割精度的提升作用,基于结晶过程中采集的晶体原位图像数据集,依次对YOLOv8网络模型添加相应的改进措施,进行了一系列的消融实验。针对模型的查准率([P])、召回率([R])、[F1]、平均精度均值(mAP)、浮点运算量(GFLOPs)以及模型参数量(Params)进行了统计分析,结果如表2所示。
通过实验结果分析可知:A表示在主干网络替换EMA_C2f模块,提高了模型对特征的提取能力,综合指标mAP与[F1]分数均有提升;B表示将SPD⁃Conv模块替换为YOLOv8主干与颈部网络中的Conv模块,提高了低像素、小目标晶体的检测能力,整体mAP与[F1]均有提升;C表示将CIoU替换为EIoU损失函数,在不增加网络复杂程度的前提下,提高了精度;D表示将EMA_C2f与SPD⁃Conv两种改进同时应用于基准算法;E分别将EMA_C2f与EIoU损失函数两种改进同时应用于基准算法;Ours代表加入所有改进措施后的改进算法,其中[F1]为68.2%,提高了5.1%,mAP值为71.3%,提高了5.3%,说明改进后的YOLOv8算法更能准确地识别晶体。
对于改进的YOLOv8s⁃seg算法,注意力机制的引入提高了模型性能,但会增加一定的计算量。SPD⁃Conv的引入,可以有效应对晶体图像目标模糊的缺陷,同时SPD⁃Conv相比于普通的Conv模块,去掉了步长与池化操作,起到了减少模型计算量的作用。通过实验对比,经过改进后的模型浮点运算量降低了1.9 GFLOPs,模型参数量降低了1.14 MB,实现了轻量化。
3.4" 算法对比实验
为了进一步验证,将改进后的算法与YOLO系列分割算法以及结晶领域主流的深度学习分割算法进行了对比,实验结果如表3所示。
由对比实验结果可知,本文改进的方法与其他主流的分割模型相比,有着更高的准确度。
3.5" 分割结果可视化
为了更直观地展示本文改进算法在检测晶体原位图像上的提升效果,进行了分割对比实验,实验结果如图9所示。
通过图9中的对比可知,基准算法YOLOv8s与改进算法都能识别出两类目标,但基准算法在面对出现的小目标晶体、阴影下的晶体以及重叠晶体时无法做到全面的识别,而本文提出的方法对于这类晶体有着更高的识别能力,通过分割对比实验证明,本文提出的改进算法有着更好的综合性能。
4" 结" 语
本文针对结晶过程原位图像存在的目标像素较低、颗粒重叠以及背景干扰等问题,提出一种改进YOLOv8的晶体原位图像分割方法。首先,将EMA注意力机制与C2f模块结合,使模型聚焦于目标的关键相关特征,从而提高模型的性能与准确性;其次,使用SPD⁃Conv改进卷积模块,加强网络对低像素、小目标晶体的检测能力,同时降低模型的参数计算量;最后,采用EIoU损失优化对相互遮挡目标的检测效果。通过多种实验分析,改进后的算法mAP为71.3%,精度提高了5.3%,浮点运算量为40.5 GFLOPs,降低了1.9 GFLOPs。此外,对结晶图像质量较差以及存在晶体重叠的工况下该方法也具有明显的优势,能够更好地识别成像较差以及重叠的晶体。
注:本文通讯作者为徐啟蕾。
参考文献
[1] WU W L, MILLS M M, SCHACHT U, et al. Sensor fusion and calibration⁃based adaptive image analysis procedure for in situ crystal size measurement [J]. Crystal growth amp; design, 2023, 23(10): 7076⁃7089.
[2] 赵绍磊,王耀国,张腾,等.制药结晶中的先进过程控制[J].化工学报,2020,71(2):459⁃474.
[3] NEOPTOLEMOU P, GOYAL N, CRUZ⁃CABEZA A J, et al. A novel image analysis technique for 2D characterization of overlapping needle⁃like crystals [J]. Powder technology, 2022, 399: 116827.
[4] ZHANG F K, LI W, SHAN B M, et al. Crystal measurement technologies for crystallization processes: Advances, applications, and challenges [J]. Measurement, 2024, 231: 114672.
[5] 陈宗元,张磊磊,赵宁宁,等.混合颗粒系重叠图像分割与分类方法研究[J].计量学报,2022,43(6):746⁃753.
[6] 郭观凯,刘伟,余玲玲,等.基于改进FAST与分水岭算法的颗粒图像分割[J].中国粉体技术,2019,25(2):61⁃67.
[7] VANCLEEF A, MAES D, VAN GERVEN T, et al. Flow⁃through microscopy and image analysis for crystallization processes [J]. Chemical engineering science, 2022, 248: 117067.
[8] 赵于前,柳建新,刘剑.基于形态学重构运算的医学图像分割[J].计算机工程与应用,2007(10):238⁃240.
[9] ZONG S, ZHOU G, LI M, et al. Deep learning⁃based on⁃line image analysis for continuous industrial crystallization processes [J]. Particuology, 2023, 74: 173⁃183.
[10] 赵永强,饶元,董世鹏,等.深度学习目标检测方法综述[J].中国图象图形学报,2020,25(4):629⁃654.
[11] 何俊,蒋昌辉,李倡洪,等.基于EF⁃YOLO的输电线路鸟害检测技术研究[J].现代电子技术,2022,45(10):94⁃98.
[12] JIANG Z Y, LIU T, HUO Y, et al. Image analysis of crystal size distribution and agglomeration for β form L⁃Glutamic acid crystallization based on YOLOv4 deep learning [C]// 2021 China Automation Congress (CAC). New York: IEEE, 2021: 3017⁃3022.
[13] GAO Z G, WU Y Y, BAO Y, et al. Image analysis for in⁃line measurement of multidimensional size, shape, and polymorphic transformation of I⁃Glutamic acid using deep learning⁃based image segmentation and classification [J]. Crystal growth amp; design, 2018, 18(8): 4275⁃4281.
[14] HUO Y, LI X, TU B. Image measurement of crystal size growth during cooling crystallization using high⁃speed imaging and a U⁃net network [J]. Crystals, 2022, 12(12): 1690.
[15] TERVEN J, CóRDOVA⁃ESPARZA D M, ROMERO⁃GONZáLEZ J A. A comprehensive review of YOLO architectures in computer vision: From YOLOv1 to YOLOv8 and YOLO⁃NAS [J]. Machine learning and knowledge extraction, 2023, 5(4): 1680⁃1716.
[16] OUYANG D L, HE S, ZHANG G Z, et al. Efficient multi⁃scale attention module with cross⁃spatial learning [C]// 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York: IEEE, 2023: 1⁃5.
[17] SUNKARA R, LUO T. No more strided convolutions or pooling: A new CNN building block for low⁃resolution images and small objects [C]// Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Heidelburg: Springer, 2022: 443⁃459.
[18] 刘毅,蒋三新.基于改进YOLOX的钢材表面缺陷检测研究 [J].现代电子技术,2024,47(9):131⁃138.
[19] ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression [J]. Neurocomputing, 2022, 506: 146⁃157.
作者简介:褚腾飞(1997—),男,山东潍坊人,硕士研究生,研究方向为图像分割、智能感知与信息处理。
孙" 科(1980—),男,山东淄博人,工程师,研究方向为机器学习、化工智能控制。
张方坤(1986—),男,山东聊城人,博士研究生,副教授,研究方向为智能控制、在线监测。
单宝明(1974—),男,山东东营人,博士研究生,教授,研究方向为人工智能、智能仪表与嵌入式系统。
徐啟蕾(1980—),女,山东青岛人,博士研究生,副教授,研究方向为机器视觉及机器人自主导航。