张仲圆,刘淑慧
(大连交通大学电气信息工程学院,辽宁大连 116028)
在催化材料领域,基于原位电镜纳米材料图像的识别与追踪是表征材料结构,进而了解材料性能的一个重要环节。在原位电镜中可以实时看到化学反应过程,相比静态显微图像,会产生海量视频数据,因此,在化学反应过程中高效、可靠的实现追踪与信息提取是决定原位电镜应用于催化材料领域的关键要素。在传统纳米材料图像的数据分析中,通常采用专业软件进行人工标注和人工追踪的方法,这种方法非常耗时和繁琐,且标注的数量有限,获得数据结果有所不足,无法有效挖掘整个化学反应过程中纳米材料的有用信息。因此,需要一体化、自动的方法来识别和追踪纳米颗粒。在计算机视觉领域中,目标识别和目标追踪的发展很快,很大程度上受强大的深度学习的影响,比如FAST-RCNN[1]、FASTER-RCNN[2]和YOLO[3]算法等用于目标识别和目标追踪,这些算法在计算机视觉领域得到了广泛的应用[4-5]。基于卷积神经网络的图像算法在自然场景等领域得到了广泛的应用,但针对纳米材料图像,文献多用分水岭分割[6]、Markov 随机场[7]等传统算法来尝试图像识别。针对纳米颗粒原位电镜视频数据分析,需要精确的实例分割与追踪,进而完成化学反应过程中纳米颗粒有用信息的提取,如纳米颗粒的直径、面积等变化,这些任务目前来说是具有很大挑战性的。
基于此,文中将深度学习方法迁移到催化材料领域来进行原位电镜视频图像纳米颗粒的识别与追踪,验证算法的有效性。算法主要由两部分组成:实例分割模块和目标追踪模块。实例分割模块采用MASK-RCNN,产生纳米颗粒图像的掩膜,实现纳米颗粒与背景的分割。同时,开发了一个基于Trackpy开源软件包的具有图形界面的纳米颗粒追踪器,便于纳米颗粒的追踪过程展示和数据信息统计,为科研人员分析纳米材料化学反应过程提供详细的信息并指导材料的制备。
此次实验采用纳米颗粒催化剂材料视频图像如图1 所示,分为两部分,浅色部分为背景,深色部分为催化剂,即纳米颗粒,由贵金属组成。原位电镜图像均是灰度图像,背景部分与前景部分对比度不高,纹理信息不丰富,无法靠人工提取特征。该实验提出一种基于深度学习的实例分割与追踪算法,对原位电镜视野中纳米颗粒在整个化学反应过程中进行目标的识别和追踪。
图1 纳米颗粒图像
纳米颗粒识别与追踪流程如图2 所示,首先通过原位电镜获取化学反应过程中的视频图像,然后标准纳米颗粒数据集,最后对MASK-RCNN 实例分割网络[9]进行训练,完成对视频图像中所有帧的纳米颗粒分割,输出MASK 掩膜图像。同时,开发了一个基于Trackpy 的纳米颗粒追踪器,将纳米颗粒追踪过程进行界面显示,最后对输出的识别跟踪结果进行信息统计与分析。
图2 纳米颗粒识别与追踪流程
MASK-RCNN 实例分割算法主要是由目标检测部分和MASK 分割部分组成,目标检测部分实现了对纳米颗粒的识别和定位,分割部分通过全卷积网络[10](Fully Convolutional Network,FCN)生成了掩膜区域,实现了对纳米颗粒的准确分割,MASK-RCNN实例分割算法可以达到像素级别的实例分割效果。
文中采用的MASK-RCNN算法的整体框架如图3所示。首先,特征提取网络会对纳米颗粒图像进行特征的提取和融合,得到对应纳米颗粒的特征图,采用区域建议网络[11](Region Proposal Network,RPN)在其特征图上生成先验框来进行匹配区域[12](ROI Align)和筛选来得到较准确的建议框,然后,对建议框和实际框进行对比得到预测框,接着对预测框作出分类和定位,并结合纳米颗粒图像的识别结果得到纳米颗粒图像对应的MASK 掩膜图像,最终得到了对纳米颗粒图像的实例分割结果。
图3 MASK-RCNN算法整体框架
1.1.1 RPN网络
RPN 网络通过比例不一致的窗口在纳米颗粒特征图上进行滑动从而生成候选区域。RPN 包含三个长宽比例分别为1∶1、1∶2、2∶1 的窗口,RPN 利用该尺度窗口对特征图进行滑窗,当交并比[13](Intersection over Union,IoU)大于或等于0.5 时,认为其为正例,并对其进行回归。
交并比计算如式(1)所示:
式中,A为RPN 网络生成的先验框,B为训练集中正确的真实框,SA∩B为A、B的重叠面积,SA∪B为A、B的并集面积。
1.1.2 ROI Align层
ROI Align 层对ROI 特征图进行池化的操作,可以将不同大小的纳米颗粒特征图通过该层池化为固定大小的特征图,ROI Align 算法流程如图4 所示。
图4 ROl Align算法流程
ROI Align 层采用的是双线性插值的方法,主要特点是保留了浮点型坐标系,这可以避免产生量化误差,使得纳米颗粒图像和特征图进行一对一匹配。该算法如式(2)-(4)所示:
1)对x方向进行线性插值:
2)对y方向进行线性插值:
1.1.3 损失函数定义
MASK-RCNN 算法主要对以下三个部分进行实例分割,即纳米颗粒的目标检测定位、纳米颗粒和背景的分类、纳米颗粒和背景的分割。因此,损失函数包括目标检测定位损失、纳米颗粒和背景的分类损失和分割损失。因此,损失函数如式(5)所示:
纳米颗粒和背景的分类损失如式(6)所示:
目标检测的定位损失如式(8)所示:
纳米颗粒和背景的分割损失即MASK 掩膜损失,使用该类别的交叉熵作为误差值进行计算,其计算如式(10)所示:
1.1.4 训练过程
该实验的实例分割模型在Window10 操作系统下进行,使用Pycharm 集成开发环境对代码进行编写与调试,实验环境配置如表1 所示。
表1 实验环境配置
利用原位电镜获取纳米颗粒结构特征的成本较高,调试时间较长,因此纳米颗粒图像数据集的图像数量有限,为了提高纳米颗粒的实例分割精度,需要对纳米颗粒图像数据集进行旋转、移位、缩放等数据增强的操作。纳米颗粒图像的像素大小为256×256,原始数据集的张数为283 张,利用数据增强对该数据集进行数据扩充,可扩展到三千余张。其中,将80%的数据作为测试集,20%的数据作为验证集。
深度学习框架为Tensorflow 和Keras,该深度学习框架是使用数据流图进行数值运算的代码库,具有很好的通用性,常应用在机器学习等领域。本实验使用NVIDIA 的GPU 版本,利用GPU 的性能优势加速提高实例分割网络模型的训练效率。
实验所需其他相关的包和模块主要有OpenCVpython 和Numpy 库,其中OpenCV 是常用于图像处理的开源函数库,近年来在目标检测、物体识别等领域应用较多,Numpy 库是用Python 实现科学计算的扩展程序库,运行速度快,为大量矩阵运算和维度数组提供数学函数库,该文实验使用OpenCV 和Numpy库进行图像预处理等图像处理操作。
MASK-RCNN 实例分割算法可以识别和分割出纳米颗粒,同时每个纳米颗粒都拥有一个唯一的标识(Identity Document,ID),连续图像中的ID 被链接并在追踪模块中进行追踪。在Trackpy 中,纳米颗粒的位置、直径、周长等数据特征作为追踪参数。Trackpy 库中使用其默认的最近邻搜索算法,即K 维树算法[15](K-dimension tree algorithm)来搜索实验中每个连续掩码中属于同一纳米颗粒的ID。文中基于PyQt 和PyQtGraph 库的追踪模块GUI 开发的图形用户界面[16](Graphical User Interface,GUI)提供手动数据验证,以识别出纳米颗粒分割和追踪中的潜在错误。通过手动合并两个ID 来纠正错误分割为两个ID 的颗粒。相比于传统手工追踪,此次实验采用的纳米材料追踪模型大大减少了劳动量。同时,采用scikit-image 库提取具有有效轨迹的每个纳米颗粒的形态学参数,如半径、周长和面积等数据信息。
追踪模块GUI 图形用户界面如图5 所示,左侧面板用于显示原始图像,右侧面板用于显示实例分割图像,最右侧用于显示每个颗粒的ID,对于追踪效果不理想的纳米颗粒可手动去除。同时将追踪结果保存到文件中,用于提取纳米颗粒的直径、面积、周长等数据信息。
图5 追踪模块GUI的图形用户界面
利用训练好的模型,预测整个化学反应过程纳米颗粒的分割结果,测试图像识别结果如图6 所示。可以看出,此次实验的算法在完成纳米颗粒目标框定位的同时,实现了对纳米颗粒精确定位与实例分割。
图6 识别结果
为验证纳米颗粒追踪器的精确性和实用性,将纳米颗粒图像的识别结果导入到追踪器中,连续图像中的纳米颗粒ID 被链接并在追踪模块中进行实时追踪,同时GUI图形用户界面为科研人员提供手动的数据验证及显示不同帧的跟踪结果。如图7 所示,分别显示了视频数据每一帧的原图像和追踪图像。
图7 追踪结果
追踪完成后,GUI 图形用户界面的数据处理模块根据追踪结果生成每个时间纳米颗粒的位置坐标、直径、面积和周长等数据信息,以供科研人员进行数据分析。对所有纳米颗粒进行数据统计,得到的数据结果如图8 所示。
图8 纳米颗粒追踪结果
根据图8 的数据信息,材料领域科研人员可以对纳米颗粒在化学反应过程随时间变化的结构、大小、面积、轨迹等进行分析,实时分析纳米颗粒的变化,将纳米材料结构实时演变与催化性能之间进行关联,进一步揭示了纳米材料结构对催化性能的影响,进而指导材料的制备与研究。
该文实验为纳米颗粒的分割和追踪提供了可靠的定量解决方案,对纳米颗粒图像无需特殊处理,其轮廓就能被自动分割和追踪。与传统的手工追踪方法相比,大大节约了工作量。通过手动校验功能,科研人员可以对追踪数据进行校验,确保数据的有效性。这使得科研人员能够以现有软件无法提供的便利性,分析纳米材料结构与催化性能之间的构效关系。