基于多尺度注意力机制的真菌显微图像分类方法

2023-02-10 02:27张雪媛许鸿雁董跃明刘丹凤孙鹏蕊崔洪亮

协和医学杂志 2023年1期

张雪媛，许鸿雁，董跃明，刘丹凤，孙鹏蕊，颜锐，崔洪亮，雷红，任菲

1中国科学院计算技术研究所，北京 100190 2北京知见生命科技有限公司，北京 100036 3解放军总医院第八医学中心，北京 100091

近年来，真菌感染发生率和死亡率呈逐渐上升趋势，全球每年因真菌感染导致约150万人死亡，对人类的生命健康造成了严重威胁[1]。大量临床研究证实，早期诊断可显著提高真菌感染的治疗效果，极大程度上改善临床转归[2]，但目前真菌感染的早期诊断仍存在诸多挑战，主要包括两个方面：(1)真菌种类繁多，部分真菌感染缺乏可辨识的组织学特征和特异的临床与影像学表现，易被误诊；(2)真菌感染诊断的准确性很大程度上受医师工作经验和主观因素的影响。因此，亟需探寻可对多种真菌实现自动分类的新型诊断方法。

深度学习可通过端到端的学习方式，自动提取图像中的特征，实现图像分类，其在医学影像领域的应用已取得长足进步[3-4]。目前已有多位学者探究了深度学习在真菌、细菌、病毒等微生物领域中的应用价值，发现通过深度学习网络可实现环境中微生物图像分割、菌种分类、细菌计数，且具有较高的准确性[5-8]。关于真菌图像分类模型，亦有相关研究报道[9-13]，但既往模型存在运行时间较长，对菌种的识别较单一等多方面局限。曲霉菌属、酵母菌属和新型隐球菌作为临床最常见的侵袭性真菌，是引起人类真菌感染的主要病原体之一，其通过肉眼难以鉴别，早期诊断困难。本研究基于深度学习网络，尝试建立一种可对曲霉菌属、酵母菌属和新型隐球菌属共11种真菌图像自动分类的智能诊断方法，以提高真菌感染诊断的工作效率，减少误诊。

1 材料与方法

1.1 图像来源

回顾性收集2020年9月—2021年4月解放军总医院第八医学中心真菌感染者的显微镜图像。纳入标准：病原体经全自动微生物质谱检测系统鉴定为曲霉菌属或法国梅里埃VITEK 2-Compact全自动微生物鉴定系统鉴定为酵母菌属和新型隐球菌属。排除标准：图像质量不合格。

所有图像均由2名经验丰富且经统一培训的检验科专业人员采用微生物鉴定技术进行标注，经图像预处理后按7∶1.5∶1.5的比例随机分为训练集、验证集和测试集，分别用于模型训练、参数调试及分类效果评价。

本研究经解放军总医院第八医学中心伦理审查委员会审议，免除伦理审查，并豁免患者知情同意。

1.2 研究方法

1.2.1 图像采集

取真菌感染标本(尿液、痰液、肺泡灌洗液、分泌物、脑脊液)约2 μL，实验室培养48 h后进行革兰氏染色。采用分辨率为1800万像素的佳能600 D相机(搭配目镜为×10，物镜为×100的显微镜)进行图像采集。

1.2.2 图像预处理

由于原始图像常包含气泡、污渍、杂菌等干扰信息，背景复杂，需进行图像预处理。首先采用中值滤波法去除图像中的噪声(图1)，然后采用最大类间方差法[14]对真菌图像进行分割，以去除杂质并完整提取图像的边缘信息[15]。图像预处理后，采用随机中心裁剪及随机翻转、旋转、缩放、颜色抖动等方式进行数据增强，从而在一定程度上避免模型过拟合和数据不平衡问题，增强模型的鲁棒性。

图1 去噪前后的真菌图像对比

1.2.3 模型构建与性能评价

真菌显微图像分类存在如下难点：(1)部分真菌图像(如酵母菌属)真菌部分占比极小，大部分图像区域为背景。(2)不同菌种的真菌形态大小差异较大，如酵母菌属的尺寸一般很小，而曲霉菌属的尺寸相对较大。此种尺寸差异要求网络结构的感受野一方面需足够大(可关注尺寸大的目标)，另一方面也需足够小(可捕获尺寸小的目标)，导致单个卷积神经网络(convolutional neural network, CNN)模型的性能不佳。为了更好地完成真菌显微图像分类任务，本研究对经典MobileNetV2网络结构[16]进行了改进(图2)。MobileNetV2由谷歌团队首次提出，为一种轻量级CNN模型，在保证模型识别精度不降低的前提下可减少模型的复杂程度和计算时间，其在ImageNet[17]数据集上的性能表现优异。

图2 基于改进的MobileNetV2模型结构示意图

针对真菌分类的第一个难点，本研究在经典MobileNetV2中加入Squeeze-and-Excitation(SE)[18]模块。其为一种轻量级注意力机制，可针对特征图(Feature Map)中不同通道(Channel)之间的关系进行高效建模，以增强网络模块的特征表达能力。SE模块包括Squeeze操作和Excitation操作。前者可顺着空间维度进行图像特征压缩，将每个二维特征通道转变为一个实数，具有全局的感受野，且输出的维度等于输入的特征通道数；后者可对每个通道的重要性进行预测，得到不同权重的通道后再加权至特征图的对应通道上。目的是通过对每个通道的重要程度进行加权，增强有用的特征信息，抑制无用的特征信息，使得网络结构可针对真菌所在区域的相关特征进行学习，提高模型对尺寸较小菌种的识别精度。

针对第二个难点，本研究在经典MobileNetV2中引入具有空洞卷积(dilated convolution)功能[19]的SE模块(即Dilated SE)。Dilated SE中的空洞卷积引入了“扩张率”，该超参数可规定卷积核处理数据时各数值之间的距离，使得空洞卷积在不增加运算成本的条件下，增大网络的感受野。感受野越大，其接触的原始图像范围越大，信息越全面，对尺寸较大目标的检测效果越好；感受野越小，其对应的特征更为局部和细节，对尺寸较小目标的识别效果越好。具体运行时，该模块构造出3个空洞卷积，扩张率(数值越大，对应的感受野越大)分别为3、6和9，然后将各自输出的特征图相连接、融合，输入至下一个卷积层，以保证获取的特征向量既可关注全局信息也识别局部的细节信息(图3)。

图3 Dilated SE模块运行示意图

由于真菌图像的尺寸不一，模型构建前将其调整为512×512像素的图像，并于每张图像中心处裁剪出像素为448×448的单张图像，获得最终模型的输入数据集。基于训练集图像，采用5种经典的CNN网络(ResNet18[20]、MobileNetV2、SENet、DenseNet121[21]、Inception V3[22])和改进的MobileNetV2网络构建真菌图像11分类模型。模型训练过程中，采用交叉熵(cross entropy)函数为损失函数，随机梯度下降(stochastic gradient descent，SGD)为优化策略，并采用余弦退火(cosine annealing)策略[23]动态调整学习率。采用3折交叉验证法进行模型评估。为避免模型过拟合现象，提高模型的准确性和泛化性，采用迁移学习法[24]将在ImageNet数据集预训练获取的模型参数作为真菌分类模型的初始化参数，在真菌分类任务中对模型进行微调。采用验证集数据对模型的分类效果进行测试，并选取每种网络结构分类效果最好的模型，于测试集中进行评价，取3次测试时各指标的均值为最终结果。模型训练和评价均在2块NVIDIA GeForce RTX 3090显卡上进行。

1.3 评价指标

以机器鉴定结果为金标准，以查准率(precision)、召回率(recall)和F1值评估改进的MobileNetV2模型对11种真菌的分类性能，并采用混淆矩阵展示模型对各真菌图像分类结果与真实类别的误差。查准率用于评估模型分类结果的准确性；召回率用以评估模型对每个真菌类别正确识别的比例；F1值为综合评价指标，其数值越高表示模型的性能越好。以模型参数量、内存占用量、网络每秒处理的图像数量(frames per second, FPS)、准确率及受试者操作特征(receiver operating characteristic, ROC)曲线下面积(area under the curve，AUC)为评价指标，比较5种网络结构和改进的MobileNetV2模型的性能，其中参数量、内存占用量越低表示模型计算量越少、运算成本越低，FPS越高表示模型的运算速度越快，准确性、AUC越高表示模型的分类性能越好。

1.4 可视化展示

针对真菌图像识别的可解释性问题，本研究在训练后的模型中加入了梯度加权类激活映射(gradient-weighted class activation mapping，Grad-CAM)[25]。Grad-CAM可在不改变模型架构的情况下对模型的表现能力进行解释。其基于目标的梯度信息，可在最后一个卷积层中生成定位图谱，突出显示在图像分类任务过程中起关键作用的区域所在的大致范围，即对真菌分类相关的重要区域进行可视化展示，结果以类激活热力图的形式展现。

1.5 统计学处理

采用Python 3.9.0软件进行统计学分析，并输出模型分类结果的混淆矩阵。查准率、召回率、F1值等计量资料以均数±标准差的形式表示。

2 结果

2.1 真菌显微镜图像数据集

共纳入真菌显微镜图像7666张，分别包括曲霉菌属、酵母菌属和新型隐球菌属图像2781张、4115张、770张。其中训练集5366张、验证集1150张、测试集1150张。

曲霉菌属中，包括烟曲霉菌(954张)、杂色曲霉菌(927张)和黑曲霉菌(900张)；酵母菌属中，包括解脂假丝酵母菌(903张)、近平滑念珠菌(899张)、葡萄芽菌(897张)、季也蒙念珠菌(854张)、克柔念珠菌(228张)、光滑念珠菌(182张)和热带念珠菌(152张)；新型隐球菌属中，均为新型隐球菌。11种真菌显微镜图像见图4。

图4 11种真菌显微镜图像

2.2 改进的MobileNetV2模型性能评估

改进的MobileNetV2模型对11种真菌图像具有较高的分类性能：查准率为96.36%～100%，其中识别黑曲霉菌、克柔念珠菌、新型隐球菌的查准率均为100%；召回率为96.53%～100%，其中识别的解脂假丝酵母菌和克柔念珠菌的召回率均为100%；F1值为97.01%～100%，其中识别克柔念珠菌的F1值达100%(表1)。混淆矩阵提示，模型识别错误的菌种多位于同一菌属间，如部分烟曲霉菌和黑曲霉菌图像被模型误识别为杂色曲霉菌图像(图5)。

表1 改进的MobileNetV2真菌分类模型在测试集中的表现

图5 基于改进的MobileNetV2真菌分类模型混淆矩阵

2.3 不同模型的性能比较

5种经典CNN模型和改进的MobileNetV2模型的性能比较结果见表2。本研究主要以评价模型运算速度的FPS及衡量模型精度的准确率为主要观察指标，结果显示改进的MobileNetV2真菌分类模型的FPS为573，准确率为(99.09±0.18)%，综合性能最优。

表2 不同分类模型在测试集中的运行结果

2.4 结果可视化

为增加模型分类结果的可解释性，本研究通过Grad-CAM输出对真菌图像分类起关键作用的区域的定位信息，即类激活热力图(图6，受篇幅限制，仅对部分真菌进行展示)。模型对光滑念珠菌、葡萄芽菌、新型隐球菌、烟曲霉和杂色曲霉图像关注度较高的信息均位于菌体所在的区域，与此不同的是，黑曲霉菌的类激活热力图中，热点区域主要集中在菌体边缘外围区域，提示该区域的特征对黑曲霉菌的识别较为重要，为指导医学检验人员识别黑曲霉菌图像提供了新的思路。

图6 部分真菌原始显微镜图像和类激活热力图

3 讨论

本研究基于深度学习技术提出了改进的MobileNetV2网络结构，并构建真菌图像11分类模型，结果显示该模型对11种真菌图像的分类准确率为99.09%，其整体性能优于5种经典CNN模型。

医学图像可为疾病的诊断、治疗、预后提供多方面信息支持，特别是真菌图像，在疾病诊断与菌种鉴别中发挥极其重要的作用。临床工作中，人工对真菌图像进行阅片存在工作量大、耗时长、结果易受主观因素影响的局限性。随着人工智能技术的高速发展，为真菌图像分类提供了新路径。早期研究中，多为通过人工提取特征与传统机器学习相结合的方式进行图像分类，但其对技术人员的专业技能要求较高，且人工提取图像中的信息特征耗时较久；另一方面，该分析方法对图像质量要求较高，难以处理背景复杂的真菌图像，模型的鲁棒性差。深度学习技术尤其CNN可自动学习图像的深度特征，避免了人工提取图像特征的复杂性和局限性，真正实现了真菌图像自动分类。Mital等[26]采用预训练的深度学习模型对9种曲霉菌进行分类，模型的分类准确率为93.33%。Billones等[27]基于4545张显微镜图像进行机器学习，建立了一种可对曲霉菌进行分类的CNN模型，经验证准确率达94.31%。Zawadzki[28]采用ResNet50和Xception模型对多种真菌和细菌图像进行分类，准确率超过95%，再次验证了深度学习在真菌图像分类中的有效性。但上述模型多为常用的经典网络模型，未根据真菌图像的特点进行模型改进，图像分类性能未达最优。

本研究针对真菌显微图像背景复杂、真菌形态相似、尺寸多样性的特性，提出一种多尺度注意力机制的真菌图像识别模型。首先进行图像预处理，去除背景中的噪声、杂质，然后通过随机裁剪、翻转、旋转等方式进行数据扩增，以防止模型过拟合。为解决目前真菌图像分类中的难点问题，本研究引入了注意力机制，对经典网络结构MobileNetV2进行两方面改进：(1)通过SE模块增加网络结构的表达能力，提高模型对尺寸较小菌种的识别能力；(2)通过Dilated SE提高网络结构的感受野，使得模型既可关注全局信息也可捕获局部信息。因此，改进的MobileNetV2模型在不增加运算成本的前提下，对不同尺寸的真菌图像均有较高的识别精度。基于测试集数据，本研究对该模型的性能进行评价，结果显示模型识别11种真菌图像的查准率、召回率以及F1值均大于95%，其中识别克柔念珠菌的查准率、召回率、F1值均为100%，提示改进的MobileNetV2真菌分类模型对11种真菌均具有较高的分类性能。进一步将该模型与5种经典CNN模型进行比较，以筛选最优的真菌图像分类模型，结果显示与5种经典模型比较，改进的MobileNetV2模型的参数量、内存占用量均较低，FPS、准确率均最高，提示该模型在运算成本均相对较低的情况下，对真菌分类达到了较快的运算速度和较高的准确性，综合性能最优。

为进一步验证该模型的临床应用前景。本研究后续抽取了测试集中的曲霉菌属图像(酵母菌属和新型隐球菌仅靠肉眼无法明确诊断)，盲化处理后由专业临床医师进行分类判读，结果显示临床医师识别黑曲霉菌、烟曲霉菌、杂色曲霉菌的准确率分别为100%、89.02%、87.5%，提示此模型对真菌分类的整体准确率优于专业临床医师。

此外，本研究通过Grad-CAM对模型识别结果进行了可视化展示。类激活热图可输出有助于真菌图像分类的热点区域，一方面进一步验证了模型的有效性，另一方面为实验室人工进行真菌图像分类提供了线索。

本研究局限性：(1)收集的真菌图像均来源于解放军总医院第八医学中心，缺少多中心数据集对模型进行外部验证。(2)采用深度学习方法对真菌图像进行分类，仍需人工对真菌图像进行标注。(3)自然界存在的真菌约200万种，其中能引起人类感染者约560种。本研究纳入的真菌图像仅包括曲霉菌属、酵母菌属和新型隐球菌属3个属共11种，模型的性能仍需纳入更多菌种进一步验证。

综上，传统真菌感染的诊断一般是样本采集后进行实验室生化鉴定，耗时较长且相关设备价格昂贵。本研究基于深度学习技术构建的真菌显微图像分类方法，一方面可快速对菌种进行分类，辅助临床诊断，加快诊疗进程，有助于改善患者预后[29]；另一方面可减轻实验人员的工作负担，提高诊断效率。

作者贡献：张雪媛、许鸿雁负责研究方案设计、实验操作、数据分析与论文撰写；董跃明、刘丹凤、孙鹏蕊负责数据采集与标注；颜锐、崔洪亮、雷红、任菲负责数据审核及内容审校。

利益冲突：所有作者均声明不存在利益冲突