基于注意力机制的结肠癌病理学图像识别研究

2022-04-18 02:58梁美彦张倩楠任竹云陈庆辉郗泽林

测试技术学报 2022年2期

梁美彦，张倩楠，任竹云，王茹，陈庆辉，张宇，郗泽林，王琳

(1.山西大学物理电子工程学院，山西太原 030006；2.山西白求恩医院(山西医学科学院同济山西医院)，山西医科大学第三医院，山西太原 030032；3.华中科技大学同济医学院附属同济医院，湖北武汉 430030)

癌症是威胁人类健康的重大疾病之一.据世界卫生组织(WHO)癌症研究机构(IARC)发布的《全球癌症报告》显示，2018年，全球癌症新发病例1 810万，癌症死亡病例960万.在所有癌症类型中，结肠癌发病率增速尤为显著.图1 为2018年全球新发癌症病例和死亡病例前10的癌症类型，由图1 可知，结肠癌新发病例全球排名第3，而因结肠癌导致的死亡仅次于肺癌.因此，结肠癌已经逐渐成为影响我国人口健康的主要因素.根据美国癌症委员会(AJCC)统计，结直肠癌患者如果可以在早期得到精准检测，那么患者的5 a生存率可以达到90%以上[1].因此，及时、客观和准确地检测结肠癌，是提高患者生存率的重要手段之一.

图1 全球主要癌症类型和占比

病理学检查是癌变检测的“金标准”，现阶段癌变检测完全依靠专业医生手工对病理图像进行特征提取与分析，不仅检测周期较长而且严重依赖医生的主观判断和认知，导致检测结果存在不同程度的误差[2]，这种方法对重症病人来说容易错过最佳治疗时机.

近年来，采用人工智能的方法对组织病理学图像识别与分类的研究呈指数级增长.2015年以前，人工智能对病理学图像的分类主要依赖机器学习的方法[3-5]，这些方法的共同特点是通过手工对病理学图像进行特征提取后，再设计相应的算法，通过神经网络对提取到的特征进行识别和分类.其中，Rathore S等[6-8]先后提出了旋转促进分类器、支持向量机和集成分类器，并结合结肠病理“图像块”的纹理、颜色和几何特征，对良恶性结肠组织进行分类，分类准确率达98%.2019年，又提出了改进的多层次特征提取算法, 通过提取病理图像的整体和局部特征，并结合SVM分类器对结肠癌进行预测，该方法将结肠癌按照严重程度细分为3个等级[9].Olgun G[10]提出一种能够提取结肠病理图像的表征和纹理描述的局部模式算法，该算法对癌变二类分类问题的精度达到90%以上.

机器学习的方法虽然能够实现病理图像的自动分类，但是现有的特征提取方法严重依赖所设计算法的优劣，不仅费时费力，而且缺少病理学图像特征的语义描述.因此，2015年后主要采用基于深度学习的方法对病理图像进行分类预测.深度学习是一种基于多层神经元网络架构的端到端学习模型，通过建模过程中不断迭代与更新模型参数，自动提取训练数据集的特征来实现对数据的识别和分类，相对于传统手工制作特征的方法，可以更加客观准确地诊断癌变[11-13].英国华威大学Sirinukunwattana K等[14]提出空间约束卷积神经网络模型(SC-CNN)，结合邻近集成分类器(NEP)对结肠上皮细胞核、炎性核、成纤维细胞核和杂核进行类别标签预测，预测精度为78%，F-1分值为0.8.Basha S H S等[15]提出了一种高效的卷积神经网络模型(RCCNet)，对结肠组织图像中的细胞核进行分类，实验结果表明，轻量级7层的网络模型能够实现80%的分类准确率，F-1分值为0.78.Hamad A等[16]提出了全卷积回归网络和CNN相结合的两阶段深度学习方法，对结肠癌病理学图像中的细胞核进行识别，其F-1分值为0.84.本文将注意力机制与轻量级卷积神经网络相结合，实现对结肠癌的高精度识别.首先，通过卷积神经网络对结肠组织病理学图像进行初步信息提取，生成中间特征图；再结合注意力机制模块沿通道和空间两个维度，学习输入特征图中不同局部区域之间的关系以及通道间的重要性；最后，将学习到的注意力特征图与输入特征图相乘进行自适应的特征细分.结果证明了基于注意力机制的轻量级卷积网络在识别结肠组织病理学图像方面的有效性.

1 网络设计

1.1 网络整体架构

网络整体架构如图2 所示，主要分为4个模块：输入模块、输出模块、卷积神经网络架构模块和注意力机制模块.输入是经过预处理的结肠腺癌上皮病理图像(TUM)和正常结肠黏膜图像(NORM).图像大小统一设置为64×64，并进行归一化处理，方便网络收敛.网络架构是由3对卷积-池化模块依次相连组成的卷积神经网络，每个卷积层之后均通过ReLU激活函数对卷积层的输出进行非线性激活，增加网络的非线性逼近能力，以更好地拟合输入图像与输出结果之间的关系，增强网络的识别能力.同时，每一个卷积层之后都进行批量归一化以加速收敛，提高泛化能力.网络架构中的卷积层主要是通过多个卷积核堆叠来提取图像中不同层次的特征，随着卷积层数的增加，提取的特征逐渐由包括颜色、纹理的低级特征到高级、抽象的语义特征.池化层采用最大池化策略，选出特征图中最具有代表性的显著特征，进而减少参数量，加快运算速率，同时在一定程度上也降低了网络过拟合现象发生的概率.在特征提取完成之后，需要对提取到的特征进行综合与预测，因此在第3个池化层之后为全连接层，全连接层的每个神经元都与网络前后两层神经元全部加权连接，将特征转换为一维向量，实现特征的融合与分类.最后，在输出层前面添加 Sigmoid 函数，使神经元的输出结果限制在[0,1]区间上.由上述分析可知，对于卷积神经网络来说，卷积层在提取特征时，本质上是对所有特征图的通道进行融合，没有考虑每一个通道的重要性，因此，在每个卷积-池化模块之后都添加了注意力机制模块，从空间和通道两个维度对中间特征图进行注意，获得更为有效的显著特征表示.

图2 网络架构图

(1)

(2)

(3)

式中：⊗表示逐元素相乘.

1.2 通道注意模块

卷积神经网络对图像全局信息的描述都是通过在局部感受野上对空间维度信息进行聚合来实现的.然而诸多研究表明，特征图的每个通道都被认为是一个特征检测器，而最终表达的准确性受到各个通道之间的依赖性约束，因此，本文通过加入通道注意模块更好地建立学习通道之间的相互依赖关系.网络中每个特征通道的权重都是通过卷积神经网络自主学习得到的，将这些权重信息依次按通道加权到主干网络的特征图上，可以对图像中的有效信息进行更准确地描述，实现对通道重要性的分配.为了更好地聚合特征图的有效信息、抑制无用信息，同时减少参数量，采用最大池化与平均池化操作并行处理的方式，通过提取特征图在通道维的最大值与平均值，综合作用于特征图，实现对通道维特征更准确地注意和权重再分配，从而对特征图中的信息进行更为有效地提取和表示，最终提升网络的综合性能.具体流程如图3 所示.

图3 通道注意模块

MC(F)=σ(MLP(AvgPool(F))+

(4)

1.3 空间注意模块

空间注意模块是通过聚焦有效信息更丰富的空间区域来实现特征提取，从而利用特征间的空间关系生成空间注意图，本文将借鉴通道注意机制中压缩-激励的方法，但不同的是，空间注意力映射图是通过卷积神经网络利用元素之间的空间关系生成的，其结构如图4 所示.

图4 空间注意模块

(5)

式中：σ指的是Sigmoid函数；f3×3为卷积核为3×3的卷积计算，[·;·]表示连接操作.

2 实验结果与分析

2.1 病理图像数据

本文使用的数据集来源于德国海德堡国家癌症中心和海德堡大学医学中心的结肠组织病理学图像数据.实验数据是8 000张正常结肠组织(NORM)和8 000张结肠癌上皮组织(TUM)的病理学图像，按照4∶1的比例进行训练和验证，即训练和验证的数据为12 800张与3 200张，最后分别使用600张NORM和600张TUM测试网络模型性能.

2.2 结果与讨论

为了证明注意力机制模块中任意一个模块的有效性，在卷积神经网络上嵌入注意力模块，在结肠组织数据集上进行多次实验，具体有4个方案，① 卷积神经网络(CNN)未添加注意力机制模块；② 卷积神经网络在通道维度上添加注意力模块；③ 卷积神经网络在空间维度上添加注意力模块；④ 卷积神经网络在通道和空间两个维度上添加注意力模块.

训练过程中，设置初始学习率为0.001，Batch-size为32，根据Batch-size的大小和训练的图像数量可知，训练一个epoch要进行400次迭代，实验一共进行50个epoch，总的迭代次数为20 000次.本文采用交叉熵函数作为损失函数来描述图像标签和网络预测值之间的距离，并采用Adam算法对每次迭代的参数进行更新，以控制网络的收敛.上述4个方案在结肠组织数据集上训练的损失曲线以及验证集上的准确率曲线如图5 所示.

(a1)CNN

图5 中的(a1)，(b1)，(c1)，(d1)分别代表方案1，2，3，4对结肠癌组织图像训练的损失曲线，(a2)，(b2),(c2),(d2)分别代表方案1，2，3，4对结肠癌组织图像验证集的准确率曲线，横坐标为迭代次数，纵坐标为训练集的损失值和验证集的准确率.训练时，每经过100轮迭代之后在图中记录一次损失，经过1轮之后记录一次验证集的准确率，根据验证集的准确率保存最优的模型.由图5 可知，这4种方法经过迭代训练后，网络都可以收敛，4个方案保存的最优模型对于结肠癌组织图像的测试结果如图6 所示.

(a)CNN

为了综合评价网络的性能，本文采用敏感度、精确度、特异度、准确率和F-1分值来客观评估网络对结肠癌组织识别的性能.其中，敏感度和特异度分别代表真阳性率和真阴性率，如表1 所示.从表1 可以看出，当使用通道注意力与空间注意力时，网络的精度和F-1分值分别达到了97.16%和 0.971 8.假阴性率和假阳性率可分别降低至 2.3% 和3.3%.而仅使用CNN网络(图6(a))不添加注意力机制时，CNN的整体准确率仅为 94.67%，证明了注意力机制在优化网络性能方面的有效性.从表1中还可以得到，仅采用CNN网络对结肠癌进行识别，虽然假阳性率较低，但是其假阴性率高达8.5%，这意味着网络不能对结肠癌进行有效诊断，将导致患者错过最佳治疗时机.图6(b)和图6(c)为CNN中分别加入通道注意力或空间注意力中任意一种的结果，由图可知，加入通道注意力或空间注意力都可以提升网络的性能.然而，这两种注意力对网络的性能提升也存在一定的差异，网络加入通道注意力对病理学图像识别的性能优于空间注意力.这是由于病理学图像通过卷积核提取特征后，通道维的特征更为明显，因此通过通道注意力加权后的特征更具有区分性，而空间维的特征区分度较小.当网络兼顾通道和空间两个维度(图6(d))，对特征图进行注意时，虽然假阳性率相比CNN主干网络(图6(a))有一定升高，但是假阴性率得到了极大改善，相对于仅采用CNN而言，假阴性率降低了6.17%，同时准确率和F-1分值分别提升了 2.19% 和 2.69%.

表1 4个方案对结肠癌组织的识别结果

表1 总结了结肠病变分类的相关工作.其中，Sirinukunwattana K，Basha S H S，Hamad A均采用深度学习的方法识别结肠癌，不同的是他们是在结肠组织细胞核“补丁”数据集CRC HistoPhenotypes上进行的分类，这些网络模型的最高准确率和F-1分值分别为80%和0.85.该方法通过训练较小尺寸的细胞核“补丁”而不含细胞核周围的信息，其优点是通过学习病理图像的显著特征，可以获得较高的识别精度，它是准确性和训练时间之间的权衡.然而，80%的准确率还不足以应用于结肠癌诊断，在医学领域需要更高准确率的模型.Masood K[17]通过机器学习的方法提取整个病理学图像的颜色和纹理等特征，对结肠癌的识别准确率达到90%以上，但是手动提取特征需要广泛的专业知识.本文提出的基于注意力机制的结肠癌识别方法，不仅可以学习到细胞核形态、结构等局部特征，还能够学习到组织图像的全局特征，如细胞核浆比、腺体形态和组织的纹理.虽然导致模型的参数和训练时间相对增加，但识别准确率和F-1分值分别达到97%和0.971 8.

图7 给出了添加注意力机制的CNN模型的受试者工作特征曲线，由图7 可知，受试者工作特征曲线下面积(AUC)可达0.996 9，接近于1，表明所提出的注意力机制与卷积神经网络相结合的模型在结肠癌识别中的优越性能.

图7 受试者工作特征曲线图

3 结论

本文提出将注意力机制模块与轻量级卷积神经网络相结合，用于检测结肠癌.在卷积神经网络中嵌入注意力机制模块，使网络能够从通道和空间两个维度上提取结肠组织图像的注意力图.然后，通过将注意力图与输入特征图相乘，实现特征的自适应学习.结果表明，该方法的精度和F-1分值分别达到了97%和0.971 8，同时该方法将假阳性率和假阴性率降低到2.3%和3.3%.因此，基于注意力机制的轻量级卷积神经网络避免了手工特征提取所带来的误差，通过端到端的训练，能够在大量的信息中有效提取出结肠癌组织中更具辨识力的特征，抑制无用信息，提升了网络对结肠癌组织的识别准确率，是一种客观、准确的方法，该方法为结肠癌的识别提供了一种新思路.