结合注意力机制的乳腺双模态超声分类网络

2022-03-26 05:13赵绪龚勋樊琳罗俊

中国图象图形学报 2022年3期

赵绪，龚勋*，樊琳，罗俊

1. 西南交通大学计算机与人工智能学院, 成都 610031； 2. 四川省医学科学院四川省人民医院超声科, 成都 610072

0 引言

乳腺癌是危害女性健康的常见癌症，各国的乳腺癌患病率和死亡率一直呈上升趋势。据世界卫生组织国际癌症研究机构(International Agency for Research on Cancer, IARC)2020年统计数据，全球乳腺癌新发病例为226万例，取代肺癌成为最常见癌症。乳腺癌变的早期确诊对降低死亡率和提高患者的治愈率有重要意义。超声影像因无电离辐射影响小、价格低廉等优点成为乳腺结节首选影像学检查和术前评估方法，但在乳腺肿瘤临床诊断中暴露出假阳性、过度活检和过度诊断等问题。

随着图像处理算法的不断发展，在自然图像分类、分割和检测等任务中，利用手工特征或神经网络自主学习特征都取得了较好进展(Krizhevsky等，2017；Ronneberger等，2015；Hemelings等，2019)。深度学习网络模型可直接从原始超声数据中学习中层和高层的抽象特征，减少人工设计并具有较好的稳定性，在医学图像领域受到广泛关注。为实现医学乳腺超声图像小数据集的特性分析，Qi等人(2019)提出使用具有多尺度内核和跳跃连接的深度卷积神经网络诊断乳腺超声。Wang等人(2020)提出一种基于Inception-V3(Szegedy 等，2016)的多视图卷积神经网络(convolutional neural networks, CNN)，并使用迁移学习弥补超声图像数据的不足。为减少标注成本，Shin等人(2019)将强标注的小数据集和弱标注的大数据集进行整合，实现在乳腺超声图像中对肿瘤进行定位和分类。为增强网络对重要特征的学习，提出了注意力机制用于特征权重的重分配。自然图像上的注意力机制主要利用网络区分目标区域的重要度而实现权重调整。Fu等人(2017)通过不断聚焦到最具辨别性的区域，反复聚焦到更细的尺度实现细粒度图像分类。但超声影像因其病灶结节区域的图像表现存在重叠(即良、恶性病灶具有类似的形态表观)，并且超声影像受到采集设备和人体器官组织运动的干扰，使得图像存在运动模糊及伪影，特征提取器很难有效直接关注病灶目标。

本文通过分析网络模型对超声图像特征的关注情况，主要从增强超声肿瘤的关键鉴别特征学习层面进行算法设计。本文使用主流分类网络ResNet34(He等，2016)、Inception及VGG16(Visual Geometry Group 16-layer network)(Simonyan和Zisserman，2015)在B型超声(brightness-mode ultrasound)图像上进行模型训练并进行结节良恶性预测。为分析网络模型在乳腺超声图像上的分类关注区域，将模型对图像的特征关注度通过Gram-Cam(Selvaraju等，2017)进行可视化。不同分类模型在B型超声图像的特征关注热力图如图1所示。其中，色阶映射图是将网络对不同特征的关注程度在原图上重叠得到的。可以发现，通过网络学习，生成的注意力与影像医师关注点相似，都是围绕病灶以及其周围区域。

图1 不同分类模型在B型超声图像的特征关注热力图Fig.1 Feature heat map of B-mode ultrasound images in different classification models((a)original input images;(b)ResNet;(c)Inception;(d)VGG16)

进一步分析大量样本的特征情况，发现预测正确的样本更集中关注病灶区，而分类错误的样本则更多关注背景或发生重叠表象的似结节区域，如图2所示。因此，为提高网络模型对肿瘤区域有效特征的学习能力，本文使用精准分割的病灶区作为掩膜图来引导特征提取更加专注结节及周围区域，从有限医学影像信息中尽量筛选出高价值信息，从而加强有效特征学习的同时抑制不重要的特征。

图2 特征关注热力图及其模型预测结果Fig.2 Heat map of network model feature attention and its prediction results((a)malignant on gold standard and prediction result is benign;(b)benign on gold standard and predictive result is malignant)

如何提高模型对强鉴别能力特征的学习是本文解决的主要问题。但乳腺B型超声的结节样本会有图3的表现，即某些良性肿瘤会表现出恶性肿瘤的表征状态，如图3(b)表现出边缘、形态不规则，图3(d)恶性病变结节却表现出似良性的特征。这些样本在网络中提取的特征虽然能精确到结节区域，但会导致模型误判，这样的样本称为噪声样本。乳腺肿瘤医学临床诊断先验知识表明，医师面对这样的噪声数据时，往往会分析其对应的超声造影多项增强后的特征来综合诊断。同样，本文在B型超声的基础上，融合超声造影特征向量辅助乳腺结节的分类。综上所述，本文主要设计一种适用于乳腺病灶分类的双模态超声网络模型，主要算法框架如图4所示。图中的蟹足征是指强化后，病灶周围逐渐出现的放射性高增强影，称为蟹爪状形态。在实现增强神经网络对B型超声图像中乳腺结节重要特征关注度的同时，通过添加对应超声造影信息来抑制噪声数据对模型分类精度的影响，尽可能地有效利用医学数据提供的信息，还原专业影像学医师进行乳腺结节良恶性诊断过程。

图3 乳腺超声噪声数据Fig.3 Noise data in B-mode ultrasound images ((a)benign sample;(b)benign samples with malignant morphological representation;(c)malign sample;(d)malign samples with benign morphological representation)

图4 本文算法模型图Fig.4 Overview of the proposed method

1 方法

1.1 基于分割掩膜图的注意力引导机制

1.1.1 注意力机制

注意力机制借鉴了人类视觉的选择性注意力机制。人类视觉扫描目标图像获取需要重点关注的目标区域并投入更强的关注，得到更多重要的细节信息同时抑制其他无用信息。深度学习与视觉注意力机制结合的研究大多是使用掩码(mask)形成注意力机制。掩码的原理在于通过将图像数据中关键的特征标识出来作为一层新权重，通过学习训练，使每一幅新图像中需要关注的区域形成注意力。Wang等人(2017)提出残差注意力网络(residual attention network，RAN)捕获不同类型的注意力，主要计算为

Hi,c(x)=Mi,c(x)*Ti,c(x)

(1)

式中，x代表特征输入，T(x)为主干分支的输出，M(x)代表掩膜分支使用上采样、下采样的结构学习相同大小的mask特征图。H(x)是残差注意力模块的输出，是利用两个分支特征图相乘的方式将特征权重添加到特征图上的结果。i表示空间位置，c是通道的下标。为防止重复相乘会使得特征值逐渐变小，同时也尽可能不破坏主干分支提取的重要属性，本文提出改进，具体为

Hi,c(x)=(1+Mi,c(x))×Ti,c(x)

(2)

这样M(x)作为特征选择器，可以突出好特征，并抑制主干分支上提取的不好特征。Hu等人(2020)通过学习的方式自动获取每个特征通道的重要权重参数，然后依照这个重要程度提升有用的特征并抑制对当前任务用处不大的特征，具体计算为

Yc=Fscale(Tc,Sc)=Sc·Tc

(3)

式中，Yc表示经过通道权重更改后的特征图。S是通过前面全连接层和非线性层学习得到的权重，T为主干网络卷积后得到的特征图，c表示第c个通道卷积核。Fscale指Tc和Sc之间的通道相乘。

可以发现，在自然图像分类任务中，多数研究都是使用网络模型自动学习到的关注区域去增强目标物的关注度，从而抑制无关区域。对于乳腺超声影像，网络的特征学习存在偏差，利用上述方法可能学习不到关键特征。因此，本文设定的注意力权重为乳腺超声病灶感兴趣区域(region of interest，ROI)分割掩膜图(ROI-mask)，本文设计的注意力引导机制在超声图像的特征学习任务中具有更新特征权重的作用，如图5所示，其中，⊗代表图像中元素值与掩膜矩阵对应位置处的值相乘；⊕代表参与运算的矩阵像素值相加。

图5 有分割掩膜图引导的注意力机制Fig.5 Attention mechanism guided by segmentation mask

1.1.2 病灶区分割掩膜图引导的注意力机制

从自然图像的注意力机制结果中可以发现，自然图像中的分类目标对象与背景区域区分明显，网络能自动学习到待识别目标物。而超声图像中的结节病灶区域与背景的灰度阶梯差别不大，且成像设备及人体器官组织构造复杂，使得超声图像病灶区形态呈现不清晰的情况。如图2所示，图像中出现多个与结节区域相似的噪声区域，使得网络在图像特征学习过程中可能无法准确关注到病灶区域，导致模型自动学习的特征存在偏差，干扰了模型分类能力。

为使超声影像在网络中学习到高效分类意义的特征信息，本文使用经专业医师交叉验证过的ROI-mask作为特征图权重更新引导依据，其表示为Mi,c∈{0,1}，使得网络层学习分析的高权重特征是关于结节区域，而减少对不重要区域的特征分析。此外，利用残差网络加强图像特征的同时进一步增强对关键区域的特征学习，这样不仅能将ROI-mask之后的特征张量作为下一层的输入，同时也将ROI-mask之前的特征张量作为下一层的输入，得到更为丰富的关键鉴别特征。残差结构计算为

Yi,c(x)=x+Fi,c(x)

(4)

式中，Fi,c(x)是残差函数，表示学习到的残差特征，残差块输出为Y(x)。

由于超声影像数据集较小，易发生过拟合现象。因此，本文选择经包含1 000多种不同类别的120余万幅自然图像ImageNet数据集预训练的ResNet34模型权重进行转移学习。在此基础上，本文设计了两种注意力的方式，即残差前的引导注意力和残差后的引导注意力，如图6所示。

图6 ROI-mask注意力引导机制在残差结构中的两种方式Fig.6 Two ways of ROI-mask attention guidance mechanism in residual structure((a)using residual mapping first before attention mechanism；(b)using attention mechanism first before perform residual mapping)

两种注意力的计算方式分别为

Yi,c(x)=Wi×Mi,c(x)×Fi,c(x)+x

(5)

Yi,c(x)=(Fi,c(x)+x)×Mi,c(x)×W

(6)

式中，x代表输入，M(x)表示 ROI-mask特征图，Y(x)代表注意力引导方式下学习针对的特征分支输出。F(x)表示经残差块学习到的残差特征。i是空间位置，c是通道的下标。由于ROI-mask与残差特征维度不同，使用Wi执行线性映射来匹配维度。

神经网络的不同网络层特征图表达的含义不同。在浅层结构中，特征图更关注图像的纹理、边缘等信息，特征图尺寸也不会太小；而在深层结构中，特征图更聚焦于待分类的物体，其分辨率小且包含高阶语义分类信息。ROI-mask能够提供位置信息，对于图像的特征学习权重更新有区域引导的学习能力。因此，本文提出在主干网络ResNet34中的前两个浅层网络层中添加注意力引导机制。

1.2 双模态数据融合

乳腺结节在B型灰度超声图像上表现为重叠性和多样性，通常部分良性结节会表现出恶性肿瘤的形态特征，存在较高的假阳性。超声造影(con-trast-enhanced ultrasound，CEUS)通过时间—强度曲线(time-intensity curve，TIC)表现的增强模式和形态特征参数分析肿块的良恶性表现情况，有助于乳腺良恶性病变鉴别。为降低如图3所示噪声样本对模型性能的影响，相关医学临床统计分析(沈若霞等，2018)表明，结合超声造影增强特征可提高乳腺肿瘤临床早期明确诊断和评估的准确性。本文网络在提取B型超声特征的同时融入对应的造影增强特征，增强模型对噪声样本的判别能力。

1.2.1 乳腺超声造影属性特征表达

有相关研究直接使用超声造影(CEUS)影像数据作为实验数据进行肿瘤分类训练(Qin等，2019；Wu等，2014；Guo等，2018)，且有相关研究证实造影增强数据在对乳腺特征的判别中具有辅助作用和诊断价值(安绍宇等，2012；Wang 等，2016；Li 等，2020)。现有方法一般使用统计学分析等方法来定性分析造影增强各项特征在良恶性肿瘤的表现规律。

本文借鉴相关研究(Leng等，2015；沈若霞等，2018)，通过逻辑回归定性分析结论表明增强强度、蟹足征及增强等乳腺多项造影增强特征与乳腺恶性病灶有较高的相关性。为增强噪声样本的准确判别，本文选取其中7个特征共18个属性进行辅助判别，包括增强时相(快进、同进、慢进)、增强强度(高增强、等增强及低增强)、增强顺序(向心、非向心)、增强后病灶形态(规则、不规则及难以分辨)、增强后病灶的边缘(清楚、不清楚及难以分辨)、增强均匀性(均匀、不均匀)和蟹足征(有、无)。为验证这些造影增强特征具有的分类辅助意义，使用自然语言处理(natural language processing，NLP)工具，从而实现造影属性的特征表达。对所有实验数据统计后，使用基于Wikipedia的GloVe模型(Pennington 等，2014)训练，如图8所示。增强后各项特征经向量特征转化后在空间中表现出具有紧密含义的单词，空间可视化如图9所示。可以看出，这些特征有明显的聚类效果。位于右上角的特征代表恶性结节造影增强强度大、蟹足征等特征；位于左侧的特征则往往是良性结节的表征状态。因此这些具有高级语义的向量可以为乳腺良恶性分类提供图像以外的可靠信息。

图8 造影增强特征文本向量转化Fig.8 Contrast enhancement feature text vector conversion

图9 超声造影增强后特征向量可视化Fig.9 Feature vector visualization after contrast-enhanced ultrasound

1.2.2 双模态数据特征融合

据图9所示，各项造影空间向量分布显示出聚类效应。因此，本文将转化的词向量作为乳腺良恶性诊断的一个深层分类特征分支，与乳腺超声图像深层图像特征融合。转化的造影特征词向量与B型超声图像经最后卷积层提取的图像特征拼接融合，经最后的激活函数输出模型预测结果。所得模型增添了更加丰富的两种模态特征信息，使得分类模型性能得以提升。

2 实验及分析

2.1 实验数据及评价指标

使用两个数据集进行实验。BM-breast(breast ultrasound images dataset)为本文自建数据集，是多家医院2015年10月至2018年8月的乳腺超声影像数据。包含良性病例562例，恶性病例531例。原始数据中每个样本数据包含B型超声视频、对应超声造影视频、经两名以上专家交叉验证后的超声造影各项增强特征，以及经活检验证为金标准的病理诊断结果。对原始视频数据按帧裁剪处理后，去掉原始视频中的边缘信息标记，使用框内有效信息作为可训练的有效图像数据，并将对应的超声造影增强特征进行文本数据提取。BUSI(breast ultrasound images dataset)(Al-Dhabyani 等，2020)为公开数据集，收集于2018年，来自约600名25—75岁的女性患者，共780幅图像，平均尺寸为500 × 500像素，PNG格式。每幅图像都有对应的分类标签以及分割掩膜图像，由医学研究者完成标注，分为正常、良性和恶性3类。本文主要使用其中的良性与恶性数据进行实验。

将完成预处理的B型超声图像和对应的超声造影增强特征文本数据制作实验数据集，按7 ∶2 ∶1的比例划分为训练集760例、验证集218例和测试集115例。根据医生建议，使用代码提取其中7个特征，共18个属性共同评价乳腺病灶的超声造影特征。包括：1)增强时相(快进、同进、慢进)；2)增强强度(高增强、等增强及低增强)；3)增强顺序(向心、非向心)；4)增强后病灶形态(规则、不规则及难以分辨)；5)增强后病灶的边缘(清楚、不清楚及难以分辨)；6)增强均匀性(均匀、不均匀)；7)蟹足征(有、无)。通过文本特征提取的GloVe模型将以上18种属性转化为300维的空间向量。

实验性能评价采用医学评价常用指标，包括准确度(accuracy，ACC)、敏感度(sensitivity)(也称为TPR(true positive rate))、特异度(specificity)(也称为TNR(true negative rate))以及AUC(area under curve)进行评估，具体定义为

(7)

(8)

(9)

式中，TP表示样本的金标准及预测结果都是阳性的数目；TN表示表样本的金标准及预测结果都是阴性的数目；FP表示样本的金标准为阴性，但预测结果为阳性的数目；FN表示样本的金标准为阳性，但预测结果为阴性的数目。

本文网络在Pytorch框架上实现，训练平台为11GB NVDIA TITAN X GPU、16 GB内存、机械2T +固态128 GB硬盘。在训练阶段，将网络输入大小调整为224 × 224像素的三通道图像，对不满足网络输入形状224 × 224像素的变换图像使用0填充。学习率最初设置为0.001，然后每隔5 000次降低固定值。在优化过程，采用小批量梯度下降(mini-batch gradient descent)。在每次迭代中，构造每个包含8个样本的批量训练数据集进行采样，一共训练80个epoch达到稳定。在测试阶段，数据不进行缩放或裁剪，其他处理与训练阶段相同。

2.2 实验结果对比及分析

由于医学数据涉及病患隐私，相关工作一般都是基于私有数据集，但实验数据具有一定可比性，也能反映出算法性能差异。本文通过在同一数据集上复现对比了其他主流算法。为具体分析本文算法模型的性能，设计了消融实验来展示模型性能提升的具体细节。

2.2.1 模型性能对比

为验证本文模型结构能够加强关键特征关注度并提升分类精度，使用目前常用的分类模型在BM-breast数据集上分别进行实验，结果如表1所示，可以发现本文方法在各项参数上都有提升，准确性达到87%。同时也对比了近几年相关研究的实验结果，虽然使用不同的数据集，但是也反映出本文的算法优势。

表1 乳腺结节不同分类算法对比Table 1 Comparison of different classification algorithms for breast nodules

2.2.2 注意力引导模块对比实验

对于所选的残差网络结构来说，注意力引导与残差块的不同结合方式可能导致不同效果。为验证分析不同结构的分类性能，在公开数据集BUSI和自建数据集BM-breast上进行实验对比，仅在残差网络前两个残差块中使用注意力引导机制，实验结果如表2所示。可以看出，在残差块融合前加入注意力引导会使得到的该层网络特征图进行修正，从而影响后续残差块的结合。这种结构在不同数据集上都比残差特征结合后再添加引导注意力提升3%。因此本文的引导注意力采用先卷积再融合残差块的结构。

表2 不同注意力引导机制算法对比Table 2 Comparison of different guiding attention mechanism algorithms

本文设计了在主干网络ResNet34不同层次添加注意力引导机制的实验来确定网络结构的设定，如图7。同样通过在私有数据集及公开数据集上完成对比实验，结果如表3所示。从准确性上看，虽然在每个残差块都添加引导注意力准确度达到最佳，但是会使得网络模型计算过于复杂，且准确率相比在浅层结构添加注意力的结构增长不多。因此本文选择浅层网络结合ROI-mask，此模型能够发挥较好的引导学习作用并保证模型的性能。

图7 ROI-mask注意力引导机制在网络结构中的3种添加方式Fig.7 Three ways to add ROI-mask attention guidance mechanism to the network structure((a)add a guided attention mechanism to the shallow network structure；(b)add a guided attention mechanism to the high-level network structure；(c)add a guided attention mechanism to each block of the network structure)

表3 不同网络层添加注意力引导机制对比Table 3 Comparison of adding attention guidance mechanisms in different network blocks

为验证ROI-mask注意力机制对于乳腺超声肿瘤的特征增强学习的有效性，与常见注意力机制CBMA(convolutional block attention module)中的空间注意力部分、SE-net(squeeze-and-excitation network)及RAN(region attention network)在本文B型超声数据集上进行实验对比，结果如表4所示。可以看出，由于某些恶性超声图像中表现复杂，存在血管或其他组织结构而呈现出类似结节形态，网络模型会自动关注到这些似结节区域而忽略真实结节，导致分类预测错误。现有模型针对这类病例超声数据无法学习到关键分类特征。而本文的注意力引导方式更为精准，增强结节区域的关注度并进行特征增强，由此使得模型的分类能力更强。

表4 本文注意力引导机制与现有注意力对比Table 4 Comparison of the attention guidance mechanism in this paper with the existing attention /%

2.2.3 消融实验

为验证ROI-mask注意力机制和结合造影特征这两点改进算法的有效性，设计消融实验分析各部分的优化功效，结果如表5所示。其中，网络1表示仅使用ResNet骨干分类网络对B型超声进行训练分类，网络2表示使用超声造影各项特征向量数据进行乳腺结节良恶性分类，网络3表示在ResNet骨干网络中添加本文提出的注意力引导机制在乳腺B型超声数据上的实验，网络4表示使用ResNet骨干网络在B型超声融合对应的超声造影词向量特征进行良恶性分类实验，网络5表示对分割的B型超声ROI病灶区进行分类训练，网络6是使用本文提出的模型，即使用ROI-mask引导的注意力引导机制，并融合转化后的造影各项特征向量的双模态数据的实验。

表5 消融实验对比Table 5 Comparison of ablation experiments

从表5可以看出，1)网络1和网络2仅使用单一数据的分类精度不如两种模态数据的融合模型，表明不同模态的数据能提供不同层次、不同角度的信息。2)对比使用常规分类骨干网络，结合注意力引导机制的算法在各项性能上都有所上升，能尽可能地掌握肿瘤区域的关键分类依据。3)结合超声造影特征的模型使特异性TNR有所提升，能够正确识别表现出恶性肿瘤表象而实际是良性肿瘤的噪声样本，这类样本是临床诊断最易误判的样本。4)仅使用分割后的乳腺病灶区域会遗漏部分其他组织的信息而准确性不高，证明网络模型在自动学习过程中还会关注医师肉眼观察以外的信息。

为验证本文提出的引导注意力的效果，可视化了同一测试样本的特征关注效果，如图10所示，表明模型寻找图像中最具代表性以及分辨性区域的能力有所提升。为展示算法改进效果，同样通过可视化特征关注热力图进行对比。使用模型是残差网络ResNet34添加注意力引导机制和不添加注意力引导机制两种模型。从特征关注度来看，第1行样本在未加入引导注意力机制情况下，网络关注到其他类似肿瘤的组织，提取了无用信息。其他样本特征关注到非结节区域，并因背景中其他伪影干扰未学习到肿瘤特性。而加入引导注意力的模型，显示肿瘤区域是关注度高的区域，提取到肿瘤相关的更多高效分类特征。从预测结果发现，模型修正了一些预测错误的噪声样本，达到了精准分类的效果。

图10 不同算法特征关注可视化图对比Fig.10 Comparison of feature visualization map of different algorithms((a)input；(b)model with attention guidance mechanism；(c)model without attention guidance mechanism)

3 结论

本文对神经网络在特征提取及分类预测中关注的重要分类信息进行分析，由于超声图像成像质量不佳，导致病灶区与背景区域不能很好区分，需要使用引导性的特征学习对网络模型优化。本文在重要特征学习和减少噪声样本干扰两个方面使用了图像与文本两种模态的数据完成算法设计。本文创新工作主要包括以下两方面：1)提出一种基于结节肿瘤分割掩膜图的注意力引导机制，使得神经网络提取到与乳腺肿瘤区域相关的特征，避免图像中背景与肿瘤区域的重叠和多样性干扰导致预测错误，提高模型的关键特征信息学习能力。2)解决易混淆噪声数据的预测准确性，还原实际诊断过程，本文融合两种模态信息，将乳腺超声造影的增强各项特征进行聚类向量转化，使其作为具有分类效果的深层特征，充分利用少量的医学有效数据。实验结果表明，本文算法有效利用了超声数据特征，达到了较好的分类结果，通过计算机算法还原临床诊断过程，具有医学理论的支持。

但是，本文所用注意力掩码是人工确定的，这会耗费大量人力，下一步将继续提升算法，使用模型得到关于乳腺结节区域更加精准的掩码结果。同时，多模态中融合的造影病理结果数据是通过专业影像学医师人为诊断的，耗费了较多的人力和时间，并且没有利用造影视频数据进行定性分析来辅助诊断，下一步工作将围绕图像视频数据本身特征的自动提取来进一步提升良恶性的自动诊断，同时希望能对乳腺结节进行更具体的BI-RADS(breast imaging reporting and data system)分级的预测。