基于深度学习的肝囊型包虫病超声图像中小病灶检测方法研究

2024-03-06 13:41米吾尔依提海拉提热娜古丽艾合麦提尼亚孜卡迪力亚库尔班严传波
临床超声医学杂志 2024年2期
关键词:包虫病注意力病灶

米吾尔依提·海拉提 热娜古丽·艾合麦提尼亚孜 卡迪力亚·库尔班 严传波

包虫病是幼虫棘球蚴寄生于人(或动物)引起的一种人畜共患寄生虫病[1],多流行于畜牧业较发达地区,发病具有地域性特点,在我国新疆维吾尔自治区、宁夏回族自治区、内蒙古自治区、青海省、西藏自治区等地区较常见[2]。其中新疆维吾尔自治区是我国肝包虫病流行的重点发病区域[3-4]。一旦发病会危及患者的身体健康,使许多家庭“因病致贫,因病返贫”,造成极大的经济损失[5]。包虫病的好发部位为肝脏,占发病总数的80%[6],其次是肺脏等其他器官,最后累及全身[7]。肝包虫病从病理上可分为肝细粒棘球蚴病和肝泡状棘球蚴病,其中肝细粒型囊肿较多见[8],占包虫病病例的98%以上[9]。世界卫生组织根据肝包虫病的超声图像特征将其分为囊型肝包虫病和泡型肝包虫病,其中囊型肝包虫病分为5 个类型,分别为单囊型(CE-1)、多子囊型(CE-2)、内囊塌陷型(CE-3)、坏死实变型(CE-4)和钙化型(CE-5)。见图1。泡型肝包虫病分为3 个类型,分别为浸润型、钙化型和液化空洞型。肝泡型包虫病较肝囊型包虫病发病率低,约占肝包虫病的3%~5%[10]。由于包虫在肝脏感染初期生长缓慢,患者通常不会出现明显的临床症状,仅部分会出现过敏症状或肝区偶感不适,随着包虫病灶的逐渐增长,可能压迫周围血管或破坏胆管,此时患者会出现腹部不适、疼痛或黄疸等较明显的临床症状[11],加之牧区医疗条件相对落后、医学人才缺失等诸多因素,目前对肝包虫病的防治仍然面临诸多困难[12]。临床上一般采取临床诊断、影像学诊断、免疫学及血清学检查等确诊包虫病[13]。其中,超声检查是肝包虫病诊断和筛查的首选方式,其作为一种无创检查手段[14],运用物理学成像特性,实现对人体软组织的物理特性形态结构和功能状态的判断[15]。但是常规超声图像均需进行定量分析,需超声医师和肿瘤专家耗费大量的时间和精力才能初步完成疾病的诊断,存在人为主观性强、测量结果准确性差、可再现性差等问题,常导致疾病的漏诊或误诊[16]。临床上医师面对体检所产生的海量超声图像,难以保证有足够的精力寻找到所有的肝包虫病灶,特别是面对结构相似的疾病时难以有效地鉴定所有的囊型肝包虫病灶[17]。

图1 各类型囊型肝包虫病超声图像

针对此类情况,有学者[18]提出使用计算机辅助诊断(computer aided diagnosis,CAD)的方法来辅助医师对肝囊型包虫病做出诊断,以此弥补部分地区医疗资源不足的情况。随着深度学习网络的快速发展,图像处理中的目标检测任务也有了跨越性的进展[19]。目前小病灶主要有2 种定义,一种是指物理尺寸较小的病灶(最大径<5 cm);另一种则是在MS-COCO[20]度量评估中提出的像素<32×32 的病灶。虽然不断有新的检测方法被提出,但肝包虫病超声图像中的小病灶具有面积较小、图像清晰度低及成像方式的差异等特点[21],如直接将现有针对自然图像检测的主流算法用于肝囊型包虫病小病灶的检测上效果较差[22-24]。本文针对肝囊型包虫病超声图像中小病灶检测困难的问题,以YOLOv7为基底进行优化,提出了一种基于深度学习的方法用于检测肝囊型包虫病5类分型超声图像中小病灶的方法,从而更好地辅助临床医师快速检测肝囊型包虫病,降低早期误诊率,实现早发现、早治疗,为进一步推动偏远地区医疗卫生事业的发展贡献力量。

一、基本原理

(一)YOLOv7

目标检测包括2 类:双阶段(two-stages)和单阶段(onestage)检测。双阶段是先生成一系列样本的候选框,再利用卷积神经网络对样本进行分类;典型代表有R-CNN[25]、Fast R-CNN[26]、Faster R-CNN[27]等。单阶段则无需生成样本的候选框,采用回归方法定位目标进行检测。常见算法有SSD(single shot multibox detector)[28]和YOLO(you only look once)[29]。双阶段目标检测算法的阶段性检测过程导致模型整体检测速度较慢,不适用于实时监测。单阶段的SSD 算法虽检测速度较快,但准确率低于YOLO 系列。YOLO 通过省略生成样本的候选框这一步骤,直接将目标框定位的问题转化为回归问题进行处理,输入图片后仅经过一个神经网络得到边界框的位置及其所属的类别,使YOLO 系列算法的检测速度较为快速。目前YOLO 系列已发展至YOLOv7[29]系列,性能有了巨大提升,其在准确率和速度方面超越了以往的YOLO 系列算法。YOLOv7 引入了一些新的技术和策略,包括模型重参数化、标签分配策略、ELAN 高效网络架构和带辅助头的训练。YOLOv7 输入图片后相应经过Backbone、Head 等模块,最终在不同尺度的特征图上得到病灶的位置信息与分类置信度。总之,YOLOv7 是一种先进的目标检测算法,具有高准确率和快速的运行速度,其采用了多种技术和策略以提高检测性能,并在实时系统中得到广泛应用。其网络结构见图2。

图2 YOLOv7网络结构图

(二)EffificientRep

深度学习网络的硬件效率设计和部署一直是研究的重点和热点。传统的推理效率评估指标是浮点运算次数(FLOPs)和参数计数,但这些指标不能表示与硬件的关系,如内存访问成本和I/O 吞吐量。RepVGG 是一种基于Winograd 算法在GPU 或CPU 上高度优化的具有3×3 卷积核的新型网络[30]。单路径模型可以在GPU等设备上快速训练和推断。图3示RepConv在训练状态与推理状态之间的转换。在训练状态下,由于增加了1×1的Conv 和残差链,RepConv 可以保证训练时的准确性。在推理状态下,重新参数化结构可以等价地转换为推理状态。EfficientRep 是近年提出的具有类似RepVGG 架构且硬件友好的卷积神经网络,其网络结构见图4,RepConvs通过残差方式线性连接,构成Bep单元,接着由Bep单元组成一个Repblock再与CSP 式(CSPstyle)结构相结合,组成一种新的BepC3 块结构,在BepC3 模块的基础上,分别设计了CSPBep 主干和CSPRepPAN颈部,形成最终的EfficientRep 模型。EfficientRep 对计算能力和内存带宽在内的硬件不敏感,能在保证良好检测精度的前提下有效平衡模型的精度-速度。

图3 RepConv的设计图

图4 EfficientRep网络结构图

(三)损失函数

1.IoU Loss(Intersection over Union Loss)。其是目标检测领域常用的一种损失函数,用于衡量预测框与真实框之间的相似度。其通过计算预测框和真实框的交集与并集的比值来评估两者的重叠程度。如公式1 中所示,A 为真实边框,B 为预测边框,A和B的交集除以A和B的并集得到IoU值。一般在计算机检测任务中,IoU≥0.5 属于检测正确,IoU 越接近于1,说明预测框与真实框重合程度越高,代表模型预测越准确、平均精度(AP)值越大。

然而,IoU 并不能精确地表示2 个框的相似度,因为其仅考虑了框的位置信息,而未考虑框的形状和大小。因此,为了改进IoU 的不足,出现了一些相关改进方法,其中包括GIoU Loss、DIoU Loss 和CIoU Loss 等。GIoU Loss(Generalized Intersection over Union)是对IoU Loss 的改进,其引入了一个能够将预测框与真实框最小包围的框C,通过计算C 的面积来惩罚预测框与真实框之间的偏移。DIoU Loss(Distance-IoU Loss)是对GIoU Loss 的改进,其在GIoU Loss 的基础上添加了一个能够衡量预测框与真实框中心点距离的项,用于进一步提升框的回归效果。CIoU Loss 是对DIoU Loss 的改进,其在DIoU Loss 的基础上添加了一个能够衡量预测框与真实框宽高比差异的项,用于进一步优化框的回归效果。这些改进方法的目的均是为了更准确地衡量预测框与真实框之间的相似度,从而提高目标检测算法的性能。

2.Wise-IoU(WIoU)Loss。2023 年Tong 等[30]提出了一种更高效、更直接的回归损失函数WIoU。WIoU 通过估计锚框的离群度定义一个动态聚焦机制(FM)(fβ),FM 通过将小梯度增益分配到具有小β 的高质量锚框,使锚框回归能够专注于普通质量的锚框。同时,该机制将小梯度增益分配给β 较大的低质量锚箱,有效削弱了低质量样例对锚框回归的危害。具体分为3个步骤:

(1)WIoU v1:由于训练数据不可避免地包含低质量的例子,距离、横纵比等几何因素会加重低质量例子的惩罚,从而降低模型的泛化性能。一个好的损失函数应该在锚盒与目标盒重合良好时弱化几何因素的惩罚,训练中较少的干预会使模型获得更好的泛化能力。构建距离度量距离注意力,可得到具有两层注意力机制的WIoU v1,如公式2所示。公式中,RWIoU∈[1,e),这将显著放大普通质量锚框的LIoU。 LIoU∈[0,1],这将显著降低高质量锚框的RWIoU,并在锚框与目标框重合良好时,将焦点集中在中心点之间的距离上。Wg、Hg是最小的包围框的大小。为了防止RWIoU产生阻碍收敛的梯度,Hg从计算图中分离(*表示此操作)。因为其有效地消除了阻碍收敛的因素,所以没有引入诸如长宽比之类的新指标。

(2)WIoU v2:为降低简单示例对损失值的贡献,在交叉熵设计了一个单调FM,有效降低了简单示例对损失值的贡献。这使得模型能够聚焦于困难示例,获得分类性能的提升。公式3-2 为WIoU v2 反向传播过程,r=Lγ*IoU∈[0,1]为梯度增益,在模型训练过程中,梯度增益随着LIoU的减小而减小,导致训练后期收敛速度较慢。因此,引入LIoU的均值作为归一化因子,如公式3-3所示。

其中,LIoU是动量为m 的运行均值。动态更新归一化因子使梯度增益总体上处于较高的水平,解决了训练后期收敛缓慢的问题。动态非单调FM 是锚框的离群度由LIoU的比值表征。如公式4所示。

(3)WIoU v3:利用β 构造了一个非单调聚焦系数,并将其应用于WIoU v1 就得到了具有动态非单调FM 的WIoU v3。利用动态非单调FM的明智的梯度增益分配策略,WIoU v3获得了优越的性能。如公式5所示。

(四)CBAM注意力

使用注意力机制的目的是使网络更多地关注到病灶的位置,增强存在病灶位置的权重来提高提取信息能力,得到更高的平均检测精度。CBAM(convolutional block attention module)是一种轻量的注意力模块,可以在空间和通道上进行注意力机制,沿着通道和空间2个维度推断出注意力权重系数,然后再与特征图相乘。CBAM 包含通道注意力模块和空间注意力模块,2 个注意力模块采用串联的方式,具体为:①通道注意力模块。通道注意力是关注哪个通道上的特征是有意义的,输入特征图是H×W×C,先分别进行一个全局平均池化和全局最大池化得到2 个1×1×C 的特征图,再将其利用共享的全连接层(Shared MLP)进行处理,然后将共享的全连接层所得到的结果进行相加再使用Sigmoid 激活函数,进而获得输入特征层每一个通道的0~1 权重得到最终输出特征图;②空间注意力模块。通道注意力输出之后,再引入空间注意力模块,关注空间中哪部分的特征有意义。空间注意力模块输入特征图为H×W×C,分别进行一个通道维度的最大池化和平均池化得到2 个特征图,然后将这2 个特征图在通道维度拼接起来,得到特征图H×W×2,然后再经过一个7×7 卷积操作,降为1 个通道,同时保持H、W 不变,输出特征图为H×W×1,然后再通过Sigmoid函数生成空间权重系数,之后与输入特征图相乘得到最终特征图。见图5~7。

图5 CBAM注意力模块结构图

图6 通道注意力模块结构图

图7 空间注意力模块结构图

二、方法

考虑到YOLOv7 在Backbone 中使用大量ELAN 网络,每个ELAN 网络由多个标准卷积密集连接构成,网络结构复杂,造成过多计算量和大量的参数,部署在不同的硬件设备上很难达到模型的精度-速度平衡,导致模型性能参差不齐。其次,YOLOv7 选用的CIoU 由于易受离群值影响的原因,损失函数的值变化波动较大,最终在评判正负样本时效果不佳。为此,本文考虑采用更为硬件友好的网络进行特征提取,在保证丰富特征的前提下,实现精度-速度平衡,得到更高的检测精度。

1.借鉴对硬件友好的网络EffificientRep 思想并进行调整,作为本文模型YOLOv7 的主干,以解决YOLOv7 在部署的硬件上无法获得合适的精度-速度平衡问题。

2.在模型的标签分配部分,用更优的WIoU Loss 替换原CIoU Loss,在保证丰富特征不被丢失的前提下,尽可能地降低损失,获得较高的精度。

3.在主干的最后第4 层加入CBAM 注意力,进一步提高了模型检测精度。

三、试验结果与分析

1.数据集与数据预处理。从新疆医科大学第一附属医院超声科获取2008年1月至2022年12月1220例患者共计6854张肝囊型包虫超声图像,在专业医师的指导下,从收集到图像中挑选小病灶图像(病灶最大径≤5 cm 或像素≤32×32)建立数据集,按照8∶2 的比例将数据集分为训练集和验证集,进而使用Labelimg 图像标注软件对其进行了手工标注,按VOC 数据集中的规范要求完成保存。另外,基于肝囊型包虫病超声图像特征,本文采用灰度尺寸归一化、自适应直方图均衡化、双边滤波、数据扩增4种方法对数据进行预处理,最终得到了2170张高质量图像(单囊型438 副、多子囊型446 副、坏死实变型454 副、内囊塌陷型388副、钙化型444副),用于模型的训练和评估。

2.试验环境和评价指标。试验环境是基于Linux 操作系统Ubuntu 18.04.2 LST,使用GPU 版Pytorch 1.11 深度学习框架Python 3.7 编程语言实现。设置输入图像尺寸为224×224,权重衰减参数设置为5×10-4,batchsize 设置为14,初始学习率为0.001,最大迭代次数150,再迭代150 次得到最终网络训练模型。同时采用平均精度均值(mAP)、画面每秒传输帧数(Fps)、参数量(Params)和FLOPs 作为评价指标,其中mAP 是目标检测中对多个验证样本个体求平均AP 值的方式,是衡量检测精度的指标,其值越大表示检测准确率越高;Fps表示每秒内可以处理的图片数量,用来评估目标检测的速度,其值越大表示模型检测速度越快,该算法的实时检测性能越好;Params 和FLOPs是评估模型规模大小的指标,其值越小,说明模型越轻便。

3.消融试验。为了验证本文提出的各项改进是否有效,设计一组消融试验进行对比分析,为保证试验准确性,训练过程中均采用相同参数,在自制肝囊型包虫病小病灶数据集上进行试验,试验Ⅰ是将EffificientRep网络作为新的骨干网络;试验Ⅱ是将CIoU Loss 替换为WIoU Loss;试验Ⅲ是在主干的最后第4 层中加入CBAM注意力。消融试验结果见表1。可以看出,将原始YOLOv7模型直接作为检测网络进行试验(表1中第1行所示),所得模型mAP为86.0%,Params、FLOPs和Fps分别为36.5 M、103.2 G、46.0 帧/s。将EffificientRep 网络作为YOLOv7 的骨干网络进行试验(表1 第2 行所示),mAP 较原始YOLOv7 提升了0.4%,Params、FLOPs 和Fps 分别为21.7 M、59.4 G、40.0 帧/s,模型大小明显得到了缩小。将WIoU Loss嵌入YOLOv7的Head部分进行试验(表1 第3 行所示),mAP 较原始YOLOv7 提升了1.2%,Params、FLOPs 和Fps 分别为21.7 M、59.4 G、56.0 帧/s,性能得到了明显的提高。将CBAM 注意力加入YOLOv7的主干部分进行试验(表1 第4 行所示),mAP 较原始YOLOv7 提升了0.1%,Params、FLOPs 和Fps 分别为22.2 M、59.5 G、57.0 帧/s,性能得到了一定的提高。将EffificientRep 网络作为YOLOv7 骨干网络的同时在Head 部分嵌入WIoU Loss 进行试验(表1 第5 行所示),mAP 较原始YOLOv7 提升了0.6%,Params、FLOPs 和Fps 分别为21.7 M、59.4 G、59.0 帧/s,在此基础上加入CBAM 注意力,mAP 较原始YOLOv7 提升了2.1%,Params、FLOPs 和Fps分别为22.2 M、59.4 G、62.7帧/s,证明了改进的有效性。

表1 消融试验结果

4.方法对比。与当前主流的目标检测算法模型(包括YOLOv3、YOLOv5、SSD、Faster R-CNN 和DETR)进行对比试验,结果见表2 和图8。 结果显示,与基于CNN 的模型YOLOv3、YOLOv5、YOLOv7、SSD、Faster R-CNN 比较,本文改进后的YOLOv7 算法mAP 分别提高了6.2%、2.2%、2.1%、7.3%、1.7%,Params 分别下降39.7 M、8.7 M、14.3 M、18.8 M、114.8M;与基于Transformer 的模型DETR 比较,其mAP 提高了5.1%,Params 下降14.5 M。 由图8 可知,相比其他几个主流目标检测模型,改进后的YOLOv7 检测精度高、速度快,同时参数量少,属于轻量级高精度模型。总之,改进后的YOLOv7 在模型轻量化的同时,又提高了模型的精度,有效地平衡了精度-速度。

表2 改进后的YOLOv7与同类型目标检测模型评价验证集中肝囊型包虫病小病灶超声图像结果

图8 改进后的YOLOv7与同类型目标检测模型评价验证集中肝囊型包虫病小病灶超声图像性能比较

四、检测效果分析

为了比较本文改进模型与原模型的检测效果,选择肝囊型包虫病超声图像中的坏死实变型(CE-4)图像进行检测,在一张图上的热力图可视化效果对比中可以看出,改进后的YOLOv7模型有着更好的定位能力。见图9。

图9 原始模型与改进后的YOLOv7模型检测坏死实变型(CE-4)肝囊型包虫病图像效果对比

五、结论

本文选取YOLOv7 作为基础网络,用标注后的肝囊型包虫病图像数据集,针对肝包虫病在肝脏区域常发病位置和类型分类,借鉴EffificientRep 网络思想改进了骨干网络,有效增强了特征提取能力;相继将WIoU Loss 和CBAM 注意力加入Head 和Backbone 部分,得到了高精度检测效果,为肝囊型包虫病计算机诊断系统的构建提供了理论基础。结果表明,改进后的YOLOv7 在准确度上有更良好的表现,对验证集的mAP 达到了88.1%,高于其他同类目标检测网络算法。检测速度也能够满足实时检测小病灶的要求,能够有效检测小病灶及其位置等信息。

猜你喜欢
包虫病注意力病灶
让注意力“飞”回来
Optimal UAV deployment in downlink non-orthogonal multiple access system: a two-user case
PSMA-靶向18F-DCFPyL PET/CT在肾透明细胞癌术后复发或转移病灶诊断中的作用分析
羊脑包虫病的诊治
勇做包虫病防治工作的
“扬眼”APP:让注意力“变现”
藏区包虫病防治缺长效机制
A Beautiful Way Of Looking At Things
术中超声在颅内占位病灶切除中的应用探讨
包虫病为害一方盼“国家队”相助