利用跨模态轻量级YOLOv5模型的PET/CT肺部肿瘤检测

2024-03-15 09:22叶鑫宇刘凤珍陆惠玲
电子与信息学报 2024年2期
关键词:分支卷积肺部

周 涛 叶鑫宇* 刘凤珍 陆惠玲

①(北方民族大学计算机科学与工程学院 银川 750021)

②(宁夏医科大学医学信息工程学院 银川 750004)

③(北方民族大学图像图形智能处理国家民委重点实验室 银川 750021)

1 引言

医学图像检测是识别出各种医学语义实体,对于理解影像和辅助诊断至关重要[1]。不同成像方式的器官病灶影像所提供信息多样,正电子发射型断层显像(Positron Emission Tomography, PET)的空间分辨率较低,恶性肺部肿瘤摄取葡萄糖不均匀而呈现强度不明显,且与部分代谢活跃器官显像相近,导致很难精准检测。计算机断层扫描(Computed Tomography,CT)的解剖关系明确,恶性肺部肿瘤往往与周围软组织的强度相似,部分附着在胸椎或胸壁,且大小在2 cm内难以发现,尤其是在背景复杂的CT图像和分辨率较低的PET图像,仅靠单模态成像技术难以准确地检测识别出肺部影像中的肿瘤。

众多高性能深度学习方法在图像检测中不断被提出,周涛等人[2]指出残差神经网络(ResNet)结合全卷积网络可以较好检测病灶的位置和类型信息;Yu等人[3]提出兼顾准确性和效率的实时检测模型飞桨轻量级移动端检测(PaddlePaddle- Picopaddle Detection, PP-PicoDet);Hurtik等人[4]提出通过阶梯上采样聚合轻型主干的轻量网络,以60%参数量获得40% mAP提升;Wang等人[5]基于重参和动态标签设计YOLOv7,速度和精度更优。多模态检测方法被广泛应用,刘政怡等人[6]基于红绿蓝(Red Green Blue, RGB)和Depth多模态图像识别视觉显著区域;Asvadi等人[7]利用单目相机和激光雷达多模态数据,所设计检测模型性能优于仅使用激光雷达模型的性能,Yadav等人[8]基于相同两模态数据提出两分支雷达网络(Best of two I-ranch RAdar NetWork, BIRANet)模型,获得75.3% mAP;Qian等人[9]提出两阶段模型多模式车辆检测网络(Multimodal Vehicle Detection Network, MVDNet),基于激光雷达和雷达信号获得了90.89% mAP;Chen等人[10]通过概率集成方法(Probabilistic Ensembling, ProbEn)进行RGB和热像仪多模态目标检测,获得13%的性能提升。

PET, CT, X光片、磁共振成像(Magnetic Resonance Imaging, MRI)等单模态技术的发展和组合,使得多模态技术在疾病诊断和临床治疗上发挥重要作用[11]。合理利用多模态互补信息可以提高疾病识别精度。Mokni等人[12]基于X光片和MRI的互补,提出多模态融合模型对乳腺肿瘤进行检测;Rubinstein等人[13]训练卷积编码器学习前列腺癌PET/CT,检测出更多肿瘤;Ming等人[14]融合CT和PET宫颈肿瘤图像获得解剖和功能信息,较单模态获得6%的检测精度提升;Qin等人[15]利用卷积神经网络同时学习PET和CT,实现更精确肺癌检测和无创诊断;Dirks等人[16]利用强度阈值对PET和CT恶性肿瘤进行先检测后分割,获得较分割方法更优的性能。结合多模态信息疾病诊断更准确,Cao等人[17]指出图像设备易发生交替或移动,所获取的多模态图像并不完全对齐。此外,成像机理不同的多模态图像之间,所对应位置像素值意义也不同,导致很多不一致的信息,不合理使用会导致检测精度低。

PET图像显示病灶病理生理特征,CT图像增强解剖信息以定位病灶,PET/CT图像结合PET功能信息和CT解剖信息,确定病灶同时精准定位,尽管能检测出更多异常疾病,但难以充分融合CT和PET的优势信息,病灶的跨模态信息也缺乏自动分析和利用。多模态的不一致信息通常会被现有多模态检测方法进行折衷处理,此外,现有深度学习模型占用的计算资源和存储资源都较大,限制了模型在特殊场景中的应用。

针对跨模态语义相关性未充分考虑、模型复杂度过高,以及YOLOv5仅检测单模态的问题,受上述文献启发,本文提出跨模态轻量级CL-YOLOv5(Cross-modal Lightweight YOLOv5, CL-YOLOv5)的肺部肿瘤检测模型,其主要贡献是:(1)提出一个3分支结构的跨模态网络,对PET, CT和PET/CT的功能和解剖信息进行特征提取和充分利用;(2)设计跨模态交互式增强块对多模态图像的语义相关性进行充分学习,利用余弦重加权计算Transformer高效的学习远距离特征相互依赖关系,交互式增强网络对多模态图像中病灶特征的提取能力;(3)为降低模型复杂度和提高检测效率,提出双分支轻量块,采用激活函数簇(ACtivate Or Not, ACON)瓶颈结构,降低参数同时增加网络深度和鲁棒性;另一分支采用密集连接的递进重参卷积,让特征传递达到最大化,其中递进重参卷积采用递进的自注意力进行空间交互,逐渐增加通道宽度,尽可能保持模型复杂度,同时学习更丰富的多模态特征。

2 CL-YOLOv5检测模型

CL-YOLOv5同时从3种模态图像中学习病灶特征,结构如图1所示,模型主要包括3分支主干网络、特征增强颈部和预测头部,4个阶段对PET,CT和PET/CT信息进行充分提取,整个网络尽可能使用 1×1卷积保持轻量化,采用双分支轻量块进行特征提取,对更丰富的多模态特征进行学习,采用跨模态交互式增强块交互式增强多模态病灶特征。图1中切片(Focus)和上采样(Upsample)为YOLOv5已有模块不作介绍。

图1 CL-YOLOv5整体框架

2.1 递进重参卷积

CNN提取图像的局部特征;通道或空间注意力机制通过额外通道或空间交互提高模型建模能力。空间注意力机制通过额外卷积计算,学习局部特征的空间相关性,而缺乏远程特征相关性的学习能力。Transformer更好地捕获图像全局信息,通过两次矩阵乘法实现两次连续的空间交互,但Transformer会引入大量计算,输入特征图的大小会很大程度上影响计算量,尤其是在较高分辨率的肺部肿瘤检测任务上。为此,本文基于卷积计算设计如图2所示的递进重参卷积,递进地采用矩阵乘法进行空间交互,递进期间逐渐增加通道宽度以实现有限复杂度的递进交互,保持轻量化同时有效结合Transformer和CNN的优势。其中 7×7深度卷积(DepthWise Convolution, DWConv)使矩阵乘法可以在一个相对较大窗口内进行空间交互,以尽可能提高学习特征交互和长距离依赖关系的能力。

图2 递进重参卷积结构

重参卷积将多分支结构模型的参数重新转换为另一组结构简单的参数,实现轻量化并保持多分支结构的特征表达能力。 RC 1×1重参卷积通过多尺度和多分支结构充分提取特征,将两个串行结构重参得到一个卷积,最终再与并行分支进行结构重参,其中采用线性缩放替换非线性操作的层,提高模型的非线性表达能力。

图2递进重参卷积,首先利用 1×1重参卷积对通道数为c的输入特征图X进行学习,利用切块操作( Split )将通道数为2c的输出特征图分为1/4c,1/4c, 1/2c和c通道数;然后利用 7×7深度卷积对1/4c以外特征图进行学习;最后递进地执行相乘操作和 1×1重参卷积,第3次和重参卷积相乘的递进结果作为最终输出。基于卷积设计的递进重参卷积,具有平移不变性,可为多模态肺部肿瘤检测引入有益的归纳偏置。

2.2 双分支轻量块

深度学习模型资源消耗都较大,限制了检测模型在肺部肿瘤任务中的应用,尽管YOLO将候选框和对象识别合并,以及采用残差块和 1×1卷积并行来降低参数和提升效率,但缺乏充足的空间交互能力,此外,残差块的连续堆叠也会导致特征冗余。为此,设计如图3所示并行双分支结构的递进轻量块,密集连接的递进重参卷积进行特征重用,使特征的信息流通达到最大,降低参数同时对空间交互的特征充分学习;另一分支采用瓶颈结构,增加网络深度和使用Swish一般形式ACON,提高模型鲁棒性和非线性表达能力。

图3 双分支轻量块的结构

如图3(a)所示,左分支采用3个密集连接的递进重参卷积。密集连接将当前层与前续层拼接,连接不同层特征以提高参数效率,还避免相加会导致信息流被破坏,可进一步缓解网络梯度消失和过拟合现象,左分支的最终输出特征图来源于全部递进重参卷积的输出特征图。

右分支采用瓶颈ACON结构。 1×1卷积压缩输入通道数,完成计算后再对输出通道数进行复原,降低模型复杂度同时增加网络深度以提升网络性能。ReLU表达式为 max(x,0),其中max为取最大值函数,Maxout激活函数为其一般式,可看作一个可学习的分段线性函数,表达式为

YOLOv5的Swish表达式为x·Sigmoid(βx),其中w,b和β为可学习参数,可解释为ReLU的一种平滑近似。对Swish进行平滑近似可得到ACON,结构如图3(c)所示。其中BN为批量归一化,采用3×3深度卷积和最大池化的双分支结构,然后计算输出特征图差值后,BN和Sigmoid结果,进行相乘后与深度卷积分支相加。最终拼接左分支和右分支的特征图到ACON。图3(a)有采用8个递进重参卷积密集连接的双分支轻量块,应用于模型的第2个和第3个阶段。

2.3 跨模态交互式增强块

肿瘤检测中多模态图像存在不一致信息,现有多模态检测方法通常会折衷处理,PET/CT图像仍难以充分融合CT和PET优势信息。为此,设计如图4所示的跨模态交互式增强块,充分学习跨模态语义相关性,学习3模态互补信息和长距离特征相互依赖关系,交互式增强肿瘤特征。利用Transformer同时学习多模态特征的全局相关性,为避免模型复杂度过大,利用深度卷积后拼接,以及更轻量级的Transformer计算方式。

图4 跨模态交互式增强块的结构

如图4(a)跨模态交互式增强块所示,首先,利用重参卷积对3模态拼接后特征进行融合;其次,输入到Transformer;然后,再通过 3×3深度卷积,最后,拼接特征进行重参卷积,与最初重参卷积形成瓶颈结构保持轻量化。输出经过切块(Split)和重组分为6部分,3个通道数为c的特征图,分别传递给PET, CT和PET/CT分支。

Softmax计算复杂度是序列长度平方,改进使其仅保留两个特点:注意力权重生成矩阵的非负性,放大局部权重值的非线性权重转换。为保证矩阵的非负性和非线性权重转换,使用 1×1卷积和ReLU进行处理,分别得到矩阵Q,K和V,将矩阵点乘变换为矩阵逐像素相乘,实现复杂度降低,Transformer输出特征图XTrans计算式为

3 实验和讨论

3.1 肺部肿瘤PET/CT多模态数据集与参数设置

本文选用从宁夏某三甲医院2014—2020年期间收集的104例临床患者,通过Discovery MI仪器采集肺部及躯干部图像,如图5所示。肺部肿瘤PET/CT多模态数据集样本数为各模态1 147张,其中训练集684张、验证集222张和测试集241张。每个样本有两种类型文件,3种模态JPG图像文件和XML标签文件,根据医生建议通过Labelimg软件标注肺部肿瘤位置。

图5 已配准的PET, CT和PET/CT图像

本次实验环境为Ubuntu18.04 LTS系统,内存为40 GB,处理器为AMD 3500X,和英伟达2070 Super, Pytorch框架进行网络搭建。使用SGD优化器进行优化,学习率为0.01并采用每10周期乘以0.95的衰减策略,训练周期为300,训练批处理大小设置为16。

3.2 评价指标

真实与预测区域的交叉面积比整体面积为目标检测标准,大于阈值0.5且检测框和真实框均预测为真,标记为真阳性(Ture Positive, TP),否则,标记为假阳性(False Positive, FP);同理得假阴性和真阴性。精确率(Precision)为正类且预测正确占所有正类的比例,召回率(Recall)为预测出正类占所有正类的比例。平均精度(Average Precision,AP)为肺部肿瘤类P-R曲线下面积

其中,n是图像总数,Precision(k)是k个图像处的精度,ΔRecall(k)是k–1和k之间召回差。mAP是计算所有类别P-R曲线下面积的平均值

FPS是每秒的帧率,代表每秒可以检测的图像数量,通常用于评估物体检测的速度。

3.3 消融实验

为评估本文模型结构和多模态影像的有效性,做了4组消融实验来说明递进重参卷积、双分支轻量块、PET/CT与CT两模态、与PET两模态、3模态和跨模态交互式增强块的影响,具体结果对比如表1所示。选择5例患者的多模态图像,进行如图6所示的可视化对比。

表1 在肺部肿瘤PET/CT多模态数据集上的消融实验对比结果

图6 消融实验的可视化结果

实验1,减少近60%资源消耗,运行速度和mAP提升5%和1.96%,逐渐增加通道宽度实现较低计算成本提高精度;实验2,参数量减少83%,运行速度和mAP提升12%和0.49%,ACON瓶颈结构结合密集连接轻量化同时增加网络表达能力,但肺部病灶错综复杂且与正常组织相连,图6第2行部分肿瘤未能识别出。

实验3,两个分支均为PET/CT再融合CT,精度明显提升和病灶边缘得到更好识别;实验4,融合PET,召回率明显提升,图6第4行看出肿瘤检测更好,但检测框边界略微过小而未能精准识别。实验5,3分支利用3模态语义信息进行互补,mAP和F1较实验2单模态分别提升1.16%和1.52%,图6第5行病灶边缘识别清晰且置信度较高。实验6,以近12%资源消耗获得0.97%mAP提升,交互式增强可有效提高病灶提取能力和检测性能。最终较YOLOv5s参数量降低7.7倍,mAP和F1提高4.66%和4.55%。

3.4 检测对比实验

将本文CL-YOLOv5模型与其他11种目标检测模型进行比较,结果如表2所示,仅R-FCN为两阶段模型。图7为检测效果对比图,对比了8个患者,识别框上方数字是置信度分数。

表2 不同模型在肺部肿瘤PET/CT多模态数据集上的对比结果

图7 不同模型在肺部肿瘤PET/CT多模态数据集上的检测结果

两阶段模型效率明显差于单阶段模型,其中EfficientDet,轻量化模型PicoDet, NanoDet和Poly-YOLO的FPS均明显超过实时检测要求,本文CL-YOLOv5效率最佳,较EfficientDet-d0参数量少5.3倍,评价指标和误差均最佳,图7中肺部肿瘤边缘的识别效果最佳,置信度最高。

YOLOv5l较YOLOv4l性能提升同时也提升了效率;本文较高密度场景中集成Transformer的TPH-YOLOv5,mAP提升2.58%;YOLOv7l将模型重参数引入,mAP较YOLOv5l提升1.82%;YOLOv8l将主干每层以拼接方式在末端进行聚合,保证轻量化同时获得更丰富的梯度流信息,本文模型较其计算量缩减近54倍、运行时间快近1倍,mAP和F1提升1.44%和1.76%。

图8是各模型PR曲线。向右上方凸出、包围面积大的曲线代表模型效果好,可看出本文模型最优。图9是各模型F1曲线,较高置信度下结果是可取的,可看出本文CL-YOLOv5最优。

图8 不同模型的PR曲线

图9 不同模型的F1曲线

3.5 多模态检测对比实验

将本文模型与其他4种多模态目标检测模型进行比较,结果如表3所示。对于只有两种模态输入的模型,将PET和CT拼接。

表3 多模态检测模型的对比结果

基于单目相机和激光雷达数据的BIRANet较ConvNet性能更好,本文模型较其mAP提升2.48%,误差明显更低;较激光雷达和雷达信号的MVDNet, mAP提升1.50%;较RGB和热像仪的概率集成方法ProbEn, mAP提升1.13%。本文交互式增强可有效提高网络对病灶特征的识别能力,从而获得最佳的多模态检测性能。

3.6 热力图可视化验证实验

热力图(如图10)对模型的有效性进一步验证,红色越深表示网络关注度越高,本文模型不仅识别出全部标签,网络关注的病灶区域也更精准。

4 结论

本文充分考虑不同成像设备对病灶成像机理不同,提出基于跨模态轻量级CL-YOLOv5的肺部肿瘤检测模型,余弦重加权计算Transformer的跨模态交互式增强块对多模态语义相关性进行充分学习,密集连接和瓶颈结构的双分支轻量块降低模型复杂度和提高检测性能。在肺部肿瘤PET/CT多模态数据集中获得97.29%精度、96.51%Map, 96.03%F1,138.47 FPS与3 238 s训练时间,0.81 M参数量和0.67 G计算量,较YOLOv5s降低7.7倍和7.8倍,较EfficientDet-d0降低5.3倍和3.9倍,以较少复杂度取得较高精度,多模态对比实验也优于现有先进方法,肺部肿瘤的识别精度更高,有效提升检测精度,为医生的辅助诊断、术前准备工作提供有效帮助。

猜你喜欢
分支卷积肺部
基于3D-Winograd的快速卷积算法设计及FPGA实现
《结缔组织疾病肺部表现》已出版
《结缔组织疾病肺部表现》已出版
巧分支与枝
从滤波器理解卷积
《结缔组织疾病肺部表现》已出版
《结缔组织疾病肺部表现》已出版
基于傅里叶域卷积表示的目标跟踪算法
一类拟齐次多项式中心的极限环分支
一种基于卷积神经网络的性别识别方法