程龙,秦航,余晶,蒋红兵 ,宋宁宁△
(1.南京医科大学附属南京医院(南京市第一医院) 临床医学工程处,南京 210006;2.南京市急救中心,南京 210003)
肺癌是发病率和致死率最高的癌症之一[1-3],在我国,肺癌的5年生存率低于20%[4-5]。临床治疗时,医生会依据患者当前的癌症分期,制定不同的治疗方案,并对疗效进行评估。
纵膈淋巴结是否转移与肺癌分期具有重要联系,是临床诊断中最受关注的一个方面。当排除远处转移的情况之后,确定是否合并有纵膈淋巴结转移,对确定治疗方案起到决定性作用。因此,纵膈淋巴结良恶性分类对于肺癌治疗具有重大意义。
超声弹性成像技术配合超声内镜引导下的经支气管镜针吸活检术[6-8](endobronchial ultrasound-guided transbronchial needle aspiration,EBUS-TBNA)对肺门及纵膈肿大淋巴结诊断、肺癌分期等方面都具有提高诊断效率的作用。相关研究表明,传统方法利用超声弹性成像对纵膈淋巴结性质进行诊断时,计算超声弹性图像中蓝色部分面积更具有诊断价值[9-10]。然而该方法需要手动勾画纵膈淋巴结,然后计算目标淋巴结中蓝色部分面积比例,来确定纵膈淋巴结的性质,工作量大,且准确率及效率依赖于临床医生的经验。
目前,国内外采用深度学习的方法对纵膈淋巴结超声弹性图像进行分类的研究较少。国内上,王洪凯等[11]采用机器学习算法对PET/CT纵膈淋巴结性质进行了判定;徐少伟等[12]提出基于卷积神经网络和注意力机制的两步级联的胸部CT纵膈淋巴结分割算法,通过引入医学先验和增强通道、空间多级特征来提高纵膈淋巴结分割性能。国外,Wang等[13]采用机器学习和深度学习算法对非小细胞肺癌的PET/CT纵膈淋巴结性质进行了分类;Wallis等[14]使用深度学习中的CNN网络对PET/CT图像的病理性纵膈淋巴结进行了识别;Choi等[15]使用生成对抗网络对胸部CT图像的纵膈淋巴结进行了分析;Wang等[16]比较了深度学习方法和四种机器学习方法对PET/CT图像中的非小细胞肺癌(NSCLC)纵隔淋巴结转移进行分类。
为提高准确率及效率,本研究提出一种深度学习方法,对纵膈淋巴结超声弹性图像进行自动分类。与传统方法相比,该方法无需手动勾画目标淋巴结和计算蓝色部分面积,有效提高了诊断效率和诊断准确率,可作为临床辅助诊断的重要工具。
本研究样本均来自南京市第一医院,共收集了2016年6月至2020年8月呼吸科提供的294例患者的369张纵膈淋巴结图像,其中男性208人,女性86人,年龄从27岁到83岁。淋巴结通过EBUS-TBNA穿刺组织方法进行了良恶性标记。
由EBUS-TBNA技术得到纵膈淋巴结图像,经临床医师进行勾画,得到感兴趣区域(region of interest,ROI)。采用随机裁剪的方式将图像裁剪为224×224像素。图1为图像预处理前后的纵膈淋巴结图像。将裁剪好的369张纵膈淋巴结图像按照8∶2的比例划分为训练集与测试集,训练集用来训练深度学习网络模型,测试集用来测试模型性能。
图1 图像预处理
本研究采用PyTorch作为深度学习框架,使用Python3.8作为编程语言,在CPU为Intel(R) Core(TM)i5-7300HQ 环境下训练,利用NVIDIA CUDA与cuDNN进一步加速运算。将算法学习率设置为0.0001,批量大小为4,Iteration为1 000。在每次训练结束后将损失率与准确率记录在CSV文件中,创建折线图反映结果变化,根据该变化在训练过程中调整超参数,以防止过拟合现象。
为解决卷积神经网络中的退化问题,本研究采用的模型为残差网络(ResNet),运用残差学习理论对卷积神经网络进行改良,通过加入恒等映射与连续卷积结构形成残差模块以提取高维特征。图2为残差学习原理图。
图2 残差学习原理Fig.2 Residual learning principle
因本研究数据较少,所以采用迁移学习方法,以防止过拟合。迁移学习采用的网络模型为ResNet34模型,由一个7*7的卷积层、池化层,以及一系列3*3的卷积层搭成残差网络,最后由一个平均池化层与全连接层得到分类结果。
训练集损失能够反映出该分类模型在训练集上的拟合能力,用于表示训练集在模型中的预测结果与真实结果的误差。使用ResNet模型进行训练,得到最终的训练集损失结果,见图3。
图3 训练集损失Fig.3 Train loss
由图3可知,训练集损失呈逐渐下降趋势,随训练次数的增加,下降趋势逐渐变缓,最终在100个epoch左右波动。
测试集准确率可验证测试集的准确性,是评价网络效果的主要标准。使用ResNet网络进行训练,得到最终的测试集准确率结果,见图4。
图4 测试集准确率Fig.4 Test accuracy
由图4可知,测试集准确率呈增加趋势,在实验初期准确率有显著提高,当准确率增至60%时增幅减缓,随后逐渐提高到75%左右开始小幅波动。
传统方法和深度学习方法均以EBUS-TBNA 穿刺病理结果作为纵膈淋巴结良恶性的诊断标准;若EBUS-TBNA 穿刺病理结果无法确定淋巴结的性质,后续手术病理、经验治疗和影像学随访需至少3个月,方可确定淋巴结的性质。
传统方法通过计算图像的蓝色区域面积,利用SPSS Statics23软件构建受试者工作曲线(ROC),寻找最佳截断值,通过比较图像蓝色部分面积与最大约登指数,得出其准确度、灵敏度、特异度分别为69.1%、68.7%、69.0%。
本研究使用ResNet网络对纵膈淋巴结图像进行训练,将369张图片按照8∶2划分为训练集与测试集,以保证分类结果的客观性,得到测试集准确度、灵敏度、特异度分别为83.3%、78.6%、84.4%。两种方法对比结果见表1。
表1 两种方法结果比较Table 1 Comparison of the results of the two methods
由表1可知,本研究准确率比传统方法提高6%左右,可作为临床辅助诊断的重要工具。而且深度学习分类模型能够实现实时诊断,在做支气管镜检查时可为医生取样提供重要参考。今后可通过扩大样本量、提高图像质量、优化深度学习算法等,以进一步提高分类的准确率。
本研究利用ResNet网络设计分类算法,相对于传统计算蓝色部分面积比例法,可得到最高87.7%,平均75.1%的准确率,高于传统蓝色部分面积法的69.1%,体现了深度学习在纵膈淋巴结的良恶性识别方面的优势。然而,在使用卷积神经网络对纵膈淋巴结进行分类时,还存在以下问题:
(1)样本尺寸不统一。超声弹性图像样本大小不一致,导致在选取裁剪框时,可能会出现关键信息丢失。
(2)样本分辨率较低。样本图像整体清晰度较低、存在噪声,图像有效信息较原始超声图像低,在后期训练时会产生较大误差。
(3)样本数量少。本研究共收集纵膈淋巴结图像369幅,可能导致训练的过拟合,致使训练效果下降。
(4)网络模型分类准确率不高。本研究所使用到的卷积神经网络模型为ResNet34模型,可能存在冗余问题,影响网络的训练效果。
(5)训练结果波动较大。ResNet网络可以在测试集上实现最高为87.7%的准确率,而平均准确率却只有75.1%,结果波动较大。
在后续工作中,考虑从以下几个方面改进,以提高分类准确率:(1)进一步扩大样本量。在患者进行超声检查时,多角度、多层次地对病患部位进行拍摄,以达到增加样本量的目的;或与其他医院进行合作,收集更多样本,以达到更好的训练效果。(2)直接从超声系统中导出原始高清的超声弹性图像,再进行训练,以提高分类效果。(3)重新规划网络结构,提高其特征提取能力,提升训练效果。目前的研究主要是基于ResNet网络的迁移学习方法,对于网络本身架构并未进行太多改动,后续可通过加入其他卷积模块,构建具有针对性、特异性的卷积神经网络,以达到更理想的效果。