廖 蔚,黄 强,张雅琳,高雪梅,梅 劼,
(1.西南医科大学临床医学院,四川 泸州 646000; 2.四川省医学科学院·四川省人民医院产科,四川 成都 610072; 3.电子科技大学临床医学院,四川 成都 610072)
卵巢恶性肿瘤早期多无特异性症状,因缺乏有效的早期诊断手段,当出现症状时往往已经进入晚期,因此卵巢恶性肿瘤患者的五年生存率低。相关研究表明,卵巢恶性肿瘤若能早期发现、及时准确的治疗,患者五年生存率则可以得到的改善[1]。因此,若能找到一项对卵巢恶性肿瘤的早诊断有帮助的新技术,就可能帮助患者改善预后。经阴道超声是目前临床上筛查卵巢恶性肿瘤的最常用的影像学手段,但肠道气体干扰、伪影、强度衰减、难以摄取全部图像、重叠等因素使其应用存在一定局限性,导致筛查特异性低,甚至误诊[2]。计算机断层扫描(computed tomography,CT)检查可更好地显示肿块组织特征和判断与周围器官的关系,增强CT在卵巢肿瘤的诊断、术前评估、指导临床治疗中发挥着重要的作用[3]。但是在医学成像领域,疾病的准确诊断取决于图像采集和图像解释[4],依赖于医生的技术水平和个人经验,存在较大的主观性,尤其是住院医师以及偏远基层医院的影像医师,他们临床经验有限,通过增强CT对卵巢肿瘤良恶性进行鉴别是有困难的。而人工智能在帮助我们提高诊断的准确性和客观性上有着巨大的潜力。
深度学习(deep learning, DL)技术是目前人工智能(artificial intelligence,AI)领域的核心技术,它模仿人脑的神经网络[5],能够学习样本数据的内在规律和表示层次,对原始数据处理能力强[6]。它的最终目标是让计算机能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。近几年来,基于深度学习的图像分析的相关研究已经涉及肝脏、脑部、甲状腺、血管等部位[7~10]以及恶性肿瘤(如乳腺癌、肝脏癌症)等病灶组织的识别[11],它不仅提高了医学影像处理效率,还能够通过算法和预处理等操作提高处理精度。
本次研究尝试寻找适合卵巢肿瘤良恶性分类的深度学习模型。我们利用卵巢肿瘤患者的增强CT图像对深度学习中的NASNet神经网模型进行训练,以手术后的组织病理学检查结果为确诊标准,建立基于卵巢肿瘤增强CT图像良恶性预测二分类模型,评估其在鉴别卵巢包块良恶性的临床价值。在研究中将建立的DL模型同影像专科主治医师的诊断水平做比较,以此来证明我们建立的DL模型可以在影像科住院医师及基层医生通过CT判断卵巢肿瘤良恶性时提供比较准确的结果供他们参考。
1.1 一般资料收集2018年7月至2022年5月在四川省人民医院因卵巢肿瘤住院行盆腹腔增强CT检查的114例卵巢肿瘤患者,对患者信息进行脱敏处理后编号,其中1~75号为术后病理检查确诊为恶性肿瘤患者,76~114号为确诊为良性肿瘤患者。按2∶1的比例随机划分为训练集和测试集。在PACS系统中选取盆腹腔增强CT图中病灶区域完整且边缘清晰易于标注的图像,其中训练集76例共计2991幅图像,包含恶性肿瘤病例50例1698幅图像,良性肿瘤病例26例1293幅图像。测试集38例共2050幅图像,恶性肿瘤病例25例1284幅图像,良性肿瘤患者病例13例766幅图像。存储为医学数字成像和通信(digital imaging and communications in medicine, DICOM)格式。
1.2 方法
1.2.1训练集标签图制作及模型的建立 为了最大程度保证训练数据的准确性与客观性,由一名影像专科主治医师手动勾画出训练集卵巢病灶的边界。标签值分为两类,标注的区域为病灶,其余为背景。标注完成后,使用Python脚本生成遮罩图像,考虑到直接使用原始增强CT图像会引入大量与肿瘤良恶性判断无关的干扰信息,最终选择通过分割后的遮罩图确定原始增强CT图像中肿瘤的位置,隐去其余部分得到仅包含肿瘤组织的增强CT图像, 将完成预处理后的训练集数据预处理送入NASNet神经网络完成模型训练。
1.2.2分组测试 分别由影像专科主治医师和训练成功的DL模型分别对测试集进行良恶性诊断,在DL模型诊断测试集时使用本研究中同时建立的改进U-Net模型算法对测试集进行自动分割,所得分割结果经训练后的NASNet神经网络分类。测试结果中,单个病例的CT图像恶性占比超过34%即患者判定为恶性患者。将分类结果同影像专科主治医师的判断结果做比较。
1.3 观察指标计算DL模型分类的灵敏度、特异度、准确性、AUC作为衡量模型效能的指标。利用约登指数(Yu-denlndx,YI)最大法确定单个病例判定为恶性肿瘤的CT图片百分比阈值。
1.4 统计学方法应用SPSS 22.0统计学软件对数据进行分析。统计学方法使用配对卡方检验以及Kappa一致性检验。Kappa值>0.75表示组间比较一致性好。P<0.05为差异有统计学意义。
2.1 自动分割结果利用本研究同时建立的改良U-Net算法模型实现测试集的自动分割,实现了分割-诊断自动化。即由U-Net分割模型自动勾画出卵巢肿瘤病灶(如图1、2),然后提供给NASNet神经网模型实现良恶性自动预测。图1图2中,a列代表原始图,b列代表手动勾画边界,c列代表自动分割边界,d列代表分割耦合图像。在分割耦合图像中,深黄色区域代表模型的分割结果,绿色区域代表标签手动分割图像。可以看出自动分割的结果与影像专科医师手动分割的结果高度吻合,可以为NASNet神经网络分类模型提供准确的测试标签。
图1 恶性肿瘤病例使用改进U-Net自动分割效果
图2 良性肿瘤病例使用改进U-Net分割效果
2.2 分类测试结果最大YI为0.769,对应阈值的恶性图片占比为34%,此情况下模型的灵敏度为100%,特异度为76.9%,准确度为92.1%,AUC为0.88(如图3)。影像专科主治医师对测试集良恶性诊断的灵敏度为96%,特异性84.6%,准确性92.1%。通过U-Net分割模型对分类模型自动提供标签,约21分钟就对38例测试患者完成了良恶性的判断,而影像专科主治医师耗时约为5.5小时。影像专科主治医师同DL模型诊断效果比较差异无统计学意义(P>0.05);Kappa=0.872(Kappa>0.75),两者诊断效能高度一致。见表1。
表1 DL模型与影像专科主治医师测试结果比较 (n)
图3 DL模型诊断卵巢肿瘤良恶性的ROC曲线图
卵巢恶性肿瘤若能早期发现,及早治疗,则可以拥有较好的五年生存率[1]。CT检查成像结果在卵巢肿瘤疾病诊断、手术术前评估、指导临床治疗中发挥着重要的作用,但医学影像诊断始终存在主观性,会不可避免的造成对部分图像诊断的偏差。同时,我国医疗影像数据每年30%的速度增长,而影像医生的年增速仅为 4%~6%[12],人工读片的效率低,花费时间多,仅靠人工读片已难以满足影像数据增加所带来的需求。因此,我们尝试在深度学习技术中寻找合适的算法模型,结合卵巢肿瘤的增强CT图建立预测卵巢肿瘤良恶性的二分类模型。
在本研究中,我们利用卵巢肿瘤患者的增强CT图片训练了深度学习中的NASNet神经网络模型,建立了预测卵巢肿瘤良恶性的二分类模型,预测的灵敏度为100%,特异度为76.9%,准确度为92.1%,AUC为0.88。相对于影像专科主治医师,DL分类模型显示出更高的灵敏度,类似的准确性和稍差的特异性。两者的诊断效果在通过配对卡方检验在统计学上相比较P值为0.5>0.05,两者差异无统计学意义。通过kappa一致性检验对比,Kappa值为0.872>0.75,说明本DL模型对卵巢肿瘤良恶性的预测结果与影像专科主治医师的诊断结果有高度的一致性,且DL模型的效率约是影像专科主治医师的16倍,效率更高。既往研究中,Liu[13]等发表的Meta分析指出CT诊断恶性卵巢肿瘤的灵敏度可以达到85%,特异性达86%;Dodge等[14]发表的系统综述指出CT对可疑为卵巢恶性肿瘤的附件包块诊断的灵敏度为87.2%,特异性为84.0%。而在传统机器学习领域,Akazawa等[15]通过使用机器学习算法根据卵巢肿瘤患者的术前检查数据建立模型预测卵巢肿瘤的病理诊断,最终得出梯度增强模型的预测准确率最高可达到80%。Martinez-Mas等[16]通过分析348卵巢癌患者的超声图像特征,运用机器学习算法建立分类模型,最优的分类模型对卵巢肿瘤的良恶分类的准确率可以达到85%。本研究利用卵巢肿瘤增强CT图像建立的DL分类模型对卵巢肿瘤良恶性的判定结果与影像专科主治医师有较好的一致性。而对比之前建立的传统机器学习模型,深度学习技术应用于诊断卵巢肿瘤良恶性的效果也更好,且可自动提取原始数据的特征,效率更高,模型的效能更是会随着训练数据量的增加而增加。但相对于经验丰富的影像专科医生,本研究所建的分类模型特异性相对低,因此需要在测试中不断反馈良性肿瘤的数据,提高模型的特异性。
在模型建立的过程中,总体病例数较小可能是影响模型特异性相对偏低的一个原因。此外,训练集中良性患者病例少于恶性患者病例,这也可能导致本分类模型在测试时将结果偏向数据量更大的恶性患者,导致出现假阳性,引起特异性低。但是深度学习技术的模型性能会随着训练数据的提升而改善,因此,只要不断的补充数据进行训练,分类模型的性能就能得到提升。
利用深度学习技术对医学图像进行分割的相关研究在近几年也迅速兴起。本研究中分类模型测试集分割则采用在本研究中同时建立的改良的U-net分割模型进行,分割结果如图1、图2,自动分割的结果与影像专科医师手动分割的结果高度吻合,可以为NASNet神经网络分类模型提供准确的测试标签,实现了卵巢肿瘤CT图像的自动分割到良恶性诊断一体化,工作效率相较于影像科专科主治医生大大提高。未来,我们还计划将患者的术前肿瘤标志物同卵巢肿瘤的增强CT的图像相结合,建立一个融合模型来预测卵巢肿瘤的良恶性,进一步提升模型的诊断效能。
本研究也存在很多局限性,此研究为单一的医疗中心进行的回顾性研究,病例数量相对较少,尤其是良性肿瘤患者的增强CT数据收集较困难,因此分类模型可能出现过度拟合[17]。模型的性能需要在未来的多中心研究、前瞻性研究中进一步得到验证并且进行反馈优化。
综上,利用卵巢肿瘤增强CT图像训练得到的DL二分类模型对卵巢良恶性的判断具有较好的灵敏度、准确度、特异度,在卵巢肿瘤良恶性判别上是可行的,且结合U-net自动分割模型可以提高工作效率。