欧阳汝珊 林小慧 马捷
2020年国际癌症研究机构中心报告显示,全球女性乳腺癌发病率居于首位,且死亡率逐年上升[1]。近期有研究[2]数据表明,中国乳腺癌的发病年龄为40~50岁,较欧美女性早约10年。早期发现、早期诊断及早期治疗可有效降低我国女性乳腺癌死亡率,提高生存率和生活质量。乳腺疾病的影像诊断方法包括X线摄影、超声、MRI等,乳腺X摄影是目前唯一被美国食品药物管理局(FDA)证实可有效降低乳腺癌死亡率的影像学方法;而乳腺X线摄影受腺体密度影响,易掩盖或遗漏致密型乳腺内的非钙化性病变。深度学习(deep learning,DL)在乳腺X线摄影临床数据中的应用,显著提高了医生工作效率和阅片稳定性,减少了病人召回率,在乳腺癌检出方面,逐渐显现其优势[3]。
最早应用于乳腺X线摄影的人工智能(artificial intelligence,AI)技术是计算机辅助诊断/检测(computeraided diagnosis/detection,CAD)系统,传统CAD性能不稳定,假阳性率高,高度依赖人工选择及分类器整合特征。随着机器学习算法的成熟,基于影像组学及DL的CAD系统取得了很大进展,可显著提高影像科医师的诊断效率及准确度[3]。影像组学是将数字医学图像转换为可挖掘的高维数据的方法,但在高维的特征空间中人工提取出有区分性的高质量特征存在一定的困难,需要大量时间和经验[4]。不同于影像组学,DL方法包括多个处理层的感知器,每一层均为典型的神经网络,能够通过模拟人脑的层次结构,低层神经网络可以自动学习和提取特征,高层神经网络可根据提取的有效特征进行分类[5-6]。DL网络有很多种,主要包括多层神经网络、卷积神经网络(convolutional neural networks,CNN)、递归神经网络、长短期记忆网络、时间卷积网络、多层自动编码等。应用较为广泛的是CNN(图1),它由许多堆叠的卷积层组成[7]。DL神经网络的训练过程包括2种学习方法:①有监督学习,根据标记图像的特征描述学习,通过标签和变量知道不同数据集之间的关系。②无监督学习,只处理数字和原始数据,描述了无标签训练样本数据对各层参数进行训练的学习。弱监督学习由监督学习演变而来,只需要研究者提供整幅图像的标签,不需要所有的训练样本数据的信息[6,8]。目前神经网络的训练大多是通过监督学习来进行,无监督学习与弱监督学习应用较少[9]。
图1 卷积神经网络的结构
由于影像医生工作量大,且乳腺诊断经验有限,因而会影响诊断准确性。尤其是亚洲女性的乳腺密度较为致密,增加了影像医生对病变检出的困难[10]。将DL技术用于乳腺癌的影像学筛查,可以辅助影像医生对病人进行诊断,提高影像医生的工作效率,并有利于提升影像医生阅片的准确性。Yamaguchi等[11]提出一种提高筛查工作效率的方法,即当AI判断能力被证明与影像医生判断能力相当时,仅由AI系统判断乳腺X线影像为正常乳腺或良性病变则不需要影像医生的判断,这种AI预选能力可能会减轻影像医生的工作量。该研究收集5万个乳腺癌影像、1万个良性病变影像以及1万个正常乳腺影像,利用CNN构建了一个基于DL的系统,该系统的敏感度和特异度分别约为85%和90%。Rodriguez-Ruiz等[12]使用CNN、特征分类器和影像分析算法构建的DL系统对乳腺影像进行1-10的评分,将AI评分阈值设为5分,5分以下的影像认为是正常,影像医生只读取≥5分的乳腺影像,影像医生的工作量将减少47%,但是会漏掉7%的真阳性影像;阈值设为2分时,≥2分的影像被认为异常,医生工作量减少17%,仅漏掉1%的真阳性影像。由此可见,即使阈值分数较低的时候,也能有效地减少影像医生的工作量。Rodríguez-Ruiz等[13]比较了影像医生在有DL系统辅助与没有DL系统辅助下阅片的效果,在DL系统辅助下诊断的受试者操作特征曲线下面积(AU C)为89%,高于无辅助的87%,且诊断敏感度及特异度均有提高。
对临床工作有价值的DL系统,应该是在不降低敏感度或特异度的情况下显著提高工作流程效率的辅助诊断工具。如果DL系统的准确度不能达到影像医生的期望,增加了假阳性率或者假阴性率,则并不能有效地辅助缺乏经验的年轻影像医生[14],所以对于缺乏经验的年轻影像医生来说,在鉴别乳腺良、恶性病变的分类时采用DL系统加以辅助,有望得到较高的诊断敏感度和特异度,可以有效地降低召回率。根据美国放射学院(American College of Radiology,ACR)2013年第5版乳腺影像报告和数据系统(Breast Imaging Reporting and Data System,BI-RADS)标准,主要征象包括钙化、肿块、结构扭曲以及不对称[15]。目前,在乳腺X线摄影中,DL对肿块和钙化的诊断价值较突出,在结构扭曲与不对称方面研究较少。
3.1 肿块 肿块在乳腺X线摄影上表现复杂,BIRADS对肿块的判读依据肿块的形状、边缘、密度及伴随征象。医生对肿块的评估具有很强的主观性,且对乳腺密度较为致密的影像判读存在漏诊以及信心不足的情况。基于大量训练的DL系统不受医生个人经验的影响,可以客观判读有无肿块及其良恶性的可能,且具有良好的稳定性。Dhungel等[16]采用基于贝叶斯优化的系统将肿块检出后,用深度学习结构化输出分割肿块,最后利用CNN对肿块进行良恶性的分类,该方法的敏感度和特异度分别达到98%和70%,并且具有较低的假阳性率及假阴性率。2017年Al-Masni等[17]提出一个基于区域DL方法(you-only-look-once,YOLO)的AI系统,可以对影像预处理,并采用多卷积深层进行特征提取,置信度模型检测肿块以及使用全连接神经网络(fully connected neural network,FCNN)对肿块进行分类,该系统对肿块良、恶性分类的敏感度为93.2%、特异度为78%,总体准确度达85.52%。2020年Al-Antari等[18]使用YOLO系统检测肿块,但是在肿块分割上使用了一种新的深度网络分割模型-全分辨率卷积网络(fu ll resolution convolutional network,FRCN),并且对比了CNN、ResNet50和InceptionResNet-V2这3种分类模型的敏感度、特异度及准确度,结果发现,InceptionResNet-V2的分类效果优于其他2个模型的效果,敏感度为97.33%,特异度为90.47%,总体准确度为95.32%,f1值为94.40%,AUC为93.91%。该模型的诊断特异度与准确度均较2017年提出的模型有明显的提高,可见集成DL系统的性能优于传统DL方法。综上所述,性能得到不断提高的DL系统有助于影像医生对肿块的准确分类,降低误诊率。
3.2 钙化 乳腺X线摄影对钙化的显示具有独特优势,而微小钙化往往是乳腺癌的早期表现,甚至是唯一表现。大量研究者利用乳腺钙化的特点,设计出非常多且诊断效能高的模型。Fanizzi等[19]在提出将影像进行正/异常分类后,利用嵌入式方法提取10个特征可区分良恶性兴趣区,进一步对影像上的聚集微钙化进行良恶性分类,该模型的中位AUC值达92.08%,准确度为88.46%。Suhail等[20]提出利用改进的Fisher线性判别分析方法结合支持向量机(support vector machine,SVM)分类对微钙化进行良、恶性的分类,平均准确度达到96%。Melekoodappattu等[21]提出一种新的基于极限学习机-果蝇优化算法(extreme learning machine-fruitfly optimization algorithm,ELM-FOA)的分类方法。该方法与SVM和朴素贝叶斯分类器(n aïve bayes classifier,N B)等分类器相比,其对微钙化诊断的敏感度、特异度等都更佳,准确度达到99.04%。DL对于微钙化的良、恶性分类的准确性、敏感性以及特异性都在不断提升,现有的算法对微钙化已经有了准确的判断。
致密的乳腺密度提示女性患乳腺癌的风险增加,是乳腺癌的独立危险因素。在乳腺X线摄影上由于较为致密的乳腺密度可能会遮挡可疑病变,所以检测较为致密的乳腺时,对病变的敏感性较差[22]。另外,乳腺密度并不致密的女性也存在患乳腺癌的风险,DL技术不仅能单纯的根据乳腺X线摄影影像的乳腺密度进行风险评估,更能结合临床风险因素以及乳腺X线摄影所提供的信息,预测患乳腺癌的风险。Yala等[23]利用DL构建一个风险预测的混合DL模型(Hybrid DL),该模型综合了病人问卷和电子病历回顾中显示的风险因素信息及乳腺X线摄影得到的信息,据此评估病人5年内患乳腺癌的风险,该模型在绝经前女性中的AUC值为0.79,在绝经后的女性中的AUC值为0.70。Dembrower等[24]使用了Inception-ResNet-v2模型,将乳腺X线摄影影像、影像采集时年龄和一些参数(乳腺厚度、压缩力等)输入模型,得到一个乳腺癌风险评分。该模型的AUC值比基于乳腺密度构建的风险模型更高,达到0.65,并且具有更低的假阴性率(31%),对于更具侵袭性的乳腺癌,这种差异更大。利用预测风险模型结合临床信息评估乳腺癌病人预后情况,对于临床工作具有重大的意义。首先可以提高筛查者警惕性,从而实现早期诊断和治疗;其次还能帮助临床医生为病人制定更为个性化的治疗方案,达到更好的预后效果。
数字乳腺断层摄影(digital breast tomosynthesis,DBT)和增强乳腺X线摄影(contrast-enhanced spectral mammography,CESM)作为乳腺X线摄影衍生的新技术,与传统乳腺X线摄影相比,提高了诊断效能,但DBT延长了医生的判读时间,CESM存在背景强化的问题。DBT通过对受压的乳腺行多角度投照,可获得一系列三维断层影像。DBT的应用克服了腺体组织重叠的影响,一定程度上提高了乳腺癌的检出率和诊断符合率,但DBT的阅片时间相对于乳腺X线摄影更长。Geras等[25]将基于DL算法的CAD系统用于DBT,与不采用CAD系统的诊断结果相比,在诊断效果相同的情况下,有CAD辅助时阅片时间平均减少23.5%,但DBT空间分辨率较低,增加了CAD系统对肿块精准自动分割的难度,所以在DBT上应用的CAD系统仍有待完善。CESM是将传统X线摄影技术与对比增强相结合,利用多数恶性肿瘤富含新生血管的特点,通过注射对比剂使肿瘤成像。注射对比剂后,在致密型乳腺中隐匿的病灶可以在CESM的减影图上呈现,显示更多的病灶信息,从而提高了致密型乳腺的病灶检出率,但其存在背景强化的问题,一定程度上影响了对病灶的诊断[26]。Patel等[27]的研究表明,使用基于DL算法的CAD-CESM的诊断敏感度并没有提高,甚至低于医生的诊断敏感度。这可能与CESM可用的训练数据集量太小有关。因此,目前DL在DBT及CESM的应用尚不成熟,有待于拓展训练集及算法的进一步研究以提升效能。
目前DL仍然面临着许多挑战:①训练一个性能稳定、准确率高的模型需要大量样本集,这样才能够涵盖病变的微小特征。目前的很多研究都只有很少的数据集或者应用公开的数据集,如果使用其他数据集去测试这些模型可能会存在偏倚[28]。②现有的研究显示,基于DL的系统虽然诊断敏感度和特异度均高于低年资影像医生的水准,但是仍低于有经验的影像诊断医生的诊断水平[9]。③DL系统目前尚不能将乳腺X线摄影先前检查的信息与后面检查的信息进行比较,而放射科医生可以对比前后影像资料,得到更多的信息[29]。④结构扭曲及不对称在乳腺X线摄影上的表现不如肿块和钙化常见,诊断这2种病变需要经验丰富的影像医生标注;只有得到准确的训练集数据,才能训练出准确的模型,因而DL在结构扭曲及不对称检出方面的研究仍较少。⑤目前DL仍然集中于对病变进行一个单纯的良恶性分类,仅有少数研究关于DL对病变进行BI-RADS分类,且性能欠佳,有待进一步研究。虽然DL系统真正走进临床应用还需要一段距离,但是DL系统的蓬勃发展与无限潜力将加速其完善性能以达到影像医生的期望。