基于深度学习的人工智能技术在乳腺癌筛查及影像诊断中的应用进展

2019-03-19 16:37潘德润秦耿耿陈卫国
国际医学放射学杂志 2019年1期
关键词:示例肿块乳腺

潘德润 秦耿耿 陈卫国*

乳腺癌是全球女性最常见的癌症,也是女性癌症死亡的主要原因[1]。乳腺癌如能在早期发现并及时治疗,其治疗效果也是恶性肿瘤中最佳的[2]。乳腺X线摄影是乳腺癌筛查和诊断的主要手段,可协助临床医生早期发现并及时治疗乳腺癌,从而显著降低其死亡率[3-4]。乳腺X线影像诊断通常是通过放射科医生浏览每幅影像,从中识别出肿块、钙化、结构扭曲及非对称致密影等常见异常征象,同时还需要结合病人的临床信息,这要耗费医生大量的精力。2006年,Hinton等[5]提出了“深度学习”的概念,它源于对人工神经网络的研究,含有多个隐藏层的多层感知器是一种深度学习结构,能够通过模拟人脑的层次结构将数据从低层传递到高层,为最终的表示引入更多的语义信息[6]。深度学习方法已在文本、语音识别及自然图像的分类、检测等方面取得了重大突破[7-8]。因此,针对医学影像(非自然图像)领域开发出基于深度学习的计算机辅助诊断(computer aided diagnosis,CAD)系统,为放射科医生提供诊断的第二意见,以提高诊断敏感性和特异性[9-10],这对于乳腺癌的早期筛查及诊断尤为重要。

1 乳腺X线图像数据集

基于深度学习的计算机乳腺癌辅助检测/诊断系统对于数据的需求是很大的,在设计、评估和调整CAD系统的过程中,研究人员往往需要大量的数字化乳腺X线图像[11],它们对于比较不同研究的结果也很重要[12-13],公开的数据集可以为研究人员开发、评估和对比评价提供一个共同基础。

1.1 乳腺X线摄影数字化数据集 (digital database for screening mammography,DDSM) DDSM是目前最大的乳腺X线图像公共数据集,也最为常用[14]。该数据集是由南佛罗里达大学等机构收集了1988—1999年2 620例病例,共10 480幅图像。数字化图像是通过扫描胶片获得的,格式为无损JPEG格式,图像大小为3 000×4 800像素,分辨率为42μm,包括内外斜位(medial lateral oblique view,MLO)和头尾位(carnio-caudal view,CC)视图,具有正常、良性和恶性病变的图像,异常病例均含有像素水平的标签。它还包含每个兴趣区(ROI)的类型,如钙化或肿块,大多数乳腺X线图像只包含一个ROI。DDSM包含病人的年龄、乳腺密度和乳腺影像报告和数据系统 (breast imaging reporting and data system,BIRADS)注释,图像注释中还包括病灶在像素水平上的边界。用户可在 DDSM数据集的网页(http://marathon.csee.usf.edu/Mammography/Database.html)上使用搜索引擎定义乳腺密度、扫描设备、病变病理及BI-RADS评估等关键词来搜索符合标准的病例。DDSM的主要用途是促进CAD算法之间的比较[15]。另外,一些研究者[16-17]经过验证指出DDSM的精确度不适用于验证分割算法。

1.2 INbreast数据集 INbreast是公开可用的全视野数字乳腺X线摄影 (full-field digital mammography,FFDM)数据集(http://medicalresearch.inescporto.pt/breastresearch/GetINbreastDatabase.html), 由波尔图CHSJ乳腺中心提供。该数据集包括筛查、诊断和随访病例的图像。图像于2008年4月—2010年7月期间获得,共115例病例,其中90例有每侧乳腺2个体位(MLO和CC)的图像,其余25例为乳腺切除术的女性,仅有单侧乳腺的2个体位的图像,共410幅图像。图像大小根据病人乳腺大小分为3 328×4 084或2 560×3 328像素,分辨率为70μm,保存为DICOM格式,同一病人图像之间的对应关系与随机生成的病人身份标识一起保存。该数据集包含正常图像,含有肿块和钙化、结构扭曲、非对称致密影及多种异常征象的乳腺X线图像,此外还提供了病人的年龄、家族史、乳腺密度和BI-RADS分类的信息。INbreast数据集的优点是具备精确的轮廓注释,便于对评估肿块形态的算法进行训练及验证。

1.3 乳腺X线图像分析协会数据集(mammographic image analysis society,MIAS) MIAS的数字化图像数据集是最早的公共数据集(https://www.repository.cam.ac.uk/handle/1810/250394)[18], 目前仍被广泛应用于研究中。该数据集包含161例病例,322幅数字化MLO图像,原始图像由分辨率为50μm的胶片扫描获得,然后经过缩小、剪裁后得到1 024×1 024像素的图像,格式为PNG。该数据集包含正常图像以及良性、恶性病变的多种征象图像,具有毛刺肿块的图像在数据集中占很高的比例。

在这3种数据集中,DDSM具有丰富的病例类型,可以很好地训练深度学习模型,但它的数字化图像是通过扫描胶片获得的,会产生一些伪影,且精确度不足[19],会将某些目标像素错误地分配给背景而影响准确度。而INbreast为FFDM数据集,具有精确的轮廓注释,但病例数量相对较少。MIAS数据集的缺点是数字化图像的对比度分辨率较低。

2 深度学习乳腺癌影像筛查竞赛

最近,一些研究人员和赛智生物网络等组织发起了乳腺数字化梦想挑战 (DREAM Challenge),挑战分为2个项目[20]:①开发一种可以分析数字乳腺X线图像的预测算法;②开发能够同时分析数字乳腺X线图像和临床信息的预测算法。他们收集了超过640 000幅乳腺X线图像作为竞赛数据集,并与病人的临床数据和标准结果关联,挑战数据集不包含ROI的注释。挑战者利用数字化图像和临床数据集来开发预测模型,提交的模型将通过验证数据集进行评分。该竞赛的获胜团队在DDSM和DREAM挑 战 数 据 集 (https://www.synapse.org/Digital_Mammography_DREAM_Challenge)上分多个阶段对深度卷积神经网络进行训练,他们用改进后的视觉几何组(visual geometry group,VGG)网络在以病灶为中心的补丁中对检测器网络进行预训练,然后以完全卷积的方式将其插入更大的网络中,并以端到端的方式在完整图像上对网络进行微调。该团队的预测模型在2个挑战项目中分别达到了80.3%和80.4%的准确度。

该竞赛创造了一个数据访问简单的开放社区,同时激励参赛者共同协作并实时共享结果,从中选拔出性能优异的深度学习技术及分类器,这无疑在很大程度上加快了深度学习技术在乳腺癌筛查领域的发展速度。

3 深度学习技术近期进展

随着深度学习的发展,目前已经有许多研究者采用深度学习方法来构建新型CAD系统[21-22]。同机器学习方法一样,深度学习也分为监督学习与非监督学习。如卷积神经网络(convolutional neural network,CNN)就是一种监督学习下的深度学习模型,而深度置信网络(deep belief nets,DBN)是一种非监督学习下的深度学习模型。基于CNN的模型往往需要对ROI进行详细的注释[23-24],这耗费了大量的时间和费用,在监督学习尤其是医学成像方面造成了很大的困难。因此,一些研究者对弱监督学习方法进行了研究[25-26],如多示例学习(multiple instance learning,MIL),它仅需要研究者提供整幅图像的标签,大大减少了训练成本。

3.1 CNN CNN是深度学习模型的代表性结构,也是目前深度学习的研究热点。它是一种前馈型人工神经网络[6],具有多层网络结构,通常包含输入层、卷积层、激活函数、池化层和全连接层。

CNN具有强大的特征提取能力,可以提取较高等级的特征。Jiao等[6]在2016年开发了基于CNN的CAD系统,对乳腺癌的肿块进行了分类。它主要包含一个CNN和一个决策机制。在训练过程中,用CNN提取了高级别和中等级别的特征,组合后对模型进行训练,并且将CNN自动提取的强度信息与深度特征结合起来,从而更好地模拟医生的诊断过程,取得了较好的效果。

另一方面,一些研究者研发了基于CNN的变型技术。2017年,Al-Masni等[27]提出了一种以区域深度学习技术为基础的CAD系统,该技术是一种基于ROI的 CNN,称之为 YOLO(You Only Look Once)。YOLO是一种代表性的端到端训练算法,它在具有ROI信息的乳腺X线图像数据集中进行训练,并直接优化检测性能。此外,YOLO学习目标的概括性表示具有很强的通用性,可以同时检测多种目标。YOLO还可以同时学习ROI和背景,因此他们提出的CAD系统可以在一个CNN中完成特征提取并对乳腺肿块检测和分类,是一种快速、准确的目标检测器[28]。

还有一些研究者提出了减弱对ROI注释依赖性的CNN。Li等[20]采用全卷积设计开发了一种对完整乳腺X线图像进行乳腺癌诊断的端到端训练算法。该算法完全使用CNN,因此可以输入任意大小的图像。此外,它只需要在训练的第一阶段对病变进行注释,训练模型识别局部补丁后,就可以将完整图像分类网络的权重初始化,之后该模型即可迁移为一个全图分类器,可在没有ROI注释的情况下进行端到端训练,这大大减少了对病变注释的依赖性。与以往的方法相比,这种设计简单且性能更加优越。

3.2 MIL MIL是一种弱监督学习方法,它是监督学习的变体,将图像表示为多示例包,基于包成分标签进行分类[29-30],这样避免了对详细的医学图像注释的需求,大大降低了训练成本。“包”含有可变数量的示例(补丁),即使只有其中一个示例属于阳性,包也会被标记为阳性。只有当包中所有示例均为阴性时才会被标记为阴性。MIL的目标是仅基于训练阶段的包标签来分类未知的包或示例。

2016年,Quellec等[31]提出了一种新型的乳腺X线图像计算机辅助检测与诊断系统,该系统依赖MIL范例,仅使用整体图像水平的标签。他们首先将乳腺自适应地分割为多个区域,然后从每个区域中提取检测到的病变特征并合并,进而把乳腺X线图像分类为正常或异常。2017年,Choukroun等[10]描述了弱监督学习的计算机辅助检测和诊断系统,通过一个建立于MIL范例上的新型深度学习框架解决了乳腺X线图像异常结果的检测和分类问题。他们首先将图像分解为多个示例,通过选择最高阳性概率的示例完成检测任务,另外每个示例通过预训练网络产生一个特征向量,然后预测其类别概率,最后将所有示例的概率汇总得出整个“包”的类别概率。该方法的特点是可以用MIL自动发现乳腺X线图像中的判别性示例。该系统的结果可与在完全注释的数据集中进行训练的监督方法相媲美。Zhu等[32]也提出一种端到端训练的深度MIL神经网络,用于在没有ROI注释的情况下对乳腺X线图像进行分类。其目标是预测整个乳腺X线图像中是否包含恶性肿块。该研究同时使用了CNN来高效地获取所有示例的特征。

3.3 DBN DBN是根据生物神经网络的研究及浅层神经网络发展而来的,属于双向深度网络[33]。DBN由多层神经元构成,其关键组成元件是受限玻尔兹曼机。2016年,Dhungel等[34]使用一种深度学习和随机森林识别器级联的算法来检测乳腺X线图像中的可疑区域,该算法的第一阶段由多尺度DBN[5]级联高斯混合模型[35]组成,网络选出候选区域后由深度CNN进一步处理,筛选出的区域由随机森林分类器进行分析。2017年,Al-Antari等[36]提出了一种基于DBN进行乳腺癌诊断的CAD系统,该系统包括肿块自动检测、ROI提取、特征提取和DBN分类模块,其目标是识别正常、良性和恶性乳腺组织。他们首先通过无监督学习对受限玻尔兹曼机进行预训练,然后根据反向传播算法来调整权重并微调该网络。DBN的优点是可以利用所有提取的特征,并从中选择突出特征,研究结果表明该网络比传统的CAD系统具有更高的准确度。

4 小结

深度学习技术在乳腺癌影像筛查领域已经有了诸多进展。传统的CAD系统没有深度网络,系统性能较差,仅能提取浅层特征。而近期提出的深度学习在乳腺癌筛查的应用中已经能够逐渐接近经验丰富的放射科医师的诊断水平[37]。然而,目前的深度学习技术对ROI注释的依赖性还没有得到很好的解决,因此未来几年可能会有更多关于减弱对ROI注释需求的深度学习技术的研究。另一方面,对MIL和DBN领域的研究相对较少,尽管它们避免了注释ROI的繁琐工作,但其系统性能尚待提高。还有研究者[32,34]将多种深度学习技术联合运用,对乳腺X线图像中可疑区域进行检测和分类,这在一定程度上改善了模型的性能。此外,还需创建大型公共可用的数据集,使其图像具有较高的精确度、分辨率及多样性的特点,这将有助于训练出性能优越的CAD模型。

猜你喜欢
示例肿块乳腺
超声造影在周围型肺肿块穿刺活检中作用
乳腺结节状病变的MRI诊断
颈部肿块256例临床诊治分析
2019年高考上海卷作文示例
常见单位符号大小写混淆示例
常见单位符号大小写混淆示例
乳房有肿块、隐隐作痛,怎么办
体检查出乳腺增生或结节,该怎么办
“全等三角形”错解示例
得了乳腺增生,要怎么办?