欧阳汝珊,林小慧,李霖,廖婷婷,马捷
深圳市人民医院(暨南大学第二临床医学院,南方科技大学第一附属医院)放射科,广东 深圳 518020;*通信作者 马捷 cjr.majie@vip.163.com
2020年全球乳腺癌发病率约11.7%,居全球恶性肿瘤首位,死亡率约6.9%,是女性癌症死亡的主要原因,严重危害女性的生命健康[1]。乳腺X线摄影是乳腺癌筛查和诊断的主要方法,对早期发现、早期治疗起到重要作用[2]。乳腺X线摄影对钙化具有独特的优势,但对肿块型病变的诊断易受到腺体的影响,降低了敏感度[3]。近年来,深度学习(deep learning,DL)技术成为医学影像人工智能(artificial intelligence,AI)领域的研究热点,基于大量训练的DL系统不受腺体密度的影响,可客观判读有无肿块,且具有良好的稳定性。但目前DL应用于乳腺X线摄影的研究大多基于欧美图像数据库[4],对亚洲女性更为致密乳腺X线摄影中肿块的检测更具有挑战性[5]。本课题组前期基于中国女性大量表现为肿块型病变的乳腺X线摄影图像数据集构建关于乳腺X线摄影肿块检测的DL系统,可用于检测乳腺内肿块病变[6]。本研究通过对比2名初级职称医师与DL系统对肿块检出的敏感度,探讨基于DL的乳腺X线摄影肿块检测系统的临床应用价值,为中国女性乳腺癌筛查及诊断提供更加客观的辅助工具。
1.1 研究对象 回顾性分析深圳市人民医院放射科2019年4—12月共1 755例接受乳腺X线摄影检查的病例,其中1 704例有标准的双侧乳腺头尾位(craniocaudal,CC)和内外斜位(mediolateral oblique,MLO)图像(4幅),51例有单侧CC位及MLO位图像(2幅),共6 918幅图像。1 755例患者共检出肿块324例(618个肿块),年龄17~81岁,平均(48.08±12.18)岁。纳入标准:①图像质量、拍摄条件及拍摄体位符合诊断标准;②拍摄体位包括常规双侧或单侧CC位及MLO位。排除标准:①假体植入、注射隆胸术后以及新辅助化疗术后;②乳腺全切除或部分切除术后。所有患者对检查知情同意,本研究经深圳市人民医院伦理委员会批准(LL-KY-2021624)。
1.2 影像采集 所有乳腺X线摄影图像均来自Siemens Mammoma Inspiration数字乳腺X线摄影机和GIOTTO IMAGE MD双平板探测器全数字乳腺X线摄影机。乳腺X线摄影机均采用全自动压迫系统和自动曝光控制模式,特殊情况选择手动曝光,常规拍摄CC位和MLO位。乳腺X线摄影采集方法符合《乳腺影像检查技术专家共识》制订的技术标准[7],在PACS系统上收集患者临床资料及图像分析数据。
1.3 DL病灶检测系统 采用深圳市人民医院与平安公司(深圳)共同研发的乳腺X线摄影智能辅助判别系统(Mammo AI判别系统)。该系统中DL肿块检测模型[6]包含3个模块(图1):同侧双机位网络(ipsilateral dual-view network,IDVN)、双侧同机位网络(bilateral dual-view network,BDVN)和综合网络(integrated fusion network,IFN),可以接收同一例患者多个投照方向的摄影图像,并针对同侧和对侧图像分别设计两种不同的深度高分辨率检测和分割网络。例如:右侧头尾位(right-CC,R-CC)和右侧内外斜位(right-MLO,R-MLO)图像经过乳头检测算法,找到每个图像上乳头的位置,经过同侧双机位模型,在R-CC上输出肿块的概率图;R-CC和左侧头尾位(left-CC,L-CC)图像通过配准算法将各自边缘轮廓对齐,经过对侧同机位模型,同样在R-CC上输出肿块的概率。最后对病灶进行联合检测,融合得到的结果作为肿块等病灶的检测输出。
图1 基于DL多机位影像的肿块检测模型
1.4 图像分析及乳腺肿块检测参考标准 由DL系统和2名从事乳腺X线摄影诊断的初级职称医师(分别具有2年、3年工作经验)在对影像报告、临床病史和相关检查的结果未知情况下分别独立阅片并标注出肿块病灶,并参照美国放射学会第5版乳腺影像报告和数据系统(breast imaging reporting and data system,BI-RADS)的标准[8]记录乳腺密度分类、肿块形态、边缘、密度、大小及BI-RADS分类。然后,由1名从事乳腺影像工作20年的高级职称医师参考患者的临床资料、相关影像检查及病理结果,对2名初级职称医师与DL系统检测结果进行审核,肿块病灶仅记录临床触及、超声、MRI或病理证实的明确存在的病灶,从而得到参考标准,若为可疑的不明确肿块病灶则不进行记录。
1.5 统计学分析 采用SPSS 26.0软件,符合正态分布的计量资料以±s表示;计数资料以例数或百分比表示,采用χ2检验比较2名初级职称医师和DL系统病灶检出的敏感度,并分析不同因素对DL系统及2名初级职称医师检出的影响。本研究使用敏感度和假阳性率对医师和DL系统的病灶检出结果进行分析,通过对比上述肿块的参考标准,计算医师和DL系统的真阳性率、假阳性率、假阴性率。由此得出平均每个病例的假阳性个数及平均每幅图的假阳性个数。P<0.05为差异有统计学意义。
2.1 肿块检出结果 根据高级职称医师建立的参考标准,在所有病例中,肿块形态以类圆形最多见,占66.05%,共检出405个。肿块边缘以遮蔽状最多见,占35.80%,共检出224个。肿块密度以等密度最多见,占70.68%,共检出428个。BI-RADS分类中以3类和4A类占比例最多,分别为30.25%、24.07%,共检出肿块192个、138个(表1)。
表1 高级职称医师对乳腺肿块诊断的参考标准
2.2 2名初级职称医师及DL系统肿块检出的敏感度比较 初级职称医师A检出肿块277例(519个肿块),初级职称医师B检出肿块268例(482个肿块),DL系统检出肿块284例(533个肿块)。DL系统对肿块检出的敏感度为86.25%,高于医师B(77.99%),差异有统计学意义(P<0.05);DL系统敏感度高于医师A(83.98%),但差异无统计学意义(P=0.263)。DL系统对于不同乳腺密度分类的肿块检出敏感度差异无统计学意义(P>0.05),而2名初级职称医师的差异有统计学意义(P<0.05)(表2)。其中,c型乳腺共检出肿块460个,DL系统检出敏感度为85.52%,高于2名初级职称医师84.78%、77.83%,d型乳腺共检出97个肿块,DL系统检出敏感度为85.57%,高于2名初级职称医师75.26%、71.13%(图2、3)。在肿块形态、肿块大小及BI-RADS分类等影响因素中,医师B的敏感度差异无统计学意义(P>0.05),其余不同患者年龄、肿块边缘、肿块密度对于DL系统及2名初级职称医师敏感度差异均有统计学意义(P<0.05),见表2。
表2 2名初级职称医师与DL系统对不同因素肿块检出结果的比较
图2 女,69岁,乳腺癌。A.2名初级职称医师的检测结果为散在点状钙化(橙色圈及黄色圈);B.DL系统的检测结果为肿块及散在点状钙化(红色框);C.高级职称医师的检测结果为肿块及散在状钙化(白色圈)
图3 女,52岁,乳腺癌。A.2名初级职称医师未检出病变;B.DL系统的检测结果为肿块(红色框);C.高级职称医师的检测结果为肿块
2.3 DL肿块检出系统的假阳性率 324例检出肿块的病例中,318例有标准的双侧CC位和MLO位图像(4幅),其中6例有单侧CC位及MLO位图像(2幅),共1 284幅图像,DL系统肿块检出平均每幅图像假阳性为0.24(302/1 284)个,平均每个病例的假阳性为0.93(302/324)个。
乳腺X线摄影检查在乳腺钙化灶的诊断中具有较高的敏感度,并且目前研究发现医师与DL对钙化诊断的一致性较好[9]。肿块比钙化容易被致密的纤维腺体组织遮挡,从而难以发现肿块型病变,医师对肿块的评估更具有主观性,存在漏诊的情况[10]。因此肿块的检测在乳腺癌的AI检测上仍然是一个开放性的挑战。
3.1 DL系统在乳腺X线摄影检查中的优势 本研究探讨DL系统对肿块型病变的检出价值,构建了基于IDVN、BDVN及IFN的DL肿块检测模型。该DL系统的敏感度高于2名初级职称医师,且DL系统与医师B有显著差异。本研究的创新之处为团队前期使用大量亚洲女性致密型腺体的乳腺X线摄影图像数据集构建模型,更符合我国女性腺体情况,提高了DL系统检出肿块型病变的敏感度;DL系统可能在中国乳腺致密的女性中具有临床应用价值,减少放射科医师经验的影响和漏诊的可能性。马明明等[11]利用U-Net深度学习模型对乳腺X线摄影中钙化及肿块进行检测,钙化与肿块均有较高的检出率,分别为93.9%和90.0%,但其中肿块的训练集图像较少,且并未分析不同腺体密度对肿块检出的影响。杨连军等[12]利用大量的多中心图像训练出的模型在外部训练集中对肿块检出的敏感度高于3名放射科医师阅片的敏感度,结果与本研究一致,并证实在DL系统的辅助下,放射科医师检出肿块的敏感度有所提高。因此本研究表明DL系统可以辅助初级职称医师诊断,提高病灶的检出率。
3.2 腺体密度对DL系统的影响 研究发现乳腺的致密程度与患乳腺癌的风险相关,并且肿块型乳腺癌容易被致密的腺体组织遮挡,从而使病变难以检测,导致漏诊[13-14]。本组资料中,致密型乳腺(c型和d型乳腺)占90.13%。相对于a型和b型乳腺,DL系统在c型和d型乳腺中检出肿块的敏感度高于2名初级职称医师。本研究结果显示,不同乳腺密度对DL肿块检出系统敏感度无显著影响,但初级职称医师易受影响,表明DL系统不受乳腺密度影响。Sasaki等[15]利用日本女性的乳腺X线摄影图像构建AI系统,证实AI系统在检测病变上不易受乳腺腺体密度的影响,与本研究结果一致。Al-Masni等[16]提出基于区域DL技术的AI系统,其敏感度为93.20%。Boudouh等[17]利用混合2种卷积神经网络模型,成功提高了肿块的敏感度(96.95%)。Al-Masni等[16]与Boudouh等[17]的研究敏感度均高于本研究,因此相比于欧美女性,亚洲女性乳腺肿块的检测更有难度,对DL算法的计算能力提出了更高的要求,DL系统的辅助诊断能力对中国女性的致密型乳腺更有意义[18-19]。本研究的DL系统适用于乳腺较为致密的中国女性,可减少初级职称医师对经验相关的需求以及因致密腺体组织遮挡造成的漏诊。
3.3 不同因素对DL系统的影响及DL系统的局限性本研究中表现为高、等密度肿块占肿块总数的96.44%,DL系统对高密度及等密度肿块均具有较高的敏感度,但对低密度及含脂肪密度肿块的敏感度低于2名初级职称医师。Wang等[20]发现乳腺肿块的密度通常比正常腺体组织更致密,通过乳腺组织的密度定量分析构建乳腺肿块检测系统,肿块的检出准确度可达91.84%,表明该DL系统对密度较低肿块的检出性能较弱,因此DL肿块检出系统仍需进行大样本乳腺数据迭代训练以提升检出的稳定性。本研究中的BI-RADS分类包括BI-RADS 2 类,其中BI-RADS 2~3 类的敏感度(75.80%)显著低于BI-RADS 4~5 类的敏感度(91.98%),说明DL系统对BI-RADS 4类及以上肿块的检出稳定性及敏感度较高,对可疑良性肿块的检出敏感度较低。哈婷婷等[21]研究发现在BI-RADS 3~5类中DL系统对肿块的检出敏感度约为92.19%,其中BIRADS 3类的敏感度约为74.19%,与本研究中的BIRADS 3类的敏感度(75.52%)接近,对可疑良性肿块检出的敏感度均较低。这可能与BI-RADS 4~5类肿块的密度相对2~3类肿块密度高、恶性征象更显著有关,更易检出。表明DL系统对BI-RADS 4~5类肿块检出率更高,有更高的敏感度,可以降低恶性肿块的漏诊率,能够减少部分乳腺癌患者干预延迟。
3.4 本研究的局限性 本研究的DL系统检出肿块的假阳性率较高为36.16%,今后将继续增加训练数据样本量,提升模型的性能及稳定性。本研究DL病灶检出系统仅针对肿块,结构扭曲及不对称病变,在实际临床工作中的病例数较少,但结构扭曲和不对称这两类非钙化类病变也是乳腺癌检测的重要征象,需进一步纳入结构扭曲和不对称的数据集,对模型进行训练,分析DL系统对这两类病变的临床价值。此外,本研究为回顾性单中心研究,易出现选择性偏移,今后将进一步通过多中心外部验证,前瞻性获取数据对DL系统的临床诊断性能进行验证,并且将进一步探讨DL系统对医师的辅助作用。
总之,基于DL的乳腺X线摄影肿块检测系统对肿块病变检出具有很高的敏感度,且不受乳腺密度的影响,可辅助初级职称医师减少因致密腺体组织遮挡造成的肿块漏诊,具有一定的临床辅助价值,但系统的假阳性率较高,需要进一步提高模型性能。