张兴梅,张兴华,张 刚,郝帅营,李永忠
(1.北京和睦家医院放射科,北京 100032;2.北京交通大学理学院,北京 100044;3.海南博鳌恒大国际医院放射科,海南 琼海 571400)
图1 基于DL的乳腺X线肿块检测系统算法结构图
乳腺癌是女性死亡率最高的恶性肿瘤[1],早期诊断是降低死亡率的关键[2-3]。近年来,以深度学习(deep learning, DL)为代表的人工智能(artificial intelligence, AI)技术在医学影像、人脸识别、机器翻译等领域均取得显著进展[4-6],使计算机辅助诊断系统的性能明显提升。本研究探讨基于DL的乳腺X线肿块自动检测系统诊断乳腺肿块的价值。
1.1 一般资料 回顾性分析2016年2月—2019年6月于北京和睦家医院接受乳腺X线检查的298例女性患者,年龄28~68岁,平均(47.6±10.0)岁。纳入标准:①乳腺X线检查前未接受手术切除、放射及化学治疗;②图像质量、拍摄条件及投照位符合本研究要求。排除标准:①存在乳腺植入物;②图像质量不佳或投照位拍摄缺失。
1.2 仪器与方法 采用Hologic Selenia Dimensions数字乳腺X线机。按照文献[7]标准常规拍摄双侧乳腺头足位(cranio-caudul view,CC)和内外斜位(medio-lateral oblique, MLO)片。
将Dicom格式X线片传入Bacro RadiForce GX550工作站,采用Dr.Wise乳腺X线影像辅助系统(以下简称AI系统,深睿博联科技有限责任公司)自动检测并显示肿块[8],见图1。将经过预处理的X线片输入DL检测模型基于区域的分割卷积神经网络(mask region-based convolutional neural network,Mask R-CNN)[9]中,结合双侧乳腺图像,获得最终肿块检测结果。
1.3 乳腺肿块检测参考标准制定 由3名有10年以上乳腺X线诊断经验的放射科医师经过中华医学会放射学会《乳腺X线摄影检查和诊断共识》[7]和美国放射学会推荐的第5版BI-RADS标准[10]培训后,分别以盲法阅读298例X线片,评估肿块的美国放射学院(American College of Radiology, ACR)腺体构成分类、乳腺影像报告和数据系统(breast imaging reporting and data system, BI-RADS)分类、边缘、形状和密度;将3名医师的结果汇总并统一,作为检出肿块的参考标准。
1.4 图像分析 由2名工作时间<5年、近1年乳腺X线读片量不低于500份的放射科医师在无AI辅助下独立盲法阅片,并标记肿块作为对照(简称医生1和医生2);经过1个月洗脱期后再于AI辅助下阅片并标记肿块(简称医生1+AI和医生2+AI)。
1.5 统计学分析 采用Python 3.7统计分析软件。以χ2检验比较计数资料。P<0.05为差异有统计学意义。
298例中,131例共检出176个乳腺肿块,ACR腺体构成分类为非致密型18个,致密型158个;BI-RADS分类2级12个,3级86个,4a级26个,4b级10个,4c级4个,5级38个;肿块边缘清晰85个,模糊17个,遮蔽25个,分叶23个,毛刺26个;肿块圆形6个,椭圆形117个,不规则形53个;肿块含脂肪密度2个,低密度1个,等密度125个,高密度48个。医师1+AI、医师2+AI肿块检出率分别高于医生1、医生2(χ2=4.287、5.731,P=0.038、0.016),见表1及图2~5。
表1 医师与医师+AI检出肿块结果比较[%(个)]
医师1检出非致密型肿块18个、致密型124个,医师2检出非致密型肿块17个、致密型120个;医师1+AI检出非致密型肿块18个、致密型138个,医师2+AI检出非致密型肿块18个、致密型136个。医师、医师+AI针对不同ACR腺体构成分类肿块检出差异均无统计学意义(P均>0.05),见表2。
表2 医师、AI与医师+AI检出不同ACR腺体肿块比较[%(个)]
对于BI-RADS分类2~5类肿块,医师1分别检出10、64、23、7、2、36个,医师2分别为7、62、23、7、2、36个;医师1+AI分别为9、74、25、8、4、36个,医师2+AI分别为9、72、25、8、4、36个。医师1、医师2对不同BI-RADS分类肿块检出差异有统计学意义(P均<0.05),而医师+AI差异无统计学意义(P>0.05),见表3。
医师1检出边缘清晰肿块64个、模糊10个、遮蔽22个、分叶22个、毛刺24个,医师2检出边缘清晰肿块63个、模糊8个、遮蔽20个、分叶22个、毛刺24个;医师1+AI检出边缘清肿块73个、模糊12个、遮蔽22个、分叶23个、毛刺26个,医师2+AI检出边缘清晰肿块73个、模糊11个、遮蔽21个、分叶23个、毛刺26个。医师、医师+AI针对不同肿块边缘检出差异均有统计学意义(P均<0.01),见表4。
医师1检出圆形肿块4个、椭圆形91个、不规则形47个,医师2检出圆形肿块4个、椭圆形87个、不规则形46个;医师1+AI检出圆形肿块4个、椭圆形102个、不规则形50个,医师2+AI检出圆形肿块4个、椭圆形100个、不规则形50个。医师及医师+AI对不同形状肿块检出差异均无统计学意义(P均>0.05),见表5。
医师1检出含脂肪密度肿块2个、低密度0个、等
表3 不同BI-RADS分类肿块检出率比较[%(个)]
表4 不同边缘肿块检出比较[%(个)]
图2 患者女,46岁,乳腺肿块(高年资医师诊断为乳腺不规则形、边缘模糊、等密度、BI-RADS 4a类肿块) A、B.分别为医师1和医师1+AI检出结果,医师1漏检,医师1+AI诊断为乳腺不规则形、边缘模糊、等密度、BI-RADS 3类肿块 图3 患者女,44岁,乳腺肿块(高年资医师诊断乳腺卵圆形、边缘部分遮蔽、等密度、BI-RADS 3类肿块) A、B. 分别为医师2和医师2+AI检出结果,医师2漏检,医师2+AI诊断为乳腺卵圆形、边缘部分遮蔽、等密度、BI-RADS 3类肿块
表5 不同形状肿块检出率比较[%(个)]
表6 不同密度肿块检出率比较[%(个)]
图4 患者女,42岁,乳腺X线片 A~C.分别为乳腺局部放大图、CC位和MLO位X线片;高年资医师意见:CC位片可见肿块样轮廓,但MLO位片中未见明确对应,为拍摄时局部纤维腺体组织重叠;医师1+AI(假阳性)诊断为乳腺卵圆形、边缘清晰、等密度、BI-RADS 3类肿块
密度96个、高密度44个,医师2检出含脂肪密度肿块2个、低密度0个、等密度92个、高密度43个;医师1+AI检出含脂肪密度肿块2个、低密度0个、等密度111个、高密度43个,医师2+AI检出含脂肪密度肿块2个、低密度0个、等密度109个、高密度43个。医师1、医师2及医师1+A对不同密度肿检出差异均有统计学意义(P均<0.05),医师2+AI针对不同密度肿块检出差异无统计学意义(P>0.05),见表6。
医师1检出伴随可疑钙化肿块16个、不伴随可疑钙化肿块126个,医师2检出伴随可疑钙化肿块15个、不伴随可疑钙化肿块122个;医师1+AI检出伴随可疑钙化肿块16个、不伴随可疑钙化肿块140个,医师2+AI检出伴随可疑钙化肿块16个、不伴随可疑钙化肿块138个。医师与医师+AI针对不同密度肿块检出差异均无统计学意义(P均>0.05),见表7。
如何有效评价DL对于临床工作的辅助作用是当前研究热点之一[11-13]。作为辅助阅片手段,AI的有效性直接影响阅片效果;同时,不同类型病灶的漏检风险不同,对AI检出的稳定性提出了要求。本文评估基于DL的乳腺X线肿块检测系统的有效性和稳定性,发现AI系统辅助医师可以显著提升肿块检出率,尤其对于BI-RADS 3类和4类肿块,检出率提升10.07%(30/298)以上,提示AI系统对于减少低年资医师漏检具有临床意义的乳腺肿块具有一定价值。相比医师,医师+AI假阳性率小幅升高,原因可能在于AI将一些局部纤维腺体重叠误认为肿块,对医师造成了误导。医师独立阅片时,对不同BI-RADS分类、边缘肿块的检出有所差异,而在AI辅助下,该差异不再显著。针对不同ACR腺体构成分类肿块,医师、医师+AI检出差异均无统计学意义,但在AI辅助下,P值均有所提升,提示AI辅助有助于减轻不同ACR腺体构成分类对检出的影响,从而提升医师对不同种类肿块检出的稳定性。
表7 伴随及不伴可疑钙化肿块检出率比较[%(个)]
本研究对象为亚洲女性,腺体较致密,相比既往研究[12-13],肿块检出难度增加;AI辅助诊断更有意义。漏检不同征象和BI-RADS肿块带来的风险后果不同。肿块形状、边缘、密度等征象对于判断其良恶性有重要参考价值;BI-RADS分类则直接反映对肿块恶性概率的评估。作为辅助阅片手段,AI系统的稳定性极为重要。本研究探索了不同肿块征象、BI-RADS分类下的肿块检出情况以及AI辅助下的检出稳定性,发现AI辅助诊断对于提升医师检出肿块的稳定性具有重要临床价值。
本研究的主要局限性:①为单中心研究;②AI系统存在假阳性,给低年资医师诊断带来困扰,如何降低是进一步研究的方向。
综上,基于DL的乳腺肿块X线检测系统有助于减少低年资医师漏检肿块,提升其对不同征象和BI-RADS分类肿块检出的稳定性。