人工智能联合医师阅片在乳腺癌X线筛查中的临床价值

2023-05-24 03:43房丽丽马鸿祥刘昌义胡浩林

影像研究与医学应用 2023年7期

房丽丽，马鸿祥，刘昌义，胡浩林，孙杨

（北京市密云区妇幼保健院放射科北京 101500）

在2020年的一项调查数据中显示，全球新发乳腺癌已达到226万例，成为全球第一大癌症[1]，而乳腺癌筛查可有效降低癌症致死率。北京市密云区妇幼保健院目前每年接诊X线筛查人群约4 000～5 000人次。庞大的工作量易导致医生倦怠，造成漏诊及过度医疗。近年来，AI技术在乳腺X线领域飞速发展，国外学者Lang等[2-3]的研究显示，在乳腺癌的X线筛查中，运用人工智能阅片，其准确性和放射科医师的诊断相一致或者更高。RAYAPOVEDANO等[4]研究出基于人工智能系统的数字乳腺摄影（digital mammography，DM）和数字乳腺断层摄影（digital breast tomosynthesis，DBT）筛查策略可减少高达70%的工作量。Jiang等[5]研究显示，AI有助于放射科医师对乳腺病变的良恶性进行有效鉴别诊断。虽然目前乳腺AI已取得显著成果，但仍需大量真实世界的数据对现有算法不断完善，任何一家医院仍无法放心地将AI独立应用于临床。以2021年7月—12月北京市密云区妇幼保健院共2125例乳腺癌筛查数据作为样本进行分析，讨论AI联合医师阅片，在乳腺癌X线筛查中的实际临床价值。

1 资料与方法

1.1 一般资料

回顾性分析2021年7月—12月于北京市密云区妇幼保健院进行乳腺癌X线筛查的2 125例妇女资料，均行双乳常规头尾位（CC）及侧斜位（MLO）摄影，病例年龄35～64岁，均龄（51.67±7.83）岁。纳入标准：①影像资料完整、图像质量符合要求者；②检查前未进行过手术或者其他治疗者。排除标准：①仅凭图像无法诊断者（无法评价，需要旧片对比、增加投照体位或结合超声等其他检查）；②多发性病灶者。

1.2 方法

采用GE Senographe全数字化钼铑双靶X线乳腺机，对每名筛查对象行双乳CC位及MLO位摄片，设备电压为22～49 kV，电流：小焦点40 mA，大焦点100 mA，最大500 mA。采集方法符合2016年中华医学会制定的技术标准[6]。

阳性、阴性评判标准：阳性指有一定患癌可能性的病灶（BI-RADS≥3类），如实性肿块影、成簇微钙化、局灶性不对称、结构扭曲等。阴性指未发现病灶或病灶无患癌可能（BI-RADS＜3类）。所有的X线图像均由两名高年资医师（从事乳腺X线诊断工作十年及以上）根据2021版的中国抗癌协会乳腺癌诊治指南与规范[7]进行双盲法阅片，统计阳性及阴性例数。结果不一致的病例由两名高年资医师共同商讨并达成共识。

人工智能阅片系统：使用医准乳腺X线智能分析系统，应用深度学习算法，输入标准协议的Dicom数据，自动检出病灶，并进行BI-RADS分类。

1.3 观察指标及评价标准

以两名高年资医师的诊断结果为诊断标准，将所有病例分别进行乳腺AI阅片、医师阅片、AI与医师联合阅片。统计三种诊断方式的结果，采用ROC曲线评价诊断性能，计算AUC值，AUC值＞0.9表示诊断性能较高，0.7～0.9表示有一定诊断性，0.5～＜0.7表示诊断性能较差。观察三种诊断方式的诊断效能，包括灵敏度、特异度、准确率、阳性预测值、阴性预测值，以a代表真阳性，b代表假阳性，c代表假阴性，d代表真阴性，灵敏度=a/（a+c）×100%；特异度=d/（d+b）×100%；准确率=（d+a）/（a+b+c+d）×100%；阳性预测值=a/（a+b） ×100%；阴性预测值 =d（d+c）×100%。

1.4 统计学方法

采用SPSS 21.0统计软件分析数据，符合正态分布的计量资料用均数±标准差（± s）表示，采用t检验；计数资料用频数（n）、百分率（%）表示，采用χ2检验；绘制ROC曲线，通过计算AUC值及诊断效能，检验医师诊断、AI诊断及医师联合AI诊断的价值。以P＜0.05为差异具有统计学意义。

2 结果

2.1 医师诊断、AI诊断及AI联合医师诊断的结果

本研究中共2 125份乳腺X线筛查资料，腺体类型为脂肪型259例；纤维型651例；不均匀致密型1 093例；致密型122例。阳性资料345例，阴性资料1 780例。医师诊断、AI诊断及AI联合医师诊断的结果见表1。

表1 医师诊断、AI诊断及AI联合医师诊断的结果单位：例

2.2 AI诊断、医师诊断、AI联合医师诊断的ROC曲线

AI诊断、医师诊断、AI联合医师诊断的AUC值分别为0.829、0.880及0.966，AI联合医师诊断的AUC值与AI诊断、医师诊断比较，差异均有统计学意义（P＜0.05），见图1。

图1 三种诊断方式的ROC曲线

2.3 三种诊断方式的诊断效能

AI联合医师诊断的灵敏度、特异度、准确率、阳性预测值、阴性预测值均显著高于AI诊断（P＜0.01），见表2；AI联合医师诊断的灵敏度、阴性预测值及准确率均显著高于医师诊断（P＜0.01），见表3。

表2 联合诊断与AI诊断的效能对比[%（n/m）]

表3 联合诊断与医师诊断效能对比[%（n/m）]

2.4 AI诊断、医师诊断、AI联合医师诊断对于不同类型病灶的检出率

对所有阳性资料按病灶影像学特征分类，统计出肿块型病灶227例（BI-RADS 3类206例、BI-RADS 4A类12 例、BI-RADS 4B类4例、BI-RADS 4C类3例、BIRADS 5类2例）；钙化型病灶43例（BI-RADS 3类19例、BI-RADS 4A类19例、BI-RADS 4B类4例、BI-RADS 4C 类1例）；不对称型病灶72例（BI-RADS 3类 72例）；结构扭曲型病灶3例（BI-RADS 4A类1例、BI-RADS 4C类2例），其中AI联合医师阅片的检出率均高于AI或医师独立阅片，见表4。对于BI-RADS 4类及以上型病灶，与联合诊断相比，AI诊断遗漏了2例肿块型、1例结构扭曲型；医师诊断遗漏了1例肿块型、1例钙化型，见图2、图3。

图2 AI漏诊病例—结构扭曲型

图3 医师漏诊病例—肿块型

表4 AI阅片、医师阅片及联合阅片对于不同类型病灶的检出率[%（n/m）]

3 讨论

乳腺癌筛查是降低乳腺癌致死率的重要手段。在中国，目前共有2个国家乳腺癌筛查项目[8]，一项是2008 年启动的农村地区妇女乳腺癌及宫颈癌筛查项目；另一项是2012年启动的城市女性癌症筛查项目。笔者所在地区符合筛查条件的妇女3万余人，三年一个轮回，每年筛查人数一万两千余人，三分之一以上有X线需求。庞大的工作量容易导致医生倦怠、增加漏诊率。乳腺AI的出现从一定程度上弥补了上述缺陷，提高了诊断效果。

AI这一概念于1955年提出，是指机器所呈现的模拟人类的行为，将其应用于临床，有助于提升诊断工作的准确性和高效性[9]。目前，CNN算法为AI深度学习中较为先进的算法代表。在国内有学者通过使用Faster R-CNN算法，发现AI可以较好地检出乳腺内的肿块和钙化，为更深入的智能检测提供初步依据[10]。本研究基于现阶段乳腺AI的发展水平，将AI诊断、医师诊断以及AI联合医师诊断进行对比，通过绘制ROC曲线，可得出AI联合医师诊断效果最好，性能最佳。与医师诊断相比，联合诊断的灵敏度、阴性预测值及准确率有一定优势，分析原因在于相较于人眼，AI对于图像内的密度差异有着更好的敏锐性，不容易遗漏病灶；且对于正常图像，不会受到人为主观因素的影响，从而更容易排查出无病的健康人群。而与AI诊断相比，联合诊断的各项参数指标均较高，则是因为医师对于病灶的定性更有经验，与AI形成了一定的优势互补。AI的假阳性常发生于以下几种情况：将迂曲的血管影或腺体内淋巴结诊断为肿块；将皮肤表面结节诊断为肿块；将散在的良性钙化或纤维腺瘤内的退变性钙化诊断为有恶性可能的钙化等。除此以外，AI对于腺体结构扭曲以及导管扩张性病变认识不足；对于轮廓未完全显影的肿块有遗漏的风险。本研究中对所有的阳性病灶按影像学特征分为肿块、钙化、不对称及结构扭曲四种类型。对于BI-RADS 4类及以上型病灶，与联合诊断相比，AI诊断遗漏了2例肿块型、1 例结构扭曲型，其中结构扭曲型病灶经追踪病理被确诊为乳腺导管原位癌；医师诊断遗漏了1例肿块型，1例钙化型，其中肿块型病灶经追踪病理被确诊为浸润性导管癌。在临床应用中，BI-RADS 4类及以上型病灶的意义重大，常常需要密切随访、穿刺活检或手术切除。

本研究的不足之处在于为单中心研究，仍需多中心研究结果进行验证。

综上所述，本研究从乳腺癌X线筛查的角度出发，将AI诊断、医师诊断及AI联合医师诊断进行对比，验证了AI联合医师诊断效果最佳，可最大限度地避免遗漏乳腺癌，令筛查者受益。