沈 洁,刘雅静,莫 淼,周 瑾,王泽洲,周昌明,周世崇,常 才,郑 莹,3
1. 复旦大学附属肿瘤医院肿瘤预防部,复旦大学上海医学院肿瘤学系,上海 200032;
2. 复旦大学附属肿瘤医院超声科,复旦大学上海医学院肿瘤学系,上海 200032;
3. 上海肿瘤疾病人工智能工程技术研究中心,上海 200032
乳腺癌是全球最常见的恶性肿瘤。国际癌症研究机构(International Agency for Research on Cancer,IARC)发布的2020年全球癌症报告数据[1]显示,全球每年新发乳腺癌226万例,每年因乳腺癌死亡68万例,严重威胁着女性健康。在中国乳腺癌是女性最常见的恶性肿瘤,近年来发病率和死亡率均呈快速上升趋势。中国国家癌症中心2020年最新发布的中国恶性肿瘤发病和死亡数据[2]显示,2016年中国有30.6万乳腺癌新发病例,位居中国女性癌症发病首位,且有7.1万女性死于乳腺癌,位于女性癌症死亡的第5位。
有研究[3-4]证实,可以通过大规模的人群筛查降低乳腺癌的死亡率,在欧美国家乳腺癌筛查中广泛采用乳腺X线检查技术,可以降低40岁以上妇女的乳腺癌死亡率,美国乳腺癌30年间死亡率下降了43%[5];但X线检查在以中国为代表的亚洲妇女中的应用却存在明显局限性,X线检查对于亚洲年轻女性及乳腺致密度较高者,筛查灵敏度(sensitivity,Se)较低,越来越多的亚洲学者认为乳腺超声作为亚洲女性乳腺癌筛查手段是比较适合的选择。多项人群研究[6-8]结果显示,筛查性超声在乳腺癌的早期阶段可发现相当数量的乳腺X线检查不能发现的肿块,尤其是在致密乳腺妇女及小乳房中。
但超声作为筛查方法在社区大规模人群中的应用也受到明显制约[9],超声医师的技术、经验及诊断水平等主观因素等都限制了超声筛查的普及和推广。人工智能(artificial intelligence,A I)辅助超声检查可以帮助快速筛查出需要优先诊断的病例,提高筛查的Se和特异度(specificity,Sp),减少漏诊率,有望突破超声在人群筛查中应用的瓶颈。
复旦大学附属肿瘤医院自主研发了一款便携式AI辅助超声诊断仪,通过对复旦大学附属肿瘤医院30多万女性乳腺癌病灶数据进行机器学习,建立了AI辅助超声的乳腺癌诊断技术及一套完备的乳腺超声影像自动分析筛查系统[10-12]。本研究通过与常规超声的比较,了解AI辅助超声对于中国女性乳腺病灶的实时识别和判断能力,通过随访获得乳腺癌发病结局,了解AI辅助超声应用于人群乳腺癌筛查的潜力,为该技术应用于人群筛查提供科学依据。
本研究采用前瞻性、平行对照的诊断性试验设计,纳入2020年8-12月在复旦大学附属肿瘤医院招募来院进行乳腺超声检查的从未诊断过乳腺癌的女性就诊者,年龄在35~74岁。排除标准:① 已确诊乳腺癌者;② 已确认患有其他类型的恶性肿瘤疾病者;③ 有严重的心肺功能不全、肝肾功能不全等系统性疾病者;④ 有严重合并症,平均期望寿命不超过5年者;⑤ 乳腺部分或全切术后者;⑥ 不同意参加研究及后续随访 者。
所有对象均签署知情同意书,本研究获得复旦大学附属肿瘤医院伦理委员会审批(审批号:SCCIRB2008223-22)。
本研究使用的AI辅助超声诊断仪是国家自然科学基金委员会重大仪器专项和上海市科学技术委员会科技创新行动计划资助的由复旦大学附属肿瘤医院、复旦大学信息科学与工程学院、上海大学及视隼智能科技(上海)有限公司共同研发的一款便携、智能的AI辅助超声诊断仪[10-12],由一块500 mm×500 mm×20 mm的显示面板和一只超声探头组成(图1)。常规超声使用荷兰Philips公司IU22超声诊断仪L9-3探头,探头频率范围为3~9 MHz。
图1 便携式AI辅助超声诊断仪Fig. 1 Portable AI-assisted ultrasound diagnostic instrument
AI辅助超声进行检查时,操作者只需进行乳腺超声标准扫查(图2),按照图示方向缓缓、全方位进行扫查,AI可辅助自动进行乳腺肿块图像识别、判断,在显示屏上框示出可疑病灶部位,并发出“嘟嘟”的警示音。
图2 乳腺超声标准扫查法Fig. 2 Standard breast ultrasound scanning method
所有研究对象先采用AI辅助超声进行检查,由超声医师进行标准扫查,研究生记录数据,然后由超声医师进行常规超声检查。
观察指标包括双侧乳房内病灶(囊肿、结节或钙化灶等)的检出、病灶的形态、大小、边界、有无包膜、内部光点情况及回声强弱等,测量并记录病灶的形状、大小、数量、分布和乳腺影像报告和数据系统(Breast Imaging Reporting and Data System,BI-RADS)分级。
所有超声检查阳性/可疑阳性(BI-RADS 4级及以上)对象建议在复旦大学附属肿瘤医院按乳腺癌常规诊疗流程进行诊断,采用X线检查,X线检查阳性者通过穿刺取得活组织进行病理学检查证实。乳腺癌的诊断时期别根据国际抗癌联盟(Union for International Cancer Control,UICC)恶性肿瘤TNM分期标准[13],分成Ⅰ、Ⅱ、Ⅲ、Ⅳ期和不详5个类别。
所有对象完成招募后进行两次随访。第1次随访在所有对象纳入后6个月[按照《中国抗癌协会乳腺癌诊治指南与规范(2021年版)》[14],可疑阳性对象在初次发现病灶后6个月可完成后续诊断及治疗],通过院内病史检索匹配的方式,了解后续病理、诊断和分期等信息;第2次随访在所有对象纳入后1年(通常新诊断的乳腺癌在1年内进入上海市肿瘤登记系统,可以补充没有在院内诊断的上海户籍患者的发病信息),通过上海市疾病预防控制中心人群基础肿瘤登记管理系统数据库匹配研究对象中上海市户籍者的乳腺癌发病信息,包括诊断ICD完整编码、首次诊断日期、诊断时肿瘤分期、死亡日期和死亡编码;对于来自其他省市的研究对象,通过电话随访了解后续的发病信息。通过被动随访(匹配登记库)和电话主动随访,确保得到所有研究对象完整、可靠的发病结局,随访率为100.0%。
样本量估算:常规超声识别乳腺病灶(肿块)的Se为65.0%,Sp为80.0%,预计AI辅助超声识别乳腺病灶(肿块)的Se不低于70.0%,Sp不低于85.0%,按照0.05的显著性水平和80.0%的把握度,复旦大学附属肿瘤医院乳腺肿块检出率为80.0%,估算出此次需要样本量共计2 300个乳腺病灶。
采用Excel软件进行数据记录和收集,采用四格表进行数据整理和统计。结局指标为对乳腺病灶的识别和对乳腺癌早期诊断的准确性指标[包括Se、Sp、阳性预测值(positive predictive value,PPV)和阴性预测值(negative predictive value,NPV)]及95% CI。具体计算公式,以常规超声检查结果为标准(表1),BI-RADS 4级以上级别病灶识别的Se为AI辅助超声检查识别出真乳腺BI-RADS 4级以上阳性病灶在常规超声检查识别出所有BI-RADS 4级以上阳性病灶中的占比,计算公式为Se=TP/(TP+FN);BIRADS 4级以上级别病灶识别的Sp为AI识别出真乳腺BI-RADS 2~3级病灶在常规超声检查识别出所有BI-RADS 2~3级病灶中的占比,计算公式为Sp=TN/(FP+TN);PPV(BI-RADS 4级以上级别)为AI识别出所有乳腺BI-RADS 4级以上级别阳性病灶中,真正为BI-RADS 4级以上级别(常规超声检查识别)的比例,计算公式为PPV=TP/(TP+FP);NPV(BI-RADS 2~3级)为AI识别出所有乳腺BI-RADS 2~3级病灶中,真正为BIRADS 2~3级病灶(常规超声识别)的比例,计算公式为NPV=TN/(FN+TN);同样,以乳腺癌诊断为金标准,计算对于乳腺癌的早期识别Se、Sp、PPV和NPV等诊断准确性指标。95%CI按照正态近似法利用率的标准误和CI进行计算。同时,对于常规超声和AI辅助超声检查对于乳腺病灶的识别一致性进行计算,并采用配对McNemar检验进行一致性检验。
表1 以常规超声检查结果为标准,Se、Sp、PPV和NPV计算公式示意表Tab. 1 Schematic table for calculating Se, Sp, PPV and NPV,conventional ultrasound diagnosis results used as standard
共有360人同时进行了AI辅助超声和常规乳腺超声检查,发现2 504个乳腺病灶(表2),AI辅助超声检查发现2 217个病灶,病灶报告率为88.5%;常规超声识别1 090个,病灶报告率为43.5%。病灶中BI-RADS 2~3级共2 453个,AI辅助超声报告2 169个(88.4%),常规超声报告1 039个(42.4%);BI-RADS 4级以上的病灶共45个,AI辅助超声检查报告42个(93.3%),常规超声检查报告45个(100.0%)。
表2 2 504个乳腺病灶BI-RADS分级情况Tab. 2 BI-RADS grading of 2 504 breast lesions [n( %)]
表3 AI辅助超声检查对BI-RADS分级不同病灶的识别有效性(以常规超声为标准)Tab. 3 Effectiveness of AI-assisted ultrasound in identifying lesions with different BI-RADS grading (conventional ultrasound as standard)
以常规超声识别出的病灶为标准,1 084个乳腺病灶中(去除BI-RADS为0级的6人),AI辅助超声对于BI-RADS 4级以上病灶识别的Se为93.3%(95% CI:80.7%~98.3%),Sp为100.0%(95% CI:99.5%~100.0%),PPV(BIRADS 4级以上的病灶)为100.0%(95% CI:89.6%~100.0%),NPV(BI-RADS 2~3级的病灶)为99.7%(95% CI:99.1%~99.9%)。两种超声识别乳腺病灶的一致率为99.7%,采用McNemar精确检验,AI辅助超声和常规超声检查在不同分级病灶的识别能力差异无统计学意义(P=0.25),AI辅助诊断不劣于常规超声检查(表 3)。
随访共发现1 0 例乳腺癌,其中1 例原位癌,5例为Ⅰ期,3例Ⅱ期,1例为外院手术分期不详。AI辅助超声识别8例(BI-RADS分级为4A期4例、4B期2例、4C期2例),AI辅助超声检查对于乳腺癌识别的Se为80.0%(95%CI:44.2%~96.4%),Sp为88.6%(95% CI:84.6%~91.6%)(表4)。常规超声发现同样的8例乳腺癌(BI-RADS分级为4A期4例、4B期2例、4C期2例)(表5),AI识别乳腺癌的能力与常规超声检查结果一致(表6)。
表4 AI辅助超声检查对乳腺癌的诊断试验四联表Tab. 4 Diagnostic test quad table for AI-assisted ultrasound in diagnosing breast cancer
表5 常规超声检查对乳腺癌的诊断试验四联表Tab. 5 Diagnostic test quad table for conventional ultrasound in diagnosing breast cancer
表6 AI辅助超声和常规超声检查对于乳腺癌识别准确性汇总表Tab. 6 Summary of the accuracy of AI-assisted ultrasound and conventional ultrasound in diagnosing breast cancer [% (95% CI)]
本研究是在中国最大规模的乳腺癌诊疗中心开展的诊断性试验及前瞻性随访研究,系统分析了AI辅助超声和常规超声在乳腺癌诊断中对于乳腺病灶的识别能力,报告了AI辅助超声和常规超声在病灶识别上的差异,以及对于乳腺癌诊断的Se和Sp,为AI辅助超声应用于人群乳腺癌筛查提供了临床数据和基础。
基于乳房X线检查的乳腺癌筛查在许多发达国家已经广泛实施并取得很大成效,但中国乳腺癌筛查仍然存在很多问题,比如筛查人群的界定、检查时间及间隔、适宜的筛查技术等,中国的乳腺癌发病年龄相对较年轻,且中国女性乳腺体积小、致密度高,国内各个地区经济发展水平不同,医疗和健康理念也存在较大差异。中国的研究者们一直致力于寻找适合中国女性生理和疾病特征的、适宜于中国国情、易于大范围实施的中国乳腺癌筛查策略和筛查方法。2014-2019年基于北京中国城市癌症筛查项目的真实世界研究[15],头对头地比较了乳腺超声和乳腺X线对于中国北京地区高危女性乳腺癌筛查的有效性,结果显示,在15 550名高危乳腺癌人群中,单纯乳腺X线的Se为19.2%,Sp为96.1%,单纯超声的Se为38.5%,Sp为98.6%,超声联合乳房X线的Se为50.0%,Sp为94.7%,表明相对于乳房X线,乳腺超声更适合在中国女性中进行乳腺癌筛查。2015年1 501 753名中国农村基于乳腺超声的女性乳腺癌筛查[16]结果显示,基于乳腺超声的中国农村女性乳腺癌早诊率为85.25%,乳腺超声初筛阳性率为96.96%,说明基于乳腺超声的中国女性乳腺癌筛查是可行的。
AI技术越来越多地应用于医疗领域,已有小规模研究[17-20]提示AI辅助技术在大肠癌、肺癌及乳腺癌的筛查中具有广阔的应用前景。AI辅助超声检查,一方面可帮助快速筛查出需要优先诊断的病例,提高筛查的Se,减少漏诊;另一方面可以减少对专业超声医师经验的过分依赖,AI辅助可帮助识别乳腺异常病灶,筛选出异常者进一步诊断,可以显著减少超声医师的工作量,有助于在人群中大规模地开展筛查,并且可以帮助超声经验不足的医师识别异常病灶,解决不同地区受超声医师经验不足而给筛查带来的限制。本研究在医院内乳腺癌高危人群中开展诊断性试验,对比AI辅助超声和常规诊断性超声检查对于乳腺病灶的识别能力,结果显示,与常规超声相比,AI可识别更多的BI-RADS 2~3级病灶(88.4%vs42.4%),而BI-RADS 4级以上的病灶识别率相当(93.3%vs100.0%)。以常规超声为标准,AI识别BI-RADS 4级以上乳腺病灶的Se为93.3%(95% CI:80.7%~98.3%),Sp为100.0%(95%CI:99.5%~100.0%),对乳腺癌诊断的Se和Sp与常规超声检查结果一致[Se为80.0%(95%CI:44.2%~96.4%),Sp为88.6%(95% CI:84.6%~91.6%)],提示AI辅助超声检查对于乳腺病灶的有较高的识别度,是一种有效的乳腺癌辅助诊断手段,尤其是对于4A以上的病灶识别度较高,非常适合于在一般人群中识别乳腺癌高危人群,有望广泛用于人群乳腺癌筛查。
AI辅助超声检查对于乳腺微小钙化灶的识别尚有一定的局限性,本研究随访共发现10例乳腺癌,AI和常规超声均识别8例,查阅病史发现超声未发现的2例均为乳腺微小钙化灶。乳腺微小钙化灶是由病灶区局部出现营养不良或坏死、局部细胞溶解而出现的微小而散在的钙盐沉着,乳腺肿块中密集分布的钙化灶的检出常常提示乳腺癌,因此乳腺钙化灶尤其是微小钙化灶对于乳腺癌的检出是一个敏感的指标,而常规超声检查对于乳腺微小钙化灶的检出也存在一定局限性,本研究后续将加强AI对于乳腺钙化灶,尤其是微小钙化灶的机器学习能力,不断改进AI技术,增加AI识别的Se。另外,最新的《中国乳腺癌筛查与早期诊断指南》[21]对于乳腺组织致密的中国女性,也推荐在乳腺X线摄影筛查的基础上增加超声筛查,超声检查与乳腺X线摄影筛查相结合似乎是更符合中国女性乳腺特征的筛查模式。
本研究存在一定的局限性:首先,研究对象来源于单中心,仅代表在医院进行进一步诊断的人群;其次,本次研究纳入的总样本量相对较少,随访后的阳性乳腺癌数量也较少,本项目的研究目标是探索AI辅助超声检查对中国女性乳腺病灶的识别能力,样本量的估算是以AI对于乳腺病灶的识别Se进行估算,由于在乳腺癌诊疗中心就诊的对象多为单个乳房多个病灶,实际入组的研究对象满足了病灶数量,但人数较少。本项目对诊断性试验的参与者都进行了前瞻性随访,在本次研究基础上,后续我们将开展AI辅助超声检查用于社区乳腺癌一般风险人群筛查的研究,拟显著增加参与筛查的人数,以验证AI辅助超声诊断的有效性和筛查效果。
鉴于AI技术的良好发展前景,本研究有一定优势,头对头地比较了AI辅助超声和常规诊断超声检查对于乳腺病灶的识别能力,而且是在乳腺优势学科的单中心,在比乳腺癌高风险等更复杂的女性乳腺检测中,AI辅助超声检查显示出良好的识别能力,尤其是对于恶性倾向的4A级以上的病灶,未来期望在社区中大样本人群的乳腺癌筛查中发挥更大作用。
利益冲突声明:所有作者均声明不存在利益冲突。