马文娟 刘梁生 张 宇 尹 蕊 郭一君 路 红
乳腺癌是世界范围内女性最常见的恶性肿瘤,国家癌症中心最新统计显示,全国年新发乳腺癌病例数达27.24万,每年死亡人数超过7万,高居女性恶性肿瘤发病率首位,且发病率呈明显上升趋势[1],已成为女性健康的巨大威胁。人工智能(artificial intelligence,AI)是当下医疗机构、科研、产业和政府共同关注的焦点。2017年7月,国务院印发《新一代人工智能发展规划》(以下简称《规划》),提出了面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施。在众多的医疗信息中,医学影像是疾病筛查和诊断、治疗决策的最主要的信息来源。目前,医院存储的信息超过90%是影像信息,影像信息已经形成了巨大的数据积累。为此,《规划》在重点任务中明确提出:要建立快速精准的智能医疗体系。研发人机协同临床智能诊疗方案,实现智能影像识别、病理分型和智能多学科会诊。
影像组学和深度学习算法在现阶段被广泛研究和使用的医学影像人工智能分析的两大技术手段,被应用于病变的检测、分割、配准和分类等任务中。相关研究在超声、CT、PET和MRI等领域取得了一定成绩[2-4]。
所谓影像组学,是从医学影像感兴趣区域中挖掘高通量的定量特征空间数据,使用统计学方法筛选出最有价值的影像特征来综合评价肿瘤的各种表型,用于疾病的诊断、疗效评估及预后预测。它包括以下几个步骤:
1.1 图像获取
影像组学的第一步是获得高质量、标准化的影像。用于影像组学分析的图像多为医学数字成像与通信(Digital Imaging and Communications in Medicine,DICOM)格式,DICOM格式是通过对机器扫描的原始数据进行重建得到的。然而,影像组学的图像采集标准尚未确定。扫描技术参数(如辐射剂量、扫描方案、有无造影剂等)的不同、扫描方案(如层厚)的不同、因厂商而异的图像后处理等都可能导致影像组学特征参数的提取。因此,影像组学特征必须与图像采集和重建参数等一起进行详细描述。
1.2 图像分割
图像分割是指把图像分成若干个特定的、提取具有独特性质的感兴趣区域的技术和过程。肿瘤图像的感兴趣区分割方法主要包括手动、半自动及全自动分割。其中,手动分割图像是最常用的分割方法,其优点在于精度较高,然而该方法较耗时,且受主观因素影响较大,须由有经验的影像医生来完成,难以适用于大规模的病例研究。全自动分割依赖计算机技术,适用于大数据的研究,自动分割技术尚不完全成熟,仅部分病变已实现自动分割,如肺结节。半自动分割方法则联合了手动分割及全自动分割方法,在由计算机算法自动分割后,经验丰富的医师会手动进行轮廓的调整,使其达到最佳。半自动分割较手动分割效率高,比全自动分割可信性强。在影像组学中,它通常是通过有经验的影像医生人工通过软件半自动化/自动化来实现的。
目前,常用的图像分割软件包括3Dslicer(https://www.slicer.org/)、ITK (http://www.itksnap.org/) 和ImageJ(https://imagej.nih.gov/ij/)等。
1.3 影像组学特征提取
图像分割提取感兴趣区后,需采用高通量方法提取该区域的图像定量特征,包括二维和三维特征。二维特征是从单张的二维图像上提取的图像信息,三维特征是从多层扫描图像中提取的三维立体图像信息。一般来说,二维影像特征的提取更加简单和快捷,但三维影像学特征包含有更丰富的肿瘤信息,更能体现瘤内的异质性。
影像组学特征包括形态学特征、灰度统计特征、纹理特征及小波特征等。形态学特征包含感兴趣区形态的信息,如表面积、体积和球度等。灰度统计特征评估感兴趣区内体素灰度强度直方图的属性,如直方图的灰度平均强度、峰度和偏度等。纹理特征总结了体素强度在感兴趣区中变化的不同方法,如图像的粗糙性、同质性等)。这些特征可以是在原始图像上计算得到的,也可以是在经过不同的滤波器后得到(如小波变换)。有许多免费的开源软件、商业软件可以实现特征提取,如3DSlicer(https://www.slicer.org/)、Pyradiomics(https://pyradiomics.readthedocs.io/)等。
1.4 特征降维及模型的建立
影像组学提取的众多特征中,并不是所有特征都有意义,尤其是特征数量大于样本数量时,会产生过拟合的现象。因此,需对特征进行降维和去冗余,筛选出的最具代表性的特征构建与临床事件相关的预测模型。最常用的特征选择方法包括:过滤法、包装法、最小绝对收缩和选择算子法(least absolute shrinkage and selection operator,LASSO)等。预测模型的建立通常采用机器学习算法,包括决策树、随机森林算法、逻辑回归、支持向量机、朴素贝叶斯等,然而对于采用何种机器学习方法才能达到最佳结果目前并没有共识,最佳选择可能取决于研究中使用的特定数据集。
深度学习在医学图像分析与诊断中的一个重要应用就是目标检测与分类。不同于影像组学的人工提取特征、机器学习分类,深度学习减少了人工提取特征或规则的步骤,可以从原始数据中自动学习特征,这种学习方式称为端对端(end‑to‑end)学习。该方法通过组合低层次特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习的神经网络层数很多,宽度很广,理论上可以映射到任意函数,能解决很复杂的问题,然而它高度依赖数据量,数据量越大,解决问题的能力就越好。由于影像数据量的限制,目前应用最多的是迁移学习,其本质上是利用预先训练好的模型(通常是在自然图像上)来解决深度学习算法对大数据集进行训练需求。目前被广泛应用的迁移算法包括两种:①使用预先训练好的模型进行特征提取;②对预先训练好的模型进行微调。在影像数据资源有限的医疗领域,更高效、所需影像数据更少的迁移学习将会成为人工智能发展的热点以和应用的驱动力。
目前,乳腺影像AI技术的应用和研究已取得较大进展,根据临床需求研究内容主要包括乳腺病变的检出及良恶性诊断、乳腺癌患者新辅助化疗疗效的预测、乳腺癌患者的预后预测等方面。
已有研究表明,乳腺X线人工智能系统不仅可以有效减少影像医生的工作量[5],且在乳腺癌筛查中可达到与影像医生相近甚至更高的准确率,可降低筛查中间期癌的发生率[6]。在良恶性的鉴别诊断方面,大量研究表明MRI、超声及X线中人工智能技术同样具有优势。如Herent等[7]采用深度学习算法来对MRI图像中的肿块进行评估,将病变分为以下乳腺、良性病变、浸润性导管癌和其他恶性病变四类来让模型进行分类评估,最终模型获得的AUC值达0.816,表现出了良好的分类能力。Ciritsis等[8]采用深度卷积神经网络模型对乳腺超声图像中的病变进行分类,该模型在BI‑RADS 2和BI‑RADS 3~5类病变的诊断准确率为87.1%;在BI‑RADS 2~3与BI‑RADS 4~5类中的诊断准确率为93.1%。
乳腺癌新辅助化疗(neoadjuvant chemotherapy,NAC)通常用于局部晚期、原发病灶大于3 cm的乳腺癌患者,其优点是能在术前缩小肿瘤体积、将不能手术的病灶转化为可切除的病灶、提高保乳率、减少不必要的腋窝清扫[9]。手术切除标本的组织病理学检查是评估治疗反应的金标准,但其具有滞后性。术前能否非侵入性地、准确、安全地评估病理学完全缓解(pathologic complete response,pCR)目前仍是一项挑战。然而,由于不同患者之间存在个体化差异,对NAC的反应也不尽相同,部分乳腺癌患者可能在进行新辅助化疗后无法取得理想的化疗效果,因此准确评估乳腺癌化疗后反应十分重要。
采用乳腺癌影像信息进行NAC疗效的预测多集中在MRI和超声图像上,如陈杭[10]采用影像组学和纵向时间分析方法构建预测模型,通过化疗前和化疗早期DCE‑MRI影像证明了其与NAC疗效存在一定的关联。Jiang等[11]对经活检证实为局部晚期乳腺癌患者提取治疗前后肿瘤的超声组学特征构建深度学习超声组学诺模图(Nomogram)模型进行术前评估乳腺癌NAC后的PCR,结果显示该模型可准确的预测PCR,可为个体化治疗提供有价值的信息。
乳腺癌的复发及转移仍然是乳腺癌致死的最重要原因,虽然晚期乳腺癌的治疗近年来迅猛发展,新的治疗手段层出不穷,但转移性乳腺癌仍难以治愈,中位生存时间仅为2~3年[12]。发生远处转移的患者大多预后不良,而早期筛选出可能发生远处转移的患者有助于预测其生存期,同时,也可针对不同个体制订个性化治疗方案。传统的乳腺癌远处转移预测模型的预测指标包括一般临床和病理指标等,而基于影像组学的远处转移预测模型少有报道。
最近,越来越多的研究也显示了使用DCE‑MRI图像治疗预后的前景。Wu等[13]的研究通过提取肿瘤和周围实质的定量成像表型来识别新的乳腺癌亚型,评估预测无复发生存期的预后能力。Braman等[14]的研究显示,结合瘤周和瘤内影像组学特征,可从影像学上识别HER2+乳腺癌的内在分子亚型,从而深入了解瘤周环境中的免疫反应,并为治疗指导提供潜在益处。Yu等[15]研究了基于MRI的机器学习在乳腺癌患者中的应用,提出了新的个体化临床决策Nomogram,可用于预测腋窝淋巴结转移状态和无病生存期。虽然之前的这些研究显示了使用MRI作为乳腺癌预后工具的潜力,但还存在局限性,如样本量小、人工提取的特征少、基于CAD的特征集非常有限等。
随着针对临床问题的研究不断深入,人工智能在乳腺影像上的应用逐渐多样化,尽管目前研究众多,但在临床应用方面尚有许多问题存在。在未来工作中,更需兼顾临床需求,优化诊断及预测模型的稳定性与准确度,让更多的乳腺癌患者人群受益。