彭文静,张红梅
国家癌症中心/国家肿瘤临床医学研究中心/中国医学科学院北京协和医学院肿瘤医院影像诊断科,北京 100021
人工智能是指能够模拟、延伸和扩展人类智能的一套计算机科学理论、方法、技术及应用系统[1],其概念于1956年被首次提出,现已对生产、生活及多个学科领域产生了深远的影响。医学影像,尤其是肿瘤影像,是人工智能在医学领域的重要研究内容。
机器学习是实现人工智能的核心方法,包括浅层学习、深度学习等多种算法。浅层学习主要学习人工选取的有限样本的特定特征,可以解决大部分的分类、回归问题,但效能易受样本数据分布的影响,且对复杂问题的分析能力不足。深度学习无需人工标注,可以自主、多层学习图像特征并进行综合识别和推理,与浅层学习相比,可以实现对海量数据的深层挖掘,解决更为复杂的多分类问题。影像组学是对影像特征的定量反映[2],主要包括肿瘤的形态、大小和纹理等。通过机器学习算法挖掘组学特征的内在含义,并寻找其与肿瘤诊断、治疗间的关联,是肿瘤影像人工智能研究的重要命题。
近年来,恶性肿瘤的发病率逐年上升,同时,人们的健康意识逐步提高、多模态影像技术飞跃发展,导致医学影像图像数量呈指数级增长。基于深度学习的人工智能技术具有高敏感检出、高维信息挖掘和高通量计算的能力,已在多种肿瘤的病灶检出、病理分型、临床分期、疗效评价及生存预测等方面显示出了巨大的潜能。本文选取了几种具有代表性的肿瘤类型,就人工智能对该领域的研究现状及进展进行综述。
肺癌的发病率和病死率始终高居全球首位[3]。临床对肺癌的诊断分两个步骤:肺结节的检出及结节良恶性的判定。
胸部低剂量计算机断层扫描(low-dose computed tomography,LDCT)是肺结节检出的有效手段,可以显著降低肺癌患者的病死率[4-6],但其图像层数多、信息量大,放射科医师的阅片工作量和出错率随之增加。计算机辅助检测(computer-aided detection,CAD)系统凭借人工定义的形态、密度和纹理等特征可以快速、自动地识别结节,在肺小结节[7-8]及孤立性结节的检出方面显示出了巨大的优势。Zhao等[9]比较了LDCT计算机阅片与双人阅片结果,表明CAD系统检出肺结节的灵敏度为96.7%,远高于双人阅片的78.1%。但在识别贴血管结节、胸膜结节及磨玻璃密度结节等特殊类型结节时,CAD系统易受血管、部分容积效应和呼吸运动伪影的影响,结节检出的假阳性率较高,成为肺癌CAD系统临床实践的主要挑战。部分学者致力于降低肺结节检出的假阳性率的研究,并取得了一定的进展,如Dou等[10]将可疑结节的空间特征纳入深度学习模型,结果显示,当假阳性率控制在8 FPs/scan时,CAD系统检出肺结节的灵敏度高于90%。
临床上肺结节的良恶性判断多依赖医师的临床经验,主观差异性大。国内外学者在进行肺结节良恶性辅助诊断的研究中对扫描技术和算法进行了诸多探索。Suo等[11]基于动态增强CT(dynamic contrast-enhanced computed tomography,DCECT)分别提取结节边缘和内部的纹理特征进行良性和恶性结节的鉴别,得到曲线下面积(area under curve,AUC)为0.864。Gao等[12]将三维CT纹理特征纳入分析,结果显示,良恶性结节鉴别诊断的准确率较二维纹理特征有了进一步提高,最高达95.4%。另有部分学者尝试采用多参数磁共振成像(MRI)[13]、正电子发射计算机断层显像(position emission tomography,PET)/CT[14]等图像的组学特征进行良恶性鉴别,均得到了较好的效果。
随着人工智能在肺癌中研究的深入,更多学者应用人工智能进行肺癌病理分型、侵袭性、淋巴结转移及临床分期等的探索。亟待解决的是,对肺部图像数据库联盟(lung image database consortium,LIDC)等专业标注肺部图像数据库的完善,以减少因训练标签不平衡造成的结果偏倚,进一步提高泛化能力。
有效分割是人工智能辅助诊断脑胶质瘤的第一步,基于脑胶质瘤浸润性生长的特性[15]和多种亚型的特点,手动和简单的阈值分割效果并不理想。部分学者提出了肿瘤亚域分割的概念[16-17],将病灶分为肿瘤活跃区、坏死区和水肿区等,为脑肿瘤的更精确定位和异质性评价奠定了基础。同时,多种新型深度学习分割算法也在脑肿瘤上不断更新。Zhuge等[18]使用嵌套神经网络多尺度、多层次学习肿瘤的外观表征,得到了较高的分割精度和效率。Cui等[19]开发了以肿瘤定位和内分类网络为基础的级联深度学习卷积神经网络(convolutional neural networks,CNN),在保证肿瘤分割效果的同时,进一步提高了分割的速度。
世界卫生组织(WHO)将胶质瘤分为Ⅰ、Ⅱ级低级别胶质瘤(low-grade glioma,LGG)和Ⅲ、Ⅳ级高级别胶质瘤(high-grade glioma,HGG),不同的胶质瘤分级对应着不同的治疗方案和预后。实施有创性检查前,脑胶质瘤的分级依赖于影像学检查,人眼对不同级别的胶质瘤鉴别能力有限,基于人工智能的脑胶质瘤辅助诊断研究成为热点。面对较为复杂的脑胶质瘤分级,早期学者多尝试采用不同的分类方法,多项研究显示,支持向量机(support vector machine,SVM)在脑胶质瘤的分级诊断中具有较明显的优势,这为后续的模型比较和算法优化提供了条件[20-21]。Zhang等[22]在对25种机器学习分类方法及8种特征选择方法进行比较研究后,同样得出了SVM更优的结论,该研究将术前多参数MRI直方图和纹理特征进行进一步联合,结果显示,LGG与HGG两分类的准确度达94.5%,Ⅰ~Ⅳ级四分类的准确度高达96.1%。
术后放疗是脑胶质瘤手术切除后的必要补充,但不可避免的导致了周围正常脑组织的放射性损伤,数据表明脑胶质瘤放射性损伤的比例可高达20%[23]。放射性脑损伤的常规CT及MRI图像常表现为水肿、坏死,与复发性脑胶质瘤极易混淆,成为临床诊断的难点。区分放射性脑损伤和复发性脑胶质瘤的金标准是手术病理活检,但脑组织活检风险大,临床应用多受限制。肿瘤组织具有很强的异质性[24],与放射性损伤所致的炎性表现有所区别,可以通过纹理特征加以鉴别[25]。Tiwari等[26]采用MRI液体衰减反转恢复(fluid attenuated inversion recovery,FLAIR)序列的纹理特征进行区分,准确度远高于放射科医师,充分表明组学特征鉴别放射性脑损伤和复发性脑胶质瘤的可行性。Lohmann等[27]采用动态增强MRI(dynamic contrast enhanced-magnetic resonance imaging,DCE-MRI)组学特征鉴别放射性脑损伤和复发性脑胶质瘤,也得到了较好的效果,诊断准确度为81%;18F-酪氨酸(18F-fluorethyl-L-tyrosin,18F-FET)PET图像的准确度稍高,为83%,二者结合诊断准确度可进一步提高,达89%。
基于深度学习的人工智能技术在脑胶质瘤诊断中还有众多进展。有研究利用CNN算法实现了组学特征对胶质瘤患者异柠檬酸脱氢1(isocitrate dehydrogenase 1,IDH1)突变、1p/19q染色体缺失状态及O6-甲基鸟嘌呤-DNA-甲基转移酶(O6-methylguanine-DNA methyltransferase,MGMT)启动子甲基化状态等的有效分类,分类准确度最高可达94%[28]。此类研究有望通过无创的方法显示基因的表达情况,对敏感性靶向药物的选择和指导个体化治疗具有特殊意义。
乳腺癌的发病率居女性恶性肿瘤首位[3]。乳腺X线摄影是乳腺癌的主要筛查手段,在临床上使用广泛。CAD系统在应用初期就对如何提高乳腺肿块的检出率进行了较多探索,并得到了较好的结果[29-30]。近年来,乳腺微钙化受到了广泛的关注。对于相当一部分无肿块、无症状早期乳腺癌患者来说,X线微钙化灶是其唯一影像学征象[31]。X线摄影对显示钙化灶虽有一定的优势,但微钙化病灶小、特征不典型,肉眼鉴别困难,临床上仍常可漏诊。Wang等[32]采用基于深度学习的人工智能技术对乳腺X线微钙化灶进行评价,效果较好。这类研究对于部分早期乳腺癌患者的筛查有重要的意义。
乳腺癌的病灶表现复杂多样,准确的定性多依赖于医师的经验水平。Ribli等[33]通过构建一个基于快速CNN的CAD系统对乳腺X线图像进行自主特征学习和分类,其鉴别乳腺良恶性病灶的准确度可达90%。Fujioka等[34]采用CNN模型结合超声,得到超声组学的分类准确度为92.5%,诊断价值较高。Ji等[35]基于DCE-MRI对机器学习模型进行单中心验证,结果显示,DCE-MRI鉴别病灶良恶性的AUC为0.89,进一步证实了人工智能诊断乳腺肿瘤的稳定性和可靠性。
乳腺癌较高的异质性[36]导致了不同个体对治疗反应的巨大差异,如何早期预判治疗疗效并及时施行干预措施是临床研究的重点。一项针对晚期乳腺癌患者的研究表明,DCE-MRI纹理特征可以帮助预测乳腺癌新辅助化疗的个体反应[37]。Chamming's等[38]研究发现,T2加权成像(T2-weighted imaging,T2WI)图像的峰度纹理值对非三阴性乳腺癌新辅助化疗后病理完全缓解(pathologic complete response,pCR)有一定的预测效能。Huang等[39]探讨PET/CT和MRI组学在乳腺癌表型和疾病预后中的价值,结果显示,二者区分1年和2年无复发生存率的平均AUC值分别为0.75和0.68,与Park等[40]的研究结果一致。基于影像学特征的预测性生物学标志物的确定有助于乳腺癌个体化治疗方案的完善,推动精准医疗。
复杂的背景、模糊的边界及高度变化的形状使肝脏的精准分割一直是一个具有挑战性的工作。目前,肝脏CT图像的自动分割取得了一定的进展[41-42]。其中,Lu等[42]采用三维CNN对肝脏CT图像进行自主学习及分割优化,最终实现了完全自动分割,基于该分割的肝脏体积评估也被证实准确有效。Vivanti等[43]采用人工智能算法同样实现了肿瘤的自动检测与分割,此外,该团队还构建了一种肝脏肿瘤负荷量化的工具,从另一个角度实现了对新发小肿瘤的检出。
肝脏肿瘤种类繁多,准确区分肿瘤组织的良恶性是诊断的首要任务。Kondo等[44]采用SVM建立超声评价肝脏肿瘤的诊断模型,得到良性肝占位、肝癌及肝转移瘤的诊断准确度分别为84.4%、87.7%及85.7%。肝转移瘤是肝脏最常见的恶性肿瘤,学者多关注肝转移瘤的原发灶研究。Ben-Cohen等[45]采用SVM对71例不同原发部位肝转移瘤的患者进行肝脏CT平扫及增强图像的特征提取和分类,得到一组最可能来源的原发肿瘤预测排序。经病理证实,排序为第一位的可能原发灶,准确度为62%,排序在前三位的可能原发灶,累积准确度达99%。这项研究对指导难以明确原发灶的肝转移瘤患者的肿瘤溯源具有重要的临床意义。
肝癌的疗效评价常遵从实体瘤疗效评价标准(response evaluation criteria in solid tumors,RECIST),较多依赖肿瘤大小的纵向比较。Tuma[46]认为基于肿瘤大小的疗效评估标准缺乏个体化,且评估效果滞后,在肿瘤治疗反应发生之前,机体可能已经具备反映治疗疗效好坏的异质性信息。Abajian等[47]在对肝癌经导管动脉化疗栓塞术(transcatheter arterial chemoembolization,TACE)治疗的肝癌患者治疗前与治疗后1个月的MRI图像分析后发现,术前MRI图像特征与较好的TACE疗效密切相关,预测准确度为78%。更早的疗效预测及预后评价有助于治疗方案的优化,避免不必要的药物毒性作用及并发症发生风险,使患者最大获益。
人工智能在其他多种肿瘤影像领域还有众多进展。Liu等[48]应用术前MRI组学联合临床特征建立局部近展期直肠癌新辅助放化疗疗效的预测模型,预测AUC值高达0.976。新辅助放化疗后取得pCR的患者将受益于此,避免不必要的手术,进一步提高患者的生存质量。Huang等[49]建立并验证了直肠癌淋巴结转移的预测模型,将转移淋巴结的检出准确度较传统阅片提高了14.8%。在肾脏和前列腺肿瘤的研究中,人工智能也显示出了优势,Yan等[50]通过纹理特征构建机器学习模型鉴别血管平滑肌脂肪瘤、透明细胞癌和乳头状癌,得到准确度为90.7%~100%。有研究进一步对肾透明细胞癌进行分级研究,结果优于常规CT图像评价[51]。Xu等[52]基于T2WI及弥散加权成像(diffusionweighted imaging,DWI)双参数图像建立组学模型以鉴别前列腺癌与良性病灶,也得到了较理想的结果。此外,人工智能在胃癌、食管癌、膀胱癌、宫颈癌等多种肿瘤中还有诸多探索与应用,以人工智能技术为基础的肿瘤影像研究尚需进一步深入与完善,以期更好的指导肿瘤诊疗实践。
近年来,以深度学习为代表的人工智能技术已经在多种肿瘤的病灶检出、病理分型、临床分期、疗效评价及生存预测研究等方面显示出了较为理想的诊断结果,但将其合理、高效地转化为临床应用,尚存在诸多问题,具体包括以下三个方面:①缺乏与深度学习算法相匹配的标准肿瘤影像大数据库。目前,学者们多采用国外的有限开放数据集或单中心私人数据库,存在数据基数小、图像多样性和代表性差、数据分布不平衡等弊端。机器学习算法可能使这些非标准数据集中的偏见累积和放大,影响模型的稳定性、准确度和泛化能力。②目前的人工智能模型普遍缺乏多中心临床试验的验证,同时还缺乏结合最新肿瘤诊疗指南、临床场景尤其是复杂的肿瘤诊疗场景的实践验证。③相关的法律法规仍有待完善,包括人工智能影像诊断结果医疗责任问题、信息安全问题及影像科医师人工智能应用技能的教育问题等。
综上所述,人工智能在肿瘤影像中的研究已取得可喜的成果,其应用前景无限广阔而又充满挑战。规范大数据标准、开展多中心研究与验证是将人工智能由科研推向临床的重要过程,需要医、工交叉多学科的协作及共同努力。