刘一萍,李新平,陈 磊,夏金菊,宋凯荣,贾宁阳,刘婉敏,3
1 海军军医大学第三附属医院,上海东方肝胆外科医院 放射科,上海 200438;2 上海联影智能医疗科技有限公司, 上海 201807;3 同济大学 医学院,同济大学附属同济医院 放射科,上海 200331
原发性肝癌是导致全球癌症死亡的第二大病因,其预后普遍较差,中位生存期仅6~20个月,其中肝细胞癌(HCC)是最常见类型[1],其发病原因与HBV/HCV感染、肥胖、糖尿病、代谢症候群及非酒精性脂肪肝等有关。HCC多发生于有肝炎、肝硬化病史的患者,临床可以通过影像学检查对HCC进行早期诊断,尽早选择合理的治疗手段,如切除、移植、消融和经导管动脉化疗栓塞(TACE)等。根据美国肝病学会指南,在肝硬化背景下,肝内直径1~2 cm可疑结节应通过动态增强CT、动态增强MRI或超声造影中的至少2种检查方法进行评价[2],CT和MRI可识别65%直径<2 cm的肝脏病灶。近年来,肝脏特异度钆对比剂的应用为临床提供了肝胆期肝细胞功能信息,进一步丰富了对HCC代谢信息的研究。
针对HCC分期系统,器官获取与移植网络指南[3]和肝脏影像报告及数据系统(LI-RADS)指南[4],明确定义包膜、强化呈“快进快出”、肿瘤增大可作为诊断HCC的影像学特征。尽管HCC具有特殊的影像学特征,但由于肿瘤的异质性和生物学差异,其治疗和预后的预判受HCC不同生物学行为、分化程度和基因组学特征等诸多因素影响。研究发现,肝癌的预后不仅与肿瘤的大小有关,还与肿瘤的上皮间质转化、微血管浸润(microvascular invasion,MVI)、血管内皮生长因子和缺氧诱导因子等病理特征密切相关,通过影像学表现预测肿瘤生物分子学行为,从而预判肝癌患者治疗效果及预后是目前影像学研究热点之一。
20世纪50年代,“人工智能”成为计算机科学的一个分支,致力于开发算法以使机器能够完成通常需要人类智能才能完成的复杂任务。机器学习是人工智能研究的主要领域,近几年迅速发展的深度学习是机器学习的研究方向之一。人工智能在医疗领域的融合发展迅速,特别在影像医学的诊断、治疗和疗效评估等方面已有突破性进展。本文主要着眼于人工智能在肝癌中的应用,利用放射学、组织学或遗传学特征,同时结合临床特征进行疗效评估和预后预测的效能[5-6]。
2.1 机器学习 机器学习研究如何通过计算的手段,学习经验(数据)来提升人工智能系统的性能,通过训练-验证和测试的算法模式,建立预测模型并应用于临床辅助诊断。机器学习一般分3种类型:监督学习、无监督学习和强化学习。监督学习需要为算法学习提供有标签的数据;无监督学习即在无标签数据集中找出隐藏的分类信息;强化学习则是通过算法提供的许多正负反馈,在互动环境中动态学习以执行特定任务。利用图像特征进行分类的传统机器学习算法包括逻辑回归(logisticregression,LR)、支持向量机(support vector machine,SVM)和随机森林(random forest,RF)等[7]。
机器学习需要的数据包括训练集、验证集和测试集。算法学习训练集的数据并建模,训练集数据中的混杂可能导致机器学习算法出现偏差。当计算出的特征数量远大于样本数量时将导致过度拟合。为避免过拟合训练数据,可通过特征降维方法降低特征数量,同时保留相关性高的特征,如套索算法(least absoulute shrinkage and selection operato,Lasso)只保留最相关的特征。Lasso算法需要在独立的数据集上进行验证以优化算法、避免过拟合。验证集用于检测模型的性能和评估训练的质量,避免模型过拟合。最优的算法模型要在验证集和测试集上同时表现优异,而过拟合对训练数据的细微变化反应过度而在测试数据上表现不佳,将导致模型在真实世界中难以应用和推广。
机器学习需要足够数量的训练集构建模型,将数据中有意义的信息表示为图像特征函数[8]。真实世界中有标签的数据集往往难以获取,为了解决标记图像稀缺的问题,迁移学习可以将前一个任务中学到的知识应用到另一个不同但相关的任务中。迁移学习利用已有的标签数据获得一个预训练模型,再用一个新任务中的少量训练数据完成建模[9],模型的性能可显著优于只在少量训练数据上构建的模型。最后,构建的机器学习模型需要在独立的数据集上进行测试,以评估算法的准确性[10]。
2.2 深度学习 随着大量有标签图像数据集的出现和算法计算能力的大幅提升,深度学习成为人工智能领域的热点。深度学习是机器学习的一个子集,其基于大样本量数据,利用输入端到输出端的表征学习方法,从原始数据中学习潜在的复杂特征,最终目标是使机器具备和人一样的分析能力。深度学习源于人工神经网络研究,“深度”是指多层感知器包含多层神经网络,中间层包含多个隐藏层。深度学习模型利用多层感知器学习简单特征(如信号强度、边缘和纹理)到更复杂特征(如形状、类型),反映数据结构层次的图像(如器官或病变)的组成特性。
人工神经网络由一组相互连接的基本元素即人工神经元构成,成千上万个神经元组成多层感知器的神经网络结构代表了复杂的非线性功能,其由输入层、多个隐藏层和输出层组成。输入层指输入数据;每个隐藏层的前一层所有元素表现的特征值乘以相应的权重特征被叠加,并通过一个非线性函数激活,与后一组元素通过权重强度相连,其中的元素之间的加权连接通过反向传播纠错信号,根据输入和输出的实例对元素的加权连接进行迭代调整,输出层产生目标值如分类结果。具体表现为神经网络通过前馈神经网络体系结构提供连接节点并对特征进行编码,然后调整每个节点的权值和偏差来训练,从随机初始配置开始,通过梯度下降的优化算法调整参数,该算法每次从数据样本(正向传播)计算时,网络的性能通过输入类别和输出预测之间的损失(误差)函数以最小化损失,小幅度地调整(反向传播)网络的权重,对训练数据集中的每个样本进行多次训练后,参数趋近模型最大化精度[11]。
卷积神经网络(convolutional neural networks,CNN)由多层网络构成,包括卷积层(由称为核的过滤器组成)、汇聚层、全连接层和标准化层。CNN通过对图像进行卷积操作,将输入图像生成一系列特征映射,这些特征映射被一个汇集层降采样,然后进行另一组卷积操作产生更深层次的特征,每层多个不同的卷积滤波器产生大量不同的特征映射,每个特征映射都突出显示了输入图像的不同特征,卷积和汇集层交替堆叠,直到网络正确获得图像结构,最终执行分类或回归。CNN关键组成部分包括激活函数(activation function)和下采样(down-sampling),激活函数是应用于诸如卷积等线性运算输出的非线性函数,下采样增加了后续过滤器的有效范围或感受野。卷积层和激活函数形成特征映射,降采样/最大汇集层降低空间分辨率,降低了模型对图像的微小移动敏感度。CNN目前已成功应用到图像/器官分割(segmentation),图像分类(classification)、病灶检测(detection)、图像配准(registration)和图像映射(mapping)等应用领域。
3.1 影像组学 影像组学分析是从医学影像数据中高通量挖掘可能被“隐藏”的图像特征信息,结合临床/实验室信息建立预测模型,评估肿瘤特征并预测与肿瘤侵袭性强关联的病理、免疫标志物、治疗疗效等[12]。当前,HCC影像组学相关研究越来越受到关注,作为研究影像学与临床特征关系的重要方法,以定量评估HCC的生物学行为、组织学分级和抗肿瘤治疗疗效预测,对于深入了解HCC遗传学、生物学和临床识别具有不同预后的关键分子以及相关基因或表观遗传驱动因子具有潜在的智能化和创新性价值,为HCC优化治疗策略和预后提供重要信息[13-14]。
Wakabayashi等[15]回顾性分析23项(包括PET-CT 2项、MR 7项、CT 14项)利用影像组学评估HCC的早期研究,其中8项研究涉及生物学特征与影像学表现之间的关系,可归类为放射遗传学研究,指出放射组学仍是一个非常“年轻”的领域,但作为非侵入性方法在补充或替代肿瘤活检方面具有令人期待的前景。Ma等[16]研究表明,28个影像组学特征可以重建约80%的基因表达谱、约116个基因模型的变异。MR成像对于运动和磁化率等成像伪影更为敏感,同时MR影像可任意方位成像、软组织对比度高且可进行多参数成像,与数学、物理等方法结合可实现定量和定性分析。因此,MR组学研究也逐渐取得开拓性进展[17]。当前,相关研究主要聚焦于MR影像组学预测肝癌患者预后,通过评估肿瘤大小、信号、强化方式及组学特征,可以建立侵袭性肝癌的病理和基因组数据的预测复发性模型[18]。尽管HCC影像组学预测肿瘤生物学、分子谱、治疗后反应和结果的潜在效用已得证实[19],但如MRI成像采集方式的优化,分割和提取特征方法的验证,以及机器学习方法中的训练和测试尚需大样本影像学数据库的支撑。
笔者认为,当前人类对肝癌的认知仍处于不断完善与完整中,依赖专业知识转化为对应的计算模型具有一定局限性。肝炎、肝硬化背景下的HCC通过动态增强CT或MRI可作出相对准确的诊断,但其影像学特征易受主观性影响。影像组学可以用于个性化研究HCC影像数据与潜在的生物学行为的联系,然而,影像组学特征依赖于标准化的图像采集参数,而这些参数可能由于不同厂商的扫描仪硬件和软件而变化,因此,影像组学如广泛应用于HCC诊断和预后的临床实践中,流程、测量标准化,算法、分析方法共享,以及外部验证是十分必要的。
3.2 病灶分割 深度神经网络自动分割模型可以减少误差,优化时间和增加方法的标准化,其对肝脏影像自动化处理的先进方法包括对病变定位、分割、诊断、预后和治疗反应的预测,以揭示与临床病理结果的联系。比较传统算法,CNN在物体识别、分类等计算机视觉任务方面准确性更高[20],有研究[21]提出一种基于改进区域生长分割技术的肝脏三维自动分割方法,对正常肝脏、肝硬化和肝癌的三维分割的吻合系数分别为90%、86%和81%,而深度学习技术的肝脏三维自动分割方法的吻合系数分别为82%、78%和70%;健康与病变肝脏的标准差和峰度有统计学差异,应用logistic回归模型分类法分类准确率为92.5%;构建基于SVM分类器的肝硬化和肝癌的预测模型,分类结果显示按图像和患者的预测准确率分别为86.9%(精度为0.93,召回率为0.70)和80%(精度为0.86,召回率为0.75)。
深度神经网络自动分割模型可应用于分割肝脏与肿瘤[22]。Ouhmich等[23]使用神经网络U-Net成功分割健康肝组织和肝癌组织。U-Net是一种端到端的神经网络模型,连接层被扩展路径取代,扩展路径通过升级采样(提高特征映射的空间分辨率和恢复下采样操作中丢失的空间信息)和跳跃连接(用于从网络的追踪路径绕过更深层次的层传递信息)建立,该网络模型广泛应用于医学图像分析。有研究[24]利用多期增强MRI图像训练U-Net结构的深度CNN分割模型提取肝脏和HCC病灶,分割后的结果输入RF分类器进行分析,最后利用平均神经激活阈值降低假阳性率。在174例患者的231个病灶数据集上与临床医师标注的金标准比较,病例级和病灶级的重合率相似系数平均值分别为0.91/0.91(验证/测试)和0.64/0.68,结果证实深度CNN可自动分割肝脏和HCC病灶区域,支持临床应用LI-RADS方法。其中,重合率(Dice)通常被用作评估/度量标准,当分割结果区域与金标准标注区域完全不重叠时,Dice值为0,完全重叠时Dice值为1。
笔者认为,人工智能在影像学图像处理领域的应用已经从传统机器学习算法发展到深度学习架构。深度学习使用多层神经网络模型在对肝脏和HCC的影像分割、分类和病变检测中,CNN具有明显的优势。也要注意到当采用深层神经网络模型进行肝脏和HCC分割时,即使输入数据的微小变化,也可能导致不同的分类结果,因此需要人工复核,同时对医学图像分析和解释也是放射科医师的基本工作任务。
3.3 精准辅助诊断分级疗效评估 基于人工智能技术的肝癌辅助诊断应用发展迅速,用于肝硬化的早期检测将有助于控制其向HCC的进展[14]。近年来,基于机器学习的方法已被用于提高HCC的诊断性能。Nayak等[21]使用支持向量机构建分类模型,基于多期CT影像对肝硬化和肝癌的检测准确率达90%。与CT相比,MRI能更全面地评估肝脏病变[25],Jansen等[26]从DCT-MRI和T2WI序列中提取相关特征,结合临床危险因素数据并创建自动分类系统,将肝脏病变分类为腺瘤、囊肿、血管瘤、HCC和转移,其敏感度和特异度分别为0.80/0.78、0.93/0.93、0.84/0.82、0.73/0.56和0.62/0.77。Mokrane等[27]使用欧洲肝病学会指南将归类为不确定的肝结节随机分组,对增强3期CT数据提取13 920个定量影像学特征(12组、1160个特征),利用机器学习量化反映影像组学特以鉴别诊断肝癌,实验组与验证组的受试者工作特征曲线下面积(AUC)分别为0.70(95%CI:0.61~0.80)和0.66(95%CI:0.64~0.84)。
不仅如此,基于深度学习技术建立的HCC的CT人工智能辅助诊断系统,与放射科医师的诊断性能比较同样显示出优势[28]。评估深度神经网络模型辅助诊断HCC的分类性能的指标包括准确率、敏感度、特异度、曲线下面积和运算时间[29]。Oestmann等[29]研究表明,深度学习模型可更好鉴别HCC,尤其是非典型HCC影像学特征(不符合LI-RADS的LR-5标准和易于分级错误的非肝癌)。Vivanti等[30]报道了基于CNN的检测方法实现自动识别病变复发,输入包括CT影像上病变的初始表现、基线时肿瘤负荷量的定量和随访时间,对肿瘤复发的识别准确率达86%。Shi等[31]比较了基于CT的CNN模型与单独使用CT相比,区分肝癌与其他肝脏局灶性病变的敏感度和特异度更高。Hamm等[32]采用CNN在MRI对肝脏病变进行分类,准确率为92%,敏感度为92%,特异度为98%。Wu等[33]研究了CNN模型在多期MRI对LI-RADS分级的有效性,特别是在LR-3和LR-4/LR-5肿瘤之间的准确率为90%,敏感度为100%,AUC为0.95。Zhen等[25]开发了一种基于增强MR和临床数据的CNN,在诊断HCC、转移性肿瘤和其他原发性恶性肿瘤具有较高准确性,与病理符合率为91.9%。
笔者认为,CNN对肝癌诊断的准确性不仅与深度神经网络的性能有关,还要注意到与特定的标注数据集相关。当前的许多研究显示人工智能技术在HCC的诊断检出率高于放射科医师,但其复杂性和难以解释性对广泛应用带来了困难,这就需要通过前瞻性临床研究进行验证,同时还要考虑到人工智能辅助诊断HCC分类能力中运算时间以及临床的实用性。
3.4 HCC的分级 肝癌的病理分级是术后生存和复发的重要生物标志物。虽然影像学表现如瘤周强化、多灶性、边缘不规则和包膜破裂可被作为预测因素,但临床研究[34]表现欠佳,基于CT影像组学预测肝癌病理分级却显示出良好的性能(AUC=0.8)。Wu等[35]利用Lasso选择影像组学特征,结合临床特征(年龄、性别、肿瘤大小、AFP、乙型肝炎、肝硬化、门静脉血栓、门静脉高压和假包膜)构建混合预测模型,相较于仅利用临床特征构建的模型对肝癌分级术前预测性能更优。
MVI在HCC中被认为是预测不良生存率和肿瘤切除术后复发的重要指标,术前预测HCC的MVI对手术策略具有重要意义。目前只能通过术后组织病理学明确诊断,限制了MVI的应用。随着肝胆特异对比剂的应用,越来越多的研究基于Gadoxetate-disodium增强MR组学用于HCC的MVI术前预测[12]。通常在MR肝胆期图像上人工标记瘤内和瘤周的感兴趣区域,用于机器学习特征提取和特征筛选,再定量评价MR增强的瘤内和瘤周区的影像学特征,为预测HCC的MVI提供了有效的影像组学模型[12]。有研究[36]利用机器学习方法对Gadoxetate-disodium增强MR表现(T1弛豫时间、肿瘤边缘、肿瘤大小、瘤周强化、瘤周低信号、ADC值),结合Lasso特征筛选出的影像组学特征,并利用SVM、XGBoost和logistic模型分类器分别构造基于影像组学的模型预测HCC的MVI,AUC分别为0.942、0.938和0.936,基于影像组学的方法预测MVI显示了更高的准确率,可作为评估MVI的潜在生物标志物。
笔者认为,以Gadoxetate-disodium为代表的肝胆特异度对比剂在HCC的MRI诊断中达到了非常高的诊断准确性。肿瘤周围区域分析有证据表明MVI是发生在肿瘤周围而不是肿瘤内部。为进一步了解临床病理特征之间的相互作用,有待于深入进行大样本研究肿瘤周围区域的定量特征,实现更精准预测肝癌的分级和术前MVI。
3.5 HCC疗效评估 HCC 的异质性具有不同的表型和基因型,可表现出不同的侵袭性,对手术、介入、放疗和靶向药物治疗反应不同[37]。传统的线性模型评估肝癌的预后有相当大的局限性[38-39]。相比较而言,人工智能应用在预测肝癌的治疗预后等方面具有更高的准确性,可以预测HCC复发、治疗反应及长期总生存率[40]。特别是在分析相对较少的HCC数据时,深度学习技术已经被用来识别影响HCC预后的差异。有研究[41]通过提取HCC的CT动脉期表现,同时结合临床风险因素,用Lasso &Cox模型的影像组学特征能将患者预测为高风险和低风险。
在临床实践中,BCLC 分期系统是最为广泛接受的,然而在患者中,即使同一阶段依然存在高变异性及肿瘤异质性,使得肝癌的预后评估和治疗管理非常具有挑战性。因此,人工智能技术可以为决策过程提供客观支持。研究[42]表明,CT影像组学分析技术构建的两种模型预测肝癌切除术后复发,术前模型包括放射学特征和术前(AFP、Alb、胆红素分级和肝硬化);术后模型包括术前数据和病理结果(肿瘤边缘和卫星结节),2种模型均有较高的预后性能并显示出3种不同复发模式的危险因素,可辅助手术策略制定以及个性化复发监测。Zhang等[43]研究术前使用肝胆特异度对比剂,对肿瘤及其周围组织和非肿瘤实质进行放射学特征分析,预测手术切除的肝癌患者的总体生存率,其中非肿瘤组织评分预后最好(C-index=0.72),提示肝脏背景是预后的重要因素;此外,临床结合放射学预测因子(BCLC分期、非平滑肿瘤边缘)建立的模型对生存结果具有更佳的预后表现(C-index=0.84)。
根据BCLC指南,外科切除、消融术和肝移植是针对早期(0~A期)的根治性治疗方法,对于不适合手术治疗的患者,射频消融(radiofrequency ablation,RFA)是早期肝癌的治疗选择。Yuan等[44]将消融术后无复发生存期作为终点,从184例接受RFA的HCC患者的3期CT图像中提取放射学特征并选择20个作为Lasso &Cox模型的输入生成影像组学特征,其中门静脉期影像组学模型有较高的预测性(C-index=0.736),结合临床病理特征的组合模型有更高的预测性(C-index=0.755),最后利用多组学特征构建列线图显示1、2和3年的无复发生存率。与大多数基于术前影像的模型不同,Shen等[45]对切除或消融后(1个月内)的CT进行训练,用随机森林方法和多变量logistic模型提取了34个差异特征,建立的模型在早期检测中的性能优于AFP水平(AUC分别为0.89和0.63),证实该模型在肝癌患者切除或RFA术后随访中的潜在作用。
TACE是无法切除肿瘤的中期肝癌的治疗方法,但这种疗法的术后反应非常不稳定。因此,预测TACE治疗的反应有助于选择哪些患者可以从TACE治疗中获益最大。Abajian等[46]应用机器学习技术于临床信息、成像基线和治疗特征训练LR模型和RF模型预测TACE的疗效,结果发现,LR和RF模型预测TACE治疗反应的总体准确率为78%(敏感度62.5%,特异度82.1%,阳性预测值50.0%,阴性预测值88.5%),治疗反应的最强预测因子包括临床变量(是否存在肝硬化)和影像变量(相对肿瘤信号强度>27.0)。使用Lasso和回归模型预测术后生存和复发,低影像组学评分(表现出侵袭性癌症的特征,如AFP高水平、肿瘤较大、有血管浸润)与较短的术后生存期和复发显著相关,基于影像组学的列线图具有良好的生存预测准确性(C-index=0.71),此外,在加入TNM和BCLC分期后,C-index进一步增加,表明该模型可能是对传统阶段系统的补充。PENG等[47]训练CNN对3个不同中心的HCC的CT图像预测对TACE的反应,模型对完全反应、部分反应、稳定性疾病和进展性疾病预测的准确率分别为0.97、0.96、0.95和0.96,准确率为84.3%。考虑到在选择同时使用TACE和索拉非尼联合治疗时可抑制TACE诱导的血管内皮生长因子上调,其疗效仍存在争议。Zhang等[48]通过CNN模型对使用TACE和索拉非尼治疗HCC的CT图像预测总体生存率,根据临床和深度学习特征经生存分析后建立组合列线图,结果显示,深度学习特征在训练集和验证集均预测性能良好(C-index=0.717、0.714),组合列线图预测性能显著优于临床列线图(C-index训练集0.739 vs 0.664,验证集0.730 vs 0.679),深度学习特征对组合列线图具重要价值,而组合列线图可作为预后预测和确定患者受益TACE联合索拉非尼治疗的潜在工具。
笔者认为,人工智能模型可以通过分析临床与肿瘤的特征,进一步强化了预测HCC术后复发或术后生存率的优越性,即使在较小规模的研究中仍可获得优秀的结果。对于数据结构良好或特性定义明确的问题,简单的机器学习如LR、SVM和RF有效且更容易应用。
人工智能技术为肝癌的精准诊疗和个体化研究带来新的机遇,当前以深度学习为主要研究方向的人工智能的快速发展,推动研究者从假设驱动型研究转向数据驱动型研究。深度学习作为一种功能强大的人工智能技术,可以大幅提高病灶检测、识别和分类任务的效能,已应用于多种模态医学影像科研与实践中。同时也要认识到人工智能技术在影像医学领域的局限性:大多数研究为回顾性数据分析,可能存在潜在的选择偏差;人工智能算法的标准化程度不一和成像采集参数的可重复性会影响算法的泛化性能,导致模型的应用推广困难;许多机器学习尤其是深度学习模型缺乏可解释性,如何有效利用人工智能技术辅助临床医师进行诊断仍然具有挑战性。
当前,临床需求的增长与诊疗技术的快速进步对放射科医师提出了严峻的挑战。一方面,临床医师需要学习如何利用和掌握人工智能技术并应用到临床工作中;另一方面,临床医师要与人工智能研发人员和统计学专家一同开展更大规模前瞻性多中心研究,不断提高人工智能的准确性和性能。而人工智能的实际临床应用结果仍然是衡量其价值的重要标准,目前最大的挑战在于医工联合团队如何识别放射学中哪些特定的临床任务最有可能受益于人工智能算法以及人工智能最终会适用在放射学实践中的各种临床应用场景。
利益冲突声明:所有作者均声明不存在利益冲突。
作者贡献声明:刘一萍、李新平、夏金菊、宋凯荣负责文献收集与总结;陈磊、刘婉敏及贾宁阳负责文章攥写及修改。