刘小芳,汪清华,杨洪安,肖琼,廖建,高阳,谭永明
肝细胞癌(hepatocellular carcinoma,HCC)是最常见的原发性肝癌,其发病率有逐年增加的趋势[1,2]。目前手术治疗是其主要治疗方法[3]。然而HCC患者的5年总体生存率只有18%,术后复发和转移仍然是HCC患者预后差的主要原因[2,4,5]。
HCC微血管侵犯(microvascular invasion,MVI)的定义为在显微镜下发现肝脏微血管内有癌细胞巢[6]。大量研究表明,MVI是HCC复发和患者总体生存率低的独立预测因子[7-9]。基于HCC患者的术前MVI状态选择适合的治疗方案是降低HCC复发的有效方法,扩大切除范围以及辅助治疗或靶向治疗可以通过根除微小癌灶的转移来显著提高MVI阳性患者的生存率[10-11]。因此,术前准确预测MVI状态对手术决策和选用其它辅助治疗策略以改善患者预后具有重要的临床意义。然而,肿瘤内部的异质性导致术前活检对于MVI的诊断并不可靠,准确评估目前只能依赖于术后样本的组织病理学检查[9,12]。近年来,许多研究试图从临床资料及影像学表现中探寻术前预测MVI状态的生物标记物,研究的临床指标如肿瘤大小、数量和甲胎蛋白等,但这些参数的预测效果欠佳,影像学特征如不规则边缘、瘤周增强等相对优于临床参数的预测效果,但整体效果亦欠佳[12-15]。
放射组学(Radiomics)可定量提取图像的特征信息并应用于临床决策支持系统,能提高疾病鉴别诊断能力和预后预测的效能[16-17]。放射组学已在恶性肿瘤亚型分类及预后预测中取得了较好的效果[18-20]。已有研究者将放射组学应用于HCC患者MVI状态的预测,如刘畅等[21]采用CT增强放射组学特征、临床参数结合影像学常规征象的方法来构建MVI预测模型,预测效能一般,但CT图像序列少、提供的信息相对单一。Chong等[22]基于Gd-EOB-DTPA 增强MRI进行放射组学特征的提取和建模,但其构建模型时使用的算法单一,降低了模型的适用范围。我们的假设是,基于Gd-EOB-DTPA增强MRI及临床参数建立的多种机器学习模型应该能够更加全面地对肝癌患者的MVI状态进行预测。基于此,本研究通过建立并验证包含Gd-EOB-DTPA增强MRI的多参数、多序列影像组学机器学习模型,旨在探讨影像组学结合人工智能技术在预测HCC患者术前MVI状态方面的临床应用价值。
1.研究对象
本项回顾性研究得到了本院机构审查委员会的批准,系回顾性研究,免除了需签署书面知情同意书的要求。
将2020年3月-2021年9月在本院经手术病理证实的130例HCC患者纳入此项研究。其中,男112例,女18例,平均年龄(53.96±10.02)岁。纳入标准:①术前行Gd-EOB-DTPA增强MRI检查,影像资料完善;②术前影像学检查显示患者无明确的肝内血管侵犯、胆管或血管内癌栓形成及肝内外转移灶等表现;③无其它肝脏疾病(肝切除术、肝脏移植、放化疗、射频消融、经动脉化疗栓塞术、射频消融术和免疫抑制治疗等)治疗史;④有完整的术前实验室检查及术后组织病理学检查结果。研究对象筛选及分组流程如图1所示。
图1 研究对象流程图。
2.MRI扫描方法
使用Siemens Magnetom Trio Tim System 3.0T磁共振扫描仪,扫描序列主要包括横轴面FS-T2WI、DWI(b=0和800 s/mm2)和三维容积T1WI序列四期DCE-MRI,各序列具体扫描参数详见表1。增强扫描使用的对比剂为钆氧酸二钠,剂量0.025 mmol/kg,动脉期(arterial phase,AP)、门脉期(Portal venous phase,PVP)、平衡期(transitional phase,TP)和肝胆期(hepatobiliaryphase,HBP)的延迟时间分别为20~30 s、60~70 s、180 s和20 min。
表1 主要MRI序列的扫描参数
3.实验室检查及组织病理学检查
本研究采集的术前常规实验室检查指标包括丙氨酸氨基转移酶(alanine aminotransferase,ALT)、天门冬氨酸氨基转移酶(aspartate aminotransferase,AST)、血清总胆红素(serum total bilirubin,TB)、结合胆红素(conjugated bilirubin,CB)、血清白蛋白(se-rum albumin,ALB)、γ-谷氨酰转移酶(γ-glutamyltransferase,γ-GLU)、碱性磷酸酶(alkaline phosphatase,ALP)、谷胱甘肽还原酶(glutathione reductase,GR)、甲胎蛋白(serum alpha-fetoprotein,AFP)、癌胚抗原(carcinoembryonic antigen,CEA)、糖类抗原(carbohydrate antigen,CA)12-5、CA19-9、凝血酶原时间prothrombin time,PT)、活化部分凝血活酶时间(activated partial thromboplastin time,APTT)和纤维蛋白原(fibrinogen,FIB)。
所有患者在MRI扫描及常规实验室检查后的两周内行肝脏肿瘤切除术,所有标本采用7点基线采集法进行采集[9]。由一位病理科医师对标本特征进行评估,并由另一位资深病理科医师进行审核,评估特征包括肿瘤大小、数目和分化程度、MVI有无及等级、肝纤维化分级。MVI阳性标准为高倍显微镜下发现微血管内有癌细胞巢,其中每个高倍显微镜视野下在1~5个血管内看到癌栓或癌巢,定义为M1期,6个及以上血管内可见癌栓或癌巢为M2期。
4.常规影像学评估
由两位放射科医师在各序列MRI图像上对HCC的常规影像学特征进行评估,意见不一致时由第三位放射科医师加入讨论,最终达成一致意见。评估的特征主要包括肿瘤最大直径、肿瘤边缘是否光滑、是否存在假包膜、动脉期是否有瘤周增强、肿瘤的生长模式、瘤内有无坏死、出血和静脉侵犯征象(radiological signs of venous invasion,RVI)。
借鉴Banerjee等[23]基于CT特征构建的预测MVI的RVI简易模型,我们定义基于MRI特征的RVI必须满足以下条件才可被判定为阳性:①静脉期肿瘤内部可见持续强化的血管影;②可观察到部分或完全包围肿瘤的瘤周低信号带;③在没有②中描述的情况时,肿瘤与邻近肝实质之间有局灶性明显强化差异。
5.影像组学分析
将所有患者按照7︰3的比例随机分为训练集(n=91)和测试集(n=39)。放射组学工作流程如图2所示,主要包括图像预处理、肿瘤分割、特征提取和筛选、模型的构建和评价等步骤。除肿瘤分割外,所有放射组学分析均使用python3.7.1软件(https://www.python.org)来完成。
图2 影像组学分析流程图。
首先,对7个序列(T2WI、DWI、ADC、AP、PVP、TP和HBP)的肿瘤原始图像进行重采样、灰度值标准化以及灰度离散化,使所有同序列的图像转化为层数和分辨率相同的标准化图像格式,且灰度值在μ±SD范围内(其中μ为容积ROI内的平均灰度值,SD为灰度值的标准差)。
随后,采用3D-slicer 4.11软件(https://www.slicer.org)对肿瘤进行分割。具体方法为分别在每个MRI序列的横轴面图像上,沿肿瘤的边界逐层勾画ROI,软件即可重建出肿瘤的容积感兴趣区(volume ROI,VOI)。肿瘤的分割由两位经验丰富的放射科医师独立完成,他们对患者除肿瘤位置外的临床病理信息均不知情。
特征提取使用python3.7.1中的pyradiomics软件包(http://www.radiomics.io/pyradiomics.html),从训练集中每个序列图像上每个病灶的VOI中共提取107个影像组学特征,包括肿瘤形状、大小、纹理等类型的特征,每个特征的具体介绍见于官网https://pyradiomics.readthedocs.io/en/latest/index.html。信度评价采用组内相关系数(ICC)。选择观察者内和观察者间ICC值均大于0.9(表明稳定性良好)的组学特征进行后续研究。首先,对每个序列提取的各项特征值进行标准化,标准化公式为:
(1)
其中 是某特征n的值, 是所有特征的平均值。然后,采用两独立样本t检验对所有组学特征在MVI+组与MVI-组之间的差异进行分析,筛选出在两组间差异具有统计学意义(P<0.05)的组学特征;最后,使用最小绝对收缩和选择算法(least absolute shrinkage and selection operator,LASSO)进一步对组学特征进行筛选(图3),获得每个序列的最优组学特征。
6.预测模型的构建、验证和效能分析
在训练集中,基于7个序列的最优影像组学特征,使用核函数为linear的支持向量机(support vector machine,SVM)方法进行各序列影像组学建模,采用五折交叉验证合并网格搜索技术对模型的参数“gamma”和“C”进行优化,选出在训练集中表现最佳的参数组合,并在测试集中使用AUC、敏感度和特异度等指标验证每个序列组学模型的预测效能。为了综合每个序列的优秀特征,我们将所有从单序列中提取出的用于建模的最佳特征集合后再次采用LASSO进行特征筛选,然后采用上述的SVM建模方法建立多序列联合模型。用于构建各模型的最终特征见表1。为了定量分析HCC患者发生MVI的相对风险,SVM模型的输出结果被转换为概率分数,定义为R评分,其取值范围为0~1。
最终的综合模型为多类型变量共同构建的模型,包括基于组学模型的R评分以及上述步骤中筛选出的实验室指标和常规影像学特征,模型构建方法包括随机森林(RF)、支持向量机(rbf-SVM)、逻辑回归(LR)和XGBoost四种,建模过程中与计算R评分时相同,在训练集中使用五折交叉验证及网格搜索进行参数调优并挑选出表现最佳的模型,然后在测试集中对模型的效能进行评估,评估方法包括ROC曲线和模型校准曲线。
7.统计分析
分别采用python4.1.2、R4.1.2和IBM SPSS Statistics 23.0软件进行统计学分析。实验室检查指标和常规影像学特征的比较和筛选在SPSS 23.0软件中完成,若特征/指标为连续性变量且呈正态分布时采用独立样本t检验,若呈非正态分布时则采用Mann-WhitneyU检验,若特征/指标为非连续性变量时采用卡方检验或费希尔精确检验,当变量的组间差异有统计学意义(P<0.05)时做为建模特征。组学分析前,通过R4.1.2软件(https://www.r-project.org/)中的irr程序包计算组内相关系数(ICC)来判断特征/指标的测量值的可重复性,仅保留观察者间 ICC 值大于0.75的影像组学特征进行后续的分析和处理。后续建模及模型评估在python4.1.2软件中完成,包括模型的效能评估主要通过在训练集和测试集中进行ROC曲线分析并计算AUC来量化,并在测试集中进行内部验证;此外,还采用校准曲线来分析模型的准确性,计算每个模型的布尔分数。以P<0.05为差异具有统计学意义。
1.临床资料及影像学特征的比较
130例HCC患者均接受了HCC病灶切除术,经病理检查诊断为MVI阳性者共64例。MVI阳性组和阴性组的基本临床资料及实验室检查指标的差异性分析结果详见表2。其中,MVI-组的肿瘤细胞分化程度明显好于MVI+组,且MVI-组的AFP水平显著低于MVI+组,而年龄、性别及肝功能指标等实验室指标在两组间的差异无统计学意义(P>0.05)。
表2 MVI阳性组和阴性组基本临床资料的比较
两组患者常规影像学特征的单因素分析结果见表3。结果表明,MVI+组的最大直径>5 cm、肝外生长模式、瘤内出血、动脉期瘤周增强和RVI等征象的出现率显著高于MVI-组,差异有统计学意义(P<0.05);但两组之间在结节数量、瘤周是否光滑、瘤内坏死及是否存在假包膜等征象方面差异无统计学意义(P>0.05)。故将AFP、最大直径、肝外生长模式、瘤内出血、动脉期瘤周增强和RVI纳入后续建模。
表3 MVI+组与MVI-组表观影像学特征的比较
2.单个和多序列影像组学模型的预测效能
基于MRI各序列的影像组学模型在训练集和测试集中术前预测MVI的效能指标值详见表4。根据在训练集和测试集中的表现,我们发现单个和多序列影像组学模型中,多序列联合组学模型(MS)的各项效能指标(包括灵敏度、特异度及AUC)均远远大于其他单序列组学模型,故将每个患者的基于多序列联合组学模型计算出的预测概率值作为概率得分(Radscore),并将Radscore用于后续综合模型的构建。
表4 各序列影像组学模型在训练集和测试集中对MVI的预测效能
3.综合模型的预测效能
基于上述各步骤的研究结果,最终将R评分、AFP、肿瘤最大直径、肿瘤生长模式以及RVI作为预测因子,分别采用4种机器学习算法(RF、rbf-SVM、LR及XGB)构建综合模型,共构建了4个综合模型;作为对照,本研究中还构建了一个AFP模型和一个常规影像学模型(SVM线性核)。6个模型预测MVI的效能指标至详见表5。各模型在训练集中均表现优异(图4);在测试集中,rbf-SVM综合模型的AUC最高(0.939,95%CI:0.973~1.000),RF模型的敏感度最高(AUC:0.968,95%CI:0.920~1.000),四个机器学习模型的特异度相近。校准曲线评估表明,4个机器学习模型在预测与观察到的MVI之间均具有良好的一致性(图5),其中以RF模型的预测曲线与实际曲线拟合最好(Brier分数=0.040)。
表5 各模型预测MVI阳性的效能
图3 通过LASSO回归算法进行放射组学特征的筛选。a)多项式偏差与对数(λ)的比值。红点表示给定λ的每个模型的平均偏差值,垂直线是使用最小准则在最优值处绘制;b)影像组学特征的LASSO系数图,每条彩色线代表每个特征的系数随λ变化的曲线,其中12个特征在λ=0.03556时具有非零系数。 图4 不同模型预测MVI的ROC曲线。a)训练集;b)测试集。 图5 不同模型在测试集中的校准曲线及Brier分数。各模型的校准曲线与完美校准曲线(即45°对角线)均较为贴合,从Brier分数来看,随机森林模型得分最少,说明其概率预测更准确。
本研究基于Gd-EOB-DTPA MRI及大量临床数据,建立了多种用于预测HCC患者术前MVI状态的影像组学模型,统计分析结果显示,AFP>400 ng/mL、最大直径>5 cm、肝外生长模式、瘤内出血、动脉期瘤周增强、RVI及R评分较高是MVI+的独立危险因素,其中R评分的影响权重最大,构建R评分的特征来自于T2WI、DWI、ADC、AP、PVP、TP、HBP七个序列的图像。我们基于不同的算法,将这些独立危险因素构建了RF、LR、SVM和XGB四个多因素综合模型,与单因素模型相比,每个综合模型均表现出优异的预测效能,其中以SVM模型的AUC最高。
大量研究结果表明影像组学技术是多种疾病诊断及分类的重要技术,但其是否能够真正运用于临床仍需要大量的实验论证[18,21,24]。以往的MVI影像组学分析中多基于CT及超声的增强图像来进行特征的提取[21,25,26],而本研究中是基于动态增强等多序列MRI图像。根据National Comprehensive Cancer Network(NCCN)和American Association for the Study of Liver Diseases(AASLD)发布的最新诊疗指南,DCE-MRI诊断HCC的敏感性、特异性及准确性均高于动态增强CT及超声造影[27,28]。此外,MRI技术还具有多序列、多种数据后处理方法的优势,可以反映肿瘤的解剖和功能信息,理论上而言,可以提供较CT更多的信息。
我们对每个序列构建了一个单独的线性SVM影像组学模型,然后采有相同方法结合各个序列的最佳组学特征构建了多序列联合模型,统计分析结果显示,多序列模型的预测效果明显优于任一单序列模型,这与焦琳琳等[21]的研究结果一致。
在疾病的诊断及预后评估中,概率估计通常结合从个体中观察或测量到的多个预测因子的信息,来自单个预测器的信息往往不足以提供可靠的诊断或预后评估[29,30]。所以为了给予模型足够全面的预测信息,我们搜集了HCC患者的术前实验室检查指标,经统计学分析发现AFP为MVI的独立预测因子,但其单独的预测效能不佳,这与即往Lee等[7]的研究结果基本一致。另外,癌细胞的分化等级与MVI状态明显相关,可能是由于分化程度低的癌细胞侵袭性相对大,容易侵入微小血管,从而导致MVI。与之前的研究结果[21,22]不同的是,本研究中发现年龄及AST并非MVI的独立预测因子。笔者认为目前的研究中上述结果的不一致可能与人群特征或成像和测量方法的差异有关。除此之外,我们还发现肿瘤最大直径>5 cm、肝外生长模式、瘤内出血、动脉期瘤周增强和RVI也是MVI的独立预测因子,这与Ni[31]等的研究结果是一致的。本研究中定义的RVI是根据Banerjee等[23]研究中基于动态增强CT构建的预测MVI的简易RVI模型而来,但其预测效果不及他们的模型(符合率0.886,敏感度0.761,特异度0.938),其原因可能是相对于MRI而言,动态增强CT更适合用来判断RVI,具体原因需要进一步的实验分析和论证。
在以往的MVI放射组学研究中,在构建多因素模型时往往仅采用一种或两种算法,如Xu等[21]使用多元逻辑回归模型,Chong等[22]使用逻辑回归和随机森林模型,Jiang等[25]使用了一个XGBoost模型和一个深度学习算法中的三维卷积神经网络算法。Ni等[31]研究发现,不同的降维方式和建模方法对放射组学模型的效能有较大的影响,故本研究中采用了随机森林、支持向量机、多元逻辑回归以及XGBoost四种机器学习算法构建综合模型,旨在从中选出最适合预测MVI的模型。结果表明四种多因素综合模型的MVI预测能力均高于任何一种单因素模型,且不同的模型的在不同的效能特性上各有优势。RF模型的敏感度最高,有利于减少对MVI+患者的漏诊率,而其Brier分数最低,表明在判断患者的MVI状态时较其它模型的可信度更高;SVM模型的AUC最高,表明其预测的综合能力强;在特异性上,所有模型的表现几乎一致。多种模型的组合使用使得临床医师在判断HCC患者的MVI状态时能够取长补短、综合分析,从而实现更加精准的临床决策。
本研究存在几点局限性:首先 ,本研究中的数据来自同一中心,因此需在后续研究中加入其它医疗中心的图像资料,以更好地验证并提高模型的可靠性和普适性;其次,本研究为回顾性研究,研究对象可能存在潜在的选择性偏倚[32];第三,本研究中并未如Segal等[33]的研究中那样,将放射组学与基因组学结合起来分析,这可能是进一步研究的方向;最后,由于各种条件的限制,患者的随访资料没能搜集完整,故本研究中并未能将患者的实际预后纳入分析,只停留在了MVI的诊断阶段。
综上所述,我们在HCC患者的术前多模态MRI及各种临床指标的基础上构建预测模型,用于预测HCC患者的MVI状态,结果表明每种模型具有良好的准确性和较高的预测价值,通过联合临床指标、常规MRI征象及组学特征构建的多参数机器学习模型模型,可以帮助临床医师制订个体化的治疗方案。