刘增建 杨帆 张滨 徐井旭 黄陈翠 李万兰 唐美荣
肾透明细胞癌(Clear cell renal cell carcinoma,ccRCC)是肾细胞癌(Renal cell carcinoma,RCC)占比最多的亚型(约70%),此外,ccRCC 是恶性程度高、预后差、死亡率最高的亚型[1~4]。世界卫生组织/国际泌尿病理学会(WHO/ISUP)分级系统根据核仁突出情况进行分级,核等级不仅可以反映ccRCC 侵袭性,也可作为ccRCC 预后的重要指标[5]。术前经皮穿刺活检因肿瘤本身异质性存在取样偏差,其结果的准确性和代表性受到限制。影像组学作为新兴的且非侵入性诊断及评估方法,对传统医学影像图像进行分割、特征提取,量化分析图像异质性,客观地实现临床在术前预测肿瘤类型与病理分级[6]。
本研究旨在探讨利用传统CT 平扫图像构建影像组学术前模型预测ccRCC WHO/ISUP分级的价值,并寻求构建高准确度的预测模型。
1.1 一般资料 回顾性分析我院收治且符合以下标准的研究对象资料。纳入标准:①术后病理证实为ccRCC 的患者;②术前进行肾脏CT 平扫检查;③术前未进行穿刺活检及其他抗肿瘤相关治疗。排除标准:①术前2 周以上CT 平扫检查;②CT 层厚未达5mm;③CT 平扫图像资料不全或存在伪影,或图像质量不能满足诊断和校准要求。201 例患者共203 枚病灶纳入研究,其中男136 例,女65 例,年龄27~83 岁,平均(55.6±12.4)岁。
1.2 病理学分组 纳入研究病例术后组织病理切片均进行HE 染色,并由两名泌尿系肿瘤诊断病理科医师(7年和11年诊断经验)复阅,依据2016 版肾癌WHO/ISUP 分级标准,对病理学切片进行重新诊断、分级[5]。根据患者不同预后结局[5]分为低级别组(Ⅰ~Ⅱ级)和高级别组(Ⅲ~Ⅳ级)。
1.3 扫描方法 使用螺旋CT 进行数据采集,范围为膈顶至耻骨联合,具体机器型号、扫描参数和扫描病灶数,见表1。
表1 CT 扫描机参数与扫描病灶数
1.4 CT 图像分析与特征提取 将所有CT 平扫数据导入Deepwise 科研平台(深睿医疗),逐层手动勾画ccRCC 病灶轮廓,产生3D 肿瘤感兴趣区(Region of interest,ROI),3D-ROI 病灶内坏死、囊变、包膜及钙化区域;为了提高CT 图像分割时的准确性,所有病灶近肾盂侧边缘均参考同期排泄期,远肾盂侧边缘的确定均参考同期皮质期图像。为避免部分溶剂效应干扰,3D-ROI 外缘在病灶边缘以内1~2mm。由两名放射科医师(6年和15年诊断经验)分别对CT 平扫图像进行靶区分割,并提取影像组学特征;21d 后,由低年资医师再次对上述患者提取影像组学特征,并且计算观察者间及观察者内相关系数(ICC)。为避免不同扫描CT 仪器中不同参数设置造成的灰度不均匀性,在进行特征选择之前对所有CT 扫描图像进行归一化处理,所有CT 扫描图像在三个方向上重新采样至5mm 分辨率,以标准化患者的体素大小;为使每个区域提取表征肿瘤强度和结构的放射学特征,对肿瘤区域进行8 个方向的小波变换。处理后的特征均值为0,方差为1。
影像组学特征包含基于10 种图像预处理(原始、小波变换、LoG、Square、SquareRoot、Logarithm、Exp-onential、Gradient、LBP2D、LBP3D)的7 类共2 107 个特征,包含一阶特征、形状特征、灰度相依矩阵特征、灰度共生矩阵特征、灰度游程矩阵特征、灰度区域矩阵特征(GLSZM Features)及邻域灰度差分矩阵特征。
1.5 模型构建 利用Pearson 相关系数(Pearson correlation coe-fficients,PCC)构建相关矩阵,以此降低影像组学特征之间的冗余性。当训练集上任意两个自变量之间的r>0.95时,将剔除其中的一个特征,优先保留和因变量的线性相关系数较高的特征。使用十折交叉验证法进行分类判别,进行10 次循环,以便于每个部分数据均可用于训练模型。分别使用5 个分类器(SVM、Decision Tree、XG Boost、Linear SVC、Logistic Regression)对筛选出来的特征值进行分类并建立模型。通过超参搜索,寻找当前模型较优的特征筛选(降维)算法及其参数,从而得到较好的结果。基于方差分析的特征筛选(ANOVA F-value),具有显著性差异的特征被认为对分类具有较高区分度,将被保留。特征选择参数为1%。
1.6 统计学分析 采用R 语言统计分析软件进行数据统计分析,对基于CT 平扫图像提取的影像组学特征进行两独立样本Mann-Whitney U 检验,从而获取对鉴别低级别和高级别ccRCC 差异有统计学意义的特征集。计数参数比较采用χ2检验。P<0.05 为差异有统计学意义。采用受试者工作特征(ROC)曲线及校准曲线对不同组别模型分类效能进行评价,参数值为对应曲线下面积(AUC)、敏感性、准确度、精确度及特异性。模型校准度的评价使用Hosmer-Lemeshow 拟合优度检验。对测试集影像组学评分的预测模型采用决策曲线分析不同概率阈值下的患者净获益。
2.1 一般资料 WHO/ISUP 低级别组147 枚(Ⅰ级55 枚,Ⅱ级92 枚),其中男98 枚,女49 枚,患者平均年龄(55.8±11.7)岁,左肾68 枚,右肾79 枚;高级别组病灶数为56 枚(Ⅲ级34 枚,Ⅳ级22 枚),其中男39 枚,女17 枚,患者平均年龄(54.9±14.2)岁,左肾26 枚,右肾30 枚。两组年龄、性别、发病部位及病理分级比较差异无统计学意义(P>0.05)。本研究中观察者间组间ICC 为0.85,观察者内ICC 为0.92,手工标注图像一致性较好。
2.2 特征选择及模型特征 经过一系列智能调整参数,查询各种参数组合获取的人工智能模型中,基于L1 正则化的特征筛选项C=0.4504,当常量不添加至决策函数时,二分类模型——逻辑回归(Logistic regression,LR)模型在训练集十折交叉验证所得平均AUC 值最高。本实验中,采用观察者间和观察者内相关系数评判一致性(ICC ≥0.75),首先初步保留了1 995 个特征(ICC:0.7581~0.999),在经过PCC 的选择后,保留483 个独立并相关性强的影像组学特征。在LR 模型中,通过监督学习来估计模型参数,最终筛选出5 个非零回归系数的与ccRCC 病理等级强相关的预测特征,模型方程为:Logit=0.3487×[original_shape_Maximum2DDiameterSlice(最大2D 直径)]+0.6251×[log-sigma-5-0-mm-3D_glszm_ZoneEntropy(区 域 熵)]+{(-0.6138)×[logsigma-4-0-mm-3D_gldm_DependenceVariance(相关方差)]}+0.0471×[log-sigma-4-0-mm-3D_glszm_GrayLevelNonUniformity(灰度不均匀性)]+0.7139×[squareroot_firstorder_Mean(平均值)]+(-0.5675)。训练集、测试集Hosmer-Lemeshow 拟合优度检验结果表明,该预测模型均有较好的校准度(χ2=5.364,P=0.718;χ2=12.471,P=0.104)。
在本研究中LR 分类模型里,最终提取5 个高权重特征参数,并且根据上述5 个特征及系数的线性加权建立影像组学标签,得出每例患者的Radscore。其中低、高级别影像组学风险评分在训练集分别为(-1.59±1.89)分和(1.94±2.75)分,差异有统计学意义(t=-6.752,P<0.05)。低、高级别影像组学风险评分在测试集分别为(-2.14±2.12)分和(1.65±2.12)分,差异有统计学意义(t=-4.621,P<0.05)。此时,该模型训练集预测高级别ccRCC的准确度为82.35%、精确度为63.51%,最佳点的敏感性和特异性分别为83.93%和81.76%,AUC为0.893(95%CI:0.8479~0.9381);对应的测试集准确度为79.9%、精确度为60.27%,最佳点的敏感性和特异性分别为78.57%和80.41%,AUC 为0.864(95%CI:0.8106~0.9174),见表1。训练集与测试集ROC 曲线(见图1、2)。根据临床应用,LR 模型的决策曲线(见图3)体现出较好的性能。当训练集中高级别ccRCC 的阈值概率在0~0.89 之间或测试集中在0~0.97 之间时,影像组学预测ccRCC 病理分级可使患者净获益。通过影像组学标签绘制能够预测ccRCC 病理分级的诺模图(见图4)。
表1 训练集与测试集模型指标
图1 LR 模型训练集ROC 曲线
图2 LR 模型测试集ROC 曲线
图3 影像组学模型在训练集和测试集ccRCC 患者中的决策曲线
图4 ccRCC 病理分级预测诺模图
CTU 是肾透明细胞癌术前早期诊断和评估的常用影像检查手段之一,但CT 平扫较增强图像获取更加便捷和经济,对于CT 增强禁忌证患者也具有优势,但从CT 平扫图像获取的常规影像特征在精准诊断和评估ccRCC 病理分级中存在风险,且存在相应主观性和低特异性[7,8]。目前有学者基于CT增强图像的影像组学构建ccRCC WHO/ISUP 分级(或Fuhrman 分级)的预测模型[9~11],虽然对比剂浓度和注射流速固定,但根据患者体重计算对比剂用量,肾灌注的个体差异因素未被消除,影响数据一致性,此外,镜下肿瘤血管分布的评估与病理核分级没有明显相关性,目前基于CT 增强影像组学结果分析缺乏相关医学解读,因此,基于CT 平扫影像组学预测ccRCC WHO/ISUP 分级更具有相对的合理的医学逻辑解释。
本研究采用手动跟踪分割病变的轮廓,为尽量避免主观性偏差,参照皮质期和排泄期,逐层确定ROI,获取全肿瘤3D-ROI,以便更好地全面获取肿瘤生物学特点的图像。在实验中,采用观察者间和观察者内相关系数≥0.75 评判一致性,最终筛选出5 个最有价值的影像组学特征,这些特征均为不容易被肉眼识别的高维特征,其可能获取肿瘤的异质性信息,从而对治疗评估更加敏感。
本研究的5 个分类器通过智能调参状态下,比较多个人工智能模型的分类性能后,确定采用LG模型。通过10 次十折交叉验证法进行分类判别,在交叉验证得到代价函数最小时的λ 值,测试模型就更加接近理想模型,实现了自动选择特征,使得模型更加容易解释,最后建立影像组学的风险评分。在本研究的LR 模型中,训练集、测试集中的AUC 值、敏感度、特异度及准确度均较高,说明基于CT 平扫图像的影像组学模型具有较好且稳定的预测性能;训练集的AUC 值(0.893)略大于测试集(0.864),显示了良好的模型泛化能力。
与低级别组相比,高级别组ccRCC 肿瘤直径较大,图像纹理差异更大,且分布更不均匀,亮暗程度更不均匀,说明高级别组异质性更高,灰度均值以及灰度分布的特点又反映了ccRCC 的侵袭性。相校于低级别组,造成这种特征参数不同可能是因为:ccRCC 有丰富的肿瘤血管及小泡状结构,细胞核存在微观异质性,高级别ccRCC 肿瘤细胞密度较大,体积大而不规则、紧密排列,图像纹理更加粗糙,以细胞群为代表的单个体素灰度值增高;ccRCC肿瘤内出现坏死囊变及出血,常更倾向于高级别ccRCC,囊变坏死区在某一坐标方向上的灰度级相似度较高,高级别ccRCC 肿瘤新生血管丰富、迂曲不规则分布,致使整体纹理分布较紊乱,灰度分布不均[12,13]。在临床工作中,肿瘤内坏死囊变及出血的诊断是基于平扫和增强图像的联合阅片,对于较小的坏死囊变和出血,因平扫图像中缺乏肉眼可辨别的密度差而无法确诊,这也说明纹理分析对医学图像视觉信息进行数学模型分析获取定量纹理参数,可用来反映人眼无法明确的病灶病理信息。
本研究亦有一定的局限性:本研究为回顾性研究,样本量较小,故未对WHO/ISUP 四级分别进行分析,也欠缺外部验证,后期有待搜集多中心、多样本进行前瞻性深入研究;靶区的人工勾画参考了CT增强图像(动脉期、静脉期及排泄期),肿瘤区域的自动识别与分割问题有待未来进一步研究解决;纹理特征参数与病理组成差异的相关性推断,还需结合病理组织学和算法学进行验证。
综上所述,基于CT 平扫图像的影像组学模型能够对ccRCC WHO/ISUP 分级进行术前预测,仅通过平扫图像就可以获取较多信息来用于病情的诊断、预测,对减少患者医疗费用、提高患者的生活质量具有重要意义。