刘亚锋,吴 静,周家伟2,邢应如,谢 军,丁选胜,胡 东
(1.安徽理工大学医学院,安徽 淮南 232000;2.安徽理工大学医学院安徽省职业健康安全工程实验室,安徽 淮南 232000;3.安徽理工大学医学院工业粉尘防控与职业安全健康教育部重点实验室,安徽 淮南 232000;4.安徽理工大学附属肿瘤医院,安徽 淮南 232000)
据最新统计肺癌的发病率在全球癌症中位居首位,是癌症中导致死亡的重要原因之一。放射治疗是一种至关重要且具有成本效益的肺癌治疗方法,不同患者的放射治疗疗效却不尽相同。如果能对治疗疗效进行预先评估,则为临床治疗决策提供参考。影像学检查的直观信息在肺癌的诊断及治疗疗效评价中发挥重要作用。随着影像组学(radiomics)的发展,以高通量方式从数字图像中提取可挖掘的高维数据,来揭示与病理生理学和肿瘤异质性密切相关的非视觉信息。
从医学影像图像中挖掘例如强度、形状、纹理或小波等定量影像特征,采用医学统计学和机器学习相结合,筛选至关重要的影像组学特征,从而评价肿瘤的异质性,进而为肿瘤分级、分期、治疗疗效评估及生存期预测等提供重要信息。因此,影像组学有可能评估肿瘤放射敏感性。现阶段基于CT影像组学预测疗效模型,由于地区医疗水平及设备成像算法差异,外部应用能力有限。
本研究拟建立肺癌患者肺部CT平扫影像组学标签,并探讨其用于预测肺癌放疗疗效的可行性,为肺癌精准治疗提供参考。
收集本院 2016年01月至2020年09月期间连续收治接受放射治疗的588例肺癌患者,将符合纳排标准的135例患者纳入研究队列。
纳入标准:①有明确病理诊断的确诊肺癌患者; ②患者均完成既定放疗或联合放化疗; ③放疗后1~3个月内复查CT, 并评估疗效。 排除标准:①未完成既定治疗计划者;②影像学或临床资料缺失者;③曾行胸部介入治疗、靶向治疗、手术切除肿瘤治疗;④合并其他肿瘤疾病。该回顾性研究经伦理审查委员会批准。研究流程如图1所示。
图1 流程图
本研究135例患者其中男性88例,女性47例,年龄31~88岁,平均年龄(65.25±10.81)岁。根据实体瘤治疗效果评价标准RECIST 1.1版,以治疗后相对于治疗前的最大径之和的变化来评估治疗效果。由于在临床上完全缓解者极少见,故将部分缓解的患者纳入治疗缓解组(85例),稳定组(30例)和进展组(20 例)的患者纳入治疗未缓解组(50例)。
在放疗中心提取放疗病人勾画治疗计划前的并以DICOM格式薄层CT图像,导入 3D-slicer软件(https://www.slicer.org)中,由笔者对纵隔窗CT图像沿病灶轮廓逐层勾画感兴趣区(region of interest,ROI),并避开气体、坏死区及钙化血管区域。由另1名从事心胸部影像学诊断5a的医师进行指导审查分割图像,对有异议的ROI通过讨论达成一致。
在上述平台中调用radiomics包提取影像组学特征107个,包括一阶统计量、形状特征、灰度共生矩阵、灰度游程(行程)矩阵、灰度区域大小矩阵、灰度差距共生矩阵、邻域灰度差矩阵。病人检查方法及参数:采用德国西门子16排 CT 扫描仪。扫描参数:管电压 120kV,管电流 100~200mAs,螺距0.75~1.50,准直1.0~2.5mm。重建层厚为1.0~1.5mm,间隔1.0~1.5mm。
首先,利用组间相关系数(interclass correlation coefficient,ICC)对两次勾画的ROI观察者间一致性进行评价,排除ICC<0.75的影像组学特征;其次,对不同维度的影像组学特征进行Z-score标准化处理,去均值和方差归一化。通过随机选择函数按7∶3的比例分为训练组和验证组;在训练组中使用单因素方差分析筛选出差异有统计学意义的特征,随后使用最小收缩和选择算子回归与10折交叉验证提取非零系数的影像组学特征。
基于Lasso回归结果,在建模组和验证组中建立逻辑回归、决策树、AdaBoost和支持向量机机器学习有监督学习模型,对肺癌放疗疗效进行预测。使用以上四种机器学习方法是因为它们在各项研究中被广泛使用并且具备良好的效能。
基于4种分类器结果,根据最佳分类器计算出训练组和验证组中的每个患者的放射组学分数,构建列线图并对模型的校准度进行评价。为评估预测模临床应用,使用决策曲线分析法来计算净收益。净收益为真阳性的比例减去假阳性的比例,并权衡假阳性和假阴性结果的负面后果。
x
±s
)表示,比较采用t
检验。计数资料采用例数[n
(%)]表示,比较采用X
检验。Lasso 回归使用“glmnet”程序包。逻辑回归、决策树、Adaboost和SVM 分类器分别基于“blorr”“rpart”“adabag”和“e1071”“blorr”程序包。ROC曲线使用“pROC”程序包,列线图构建和校准图使用“rms”包,DCA使用“dca”包进行。统计检验以P
<0.05为差异有统计学意义。根据 RECIST 标准,研究对象分为缓解组85 例、未缓解组50 例,2组人群按照随机分配原则分为训练集中患者数为 94人,测试集中患者数为 41人,表1总结了患者的基本特征。
表1 训练集和验证集中患者的特征
每个患者提取影像特征107个,首先进行ICC检验,剔除ICC≤0.75的特征;其次,在训练组进行方差分析及Lasso回归分析,利用 10 折交叉验证中最优的Lambda值,选择最佳影像组学特征,共筛选出8个最佳影像组学特征,筛选流程及系数分布如图2和表2所示。
(a)ICC检验结果 (b) 使用Lasso回归对影像特征进行降维
表2 影像组学特征描述
基于筛选出8个影像特征建立逻辑回归、决策树、AdaBoost、支持向量机预测模型。逻辑回归模型(见图3(a))在建模组中预测近期疗效的 AUC 为 0.89,敏感性为 0.94,特异性为 0.93;验证组中预测近期疗效的的 AUC为 0.79,敏感性为 0.73,特异性0.81。决策树模型(见图3(b))在建模组中预测近期疗效的 AUC 为 0.91,敏感性为 0.94,特异性为 0.81;验证组中预测近期疗效的的 AUC为 073,敏感性为 0.80,特异性0.54。AdaBoost模型(见图3(c))在训练集中预测近期疗效的 AUC 为 0.78,敏感性为 0.71,特异性为 0.86;验证组中预测近期疗效的的 AUC为 0.73,敏感性为 0.76,特异性0.81。支持向量机模型(见图3(d))在建模组中预测近期疗效的 AUC 为 0.90,敏感性为 0.80,特异性为 0.98;验证组中预测近期疗效的的 AUC为 0.78,敏感性为 0.73,特异性0.77。此外,基于将建模组和验证组数据进行合并,进行模型构建,结果显示LR模型AUC为0.865,决策树模型AUC为0.847,Adaboost模型AUC为0.819,支持向量机模型AUC为0.901(见图3)。
(a)逻辑回归分类器性能表现 (b)决策树分类器性能表现
基于支持向量机模型计算出每例患者的影像组学分数,并构建列线图(见图4(a))。对于列线图,患者的影像评分为变量轴,在变量轴向下以确定总分数以及发生不良事件的的可能性。绘制训练集和验证集的校准曲线(见图4(b)~(c))。用于预测肺癌放疗疗效的诺模图的校准曲线显示出良好的一致性。绿色虚线代表完美的预测,红线为校正曲线代表列线图的预测性能,绿色点线代表实际发生状况。当红线与绿色虚线的拟合越近,列线图的预测精度则越精准。
此外,绘制决策曲线(见图4(d)),横坐标为阈值概率,蓝色曲线表示所有患者均接受放射治疗干预,黑色曲线表示所有患者均不接受放射治疗干预;绿色曲线表示在阈值从 0.06~0.87的阈值范围内,使用模型来进行治疗干预,可减少不良事件的发生,尽管在阈值概率0.1区间,模型获益程度低于蓝色曲线,仅表示在此区间预测模型净获益概率低于将所有病人视为阳性样本处理,但不影响病人是否未获益。
(a)预测治疗无效风险列线图
影像组学提供了一种新兴的定量方法,可以从医学图像中尽可能多地挖掘有用数据,并且可以应用于临床决策支持系统。在预测肺癌患者的临床事件中,它已显示出强大的预测能力,包括预测肺癌免疫疗法的反应、药物反应、放射性肺炎的发生等。
基于以上研究基础,本研究从 CT影像上提取了一系列影像组学特征,最终选择了8个稳定且重要特征,其中有1个形状特征、3个灰度差距共生矩阵特征、1个灰度游程(行程)矩阵特征、3个灰度区域大小矩阵特征。灰度差距共生矩阵代表体素值测量相邻体素之间的差异。灰度区域大小矩阵代表了量化图像中的灰度级区域。灰度游程(行程)矩阵则可以量化ROI内灰度的游程。这8个特征囊括了一阶统计特征、形态特征和纹理特征,更为全面地描述肿瘤的空间异质性以及肿瘤的微环境。
基于相同的序列和特征降维方法,不同的机器学习模型的诊断性能不同。机器学习是训练分类器功能的重要手段,建立的分类模型可以通过肉眼无法识别的细微特征对疾病进行诊断、鉴别等。在本研究中对 4 种模型性能的对比,Adaboost与决策树分类器的性能表现明显低于逻辑回归和支持向量机分类器。单纯支持向量机分类器与逻辑回归分类器在ROC的比较差距无明显差异,但在总体数据集中支持向量机分类器表现稍显优于逻辑回归分类器,而在实际应用中,Lasso筛选特征和支持向量机进行分类的有机结合,可以在影像组学研究中有效协作。通过支持向量机分类器为每个患者计算影像组学评分,评分越高,肺癌肿块治疗疗效越佳。
本研究的局限性:(1)ROI全部为人工勾画,且肺癌病灶与正常肺组织边界不清晰,因此在勾画时难免把正常肺组织划为ROI,或存在部分ROI边缘的漏画,这些对结果均可能产生影响;(2)本研究病例共仅为135 例,且为单中心研究,期待后续进行多中心数据采集,进一步验证此次分析结果。
影像组学模型在预测放疗近期疗效方面具有一定参考意义,采用支持向量机方法建立的影像组学模型可能较其他组学模型诊断效能更高,值得临床进一步研究。