郭艺贤,张利军,黄银银,姚秀忠,4,曾蒙苏,4,黄健峰,4
1.中山大学附属第一医院 超声科,广东 广州 510080;2.复旦大学附属中山医院 放射科,上海 200032;3.中国人民解放军海军特色医学中心 妇产科,上海 200000;4.上海市影像医学研究所,上海 200032
CT检查已广泛应用于肺癌的检查、评估及术后随访等,但在临床工作中,放射医师通过肉眼识别、读取的信息十分有限,同时也低估了CT检查的临床价值,研究表明,利用人工智能的方法,深度挖掘图像中的信息,对肿瘤进行多方面的分析及预测,可为临床提供更多、更全面、更深层度的信息。同时,CT检查的广泛使用也为其与人工智能方法的结合提供基础和可行性[1-2]。随机森林(Random Forest,RF)算法由Breima[3]提出,是一种基于多个决策树(Classification and Regression Tree,CART)的集成学习算法。RF算法包含若干棵决策树,且每棵决策树都是独立的,因此RF算法对训练集的过度拟合问题表现不敏感,且具有较好的抗噪能力和鲁棒性,如对缺省值不敏感[3-4]。RF算法训练速度快、决策机制简单易行,而且对数据集的适应能力强,因此被广泛应用于各个领域[5]。研究表明,RF算法用于评估多种临床疾病的预后、疾病进程及基因突变表达等方面具有较好的表现力[6-10]。已有应用RF算法探测检出肺癌、肺结节良恶性的分类、肺癌预后的分析等方面的报道[11-13]。本文旨在通过结合影像组学提取特征,应用RF算法构建分类模型,对腺癌、鳞癌和小细胞肺癌进行分类鉴别并评估分类模型的预测能力。
本研究回顾性纳入2013年1月至2018年8月在复旦大学附属中山医院经病理确诊的920例原发性肺癌患者作为研究对象。纳入标准:① 经穿刺或手术标本确诊为肺腺癌、鳞状细胞癌及小细胞肺癌3种原发性肺癌;② 在治疗前及术前2周内进行CT检查。排除标准:① 患者术前接受化疗、放疗等其他治疗手段;② 肿块边界在CT图像上难以清晰辨认,如中央型肺癌与肿大淋巴结相融合、肿块与肺不张边界难以分辨以及大量胸腔积液等;③ CT检查图像质量不合格或图像缺失的病例,如有较重的运动伪影;④ 同时有≥2种病理类型肺癌;⑤ 肿瘤病灶直径小于1 cm的患者。最终,纳入研究的病例总数为852例,其中肺腺癌525例、肺鳞癌161例、小细胞肺癌166例。
所有患者均在术前或穿刺前2周内实施CT检查,吸气末屏气下扫描,扫描的范围从胸廓入口到膈面。上海联影公司生产的128层螺旋CT(uCT760)扫描参数:管电压120 kV,管电流130 mAs,螺距1.08,层厚1 mm。GE公司生产的64层螺旋CT扫描参数:管电压120~140 kV,管电流140 mAs,螺距1.08,层厚1 mm。
采用软件 ITK-Snap(版本 3.6.0,www.itksnap.org)[14]在CT图像上对所有病例的肿瘤病灶的每层图像进行分割,获取三维的感兴趣区域(Region of Interest,ROI)。分割时尽可能避免勾画肿瘤邻近大血管、淋巴结、支气管以及肺不张。CT图像格式为DICOM,输入到ITKSnap进行分割,所得的ROI以.mha格式输出进行分析。每个病例相对应的病理结果(腺癌、鳞癌、小细胞肺癌)作为分割图像的标签。所有的图像分割工作由2名放射科医生共同完成,最后由1名高年资的放射医生对ROI进行复查确认。3种肺癌代表病例分割示意图如图1所示。
图1 3种肺癌代表病例的肿瘤在CT图像上的分割图及ROI的三维示意图
本研究主要采用Python下的pyradiomics库进行提取影像组学特征。计算原始图像的特征以及经过小波过滤(以“db2”为小波基)后的图像的特征,其中包括形状特征、一阶特征、灰度共生矩阵、灰度游程矩阵、邻域灰度差矩阵、灰度相关矩阵和灰度级带矩阵等特征。
(1)归一化操作:首先将每类特征进行归一化操作,即将数据统一到[0,1]范围内,之后利用支持向量机(Support Vector Machine,SVM)筛选特征,选择出仅利用单一特征可以使分类的受试者工作特征(Receiver Operator Characteristic,ROC)曲线及曲线下面积(Area Under Curve,AUC)大于0.5的特征,然后再通过计算特征的方差膨胀系数(Variance Inflation Factor,VIF)来衡量特征的共线性,筛选出VIF≤5的特征,此时,可以认为特征之间没有共线性问题存在。VIF计算方式如公式(1)所示。
式中,R为负相关系数。
(2)特征筛选:筛选VIF≤5的特征后,再通过空间上统一的相关特征(Spatially Uniform Relevant Features,SURF)算法[15]对特征进行进一步的筛选,最终保留需要的20维特征(表1)。特征筛选流程图如图2所示,最后保留的20维组学特征之间的相关性如图3所示,对肺癌病理类型分类预测的重要分数如图4所示。
图2 影像组学特征提取、筛选流程图
图3 提取的20维组学特征之间的相关性
图4 20维组学特征对肺癌病理类型分类诊断的重要分数
表1 筛选的20维影像组学特征
在选择出需要的特征之后,利用RF算法进行建模,并进行模型拟合,其中一些参数设置如下:决策树的数目为100,决策树的最大深度为11,分割内部节点所需要的最小样本数量为2,需要在叶子结点上的最小样本数量为4。本研究将所有数据的85%划分为训练集,为保证模型的鲁棒性,在训练集数据中采用5折交叉验证方法(Cross-Validation)进行验证,最后使用独立的15%的数据作为测试集。即724例(占85%,腺癌446例、鳞癌137例、小细胞肺癌141例)病例用于训练分类模型,128例(占15%,腺癌79例、鳞癌24例、小细胞肺癌25例)用于测试评估分类模型诊断效能。训练集用来进行特征选择以及模型拟合,测试集仅用以对本研究的分类模型进行验证。RF算法运行流程如图5所示。
图5 RF算法的运行流程及结果示意图
所有统计分析使用Python 3.8.0(packages:numpy)和SPSS 22.0进行,本研究连续性变量符合正态分布但方差不齐,统计学分析采用Kruskal-WaliisH检验。统计指标中分类型变量的分析采用Fisherχ2精确检验。采用准确性(Accuracy)、ROC及AUC,计算精确率[真阳/(真阳+假阳)]、召回率[真阳/(真阳+假阴)]和特异性[真阴/(真阴+假阳)]来衡量和评价2种分类模型的预测能力,以P<0.05为差异有统计学意义。由于分析数据的不均匀性,本研究还采用F1值(F1-score)[2×(精确率×召回率)/(精确率+召回率)]来评价分类模型的效能。
所有纳入患者的临床病理基本信息如表2所示,本研究最终纳入852例原发性肺癌患者(平均年龄61.4岁,年龄范围29~87岁;女性316例、男性536例),其中包括525例腺癌、161例鳞癌和166例小细胞肺癌,见表2。其中,3种肺癌的年龄、性别和原发性肺癌的TMN分期的差异均具有统计学意义(P<0.05)。所有纳入病例按照17∶3的比例分为2组,其中训练组724例、测试组128例(表3)。
表2 纳入病例的临床病理资料[n,(±s)]
表2 纳入病例的临床病理资料[n,(±s)]
资料 腺癌(n=525)鳞癌(n=161)小细胞肺癌(n=166)χ2/F值 P值性别 149.23<0.001男247 148 141女278 13 25年龄/岁 60.4±10.5 64.0±8.1 62.1±9.5 5.82 0.027 TNM分期 110.55<0.001Ⅰ139 56 12Ⅱ70 41 19Ⅲ91 47 57Ⅳ225 17 78
表3 3种肺癌在训练组和测试组的分布情况(例)
在RF分类模型,本研究从平扫CT图像中提取和经过特征筛选程序后,最后保留20维纹理特征(表1)。在筛选的20维特征中,包括7个一阶特征、3个灰度级带矩阵的特征、2个灰度游程矩阵的特征、4个灰度相关矩阵的特征和4个邻域灰度差矩阵的特征。
在RF算法模型中,在训练组上得到ROC的AUC高达0.99;在测试组中,对腺癌、鳞癌和小细胞肺癌的分类诊断的AUC分别为0.74、0.77、0.88;3种肺癌分类诊断的平均AUC为0.80,95%CI:0.769~0.813。RF分类模型对腺癌、鳞癌及小细胞肺癌分类预测的F1值分别是0.80、0.40、0.73,F1加权平均值为0.71。其中,对腺癌、鳞癌、小细胞肺癌分类预测的精确率分别为0.76、0.64、0.70;特异性分别为0.55、0.96、0.92;召回率(即灵敏度)分别为0.86、0.29、0.76。模型的ROC曲线如图6所示,分类结果预测汇总如表4所示。
图6 RF分类模型的ROC曲线
表4 RF模型中3类肺癌的分类预测结果评估
原发性肺癌病理类型分类诊断对患者的治疗方案的决定、个体化治疗以及预后的评估有重要的意义和临床价值[2,16-17]。本研究应用影像组学和RF算法,结合CT图像对肺癌进行无创性的、术前的病理类型分类预测。利用影像组学提取、筛选组学特征,并构建RF算法分类模型,将最终筛选保留的20维组学特征输入分类模型中进行训练、验证,评估模型对腺癌、鳞癌、小细胞肺癌分类的效能。采用重采样的方法,形成多个基分类器的输入样本集,然后对基分类器进行5折交叉验证训练,充分体现每个基分类器对样本的分类预测能力。
本研究结果显示,RF算法在训练集中能准确地对3种肺癌病理类型进行分类诊断(AUC=0.99),在测试集中能对不同类型肺癌分类进行较好的预测(AUC=0.80)。其中,RF算法分类模型对小细胞肺癌(AUC=0.88)的分类预测能力比对腺癌(AUC=0.74)和鳞状细胞癌(AUC=0.77)的分类预测表现更好。本研究中,RF算法分类模型对鳞状细胞癌的正确识别率较低(精确率0.64,召回率0.29),对腺癌和小细胞肺癌的正确识别率较好,且模型倾向于将鳞状细胞癌识别为腺癌,这也导致对腺癌识别的特异性较低(特异性0.55)。分析可能的原因有以下几点:① 鳞状细胞癌的纳入分析数量较少,腺癌的数量远远多于鳞状细胞癌;② 本研究纳入分析的鳞状细胞癌病例大部分为中央型肺癌,在CT图像上肿瘤边界较难分辨,从而影响ROI的分割。以上原因均可能导致对腺癌识别的特异性较低,而对鳞癌识别的召回率较低,这也是之后模型优化的重点。当然,关于RF模型趋向于将鳞癌识别成腺癌的原因值得进一步探究和验证。此外,在本研究中,经过筛选流程后保留的20维特征与之前影像组学构建模型(com_radNet模型)研究保留的特征不同,结果显示,利用本次保留的20维组学特征进行分类分析,提升了对小细胞肺癌的分类预测能力。RF算法分类模型简单易行,且表现能力较好。
此前,已有大量研究证明,RF算法模型在CT及PET/CT图像上能对肺结节良恶性的分类有较好的分类能力[13,18-21]。另有研究针对小样本的数据,利用加权的RF模型对肺结节良恶性的鉴别,相较于传统RF分类能力有所提升,但仍处于较差的分类能力(AUC=0.61)[19]。Zhu等[21]利用影像组学方法筛选了5维特征对129例非小细胞肺癌中的腺癌、鳞癌进行分类,结果显示,验证组中AUC为0.89,特异性为0.90,敏感度为0.83。Liu等[22]利用影像组学和SVM对349例多种非小细胞肺癌的病理分类鉴别,除鳞癌、腺癌外,还包括大细胞癌及未分类型,在验证组中分类诊断的F1值和准确性均为0.86。本研究不仅极大地扩充了研究的数据量,而且还对小细胞肺癌和非小细胞肺癌进行了分类预测,模型分类诊断的效能也得到了明显的提升。Linning等[23]利用影像组学的方法对小细胞肺癌和非小细胞肺癌进行分类诊断,结果显示,平扫CT图像上对腺癌和小细胞肺癌(AUC=0.86)、腺癌和鳞状细胞癌(AUC=0.80)之间能进行较好地区分,在增强CT图像上分类能力比平扫图像更好,但无论是增强还是平扫CT图像,均不能有效地对鳞状细胞癌和小细胞肺癌进行区分(AUC=0.62~0.66)。本研究中,分类模型能很好地识别区分小细胞肺癌,极大地提升了对小细胞肺癌的分类诊断能力。
本研究存在以下不足:① 数据量的不平衡,腺癌的纳入分析数量远超过鳞状细胞癌和小细胞肺癌,这可能会导致对分类诊断结果产生影响,在临床上腺癌的发病率高于鳞状细胞癌和小细胞肺癌,这是造成数据量不平衡最大的原因;② 研究数据采用的是CT平扫图像,在对图像进行处理时,尽管已尽可能将肿瘤边界模糊或边界难以与肺血管、肺不张区分开的病例排除在外,但也不能完全排除存在非肿瘤组织对分类结果干扰的可能;③ 本研究的数据量相对于大数据分析来说尚不充足,且数据来源单一,这可能会限制模型的扩展和适用性。未来需进行基于更大数据量的多中心研究。
原发性肺癌无创性的病理类型分类诊断方法具有极大的临床价值和意义,本研究利用影像组学特征和RF算法分类模型能够有效地鉴别区分肺腺癌、鳞状细胞癌和小细胞肺癌,但模型倾向于将鳞状细胞癌识别为腺癌。利用影像组学特征和RF算法与CT图像相结合,对肺癌进行分类诊断和预测可能在临床中得到应用,为肺癌患者的诊治提供重要信息。