徐青青,单文莉,朱 艳,黄陈翠,包丝雨,郭莉莉*
1南京医科大学附属淮安第一医院影像科,江苏 淮安 223300;2北京深睿博联科技有限责任公司研发中心科研合作部,北京 100089
孤立性肺结节是指肺内单发、直径≤3 cm的圆形或类圆形病灶,周围完全由充气的肺组织包绕,不伴有肺不张、肺炎、淋巴结肿大及胸腔积液[1]。研究报道不同性质分类的结节预后不一样,良性及恶性非浸润结节治愈率可达到或接近100%,而浸润性结节为40%~85%[2],目前临床上对良性结节不进行手术处理,恶性非浸润结节进行楔形或肺段切除,而浸润性结节以肺叶切除为主[3]。因此,术前鉴别良性、恶性非浸润与浸润性结节对手术方式的选择以及患者预后的评估有重要的指导作用。因此,通过不同成像方法提高肺结节测量准确度成为关注热点[4]。影像组学是一个新兴的技术,它可以挖掘蕴含于图像中医生肉眼难以观察的特征,并可以定量评估肿瘤异质性[5]。目前,关于CT影像组学鉴别肺结节病理分类的研究较少,而且目前尚无三分类的人工智能(artificial intelligence,AI)诊断模型,因此本研究的目的是通过建立3种分层递进模型并验证基于CT影像组学鉴别肺结节分类的效能。
回顾性纳入2017年7月—2019年8月淮安市第一人民医院经手术病理证实的孤立性肺结节189例,男86例,女103例;年龄(54.8±10.2)岁。良性结节71例,包括慢性炎症50例,不典型上皮增生9例,错构瘤7例、硬化肺泡细胞瘤3例、血管瘤1例及血管淋巴瘤1例;恶性非浸润结节51例,包括不典型腺瘤样增生14例、原位腺癌15例、微浸润腺癌22例;浸润性结节67例,包括腺癌57例、鳞癌8例以及肉瘤2例。纳入标准:①薄层CT表现为孤立的肺结节,包括实性结节、部分实性结节及纯磨玻璃结节[6];②经手术病理证实;③有完整的1 mm薄层DICOM格式数据及标准算法重建图像。排除标准:①伴有肺不张、肺炎、淋巴结肿大及胸腔积液;②CT检查前接受活检、放疗或化疗等操作或治疗。本研究经医院伦理委员会批准,患者均签署知情同意书。
1.2.1 CT检查
所有入组患者接受Siemens Somatom Definition双源64排128层螺旋CT机胸部CT扫描,采用CARE Dose4D扫描条件:管电压80~140 kV,管电流60~100 mA,层厚为5 mm,层间距5 mm。所有受检者仰卧于检查床上,指导呼吸配合检查,扫描范围包括整个肺野,病灶的原始采集资料按1 mm标准算法重建。
1.2.2 感兴趣区(ROI)分割及高通量特征提取
利用Dr.Wise多模态科研平台(https://research.deepwise.com)对肺结节进行半自动逐层分割并获得高通量影像组学特征。随机选取50例肺结节分别由具有5年和10年胸部影像诊断经验的医师进行分割。其中5年经验的医师一共分割2次,间隔2周;10年经验的医师分割1次。采用相关系数(ICC)检验观察者组内和组间ROI的一致性(ICC>0.75表明一致性比较好)。针对每一个病例的ROI进行高通量特征提取,本研究提取的影像组学特征变量包括一阶特性、形状特征、纹理特征、亮度特征、灰阶运行长度矩阵、灰阶判断矩阵、相邻的灰度级。
1.2.3 模型的建立与评估
利用特征变量筛选后的子集数据进行机器学习建立诊断模型。利用由5年经验的医师分割的189例数据组成的特征变量数据集,并将数据集按照8∶2的比例随机分为训练集与测试集,训练集的数据用于特征筛选及构建诊断模型,测试集的数据用于内部验证模型的效果。本研究的特征筛选方法是F-test、L1正则等。特征分类算法中,分别采用机器学习算法中的逻辑回归、支持向量机(support vector machine,SVM)等方法建立模型,区分肺结节属于良性、恶性非浸润、浸润性中的哪一类,并对不同算法的建模结果进行分析比较。利用受试者工作特征(receiver operating characteristic,ROC)曲线的曲线下面积(area under curve,AUC)、灵敏度、特异度及准确率等指标评价分类诊断模型的效度和可靠性。可重复性和稳定性好的特征用来建立组学标签。利用选择特征的线性融合计算影像组学标签得分。校正曲线用于评价模型的预测效果。决策曲线用于评价预测模型的潜在临床净收益。
采用SPSS 20.0进行统计分析,3组间患者年龄采用单因素方差分析,两两比较采用LSD法,性别分布差异比较采用χ2检验。一致性检验、特征提取、模型建立和统计学比较等运算,以及图表的绘制都是基于Anaconda3平台(https://www.ana conda.com)的 Pyhton(https://www.python.org/)Scikit -learn(https://scikit-learn.org/)和Matplotlib库(https://matplotlib.org/)进行的。P<0.05为差异有统计学意义。
189例肺结节大小5.8~29.8 mm,平均(15.4±5.9)mm,分为3组,良性组71例,恶性非浸润组51例,浸润组67例。3组年龄差异有统计学意义,两两比较显示,浸润组的年龄[(57.6±8.7)岁]要高于良性组[(53.1±9.9)岁]和恶性非浸润组[(53.4±11.5)岁],差异有统计学意义(P=0.008,P=0.024),良性组与恶性非浸润组差异无统计学意义(P=0.873)。3组性别差异有统计学意义(χ2=19.618,P<0.001),浸润组、恶性非浸润组女性比例高于良性组,差异均有统计学意义(60%vs.35%,χ2=8.298,P=0.004;75%vs.35%,χ2=18.355,P<0.001),恶性非浸润组及浸润组差异无统计学意义(χ2=2.834,P=0.092)。
观察者组内和组间ICC值分别为0.89、0.81,一致性良好。后续特征提取、筛选和建模所有图像的分割数据集由5年经验的医师第1次分割的数据组成。模型1包括良性结节71例及恶性结节118例(包括51例恶性非浸润性结节及67例浸润性结节),共提取出1 261个高通量特征,通过F-test 5%特征选择进行特征筛选,逻辑回归分类器建立模型。模型1共筛选出20个鲁棒的特征,包括一阶特征10个及纹理特征10个(图1A),其中拉普拉斯变换-灰度相关矩阵-弱相关(log-sigma-1-0-mm-3D_gldm_Small Dependence Emphasis)、拉普拉斯变换-一阶特征-中位数(log-sigma-1-0-mm-3D_first-order_Median)等相对权重最大。影像组学评分(radiomics score,Rad-score)反映良、恶性结节在训练组和测试组的分布情况(图1B)。
模型2包括恶性非浸润结节51例及浸润性结节67例,共提取出1 261个高通量特征,利用L1正则C值0.01特征选择以及SVM分类器建立模型。共筛选出2个鲁棒的特征,包括2个纹理特征,拉普拉斯变换-灰度级区域矩阵-区域熵(log-sigma-5-0-mm-3D_glszm_Zone Entropy)和小波变换-灰度级区域矩阵-区域熵(wavelet-LLL_glszm_Zone Entropy)。影像组学评分(Rad-score)反映恶性非浸润及浸润结节在训练组和测试组的分布情况(图1C)。
模型3包括良性结节71例、恶性非浸润结节51例及浸润结节67例,共提取出1 261个高通量特征。模型3利用F-test 5%特征选择以及逻辑回归分类器建立模型,共筛选出20个鲁棒的特征,包括一阶特性12个,纹理特征8个(图1D),其中小波变换-灰度级区域矩阵-灰度不均匀性(wavelet-LLL_glszm_Gray Level Non-Uniformity Normalized)及拉普拉斯变换-一阶特征-四分位数范围(log-sigma-1-0-mm-3D_firstorder_interquartile Range)等相对权重最大。
预测模型1在训练组中的AUC值为0.92,在测试组中的AUC值为0.85;预测模型2在训练组中的AUC值为0.92,在测试组中的AUC值为0.89;预测模型3在训练组中的AUC值为0.88,在测试组中的AUC值为0.84。3种模型的预测结果见表1。预测模型的ROC曲线见图2,将模型1和模型2的预测概率绘制成决策曲线(图3)及校准曲线(图4)。
CT薄层扫描技术在肺结节的诊断分类、治疗方案的制定、疗效评价及预后评估等方面发挥着重要的作用[7]。然而,临床工作中影像医生常使用几种形态学特征来评估胸部CT肺结节的恶性特征,包括结节大小、边缘、轮廓和内部特征,而蕴含在数字化图像中的大量信息没有被利用。影像组学是一个新兴技术,它通过高通量地提取医学图像中的大量定量影像学特征,与传统的视觉图像相比,它可以提取出更多的肺结节特征,并以非侵入性的方式评估肺结节和肿瘤的行为[8]。目前已有研究表明影像组学在肿瘤病理亚型鉴别、基因表达、病灶的良恶性鉴别、淋巴结转移、疾病的治疗及预后方面表现出较好的前景[9-12]。临床工作中医生视觉鉴别诊断良恶性、浸润前和浸润程度有很大难度,而本研究对于多分类模型进行研究,填补了该多分类模型的空白,具有一定的临床应用价值,可以辅助决策临床诊疗。
图1 模型的特征参数图及其测试组的影像组学评分图Figure 1 Feature coefficients and radiomics scores of models
本研究每个患者均采集了3次ROI,采用ICC检验观察者组内和组间ROI的一致性,可以保证提取的影像组学特征的可重复性。3组模型都提取了一阶特性和纹理特征。一阶直方图特征以及纹理特征是一种图像像素信息量化技术,它可以提供肉眼以外的潜在信息,尤其是纹理特征可以描述肿瘤内异质性,与肿瘤的分期、治疗反应和生存期具有相关性,对临床具有重要价值[13]。本研究中3种分层递进模型中熵、中位数、均值、第10百分位数、第90百分位数、四分位距、弱相关和灰度不均匀性等影像组学特征对良性、恶性非浸润及浸润结节进行分类有重要的意义,模型1良恶性结节分类模型中弱相关及中位数相对权重较大。弱相关是衡量弱相关关系的分布,取值越大,表示图像相关性越小,纹理越不均匀。中位数代表了中位灰度强度。模型3良性、恶性非浸润及浸润性结节分类模型中灰度不均匀性及四分位数范围相对权重较大。灰度不均匀性表示肿瘤图像中亮暗的变化,取值越小,表示肿瘤图像亮暗程度越均匀。四分位数范围则代表了图像的第25和第75百分位数。而模型2恶性非浸润及浸润性结节分类模型中仅有2个纹理特征拉普拉斯变换和小波变换的区域熵用于区分非浸润及浸润性结节,区域熵是测量肿瘤的大小和灰度级分布的不确定性,其值越高表示肿瘤的纹理差异越大,这对于提高临床诊断具有重要的意义。
表1 训练组与测试组的3种预测模型结果对照Table 1 Comparison of the results of three prediction models for the training group and the test group (%)
图2 影像组学验证模型的ROC曲线Figure 2 ROC curves of three models
图3 模型1及模型2测试组的决策曲线Figure 3 Decision curves for the test group of model 1 and model 2
图4 模型1及模型2测试组的概率校准曲线Figure 4 Calibration curves of models 1 and model 2
很多研究表明影像组学对于肺结节良、恶性分类具有良好的诊断效能[13-16]。Xu等[16]对所有结节分为3组,T1a(直径0~1 cm)、T1b(1 cm <直径≤2 cm)和T1c(2 cm <直径≤3 cm),并开发了3种影像组学模型来预测每组中的恶性肺结节,T1a模型预测的AUC、准确性分别为0.84和0.77;T1b模型分别为0.78、0.73;T1c模型分别为0.79、0.76。本研究中模型1通过F-test 5%特征选择来减少特征空间的维数,并选择逻辑回归分类器建立模型,筛选了20个影像组学特征对良、恶性结节进行分类,在训练组中的AUC为0.92,在测试组AUC为0.85,与之前的研究结果相似[14-16]。因恶性非浸润结节及浸润性结节临床治疗策略不同,我们的研究进一步针对恶性病变进行分类。据报道恶性非浸润结节的远期生存率为100%或接近100%,比浸润性结节高很多[17],因此模型2中,将肺腺癌中的微浸润结节、原位腺癌及腺瘤样增生均归为恶性非浸润结节,并利用L1正则C值0.01特征选择来减少特征空间的维数,选择支持向量机分类器建立模型,筛选出仅2个影像组学特征对恶性非浸润及浸润结节分类,在训练组中的AUC为0.92,在测试组中AUC为0.89;最后模型3中对所有的肺结节采用3分类法对良性、恶性非浸润及浸润结节分类,根据F-test 5%特征选择来减少特征空间的维数,选择逻辑回归分类器建立模型,最终筛选了20个影像组学特征,其在训练组中的AUC为0.88;在测试组中AUC为0.84。模型3中有2条拟合曲线分别代表宏平均(macro-average)和微平均(micro-average),均是评价模型鉴别诊断效度的指标。宏平均是指所有类别的每一个统计指标值的算数平均值,而微平均是对数据集中的每一个示例不分类别进行统计建立全局混淆矩阵,然后计算相应的指标。因此,微平均更能体现模型效果,它的验证组的AUC值为0.84。总体来说,3种模型没有偏离拟合曲线,进一步证明了影像组学对肺结节分类诊断的高效性。
最后,本研究采用半自动的分割方法,最大限度地减少了放射科医师分割结节的时间,并提高了可重复性及准确性,使其在临床实践中更加实用、有效[18]。但是也存在一些不足之处:第一,本研究是回顾性研究,在病例选择上可能存在偏倚,这也导致本研究中非浸润及浸润结节中女性患者较多,仍需大样本进行更深入的研究;第二,高通量特征的随机性没有相应的规范标准,Nyflot等[19]的研究表明纹理特征对图像随机变化和成像参数的依赖性很大,这意味着需要一个规范的标准以确保研究结果的可重复性和可靠性。
总之,CT影像组学特征可以提供非侵入性的、可重复的诊断及鉴别诊断信息,对良性、恶性非浸润及浸润性结节分类具有重要价值,包括所有这些重要特征的决策曲线和校验曲线在临床上可用于术前策略计划。