黄雪梅,孙英丽,高盼,谭明瑜,段绍峰,李铭
肺癌是全球范围内除女性乳腺癌外最常见的癌症(占总病例的11.6%),也是癌症相关死亡的主要原因(占总癌症死亡的18.4%),在中国,分别占11.4%和18.0%[1]。美国一项大型筛查试验(NLST)[2]表明相比于普通胸部X射线,低剂量胸部CT可明显降低肺癌死亡率(20%)及全因死亡率(6.7%)。低剂量胸部CT已逐步成为肺癌筛查的常规手段。在高危人群的首次筛查中,肺结节的检出率约为79.79%,其中实性结节为71.43%,部分磨玻璃结节为22.98%[3]。大量肺结节的检出不仅给患者造成巨大心理压力,也给临床增加了极大的工作负担,尤其是肺结节的良恶性及浸润程度的判断,因为诊断结果将直接决定患者干预方式的选择。浸润性肺腺癌与非浸润性肺腺癌在治疗策略、生存率、手术方式以及预后方面均有极大的差异[4-5]。因此,早期、准确地获知肺结节/肿块良恶性及浸润程度对临床医师制定适宜的处置策略、提升患者生活质量、节约社会医疗资源都意义重大。传统影像诊断模式[6-8]主观性强,诊断耗时,对经验要求较高,难以普及到大量的筛查群体。肺癌影像组学,是人工智能在医疗领域的应用之一,通过定量提取瘤灶大量因肉眼局限而无法捕捉到的特征,随后进行统计分析,最终构建出预测模型,协助判断疾病性质[9-10]、预后[11]、基因突变状态[12]、治疗反应[13-14]等。它具有无创、客观、可重复性高等优势,极大地弥补了传统诊断模式的不足。
本研究纳入大量病例,首次对肺结节/肿块进行分层、分组的建模分析,旨在探索影像组学模型在不同性质的肺结节/肿块中适用性差异,优化模型应用场景,提高应用效能。
1.患者的选择与资料的收集
本回顾性研究经机构审查委员会批准,豁免了患者的知情同意要求。
工作流程如图1所示。检索本院2011年10月-2018年12月的肺结节/肿块病例。纳入标准:①胸部CT检查时间在术前1个月内;②CT图像层厚≤1.5 mm;③有明确的病理报告的肺结节/肿块患者;④术前未做过其他治疗(放化疗或射频消融治疗)。排除标准:①存在严重的运动伪影;②既往有肺部手术史/肺部肿瘤病史或其他脏器恶性肿瘤病史。最终纳入2105例肺结节/肿块患者。根据肺结节/肿块的密度,将病例分为磨玻璃组(A组)及实性组(B组),在A和B组内分别以2017年10月为界分为训练集与测试集。外部验证集选取了来自上海市华东医院张国桢肺小结节诊断中心的病例,共296例,男123例,女173例,磨玻璃肺结节/肿块235例(A组的外部验证集),实性肺结节/肿块61例(B组的外部验证集)。
图1 流程图。
本研究任务:①A组,建立预测浸润性肺腺癌/非浸润性肺腺癌模型。②B组,建立预测良恶性的模型(肺腺癌/肺良性肿瘤)。
2.病理状态的确诊
所有的病理诊断均由一位低年资病理诊断医师进行初步诊断,再由一位高年资诊断专家进行二次评估,两者有异议时,讨论确定最终病理诊断结果,诊断规范为2011年国际肺癌研究协会/美国胸科学会/欧洲呼吸学会提出的国际多学科肺腺癌分类[15]。
3.图像的获取及相关仪器参数设置
本研究采用LightSpeed VCT、Somatom Definition Flash、Somatom Sensation 16三台CT仪,检查体位为仰卧位,采集期相为深吸气相。管电压120 kVp,管电流200 mA,重建算法STND/medium sharp,重建层厚1.00/1.25/1.5 mm。所有图像均在肺窗下进行观察(窗位-500 HU;窗宽1500 HU)。具体参数设置见表1。
表1 扫描仪器详细参数
4.ROI勾画及传统影像特征获取
首先由一名有5年胸部CT诊断经验的放射科医师采用3D Slicer对瘤灶进行像素级手动勾画,排除掉大的血管、胸膜、纤维条索等无关结构,记录瘤灶的形态学特点包括密度、位置、边界是否清晰,是否有晕征、分叶征、毛刺征、颗粒征、血管改变、空泡征、蜂窝征、是否合并瘢痕、胸膜凹陷征,记录临床特征包括性别及年龄;随后由一位具有10年胸部CT诊断经验的高年资放射科医师进行二次评估,若二者持有不同意见,讨论达成一致后并记录最终结果。
5.模型的建立及性能评估
采用Pyraodiomics软件(Version 3.7)进行影像组学特征的提取,随后使用最小冗余最大相关性算法和最小绝对收缩选择算法对组学特征进行筛选、降维,最终选取最有意义的组学特征进行求和、加权,建立独立组学模型,最后将有意义的临床-传统影像特征及组学特征纳入多变量回归分析,随后建立融合组学模型,并在测试集及外部验证集上评估模型效能。预测效能采受试者操作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)表示,并采用De-Long检验来评价AUC值的差异,同时采用校准曲线、拟合优度检验和临床决策曲线分别评价模型的校准度及临床实用性。
6.统计分析
连续变量采用两独立样本t检验或Wilcoxon秩和检验;分类变量采用卡方检验或费希尔精确检验。所有统计检验均采用R统计软件(R version 3.6.3)及SPSS统计软件(version 23版)。最大相关-最小冗余(max-relevance and min-redundancy,mRMR)采用“mRMRe”包,最小绝对收缩选择算子(least absolute shrinkage and selection operator,LASSO)采用“glmnet”包。ROC曲线采用“pROC”包,nomogram使用“rms”包;Hosmer-Lemeshow检验采用“hosle”包;决策曲线采用“dca.R.”包。以P<0.05为差异有统计学意义。
1.A组
本组共纳入磨玻璃肺结节/肿块1711例,浸润性肺腺癌885例,非浸润性肺腺癌826例,病灶平均直径为(20.5±17.9)mm。训练集1075例,男393例,女682例;纯磨玻璃结节241例,部分磨玻璃结节834例;浸润性腺癌/非浸润性腺癌(553/518)。测试集643例,男性/女性(233/410);纯磨玻璃/部分磨玻璃(135/508);浸润性腺癌/非浸润性腺癌(332/308)。
①传统模型的建立:将临床及传统影像形态学特征进行单因素分析及多因素logistic回归分析后(表2),最终筛选出9个可鉴别肺腺癌浸润性的有统计学意义的独立预测因素:性别、年龄、边界、晕征、分叶征、毛刺征、血管改变、蜂窝征、胸膜凹陷征,最后建立了传统模型。
表2 各组训练集特征分布
②独立组学模型的建立:Pyradiomics最终获取1018个影像组学特征,筛选、降维(图2)后,获得出9个有意义的组学特征,计算R-score,建立组学模型。独立组学特征模型的预测效能较高,AUC值为0.91(P值<0.05),能有效区分浸润性肺腺癌与非浸润性肺腺癌。
图2 特征筛选系数-λ函数值的计算。注:λ函数值使用的算法为mRMR算法及LASSO算法,λ函数值的作用为确认相关的组学特征系数及特征数。
③融合组学模型的建立:将筛选出的临床及传统影像相关的独立预测因素及组学特征纳入多因素logistic回归分析,最终纳入性别、边界、晕征、毛刺征、蜂窝征、胸膜凹陷征及组学特征,共7项有意义的特征来建立融合组学模型,得到Nomogram(图3)。
图3 融合组学模型(Nomogram)的公式构成。a)年龄、毛刺征、蜂窝征、Rad-score是经多因素逻辑回归分析后筛选出的恶性肺结节/肿块的独立预测因素;b)性别、边界、晕征、毛刺征、蜂窝征、胸膜凹陷征,Rad-score是经多因素逻辑回归分析后筛选出浸润性肺腺癌的独立预测因素。
④预测效能、校准度及临床实用性的评估:各个模型均可高效预测浸润性肺腺癌与非浸润性肺腺癌,其中融合组学模型性能最高。AUC值分别为:训练集中独立组学模型0.91(0.89~0.93)、传统模型0.83(0.81~0.85)、融合组学模型0.92(0.90~0.93),测试集中独立组学模型0.95(0.93~0.96)、传统模型0.80(0.76~0.83)、融合组学模型0.94(0.93~0.96)。校准曲线及决策曲线也进一步表明融合模型有很好的校准度及临床实用性,见图4。
图4 各模型预测准确性、校准度、临床实用性评估。a~e为A组;f~j为B组。a、f)训练集的ROC曲线,显示模型的预测准确性;b、g)测试集的ROC曲线;c、h)训练集的校准曲线,显示模型的校准度;d、i)测试集的校准曲线;e、j)决策曲线,显示模型的临床实用性。a、b、f、g的红线代表融合组学模型(Nomogram),蓝线代表独立组学模型(Radiomics),绿线代表传统模型(Clinics)。c、d、h、i仅显示各模型中最佳模型(融合组学模型)的校准度,对角线(灰线)代表预测值与实际值百分之百一致,越靠近中线代表校准度越高。e、j图红线代表融合组学模型(Nomogram),蓝线代表传统模型(Clinics)。横坐标为阈值概率,纵坐标为模型的净利润率。水平灰线和绿线代表两条极值曲线。
各个模型之间的效能差异均有统计学意义(融合组学模型与传统模型之间Z=9.2364,P<0.01;独立组学模型与传统模型之间Z=7.0059,P<0.01)。
外部验证集也再一次验证预测模型有较强的泛化能力,融合组学模型、传统模型AUC分别为0.87(0.82~0.91)、0.68(0.61~0.75),见图5。校准曲线:预测可能性在0%~70%范围内,融合组学模型预测值与实际观察值之间的相关性很高,在70%~100%范围内,预测值与实际观察值之间的相关性降低。Hosmer-Lemeshow检验提示预测值与实际观察值之间拟合优度较差(P<0.01)。
图5 A组外部验证集融合组学模型与传统模型诊断效能ROC曲线。
2.B组
本组共纳入实性肺结节/肿块394例,良性115例,腺癌269例,平均直径为(34.1±23.9)mm。训练集270例,其中男154例,女116例;良性89例,腺癌181例。测试集共124例,男75例,女49例;良性36例,腺癌88例。良性结节包括硬化性肺细胞瘤、炎性肉芽肿、错构瘤、机化性炎症。
①传统模型的建立:将临床及传统影像形态学特征进行单因素分析及多因素logistic回归分析后(表2),最终发现年龄、毛刺征、蜂窝征是区分腺癌与良性肺结节/肿块的独立预测因素;基于这三个特征建立了临床-传统影像模型。
②独立组学模型的建立:经过mRMR及LASSO进行特征降维、筛选(图2)后,最终获得了7个有意义的组学特征,计算R-score,建立组学模型。
独立组学特征模型的预测性能好,AUC值为0.80(0.73~0.86),P<0.05,可高效区分腺癌与良性肺结节/肿块。
③融合组学模型的建立:将年龄、毛刺征、蜂窝征及组学特征(R-score)纳入多因素logistic回归分析,最终建立一个融合组学模型,即Nomogram(图3)。
④预测效能、校准度及临床实用性的评估:比较分析三种模型(独立组学模型、临床-传统影像模型、融合组学模型)的AUC值,训练集分别为0.80(0.73~0.86)、0.83(0.78~0.88)、0.85(0.80~0.90);测试集分别为0.62(0.51~0.73)、0.83(0.74~0.91)、0.80(0.72~0.89),见图4。结果显示:融合组学模型与临床-传统影像模型之间(Z=1.5587,P=0.1191)、独立组学模型与临床-传统影像模型之间(Z=1.0535,P=0.2921),性能无差异。组学模型并未提高传统诊断模型对实性肺结节/肿块良恶性的区分效能。
融合组学模型的预测结果与实际观察结果有较好的一致性。在预测肺癌危险度的8%~82%范围内,融合组学模型有更好的优势,在82%~100%范围内,临床-传统影像模型的表现优于融合组学模型。外部验证集中,虽然融合组学模型及传统模型的预测性能,均未超过0.75,校准度及临床实用性性能未能达到优秀水平,但仍可看出融合组学模型的性能明显优于临床-传统影像模型AUC分别为0.70(0.54~0.85)、0.62(0.46~0.79),见图6。
3.组学预测模型的分层分析
A组结果显示组学特征较传统的形态学特征更能高效预测肺腺癌的浸润程度,且校准度、临床实用性方面表现都较好。
B组结果表明相比于传统影像模型,融合模型更能有效区分肺腺癌与良性结节/肿块。
基于影像组学的预测模型,无论是预测肺肺癌良恶性或浸润程度方面,都可以有一个较高的性能,并且更适用于磨玻璃肺结节/肿块,磨玻璃组vs.实性组分别为:训练集0.919 vs.0.851;测试集0.944 vs.0.805;外部验证集0.869 vs.0.696(图7)。
图7 组学预测模型在A、B组的预测准确性的ROC曲线。a)训练集;b测试集);c)外部验证集。红线为A组融合组学模型;蓝线为B组融合组学模型。
本研究分析了1641例病例,建立了预测肺结节/肿块良恶性及肺腺癌浸润程度的多个模型,并分层分析,发现预测模型无论是在肺结节/肿块良恶性或肺腺癌浸润程度诊断方面,都有一个令人满意的表现。通过分层分析,组学预测模型在磨玻璃肺结节/肿块的应用,不管是预测准确性、校准度,还是临床实用性方面,明显优于实性肺结节/肿块。
Wu等[16]、Feng等[17]及Luo等[18]建立的多个可预测部分磨玻璃结节的浸润程度的影像组学模型均表现出优异的性能,AUC值分别为0.98、0.94、0.90,且泛化力强;而预测实性肺结节良恶性的相关模型研究[19-21]的性能则较磨玻璃结节模型逊色,AUC值为0.88~0.90,均低于0.9。尽管部分研究存在例如样本量较少(100左右)、病例来自不同的机构、存在过拟合等问题,但仍可看出既往多数磨玻璃影像组学模型优于实性模型。本研究采取多种方式,避免了既往研究存在的局限性:通过纳入同一医疗机构的实性及磨玻璃结节的病例,避免了选择偏移;纳入可观的病例数,采用同一种影像组学方法建立模型,进一步减小模型过拟合的问题,最终对影像组学在不同性质结节中的确存在效能差异有了进一步的清晰、客观的认识。
影像组学在不同性质的肺结节/肿块中的性能差异,或许是由于机器学习算法在肺结节/肿块的浸润程度不断进展过程中,磨玻璃区域的细胞生长更为活跃,不同区域的差异较大,故在磨玻璃区域内能获取到更多的信息,从而评价肿瘤的侵袭性。Wu等[16]研究中通过磨玻璃成分建立的组学模型性能,远远高于实性成分建立的组学模型,AUC值分别为0.96、0.82,本研究也进一步证实了这一结论。影像组学模型在不同性质的成分中,获取的信息量存在明显差异,从而导致了组学模型的适用性差异,为后续的组学研究做出了提示:需考虑肺结节/肿块性质对组学模型的影响,从而进一步优化影像组学的应用,提高组学的可重复性。
本研究不仅仅是发现了组学模型的适用性差异,也是对影像组学模型在肺结节/肿块的良恶性鉴别[22]及浸润程度[23]有很强的应用潜能的有力验证。
部分磨玻璃、边界清晰、血管扭曲扩张或复杂、性别、年龄、晕征、毛刺征、分叶、胸膜凹陷都是浸润性肺腺癌的独立预测因素,这与团队既往研究[24]的发现一致。患者的年龄及传统影像特征-毛刺征不仅仅与肺腺癌的浸润性密切相关,并且还是恶性肺实性结节/肿块的独立预测因素。Feng等[21]和Shen等[25]的研究在实性肺癌与炎性肉芽肿的鉴别诊断中也分别揭示了它们的相关性。与此同时,多因素logistic回归分析发现蜂窝征与恶性实性肺癌密切相关,并且与肺癌浸润性有关。蜂窝征是指肿瘤瘤体内多个直径小于5 mm的透亮影,可能是由于肿瘤坏死排除或不完全阻塞导致的,与疾病的性质转化及浸润程度有关。
本研究仍存在一些局限性。首先本研究属于回顾性研究,在病例纳入方面可能存在选择偏倚,未来需要进行前瞻性研究来证实本研究的发现。其次本研究可能存在数据偏倚,病例纳入大量肺腺癌的病例,良性病例相对较少,未来需要扩大对良性病例的收集。
影像组学在肺结节/肿块良恶性及浸润程度有宏远的应用前景,且更适用于磨玻璃肺结节/肿块,预测准确性、校准度及临床实用性方面的表现较实性肺结节/肿块都更为优异。