基于四维计算机断层扫描图像的非小细胞肺癌影像组学特征稳定性分析

2020-08-04 06:23张白霖戴振晖朱琳王学涛
中国医学影像学杂志 2020年7期
关键词:组学特征值阈值

张白霖,戴振晖,朱琳,王学涛

广州中医药大学第二附属医院大学城放射治疗区,广东广州 510006;*通讯作者 王学涛 wangxuetao0625@126.com

非小细胞肺癌(non-small cell lung cancer,NSCLC)是导致癌症相关死亡的主要原因。作为一种异质性疾病,NSCLC包括腺癌、鳞状细胞癌等组织学类型。肿瘤的分期及分型是影响NSCLC治疗决策的关键因素。Aerts等[1]根据定量的影像组学方法进行肿瘤分型研究。影像组学结合临床因素可提高NSCLC患者无病生存期预测准确率,并可预测局部控制效果[2-5]。

影像组学通过1项或多项特征的取值差异建立预测模型,实现肿瘤分型与分期;但特征值差异不仅来源于肿瘤的类型与进展情况,同时也来源于呼吸运动[6]、扫描参数[7]、靶区分割方式[8]等因素对特征值的影响。为获得理想的预测模型,需要数量巨大的样本支持,否则会由于影像组学特征数量多、研究病例数量相对少而导致预测建模过拟合[9]。在建模前筛选去除不稳定或冗余的特征有利于提升模型鲁棒性和预测能力[1,10]。目前常用的筛选方法包括多次靶区勾画[2]和重复摆位二次成像[11]。近年来,四维计算机断层扫描图像(four-dimensional computed tomography,4DCT)技术已应用于胸腹部肿瘤的治疗和研究中[12]。假定有临床意义的影像组学特征在4DCT不同时相序列间具有一定的稳定性,则可通过比较4DCT不同时相间肿瘤影像筛选影像组学特征。本研究拟分析基于4DCT筛选影像组学特征的可行性。

1 资料与方法

1.1 研究对象 自“癌症研究的医学图像开放获取数据库”[13]下载使用4DCT技术进行计划定位的20例 局部进展NSCLC患者200组CT及临床资料。

图1 4DCT不同时相图像示意图及部分病灶勾画

1.2 设备与方法 采用Philips 16排螺旋CT扫描仪(Brilliance Big Bore)。扫描参数:管电压120 kV,自动管电流,分辨率512×512(0.9766 mm),重建层厚3 mm。扫描重建生成4DCT图像由10个不同呼吸时相的CT序列组成。由1位高年资放疗科主治医师在全部CT图像上勾画肿瘤靶区。4DCT不同时相图像示意图及其病灶勾画见图1。

1.3 特征提取 对靶区CT图像进行预处理,删除CT值<-150 Hu及>200 Hu部分,以去除空腔;排除钙化及骨化部分。

使用图像生物标记探索软件提取影像组学特征,包括直方图特征、形态学特征、灰度共生矩阵特征(gray level co-occurrence matrix,GLCM)、灰度游程矩阵特征(grey-level run length matrix,GLRLM)以及领域灰阶矩阵特征(neighborhood grey-tone difference matrix,NGTDM),共计60项特征。其中前2类为常规特征;后3类为3D纹理特征。特征计算公式参照文献[2]。

1.4 特征分析 分别对20例患者及各自呼吸时相的影像进行编号。每组影像提取特征后,逐对比较各组特征评估稳定性。采用一致性相关系数(concordance correlation coefficient,CCC)评估特征值在两组时相影像间的稳定性。CCC参考范围为-1~1,-1代表完全负相关,1代表完全正相关。该值接近1则表示特征重复性高[11]。

另外,引入动态范围指标(dynamic range,DR)以反映特征值在入组患者间的差异度[11]。该指标同样考虑该特征的重复性,见公式(1)。

其中,T1k(p)和T2k(p)表示第k个特征在第P个样本数据的两组时相特征值,n为样本总数,Maxk和Mink分别表示第k个特征在整个样本集中的最大值和最小值。DR范围0~1,接近1表示该特征在保证重复性的前提下存在反映较大生物学差异的可能。由于同类研究使用的阈值不统一,本文使用多个阈值(0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)作为特征筛选条件。当CCC或DR大于该阈值时,认为特征满足要求,同时剔除不满足要求的特征。

2 结果

2.1 不同阈值筛选特征 随着阈值增加,满足CCC筛选条件的特征占比由85%(51/60)减少至35%(21/60);满足DR筛选条件的特征占比由98%(59/60)减少至21.7%(13/60);同时满足CCC和DR筛选条件的特征占比由85%(51/60)减少至16.7%(10/60)。CCC和DR自阈值0.9增加到0.95的过程中曲线下降趋势明显(图2)。另外阈值范围在0.6~0.9时,使用单独CCC和CCC联合DR筛选出的特征占总特征比重曲线重合,即在该阈值范围内。单独CCC和CCC联合DR的筛选结果一致(表1)。

2.2 各类特征筛选结果 “F2-形态”特征相对其他类别特征更稳定,具有更好的多样性;“F5-NGTDM”特征最不稳定,缺乏满足CCC>0.95且DR>0.95的特征;“F3-GLCM”特征中有15项满足CCC>0.9且DR>0.9,但仅有1项满足CCC>0.95且DR>0.95。使用CCC>0.95、DR>0.95筛选出10项特征,占本研究总特征数的16.7%(10/60)。

图2 CCC和DR不同阈值筛选特征占总特征比重

表1 CCC及DR不同阈值筛选各类特征[例(%)]

3 讨论

影像组学需要保证研究结果的可重复性[14]。仅经过多中心研究的验证才具有临床应用价值。目前大数据研究方法逐渐成为热门,影像组学研究采用多中心海量的影像数据,理论上可筛选出具有高鲁棒性的特征,从而建立理想的诊断预测模型,但在实现的过程中存在一定的困难。首先,多中心数据的标准化不够完善,如处理不当,有些不“标准”的数据可能对最终结果产生不可预测的影响;其次,多中心分析相比单中心在样本数据增长数倍的同时,引入影响特征的因素增多,使得建模的难度激增[9]。因此,目前进行多中心分析尚存在一些困难。除多中心分析一次性考虑大部分因素外,也可通过多次勾画靶区、重复摆位二次成像等引入单一因素的方式筛选特征。重复摆位二次成像可在短时间内采集影像,保证肿瘤特性不变(反映肿瘤特性的特征值不发生改变),筛选特征有良好的效果[11];另一种方式是4DCT,其与重复摆位二次成像在各组影像间的差异来源不同,故认为不受摆位影响的特征很可能也不受呼吸运动的影响。NSCLC临床上不会进行重复二次摆位成像。NSCLC进行立体定向放疗通常需进行4DCT扫描成像,为基于4DCT筛选稳定特征提供了可用的数据,故本文探讨4DCT成像作为一种替代方式以筛除不稳定特征的可行性。

CCC是判断特征稳定性的指标,使用阈值由研究者制订,常用的阈值有0.75、0.80、0.85、0.90、0.95[15]。本文对比4DCT各时相影像的影像组学特征,CCC结合反映特征动态范围的指标DR,使用0.95阈值在60项特征中筛选出10项特征。Aerts等[1]通过重复二次成像方法对影像学特征进行稳定性排名,最终选择统计能量、形状紧凑性、灰度不均匀性、小波-灰度不均匀性4项特征进行生存率预测的建模,证明了以上特征预测肺癌和头颈癌预后的价值。其中,前3项特征纳入本研究,在一定程度上证明通过4DCT多时相影像对比可作为一种影像组学特征筛选方法。同时,本研究实现的稳定性特征筛选与预测模型中的特征选择不同,后者主要针对影像组学模型的研究目的进行,如预测肿瘤病理分类、临床分期、淋巴结转移、预后生存、治疗反应等,特征选择常用方法包括拉索回归、支持向量机、随机森林、神经网络等[16-18]。重复摆位二次成像,影像间差异主要来自重复定位在患者体内引起的不同形变。由于患者摆位不变,4DCT成像影像间的差异主要来自呼吸周期内的不同时间点。理想的做法是结合以上两种方式共同实现影像组学特征筛选。Balagurunathan等[11]在肺癌影像重复摆位二次成像影像特征重复性分析中,使用CCC和DR方法(CCC>0.95且DR>0.95)筛选出31项特征,占该研究中总特征数(189项)的16%,与本研究结果相同。以上结果表明两种方式均可获得理想的筛选效果。

本研究使用的样本缺少预后数据,无法分析通过4DCT成像方式筛选出的影像组学特征的临床预测价值;高稳定性的影像组学特征的预测价值尚需进一步验证。

本研究对于一种基于4DCT成像的影像组学特征筛选方式进行评估,基于4DCT多时相对比实现NSCLC影像组学特征稳定性分析,从60项特征中筛选出10项稳定特征(16%),实现与重复摆位二次成像相近的筛选效果。

猜你喜欢
组学特征值阈值
利用LMedS算法与特征值法的点云平面拟合方法
影像组学在肾上腺肿瘤中的研究进展
土石坝坝体失稳破坏降水阈值的确定方法
东莨菪碱中毒大鼠的代谢组学
单圈图关联矩阵的特征值
影像组学在核医学影像中的应用进展
蛋白质组学技术在胃癌研究中的应用
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
迭代方法计算矩阵特征值
求矩阵特征值的一个简单方法