何俊林,路 青,徐 昕,胡曙东
1. 江苏大学医学院,镇江 212013;2. 上海市金山区亭林医院放射科,上海 201505;3. 上海交通大学医学院附属仁济医院放射科,上海200127;4.上海市皓桦科技股份有限公司,上海 200010;5.江南大学附属医院放射科,无锡 214062
近年来,甲状腺癌(thyroid carcinoma,TC)的发病率呈明显的上升趋势[1]。甲状腺乳头状癌(papillary thyroid carcinoma,PTC)是其中最常见的组织学类型,占TC的90%以上[2]。大多数PTC生长缓慢且患者预后良好,治疗后复发或死亡的病例占总数的1.4%~13.3%[3]。颈部淋巴结转移(cervical lymph node metastasis,CLNM)被认为是PTC 患者局部复发和总体生存率降低的重要因素[4]。研究[5-6]表明PTC 有较高的颈部淋巴结转移率,为40%~70%。临床上外科预防性颈部淋巴结清扫易导致感染、神经损伤及甲状旁腺功能减退等并发症。因此,术前明确PTC 患者颈部淋巴结状态对于指导治疗和判断预后有重要意义。然而,临床医师的主观影像诊断对CLNM 的敏感度不高或差异较大,如超声(ultrasound,US)的敏感度为63%[7],CT 的敏感度为62%[8], 磁共振成像(magnetic resonance imaging,MRI)敏感度为33%~95%[9-10]。由于正电子发射体层成像的空间分辨力低[11],小的转移淋巴结难以被发现。虽然细针穿刺活检是确认淋巴结转移最准确的方法,但临床上不可能对每个区域的淋巴结进行穿刺,因此易发生漏诊[12]。
影像组学通过计算机高通量抽取影像资料中的高维特征,量化分析这些特征与病变的相关性,并可通过机器学习建立预测模型,用于诊断和预测预后和疗效[13],弥补了传统影像诊断依靠人眼识别征象和经验判断的不足。而CT 图像的甲状腺病变影像组学分析,不但弥补了US 对甲状腺病变显示的诸多局限(如钙化病灶显示差、胸内甲状腺显示困难、操作者依赖性强、图像重复性差等),还可提供多个扫描期相的图像,如平扫期、增强动脉期和静脉期。本研究探索PTC 多期CT 图像的影像组学特征在预测CLNM 中的价值,以期为临床诊断及治疗提供参考。
选择2017 年1 月—2020 年6 月在上海市金山区亭林医院行甲状腺外科治疗的197 例PTC 患者,收集其临床资料。纳入标准:①经过甲状腺全切除或次全切除,或者单侧切除+颈部淋巴结清扫。②术后病理学检查证实为PTC。③术前2 周内在医院行CT 扫描(平扫+动脉期+静脉期)。④术前未经任何与PTC 相关的治疗。⑤PTC为单发结节,或多发结节中病理学检查证实为单发PTC,其余结节为良性。排除标准:①CT 图像中的PTC长径<5 mm。②因人为因素或其他非病变本身原因造成的图像模糊。③多发结节中,PTC 无法确定为唯一。④同时患有其他恶性肿瘤。研究获得医院伦理委员会批准[伦理批号为伦研批第(2020-77)号]。所有患者均签署知情同意书。
所有患者的甲状腺CT 平扫及增强扫描均在BrightSpeed 16 排螺旋CT 机(GE,美国)上完成。扫描时患者采用仰卧位,颈部尽量仰伸,两肩尽量下垂。扫描范围从咽部至锁骨上缘。扫描参数:管电压120 kV、自动管电流、螺距0.938、矩阵512×512、扫描层厚5 mm、层间距5 mm。首先进行平扫,其次进行动脉期与静脉期扫描,分别在注射对比剂后的25 s与50 s扫描。对比剂为碘海醇注射液(35 g/100 mL,扬子江药业集团有限公司),经高压注射器肘部静脉团注,剂量1.5 mL/kg,注射速率3 mL/s。扫描结束后,所有图像均进行1.0 mm薄层重建,重建间距1.0 mm,采用标准重建算法(standard deviation,STD)进行。
1.3.1 图像处理 由1 名高年资头颈部肿瘤诊断医师(观察者1)对197 例PTC 患者的3 期CT 图像进行观察,剔除存在伪影干扰的图像,筛选出512 帧CT 图像(193帧平扫期、131 帧动脉期、188 帧静脉期),具有全部3 期CT 图像的患者为124 例,其CT 图像数占总数的72.6%。选取512 帧CT 图像中显示PTC 病灶最大长径的层面用于影像组学分析。再由观察者1和另一名高年资头颈部肿瘤诊断医师(观察者2)共同阅读124例患者的372帧CT图像,观察PTC 的位置、大小、形态、钙化情况、增强后边界、甲状腺包膜侵犯和周围组织侵犯等征象(以下称为影像征象)。
1.3.2 图像提取 观察者1 对选取的512 帧CT 图像运用ITK-SNAP 软件(www. itksnap. org) 圈选感兴趣区(region of interest,ROI)并分割提取(图1)。圈选时ROI 尽量覆盖整个瘤体,避免周围正常甲状腺组织被纳入,记录病灶的位置并测量其最大长径。为了评估ROI圈选的可重复性,在圈选结束2 周后,随机选择20 帧已圈选过的CT 图像,由2 位观察者再次圈选。评价观察者1 前后2 次圈选的ROI 及2 位观察者分别圈选的ROI 是否具有一致性,评价标准为组内相关系数(intra-class correlation coefficient,ICC)。
图1 PTC的ROI圈选示意Fig1 Demonstration of segmentation to ROI of PTC
1.3.3 特征提取 使用Python 中开源的Pyradiomics 软件包对512 帧CT 图像中分割的病灶ROI(CT 数据)进行特征提取。每个ROI 提取107 个影像组学特征,由Pyradiomics 软件包自动计算得出[14],包括一阶特征、基于形状的特征和二阶特征。一阶特征为基于单一像素或体素的特征;基于形状的特征主要为肿瘤的大小和形状,包括最大3D 长径等;二阶特征又称纹理特征,主要包括灰度共生矩阵(gray level co-occurrence matrix,GLCM)、灰度游程矩阵(gray level run length matrix,GLRLM)、灰度大小区域矩阵(gray level size zone matrix,GLSZM)灰度相关矩阵(gray level dependence matrix,GLDM),以及邻域灰度调差矩阵(neighboring gray tone difference matrix,NGTDM)等。
1.3.4 特征选择 为避免模型的过拟合以及噪声对模型表现的影响,采用Python 中SelectKBest 开源软件对提取的107个影像组学特征进行特征选择,以获取预测CLNM的最佳影像组学特征。SelectKBest法计算107个特征中表现最佳的k个特征,进行分类构建模型的受试者操作特征曲线(receiver operator characteristic curve,ROC curve)的曲线下面积(area under the curve,AUC)为评价标准,最高AUC对应的k个特征组合称为top(k)。
1.3.5 分类模型参数选择 使用Python 中开源的GridSearchCV 软件,设置交叉验证值为5 折,对512 帧图像的CT 数据进行随机划分(训练集∶测试集=4∶1);根据有无CLNM,用提取的107 个影像组学特征为分类模型RandomForestClassifier 中几个重要参数选择最佳参数值。参数及其取值范围设置为'max_depth':(10,20…100),'max_features':('sqrt' or "auto"),'min_samples_leaf ':(1,2…10),'n_estimators':(10,20…100)。结果发现参数为{'max_depth':60,'max_features':'sqrt','min_samples_leaf':8,'n_estimators':20}时,模型在测试集上的AUC 最高,为0.683。这些参数及相应的取值用于后续分类模型的构建。
1.3.6 模型构建 对124 例PTC 患者的平扫期、动脉期和静脉期的CT 数据分别按训练集∶测试集=9∶1 随机划分,使用最佳分类模型参数{'max_depth':60,'max_features':'sqrt','min_samples_leaf ':8,'n_estimators':20}和SelectKBest 算法获得的top(k),根据颈部淋巴结有无转移构建3 期的随机森林(random forest,RF)分类模型,并进行10 折交叉验证,获取每期107 个模型的10 折ROC曲线及相应模型的top(k)值。模型优劣的评价指标为10折ROC 曲线的平均AUC 和准确度。
使用Python 中的开源软件包进行影像组学研究,采用SPSS 19.0 软件进行统计分析。符合正态分布的定量资料用±s表示,检验方法为t检验;定性资料用频数(百分率)表示,检验方法为Pearsonχ2检验或Fisher 精确检验。所有的统计检验均为双侧检验,P<0.05 为差异有统计学意义。ICC>0.75表示ROI圈选有较好的可靠性[15]。
124 例PTC 患者中,年龄为21~79 岁,平均年龄为(50.3±13.4)岁。无CLNM 69 例,有CLNM 55 例,CLNM的发生率为44.4%。PTC的最大长径范围为0.50~4.00 cm,平均最大长径为[(0.998±0.567)]cm。甲状腺周围侵犯(P=0.004)、甲状腺包膜侵犯(P=0.025)以及年龄≥50 岁(P=0.044)的组间差异具有统计学意义(表1)。
表1 PTC患者的基线及临床特征(N=124)Tab1 Baseline and clinical information of PTC patients(N=124)
平扫期、动脉期和静脉期的CT 图像预测CLNM 的RF 分类模型中,最大平均AUC 对应的10 折交叉验证的ROC 曲线分别见图2。平扫期107 个模型中当top(k)为56 时,分类模型预测CLNM 的平均AUC 达到最大值(0.843),准确度0.767;动脉期107 个模型中当top(k)为94 时,分类模型预测CLNM 的平均AUC 达到了最大值(0.775),准确度0.695;静脉期107 个模型中当top(k)为47 时,分类模型预测CLNM 的平均AUC 达到了最大值(0.783),准确度0.726(表2)。比较3 期的分类模型获得的107 个平均AUC,平扫期图像特征预测CLNM 获得的AUC 明显高于动脉期(P=0.000)与静脉期(P=0.000),而动脉期与静脉期间差异无统计学意义(图3)。
图2 PTC患者的平扫期(A)、动脉期(B)、静脉期(C)的RF分类模型中最大平均AUC的10折ROC曲线Fig 2 10-fold ROC curve of the maximum AUC in RF classification models of the pre-contrast phase(A),arterial phase(B)and venous phase(C)of patients with PTC
表2 PTC患者CT平扫期、动脉期、静脉期RF分类模型10折交叉验证的结果Tab 2 Results of 10-fold cross-validation of RF classification model in pre-contrast phase,arterial phase and venous phase of patients with PTC
在124 例患者平扫期、动脉期和静脉期3 个期相的影像组学特征中,预测性能最佳的前10 位特征见表3,表现最好的特征多数为纹理特征,分别属于GLCM、GLRLM、GLSZM、GLDM、NGTDM等。
表3 PTC患者平扫期、动脉期和静脉期RF分类模型中预测性能最佳的10个影像组学特征(N=124)Tab 3 Top 10 radiomic features in RF classification model of pre-contrast,arterial and venous phase of PTC patients(N=124)
基于逻辑回归(logistics regression,LR)算法的影像征象中的危险因素(年龄≥50岁,甲状腺周围侵犯和甲状腺包膜侵犯)建立模型的ROC 曲线,结果显示AUC 为0.629,而平扫期影像组学特征LR 模型AUC 为0.718(P=0.011,图4A);联合平扫期影像组学特征、影像征象及临床因素(≥50 岁)构建的模型具有更好的预测能力(P=0.009,图4B)。
图4 PTC患者的影像组学特征、联合特征与影像征象的预测价值比较的ROC曲线Fig 4 ROC curve for comparison of predictive value of imaging omics,associative features and imaging signs of PTC patients
临床上对于PTC 患者的外科治疗,是否必须行预防性颈部淋巴结清扫一直存在争议[16]。颈部淋巴结的盲目清扫不仅增加了治疗成本,也增加了术后感染及神经损伤等风险。基于传统诊断模式下的US、CT、MRI术前探查CLNM 的敏感性不高,无法满足临床上术前治疗决策的需要。多项研究[17-18]表明,基于PTC 原发灶的影像组学特征可以预测CLNM。
研究PTC的CT影像组学特征对于CLNM 预测价值的文献不多。Lu 等[17]用支持向量机算法研究了221 例PTC患者的CT平扫期和静脉期的影像组学特征对于CLNM 的预测,取得了较好的结果(AUC=0.759)。本研究基于RF算法研究了PTC 的CT 增强多期扫描,发现平扫期、动脉期和静脉期图像的影像组学特征都可以预测CLNM;进一步比较发现,平扫期影像组学特征的预测性能明显优于动脉期和静脉期。
肿瘤的异质性是恶性肿瘤的重要特征,直接影响肿瘤的生长速度、侵袭能力、对药物的敏感性以及预后[19]。肿瘤异质性很难通过单一的方法进行描述,但可通过影像组学纹理分析进行量化研究[20]。图像纹理分析通过定量提取肉眼无法识别的反映灰度值分布模式及变化规律的纹理特征,反映肿瘤内潜在的异质性[21]。纹理特征最常用来评价肿瘤的异质性[22]。某些特定结构的PTC 亚型易发生CLNM 是由肿瘤内分子间异质性或成分异质性决定的,这些异质性决定了肿瘤内的灰度分布和构成,这也解释了虽然通过碘剂增强检查增加了肿瘤在血流动力学方面的差异,这些差异可能会影响肿瘤的分期或其他生物学行为如甲状腺外侵犯等评价,但同时也改变了肿瘤内原有的纹理分布,进而影响了模型预测CLNM 的能力。
为了保证数据的可比性,在模型构建时只使用了含有全部3 期的124 位患者的CT 数据。但在选择模型最佳参数时,考虑到样本数量较少,我们采用全部197例患者的512 帧图像的CT 数据。应用交叉验证法评估模型泛化能力最关键的因素是选择划分训练集和测试集的比例,K折交叉验证法可以使用数据集中的所有样本进行预测,通过平均的评价指标来降低奇异的训练集和测试集划分方式对预测结果的影响。研究[23-24]表明,K 值的选取对最终结果也有一定的影响,K 值越大,评估的准确性越高;而当K 为5 或10 时,评估在准确性和计算复杂性下综合性能最优。因此,本研究在选择最佳模型参数时,采用了5 折交叉验证法,在构建RF 分类模型时采用了10折交叉验证法。
我们还比较了影像组学特征与医师主观诊断的影像征象的预测价值,结果显示平扫期影像组学特征优于影像征象构建的模型;联合平扫期影像组学特征、影像征象以及临床因素(≥50 岁)构建的模型具有更好的预测能力。
本研究的局限性在于:①人工圈选的ROI 肿瘤区域不可避免会存在偏差。②样本量较少,可能会引起模型的过拟合[25-26]。③单中心研究的所有样本来自同一批次,缺少外部验证,模型泛化能力弱。④PTC 原发灶与CLNM 之间的映射关系只是基于统计学的假设,并非明确的一一对应关系。⑤直径<5 mm 的肿瘤被排除,研究的样本缺乏全面性。