刘婧娟, 刘炜, 薛华丹, 蒋林, 于健春, 毛丽, 李秀丽, 金征宇
在中国,胃癌的发病率和死亡率分别位于所有恶性肿瘤的第2位和第3位,是国民经济及健康的巨大负担。第八版美国癌症联合委员会(American Joint Committee on Cancer,AJCC)指南建议增强CT作为胃癌治疗前临床分期的首选影像学手段。然而,由于CT软组织分辨率有限、胃癌具有显著的异质性以及缺乏统一的形态学诊断标准等因素,导致其分期的准确性欠佳。此外,临床实践经验及文献研究表明,胃癌的临床分期更容易受到医师经验的影响,胃肠专业放射医师与普通放射医师具有较大的主观差异,进而影响临床治疗方案的制定[1]。近年来,新兴的影像组学技术迅猛发展,可多维度挖掘图像背后的数据信息,提取丰富的定量参数,协助医师进行病灶检出、鉴别诊断及预后分析[2-6]。本研究拟通过分析胃癌患者增强CT的薄层重建图像数据,提取定量影像组学特征,尝试多种建模算法,建立胃癌临床分期的人工智能(artificial intelligent,AI)系统,为临床提供更客观、可靠的辅助诊断工具。
1.病例资料
回顾性搜集2017年7月至2019年6月北京协和医院收治的胃癌患者。病例纳入标准:①胃镜及活检病理证实为胃癌;②术前在我院行增强CT检查;③检查前未接受任何放疗、化疗及生物靶向治疗;④检查完成后4周内在我院行手术治疗。病例排除标准:①患者呼吸配合差,图像具有严重运动伪影;②增强CT无法检出病灶。
2.CT检查方法
患者在检查前需禁食4~6 h,排空胃腔,检查前10 min需饮水800~1000 mL,充分充盈胃腔后,随即进行CT检查。CT检查采用MSCT设备(包括西门子128排第2代Definition Flash双源双能CT、飞利浦192排iQon能谱CT、GE 64排宝石能谱CT),患者取仰卧位。首先进行平扫,然后进行增强扫描,血管对比剂为非离子型对比剂优维显(碘浓度为370 mg/mL),采用自动高压注射器经前臂静脉团注,静脉注射流率为3 mL/s,剂量为1.5 mL/kg,增强扫描共分为3期,动脉早期从主动脉CT值达100 HU后延迟5~15 s开始,动脉晚期在触发扫描后40~50 s开始,平衡期在触发扫描后90~120 s开始。扫描参数:管电压120 kV,有效管电流为150 mAs,扫描机架旋转时间0.25~0.80 s,准直128×0.6-64×0.625,常规图像为层厚5.0 mm,层间距5.0 mm,薄层图像层厚为0.625~1.000 mm,层间距为0.625~1.000 mm,可用于三维重建。
3.影像组学分析
病变三维容积感兴趣区标注:将患者胃重建增强CT的动脉晚期薄层图像(0.625~1.000 mm)的DICOM格式从图像存储与传输系统(picture archiving and communication system,PACS)中提取出来[7,8],数据经过匿名化处理后上传至Dr.Wise标注平台(http://www.deepwise.com),由一位具有7年工作经验的放射医师按照随机顺序进行标注。在数据库中随机选取30例患者,由另一位具有17年工作经验的放射科医师标注,进行研究者间一致性分析(interclass correlation coefficients,ICC);间隔4周以上由7年工作经验医师再次标注,进行研究者内一致性分析。研究者选择病灶所在全部层面,采用平台半自动标注功能进行病灶三维容积感兴趣区(volume of interest,VOI)的勾画,该软件根据病灶与周围结构的CT值差异,自动选取肿瘤边缘进行病灶分割,之后由放射科医师对其进行手动逐层修正,获得每层感兴趣区(region of interest,ROI),生成最终病灶VOI进行下一步分析(图1)。
图1 胃癌患者肿瘤最大层面沿病灶边缘勾画ROI(左)及3D立体肿瘤示意图(右)。
特征提取:为了消除由于CT图像的层厚、像素间距等设备参数的差异对模型性能的不利影响,所有图像都经过重采样操作,将图像在三个解剖方向上的像素间距调整为1.0 mm,使模型输入数据为各向同性。之后使用Pyradiomics工具(Version2.1.0,https://github.com/Radiomics/pyradiomics)提取VOI内肿瘤组织的影像组学特征。
提取的组学特征包括以下几类:①用于描述病灶尺寸和形状的三维形态特征;②用于描述病灶区域CT值强度分布的一阶统计特征;③用于描述病灶区域CT值空间分布等信息的纹理特征,包括灰度共生矩阵(gray-level co-occurrence matrix,GLCM)、灰度游程矩阵(gray-level run-length matrix,GLRLM)、灰度区域大小矩阵(gray-level size zone matrix, GLSZM)、相邻灰度差分矩阵(neighboring gray tone difference matrix,NGTDM)和灰度相关矩阵(gray-level dependence matrix,GLDM)等特征。
此外,为了强化病灶区域的纹理信息,本研究引入了高通或低通小波滤波器和不同参数的拉普拉斯-高斯滤波器对原始CT图像进行预处理,预处理后的图像与原始CT图像一起送入特征提取器中提取组学特征。最终,对于每1个病灶共有1218个影像组学特征被提取出来,并进行z-score标准化。
机器学习模型的建立和评估:为了降低预测模型过拟合风险,提高模型预测性能,本研究采用基于互信息的特征选择算法(joint mutual iIIfbmation maximisation,JMIM)对组学特征和临床病理特征进行特征选择,筛选出与病灶分类有显著关系的特征。本研究采用支持向量机(support vector machines,SVM)、随机森林(Random Forest)、Logistic回归分析(Logistic Regression)、Ada Boost、Gradient Boosting、Decision Tree等多种机器学习算法进行胃重建增强CT影像组学模型的建立。
对每个模型均采用10折交叉验证进行训练,训练过程需要确定两组超参数,分别为JMIM算法中的特征数和模型的超参数。对于JMIM算法中特征个数的选择,选择特征个数为5、8、10、13和15。超参数使用网格化搜索确定,根据验证集中受试者工作特征(receiver operating characteristic,ROC)曲线的曲线下面积逆向选择最佳模型参数和JMIM算法中的特征数。
本研究按照4:1比例随机将数据分为训练集和验证集。根据两组最佳超参数,在整个训练集上训练,得到最佳模型,并在测试集上测试。记录每次迭代时模型预测训练、验证集及测试集数据为阳性的概率,并计算每个数据作为训练集、验证集或测试集时每次迭代记录的概率的均值,作为模型的训练集、验证集或测试集的结果。据此计算模型在训练集和验证集的各项指标,包括模型的曲线下面积(area under curve,AUC)、准确度、敏感度、特异度等。最终根据不同模型AUC指标的对比获得本次实验中最佳的模型。所有的实验均通过Dr.Wise科研平台进行。
图像分析:增强CT图像的胃癌临床分期(clinical TNM,cTNM)由两位分别具有17年及7年工作经验的医师在Dr.Wise科研平台进行独立、盲法阅片。两位医师的研究方向为胃肠影像学,是北京协和医院食管癌及胃癌多学科协作组固定成员,在胃癌影像诊断方面具有丰富经验。
胃癌cT分期判读依据为第八版AJCC指南建议[9]及CT影像征象[10,11],具体如下:cT1,内层高强化癌肿与外层稍高强化肌层间可见连续完整的低强化条带,高强化癌肿不超过胃壁总厚度的 50%;cT2,中层低强化条带中断消失,外层残余部分稍高于强化肌层,高强化癌肿超过胃壁总厚度的50%;cT3,高强化癌肿侵犯胃壁全层,浆膜面光滑或少许短细索条,浆膜模糊或短细索条范围<1/3全部病变;cT4a,浆膜面不规则或结节样形态,周围脂肪间隙密集毛刺或条带状浸润,浆膜高强化线样征,并参考断层分区定位法;cT4b,与邻近脏器结构脂肪间隙消失,指状嵌插或直接浸润为确切侵犯征象,脏器间脂肪间隙密度增高并索条影。
胃癌cN分期判读依据为第八版AJCC指南[9]:cN0,0个转移淋巴结;cN1,1~2个转移淋巴结;cN2,3~6个转移淋巴结;cN3a,7~15个转移淋巴结;cN3b,16个及以上转移淋巴结。转移淋巴结征象:CT显示胃周引流区淋巴结短径≥8 mm,或短径<8 mm、呈圆形、边缘毛刺状、3个及以上成簇分布。
胃癌cM分期判读依据为第八版AJCC指南[9]:cM0,无远处转移;cM1,有远处转移(包括脏器转移、非区域淋巴结转移及腹膜转移等)。
5.病理学结果
所有的手术病理取样经处理后送至病理科,参考第八版AJCC指南进行病理分期(pathological TNM,pTNM)[9],具体标准包括:①T分期:pT1,肿瘤侵犯至粘膜层及粘膜下层;pT2,肿瘤侵犯至肌层;pT3,肿瘤侵犯至浆膜下层;pT4a,肿瘤侵犯至浆膜层;pT4b,肿瘤侵犯至相邻脏器。②N分期:pN0,无淋巴结转移;pN1,1~2个淋巴结转移;pN2,3~6个淋巴结转移;pN3a,7~15个淋巴结转移;pN3b,16个及以上淋巴结转移。③M分期:pM0,无远处转移;pM1,存在远处转移。
表1 不同T分期、N分期及TNM分期胃癌患者的临床资料比较 (例)
6.统计学分析
采用SPSS 22.0软件进行统计学分析。定量资料如患者年龄等以均值±标准差表示,分类变量以计数及百分比表示。定量资料首先采用Kolmogorov-Smirnov检验分析是否符合正态性分布以及方差齐性,如符合正态分布、方差齐性,则采用独立样本t检验进行组间比较,如不符合正态性分布或方差齐性,则采用Mann-WhitneyU秩和检验进行组间比较;分类资料如病变位置、分期等采用卡方检验进行组间比较。绘制ROC曲线评估模型的诊断效能,测试集中影像组学与临床医师在T、N及TNM分期的诊断能力比较采用McNemar检验。以P<0.05为差异具有统计学意义。
1.临床特征
本研究共纳入174例患者,平均年龄为(60.5±10.5)岁(范围29~83岁),其中男128例(73.6%),女46例(26.4%);病灶位置位于贲门胃底33例(19.0%),胃体52例(29.9%),胃窦89例(51.1%)。病理结果显示T1~T2期71例(40.8%),T3~T4期103例(59.2%);N0期68例(39.1%),N1~N3期共106例(60.9%);TNM总分期Ⅰ期53例(30.4%),Ⅱ期41例(23.6%),Ⅲ期79例(45.4%),Ⅳ期1例(0.6%)。统计学分析结果显示,不同胃癌T分期患者的年龄差异及不同N分期、TNM分期患者的性别差异有统计学意义(P<0.05,表1),其他不同分期患者间的临床资料差异均无统计学意义(P>0.05)。
2.影像组学特征分析结果
影像组学特征的研究者间ICC为0.779(95%CI:0.734~0.824),研究者内ICC为0.825(95%CI:0.789~0.862)。
在T1~T2期与T3~T4期预测实验中,在交叉验证中根据验证集的AUC来选择最佳超参数,最佳特征数是8个影像组学特征(表2),最佳分类模型是AdaBoost,在交叉验证集中的AUC为0.879(95%CI:0.817~0.940),模型准确度为83.5%,敏感度为85.5%,特异度为80.4%(图2)。在测试集中的AUC为0.832(95%CI:0.687~0.976),模型准确度为74.3%,敏感度为75.0%,特异度为73.3%(图2)。临床医师阅片的准确度、敏感度、特异度分别为88.6%、95.0%、80.0%及85.7%、95.0%、73.3%(17年及7年经验医师),与测试集结果差异无统计学意义(P=0.125、0.219)。
N0期与N1~N3期预测实验中,在交叉验证中根据验证集的AUC来选择最佳超参数,最佳特征数是13个影像组学特征(表2),最佳分类模型是SVM,在交叉验证中的AUC为0.839(95% CI:0.770~0.909),模型准确度为82.0%,敏感度为86.1%,特异度为75.5%(图3)。在测试集中的AUC为0.670(95% CI:0.481~0.859),模型准确度为60.0%,敏感度为65.0%,特异度为53.3%(图3)。临床医师阅片的准确度、敏感度、特异度分别为74.3%、95.0%、46.6%及68.6%、75.0%、60.0%(17年及7年经验医师),与测试集结果差异无统计学意义(P=0.302、0.581)。
根据AJCC指南,胃癌TNM分期Ⅰ-Ⅱ期与Ⅲ-Ⅳ期分类实验中,在交叉验证中根据验证集的AUC来选择最佳超参数,最佳特征数是15个影像组学特征(表2),最佳分类模型是Logistic Regression,在交叉验证中的AUC为0.907(95% CI:0.855~0.958),模型准确度为86.3%,敏感度为95.5%,特异度为77.8%(图4)。在测试集中的AUC为0.703(95% CI:0.514~0.891),模型准确度为65.7%,敏感度为61.5%,特异度为68.2%(图4)。临床医师阅片的准确度、敏感度、特异度分别为65.7%、53.8%、72.7%及60.0%、53.8%、63.6%(17年及7年经验医师),与测试集结果差异无统计学意义(P=1.000、0.754)。
图2 AdaBoost算法影像组学预测胃癌T分期的ROC曲线。 图3 SVM算法影像组学预测胃癌N分期的ROC曲线。 图4 Logistic Regression算法影像组学预测胃癌TNM分期的ROC曲线。
表2 胃癌影像组学T分期、N分期及TNM分期的影像组学特征
本研究通过深度挖掘术前胃癌患者的增强CT影像数据,建立了胃癌T分期、N分期及TNM分期的影像组学术前诊断模型。
与大多数实体肿瘤根据大小判断T分期不同,胃癌及其他消化道恶性肿瘤根据癌肿侵犯的深度进行分期,2019年中国临床肿瘤协会胃癌诊治指南推荐T3及以上分期的胃癌进行术前新辅助治疗,因此鉴别T1-T2与T3-T4期对于临床决策尤为重要[12]。然而目前AJCC等指南缺乏增强CT胃癌分期的统一标准,为影像科医师进行术前分期标准化及普及化带来很大困难。影像组学是一种基于现有影像数据的无创、辅助分析手段,不额外增加患者及医疗系统负担,建立基于增强CT的胃癌影像组学术前诊断工具是一项有益的尝试[13]。在影像组学研究早期,Liu等[7]纳入153例胃癌患者,提取其增强CT中最大癌肿层面ROI的纹理分析信息,结果显示动脉期的偏度(skewness)在鉴别早期(T1期,比例4.6%)与进展期胃癌(T2-4期,比例95.4%)间具有最大AUC(0.822)。本研究纳入8个增强CT动脉晚期肿瘤VOI的影像组学特征,建立T1-T2与T3-T4的分期诊断模型,结果显示,在交叉验证中的AUC可达为0.879,诊断准确度为83.5%;在测试集中的AUC为0.832,模型准确度为74.3%,通过更深度提取及挖掘癌肿的影像组学信息,纳入更合理的病例构成比的队列(T1+T2期病例比例占40.8%),进一步提高诊断效能。与文献报道中胃癌临床TNM分期多采用影像报告的结果不同,本研究采用具有丰富胃癌影像诊断经验的胃肠放射专业组医师的阅片结果作为对比,结果显示,影像组学模型针对T分期的诊断准确度虽略逊于胃癌影像专家(准确度为85.7%~88.6%),但差异无统计学意义。基于本研究,可通过设计与PACS兼容的胃癌影像组学后处理软件,使其成为一种协助低年资医师或非胃肠专业影像医师进行胃癌术前诊断的有力工具。
针对胃癌淋巴结转移的判断,AJCC等指南同样缺乏统一的影像学诊断标准。目前在临床工作中,通常根据淋巴结的形态和大小判断胃癌N分期,一般认为短径大于1 cm且形态较圆的淋巴结为转移性淋巴结[9]。相关文献报道,根据此标准,增强CT诊断胃癌N分期的准确度约为65%[14],与本研究中影像专家的诊断准确度相近(68.6%~74.3%)。然而有些正常大小的淋巴结已经出现了微转移,或有些反应性淋巴结明显增大。相关研究表明,是否存在淋巴结转移往往与原发病灶特点有关,如低分化、淋巴血管浸润、表皮生长因子阳性等是淋巴结转移的危险因素[14],然而,这些信息均需要在获取病理后才能得到,不过这也为通过研究原发灶特征来预测淋巴结状态奠定了理论基础。Feng等[15]通过手动、逐层勾画病灶,提取490例胃癌患者的增强CT影像组学信息,建立淋巴结转移智能决策模型,结果证实其诊断能力高于临床诊断模型,诊断准确度分别为71.3%和63.2%。本研究通过分析原发病灶CT的影像组学信息,预测淋巴结转移的准确度达60.0%,相对于影像专家综合考虑淋巴结的大小、形态、边缘、成簇分布等特点进行N分期的诊断效能(准确度为68.6%~74.3%),未实现显著超越。两项研究结果不同可能与入组病例数、病例构成比及临床诊断模型差异有关。在未来的研究中,笔者将会深入挖掘人工智能的功能,探索自动识别胃癌16组淋巴结的方法,努力实现全组淋巴结勾画及分析方案,解决评估淋巴结转移的瓶颈问题。
正如前述,胃癌分期及侵袭性取决于原发癌肿的本质,例如约10%的早期胃癌已经存在淋巴结转移[16],AJCC指南亦是根据T、N、M分期判断总分期进行预后分析,因此TNM总分期的预测在进行患者危险度分层及个体化咨询方面具有指导意义。笔者检索文献发现胃癌影像组学针对分期方面的研究较多集中在一个方面,如浸润深度、淋巴结转移或腹膜转移等,较少文献针对TNM总分期进行预测。本研究建立胃癌TNM总分期的预测模型,结果显示测试集中AUC为0.832,模型准确度为74.3%,体现出其应用的可行性,然而其诊断效能距影像专家(准确度为85.7%~88.6%)还有一定差距,可能由于本研究入组胃癌的异质性较大,如不同部位、分化程度、病理类型等,其生物学行为的差异可能导致分期特点的不同,笔者未来将通过加大入组样本量,进行亚组分析,增加新的机器学习算法,进一步优化和提升模型的诊断效能,以期实现向临床应用的转化。
本研究存在以下不足:首先,入组的病例数较少,由于化疗后肿瘤及瘤周反应可能改变影像表现,本研究队列中均为术前未行化疗而直接接受手术治疗的病例,纳入IV期胃癌患者数量较少(仅1例,术前影像未发现腹腔种植转移),存在一定的选择偏倚;其次,本研究仅采用CT影像组学定量特征进行胃癌分期诊断模型的建立,未纳入临床人口特征、化验指标、活检病理特点等因素,后续将提倡建立病例库,综合临床信息,进行多模态分析的深入研究;最后,该研究为单中心、回顾性研究,结论需要前瞻性、大样本、多中心研究的进一步验证。
综上所述,胃重建增强CT的定量影像组学特征在术前预测胃癌T分期、N分期及TNM总分期方面有较高的应用价值,可为胃癌患者制定个体化治疗方案提供了新的依据。