安卫超,阎 婷,张 楠,张 杉,相 洁,曹 锐,王 彬
1.太原理工大学 信息与计算机学院,山西 晋中030600
2.山西医科大学 转化医学研究中心,山西 晋中030600
胃癌是全球最常见的恶性肿瘤之一,2018年全球胃癌新发病例1 033 701例,占全球癌症新发病例的5.7%,死亡782 685例,占全球癌症死亡病例的8.2%,在全球癌症发病率中位居第五,死亡率位居第三,且死亡率和发病率均无下降趋势[1]。由于癌症的异质性,胃癌的表型复杂多样,使得癌症的诊断和治疗更为困难。
微卫星不稳定性是由DNA错配修复受损而导致的一种特殊癌症表型,是基因组中短重复序列超变异性的一种形式,其特征是由于DNA聚合酶滑移和单核苷酸变异(SNVs)频率的升高而导致微卫星重复的广泛长度多态性[2],研究表明,MSI型胃癌约占胃癌患者的15%,这些患者更容易从免疫疗法中获益[3]。MSI型胃癌患者有其独特的临床特征,例如:弥散型癌组织基因组更不稳定、发病部位常见于肿瘤组织远端、肿瘤类型多为Borrmann3型等;MSI型胃癌患者通常具有良好的总体长期预后,与同期的MSS型胃癌患者相比,MSI型胃癌患者生存率较高;且从癌前到发病,MSI逐渐累积增加[4-7]。因此,MSI检测对胃癌的早期诊断和筛查,延长胃癌患者的预后,辅助胃癌治疗的临床决策有重要意义。主流的MSI检测方法主要有两种:免疫组织化学(Immunohistochemistry,IHC)和聚合酶链式反应(PCR)[8];IHC是通过检测错配修复基因的表达情况来反应MSI状态,PCR则是通过特定的单核苷酸位点的基因标记进行遗传分析;但无论是IHC还是PCR检测手段均需要在大容量的三级医疗中心进行,且需要较高的经济和时间成本,在临床实践中难以推广至每一个患者[9]。因此,无法为大量潜在的免疫疗法敏感者提供及时的免疫检查点抑制剂治疗,从而丧失了控制疾病的机会。
病理组织学是癌症诊断和预测的重要工具,它的表型信息反应了分子改变对癌细胞行为的综合影响,并为评估疾病的进展情况提供了直接的可视化的工具。组织病理学家可以通过评估细胞密度、组织结构、有丝分裂状态等组织学特征来对病变进行分类和分级。随着显微镜成像技术和计算机技术的进步,基于病理图片的辅助诊断模型发展迅速。其中,图像纹理分析用于病理图像的纹理特征提取,用于癌症的分级[10-11]、分类[12-15]和预测。例如,Belsare等人[16]通过提取乳腺癌患者组织病理图像的灰度共生矩阵(GLCM)、图游程长度矩阵(GRLM)和欧拉数等纹理特征,使用线性判别分类器(LDA)对图像组织学图像进行分类,对恶性和非恶性如下组织病理图像的分类准确率分别为80%和100%;Hamidreza等人[17]通过提取软组织肉瘤的三组纹理特征:灰度共生矩阵(GLCM)、灰度游程长度矩阵(GLRLM)和局部二值模式(LBP)进行纹理分析,实现了软组织肉瘤的转移和坏死预测。Nicolas等人[18]训练了一个深层卷积神经网络,可以通过组织病理图像准确地区分肺癌的两种亚型:腺癌(LUAD)和鳞状细胞癌(LUSC),还能确定细胞中与肺癌相关的六种基因的突变情况。Andrew等人[19]建立了融合多个残差网络的统计模型,可以从标准苏木精和曙红染色后的组织病理图像中精准预测前列腺癌患者Speckle-type POZ基因的突变状态。
本文提出一种基于组织病理图像纹理特征的胃癌MSI预测方法,针对肿瘤的异质性,从胃癌组织病理图像中提取定量的图像特征,使用Lasso回归构建预测标签,将预测标签作为独立的预测因子,结合患者的临床特征,通过logistics回归进行多变量分析构建预测模型,绘制个性的列线图,为胃癌患者MSI预测提供了有力工具。方法流程如图1所示。
图1 胃癌MSI预测模型构建过程Fig.1 Construction process of MSI prediction model for gastric cancer
本文所用胃癌组织病理图像均来自TCGA数据库。为有效利用所得数据对胃癌患者的MSI状态进行预测,本研究对收集到的数据制定了三个纳入标准:(1)病理图像染色均匀、成像清晰、无组织粘连;(2)具有统一完整的个人基本信息及临床特征;(3)具有明确的MSI状态信息。经筛选,共有277个病例样本符合入组标准。
为保证实验的有效性,得到有价值的结果,需要解决样本不均衡问题。采用上采样的方式扩充少数类样本:对于MSI型的病例,针对每例患者的组织病理图像选取多个ROI,每个ROI作为独立的样本,上采样后的数据集共有442例样本。
将所得样本按照3∶1的比例随机划分为训练集和验证集:训练集共有样本313例,其中MSI型156例,MSS型157例;验证集共有129例样本,其中MSI型64例,MSS型65例。
为了确保所得图像特征的准确性并降低计算复杂度,在进行图像特征提取之前需要对组织病理图像进行分割。为得到最具代表性的病灶区域,在一名具有丰富组织病理图像检测经验的主任医师指导下对肿瘤区域进行标注,并通过另一名专家对标记的病灶区域进行验证,最终分割得到全部组织病理图像的ROI。
本研究从分割所得ROI的原始图像和经过wavelet滤波后的图像中共提取到445个图像特征,可以分为两类,每类6组:一阶统计量(First order statistics)、灰度共生矩阵(GLCM)、灰度大小区域矩阵(GLSZM)、灰度游程长度矩阵(GLRLM)、相邻灰度色调差异矩阵(NGTDM)、灰度依赖矩阵(GLDM)。
First order statistics通过常用统计指标来描述感兴趣区域内的像素强度分布。GLCM是描述图像灰度的空间相关特性的二阶联合概率函数,通过计算GLCM得到矩阵的部分特征值,用以表示图像的纹理特征,能够反应图像灰度关于方向、相邻间隔、变化幅度的综合信息。GLSZM用于量化图像中的灰度级区域,灰度级区域定义为共享相同灰度级强度的已连接像素的数量。GLRLM用于量化灰度游程,灰度游程被定义为具有相同灰度值的连续像素的长度。NGTDM通过灰度等级的绝对差之和反应相邻像素的平均灰度值之间的差异。GLDM可以量化图像中的灰度依赖性,灰度依赖性定义为距离δ内依赖于中心像素的连通体像素的数量。
本研究从First order statistics中提取了18种特征,主要包括熵、总能量、平均绝对偏差、偏度等;从GLCM中提取了22种特征,主要包括自相关、联合海损、群集阴影、群集倾向等;从GLSZM中提取了16种特征,主要包括灰度不均匀归一化、区域大小不均匀、区域百分比、尺寸区域非均匀性标准化等;从GLRLM中提取了16种特征,主要包括游程熵、游程差异、灰度方差、游程非均匀标准化等;从NGTDM中提取了5种特征,主要包括粗糙度、对比度、复杂度、强度;从GLDM中提取了14种特征,主要包括依赖熵、依赖非均匀性、依赖非均匀性标准化、依赖方差等。
为降低模型复杂度,防止过拟合,在建模之前本文使用Lasso方法对特征进行选择。Lasso为改进传统的线性回归方法提供了新的视角,在普通线性回归算法的基础上加入L1惩罚项,使线性回归参数具有稀疏性,从而使得到的模型具有良好的预估性,所选择的特征与预测标签更相关。
对于给定样本的特征向量xi(i=1,2,…,N),xi∈Rn,Lasso回归的目标函数为:
其中,y是样本的标签,α={aj}是回归参数。为获得最佳回归参数,将目标函数最小化问题转化为以下子问题:
其中:
使用近端梯度下降(Proximal Gradient Descent)[20]算法对式(3)进行迭代求解;使用软域函数对式(2)求解,最终求解方法如下:
通过上述算法,最终获得稀疏后的特征矩阵,用于构建分类模型。
本研究应用稀疏后的特征值及其回归系数构建样本的预测标签,公式如下:
其中,Featurei为样本特征向量的第i个特征值,αi为该特征值对应的回归系数。
将Risk-score作为独立的预测指标,与样本的临床特征相结合,构建logistics回归模型,绘制个性化列线图。并通过C指数、AUC值、校准曲线和决策曲线评价模型的预测性能。
本研究所用组织病理图像来自277例胃癌患者,包括55例MSI型胃癌患者和222例MSS型胃癌患者,其中,男性患者188例,女性患者89例,中位年龄67.64岁(33~90岁),MSI型患病率为19.85%(55/277)。根据MSI状态将胃癌患者分为两组,经过T检验,MSI型患者与MSS型患者在性别、年龄、TNM分期方面的差异有显著统计学意义,患者的临床特征如表1所示。
表1 患者的临床特征Table 1 Clinical features of patient
基于MSI状态,应用Lasso回归在训练集上对图像特征进行筛选,图2(a)显示了二项式误差分类点与logλ的关系,其中最小二项式误差分类点表示保留的最佳特征数量适合模型。基于最小准则和1个标准误差标准,通过10倍交叉验证,以最佳λ值绘制虚线垂直线。图2(b)显示了图像特征的Lasso系数曲线。
图2 Lasso回归过程Fig.2 Lasso regression process
Lasso回归的结果如表2所示,最终筛选得到9个系数不为零的特征,包括基于原始图像4个图像特征,和基于小波滤波后的5个图像特征。通过式(6)计算出样本的Risk-score。将9个图像特征与MSI状态进行单因素方差分析,P值均小于0.001,表明筛选所得特征与胃癌患者的MSI状态显著相关。
表2 Lasso回归结果Table 2 Result of Lasso regression
基于所选图像纹理特征和Logistics回归,使用训练集构建了MSI预测性分类模型。如图3所示,在ROC曲线分析中,AUC值为0.75。然后将该模型应用于验证集,可以有效预测MSI状态,在ROC曲线分析中,AUC值为0.74。因此,构成模型的9个特征被证明是与胃癌患者MSI状态相关的组织病理图像特征。表3给出了分类模型各项评价指标的结果。
表3 模型评价结果Table 3 Evaluation results of model
图3 训练集和测试集的ROC曲线Fig.3 ROC curves for training sets and test sets
为体现预测模型的临床价值,本研究在全部数据集上分别构建了基于临床特征的列线图和加入Risk-score后的列线图用于预测胃癌患者的MSI状态。如图4所示。
图4 列线图对比Fig.4 Nomogram comparison
该列线图包括性别、年龄、TNM分期和Risk-score,允许用户获得对应于患者协变量组合的MSI状态预测概率。例如,定位患者的TNM分期轴,在该轴上画一条垂线,以确定与该TNM分期对应的预测分数。对每个变量重复此过程,并将每个协变量的得分相加,将总分对应得到预测概率,以此来实现胃癌患者的MSI状态预测。
分别应用一致性指数(index of concordance,C-index),AUC和校准曲线来评估列线图的预测性能。AUC值在加入Risk-score前后分别为0.696和0.802;一致性指数如表4所示,在加入Risk-score后,C-index的值由0.69提升至0.80;校准曲线如图5所示,虚线表示理想的预测状态,结果表明加入本研究构建的预测标签后校准曲线拟合更优。
表4 预测模型C-index评价Table 4 C-index evaluation of prediction model
图5 校准曲线对比Fig.5 Calibration curve comparison
为进一步验证预测模型的临床实用性,通过决策曲线分析,量化净收益来评估基于病理图像纹理特征的列线图的临床应用价值。如图6所示,在整个风险阈值区间内,加入Risk-score后的预测模型获得了更大的净收益。该结果表明加入Risk-score的列线图具有更大的临床应用潜力。
图6 决策曲线对比Fig.6 Decision curve comparison
为了进一步验证模型的性能,对比了其他关于MSI预测的研究,对比结果如表5所示。Fan[21]通过提取CT图像的形态、纹理、Gabor小波等放射组学特征,结合临床特征,使用Lasso和朴素贝叶斯分类器开发了三个预测模型用于MSI的预测,单独使用临床特征的模型AUC值为0.598,单独使用放射组学特征的模型AUC值为0.688,联合放射组学和临床特征的模型AUC值为0.752,与提出的MSI预测模型的分类性能有较大差距。Wang[22]通过组织病理图像的切片训练了一个ResNet-18网络,得到患者MSI状态的似然分布,生成斑块似然直方图特征,使用XGboost分类器对患者的MSI状态进行预测,得到的模型在训练集上AUC值为0.93,测试集为0.73,存在较明显的过拟合现象。
本文提出了一种基于胃癌组织病理图像纹理特征的MSI预测方法,提取原始图像的GLCM、GLSZM、GLRLM等纹理特征,以及经过wavelet变换后的纹理特征。使用Lasso回归进行特征选择,得到9个与胃癌患者MSI状态最相关的纹理特征,基于这些纹理特征构建了胃癌的MSI预测标签,并在训练集和验证集上对预测标签分类性能进行验证,AUC值分别为0.75和0.74,该结果表明提出的预测标签对胃癌患者的MSI状态有较好的区分度。
结合临床特征与本文提出的预测标签构建了胃癌MSI预测模型,与基于临床特征的预测模型相比,在加入本文提出的预测标签后,模型的AUC值从0.696提升至0.802。为了进一步验证本文提出的预测标签的有效性和预测模型的临床价值,分别对加入预测标签前后的预测模型进行校准曲线,C-index值和决策曲线评价,结果显示在加入本文提出的预测标签后,C-index值和校准曲线表现有明显提升,决策曲线分析也显示出更大的净收益。
与传统的MSI检测方法相比,利用机器学习技术基于容易获得的组织病理图像直接预测胃癌患者的MSI状态,无需额外的实验室进行基因检测和免疫组织化学分析,可以以较低的成本实现MSI状态的预测。
与基于CT图像的计算机辅助MSI预测方法相比,考虑到不同扫描仪和成像方案在放射学特征可重复性方面的潜在差异[23],而H&E染色的组织病理图像的成像更为稳定[24],这可能是本文提出的MSI预测模型性能优于Fan[21]的原因。与Wang[22]提出的方法相比,本文方法在基于组织病理图像纹理特征的预测模型上展现出了相近的性能,但Wang[22]在模型构建过程存在较为明显的过拟合,且没有充分利用患者的临床数据,而将患者的组织病理图像特征与临床特征相结合构建的列线图预测模型可以实现个性化的MSI状态预测。
本研究提出并验证了基于组织病理图像的胃癌MSI预测方法,能够有效预测胃癌患者的MSI状态,为MSI的普遍筛查提供了可能,有潜力使更多的胃肿瘤患者在免疫治疗中获益。