余庆邦,范明,王晓稼,郑智国,许沈华,陈占红,厉力华△
(1.杭州电子科技大学生命信息与仪器工程学院,杭州 310018;2.浙江省肿瘤研究所, 杭州 310022)
癌症由人类基因中的原癌基因决定,而基因通过蛋白质进行表达。研究显示,癌症早期患者的蛋白质水平已经表现出一系列和细胞癌变相关的变化[1]。随着蛋白质组学和质谱技术的发展,大部分国内外研究者采用公共数据集,将蛋白质质谱分析技术运用于乳腺癌早期诊断方面[2]。然而,这些研究着重于设计分析算法的框架,对进一步寻找影响肿瘤特性的生物标志物辅助治疗方面鲜有尝试。TNM分期很好地描述了肿瘤的大小和淋巴结受累情况,而这两个因素都属于预后指标证据分级中的A类证据[3],对于乳腺癌的治疗评估非常重要。本研究运用浙江省肿瘤医院提供的乳腺癌临床SELDI-TOF质谱数据,采用成熟的算法框架,依据临床TNM分期,探索肿瘤大小、淋巴结受累情况在蛋白质质谱中的表达差异,通过数据分析寻找相关生物标志物,为乳腺癌靶向治疗提供蛋白质水平的参考,对实现乳腺癌个体化治疗有促进作用。
本研究所用样本的临床TNM分期依据《AJCC癌症分期手册》简单概括为:T指肿瘤原发灶的情况,无原发肿瘤证据用T0表示,随着肿瘤体积的增加和邻近组织受累范围的增加,依次用T1~T4来表示; N指区域淋巴结(regional lymph node)受累情况,无区域淋巴结转移用N0表示,随着淋巴结受累程度和范围的增加,依次用N1~N3表示;M指远处转移情况,无远处转移者用M0表示,有远处转移者用M1表示[3]。
浙江省肿瘤医院提供2006年8月至2009年7月间住院214例乳腺癌患者的血清蛋白质质谱样本,每例样本约有65536维蛋白特征。各病例样本均从手术日起,采用电话和门诊复诊等形式进行跟踪随访,随访日期截止到患者死亡或满5年,包括血清蛋白质检测时间、临床TNM分期、免疫组化信息和病理类型等重要信息。仔细筛查病理信息,本研究选取的病例样本均为女性,单侧乳腺癌;为防止相关治疗引起生物标志物的变化干扰实验,蛋白质质谱检测时间为化疗和手术等治疗之前;病理类型选为乳腺癌中常见的浸润性导管癌。筛选之后,有102例病例供本实验使用,统计具体TNM分期数量用以分组对照实验,见表1。
表1 102例病例中具体的TNM分期对应的病例数量
本研究通过使用特征选择、机器学习和统计分析方法,分析SELDI-TOF蛋白质谱数据,挑选出有价值的蛋白质位点。具体实验流程见图1。
图1 实验流程图
3.2.1数据预处理 对于SELDI-TOF质谱仪获得的原始质谱数据,除了真实的质谱信号还包含大量的噪声,主要是低频基线信号、高频信号以及实验仪器自身系统误差。因此,在分析质谱数据之前对数据进行预处理是十分必要的。本研究采用文献[4]中所述的预处理方法,进行谱峰校正,修正m/z值的偏差;重采样,统一m/z值;基线去除,使样本基线靠近水平线;标准化,规范每个蛋白位点的强度值便于计算分析;谱线平滑,过滤高频噪声。
3.2.2蛋白质特征选择 第一步,经过数据预处理后,依据肿瘤大小以及淋巴结受累情况对样本分组,运用t-test对每组质谱数据根据t值进行排序,选择3 000个排名靠前的特征位点,初步减小特征维数,降低了后续步骤计算复杂度以便特征挑选。
第二步,经过初筛之后仍然存在高维度的特征,运用近邻传播聚类算法(affinity propagation clustering,AP)[5]进一步提取特征。AP算法首先将数据集的所有特征位点都视为候选的聚类中心,并计算各个位点间的负欧几里得距离s(i,k)如下式:
s(i,k)=-‖xi-xk‖2
(1)
式中,xi和xk表示任意两个蛋白质位点。将负欧几里得距离组成的矩阵称为每个特征位点间的相似度矩阵SN×N。假设每个特征为点成为类代表点的可能性相同,并设置聚类偏向函数P值为通用的相似矩阵中位值。该算法迭代过程中,不断更新可信度r(i,k)和可用度a(i,k)这两个重要参数,从而得到对应的聚类中心,最后进一步分配相关位点获得聚类结果。
第三步,数据经过聚类之后,特征维数仍然远大于样本数,再通过零空间LDA算法提取有效特征。经典LDA(linear discriminant analysis,LDA)算法在“小样本”的情况下,其类内散布矩阵奇异,将导致算法失效。而零空间LDA算法有效克服了上述缺陷,去除了类内散布矩阵和类间散布矩阵中的零空间部分,获得最优投影方向系数。总体散布矩阵ST以及最优投影方向Wopt公式如下:
(2)
(3)
第四步,通过上述两个步骤的处理,数据集不仅在维度上有了很大的降低,而且数据特征间的相关性也进一步减小,但是并不是剩下的特征对分类器来说都具有判别意义。支持向量机递归特征去除算法(support vector machine recursive feature elimination, SVM-RFE)结合SVM分类器,对特征进行选择。使用SVM分类器训练剩余的特征位点,得到训练后的SVM参数;通过特征权重计算排序,剔除排列靠后权重低的特征。其中,排序准则如下式:
RC=W2-W-(-P)2
(4)
式中,W2和W-(-P)2分别表示完整SVM的权重和假设剔除第P个特征后SVM的权重。
第五步,为结合SVM分类模型,在特征选择的过程中使用留一法交叉验证,每组数据不断循环迭代,集合每次排名前五的特征位点,剔除相同特征,最后每组统一选择35个特征的特征子集用于SVM分类,获得分类结果并统计分析。
根据TNM分期统计的样本,分两个部分分组实验。
(1) 选择不同肿瘤大小,相同区域淋巴结受累情况,无远处转移的样本进行对照实验,即TNM分期为T1N0M0(14例)与T2N0M0(22例)组,寻找肿瘤大小差异样本的相关生物标志物。
(2) 选择同肿瘤大小,不同区域淋巴结受累情况,无远处转移的三个分组进行对照实验,即TNM分期为T2N0M0(22例)与T2N3M0(17例)组、T2N1M0(26例)与T2N3M0(17例)组和T2N0M0(22例)与T2N2M0(23例)组。寻找区域淋巴结受累情况差异样本的相关生物标志物。
将每个分组统一挑选出35个排名靠前的生物标志物作为一个特征集用于分类测试,通过分类准确度、敏感性和特异性三个参数来评价挑选结果。并对每组挑选出的蛋白位点使用T检验,P<0.05具有显著差异的位点个数。
表2 具体TNM分期分组分类结果及P值
如表2所示,四个组均表现出了较好的分类效果,说明肿瘤大小和淋巴结受累转移情况的差异可以在蛋白质质谱中体现,挑选出的生物标志物具有参考价值。虽然由于生物标志物在肿瘤患者间并不如患者与健康人间表现得那么敏感易区分,在数据上并不如早期发现研究中那样具有高的分类率,但是本文数据建立在一定的乳腺癌的样本之上,所得结果具有一定价值。
通过t检验统计显示,所挑选的部分生物标志物具有统计学意义。但仍有部分位点存在无统计意义上的显著差异或生物学意义,这是因为T检验比较的是两个分组在该位点的均值差异是否显著。限于篇幅,仅选择两个位点,通过样本均值图来观察挑选出的生物标志物。图2(a)是T1N0M0与T2N0M0组中P值为0.018的MZ9323.006点,体现了不同肿瘤大小的分组样本在生物标志物上的差异;图2(b)是T2N1M0与T2N3M0组中P值为0.020的MZ8710.061点,体现了同肿瘤大小,不同淋巴结情况的分组样本在生物标志物上的差异。从图中可以看出,所挑选的生物标志物均在波峰或者波谷附近,具有较好的区分度。
(a)MZ9323.006点
(b)MZ8710.061点
本研究运用浙江省肿瘤医院提供的乳腺癌临床SELDI-TOF质谱数据,依据临床TNM分期,采用特征选择、机器学习和统计分析方法,探索影响肿瘤大小、淋巴结受累情况的差异。实验结果发现,肿瘤大小和淋巴结受累情况的差异在蛋白质水平表达,可以通过分组对比质谱数据分析获得相关差异结果,并挑选出有代表性的特征位点。在实际临床应用中,可通过检测相关生物标志物在化疗等治疗过程中的变化,作为评价治疗效果的参考,或者监测相关标志物进行靶向治疗。因此,对比不同病例样本,挑选出有价值的蛋白质位点,对疗效评价、个体化治疗等都有重要意义。