韩小宏 毛巧霞 李晓春 沈建法 陆国峰 余捷凯
1.浙江省桐乡市中医院外科,浙江 桐乡 314500;2.浙江省桐乡市中医院检验科,浙江 桐乡 314500;3.浙江大学肿瘤研究所,浙江 杭州 310009
基于生物信息学方法的血清标记物模型在胃癌诊断中应用
韩小宏1毛巧霞2李晓春1沈建法1陆国峰1余捷凯3
1.浙江省桐乡市中医院外科,浙江 桐乡 314500;2.浙江省桐乡市中医院检验科,浙江 桐乡 314500;3.浙江大学肿瘤研究所,浙江 杭州 310009
背景与目的:胃癌患病率和病死率迅速上升,发病年龄逐渐提前已引起普遍关注。由于临床上缺乏好的肿瘤标志物检测方法,绝大多数的胃癌患者确诊时已是中晚期。早期诊断、早期治疗是提高胃癌生存率和降低死亡率的关键。本研究旨在联合检测多种血清肿瘤相关标志物,建立基于人工神经网络的胃癌血清标记物诊断模型,并应用于胃癌的早期临床诊断。方法:应用酶联免疫吸附法(enzyme-linked immunosorbent assay,ELISA)分别测定89例胃癌患者和85例健康人的血清标本中癌胚抗原(carcinoembryonic antigen,CEA)、甲胎蛋白(alpha-fetaprotein,AFP)、癌抗原19-9(CA19-9)、癌抗原72-4(CA72-4)、癌抗原242(CA242)、细胞角质蛋白19片段(cytokeratin 19 fragment,CYFRA21-1)、神经元特异性烯醇化酶(neuro-specific enolase,NSE)和组织多肽抗原(TPA)等8种肿瘤相关标记物含量,结合生物信息学方法进行数据的分析。筛选出最优标记物组合,用134例样本(胃癌70例,健康对照64例)建立诊断模型,并用40例样本(胃癌19例,健康对照21例)作为盲法测试集评估此模型。结果:应用曲线下面积方法结合神经网络筛选出CYFA21-1、CA724、CEA、CA199和NSE 5个最优组合的肿瘤标志物,建立的神经网络的胃癌血清标志物诊断模型经盲法验证预测的特异度为89.5%,敏感度为80.9%,阳性预测值81.0%。结论:本研究建立了基于人工神经网络的胃癌多种血清标志物诊断模型,其敏感性和特异性较高,对胃癌的临床诊断具有一定意义,对早期诊断也具有一定价值。
胃癌; 神经网络; 肿瘤标记物; 诊断
2.2 筛选5个血清标志物用于预测胃癌的血清标志物 本研究用逐步增加并验证的方法从8个肿瘤标志物中筛选出建立识别胃癌模型的优化组合。按相关重要性逐个肿瘤标志物的数量,神经网络输入神经元也相应的从1个逐步增加到8个(1个标志物:CYFA21-1;2个标志物:CYFA21-1和CA724;3个标志物:CYFA21-1、CA724和CEA,依次类推,一直到8个标志物为止,表2中分别对应为标志物数1~8。用神经网络模型分别计算建立的8个模型的准确率(预测正确的样本数/样本总数),最后筛选出最高准确率的肿瘤标志物组合(表2),准确率为90.3%的CYFA21-1、CA724、CEA、CA19-9和NSE 5个肿瘤标志物组合。联合肿瘤标志物的数目与建立的人工神经网络预测准确率之间的关系,可以看出5个标志物联合建立模型达到最优化组合。
表 1 各个标记物的曲线下面积分析Tab. 1 Analysis of areas under the curve of each marker
2.3 对神经网络模型进行验证 本研究同时用决策树模型对筛选的标志物进行了验证,决策树为树结构分类器,由内部节点(包括根节点)和叶节点构成,每个内部节点表示一个属性测试,测试的每个可能结果将输出一个分枝或子树,最后生成的叶节点表示一个类。决策树的生长是通过对训练样本不断分组长出分枝。当一组数据的不能再分组时,相应的分枝就停止生长。当所有数据都不能再分组时,决策树的构建就完成了。本研究应用决策树方法筛选到准确率最高的组合,用CYFA21-1、CA724、NSE和CEA可以达到86%的预测效果,特异度为87.3%,敏感度为91.0%(图1)。在本研究建立的神经网络模型中,CYFA21-1、CA724、NSE和CEA也筛选到了,本研究建立的神经网络模型用到的CA19-9在决策树模型中没有筛选到。但本研究建立的神经网络模型的准确为90.2%(121/134),高于决策树模型的86.0%准确率,因此本研究以含CA19-9、CYFA21-1、CA724、NSE和CEA 5个标志物的神经网络模型为最终模型。
2.4 用5个血清标志物建立胃癌的最佳神经网络预测模型 用CYFA21-1、CA724、CEA、CA19-9和NSE 5个肿瘤标志物组合建立的神经网络模型,134例样本(胃癌70例,健康对照64例)训练神经网络,并建立神经网络模型,另外取40例样本(胃癌19例,健康对照21例)作为测试集,测试神经网络模型的准确率,建立的模型对训练集预测的特异度为 95.7%,敏感度为84.4%,阳性预测值87.0%(表3)。模型对134例训练集的样本具有较高的特异度(95.7%)和敏感度(84.4%),说明筛选的5个肿瘤标志物组合能成功的建立的神经网络模型,但这个模型能否应用于临床研究更重要的是模型对于新的样本是否具有适应性,这将直接关系到模型的临床应用前景,新的样本模型预测准确率更加重要。因此本研究中队40例测试样本建立的模型并进行盲法验证,以测试模型对其他新的样本预测的能力,模型盲法测试预测的特异度为 89.5%,敏感度为80.9%,阳性预测率81.0%,说明本模型对于新的样本具有很好的适应性(表4)。
表 2 8种血清标志物组合建立神经网络模型分别预测胃癌的结果Tab. 2 The results of 8 kinds of combination of serum markers to establish the respective neural network model predicted gastric cancer
胃癌的发生和发展是多基因多步骤的过程,单一的标志物检测胃癌存在特异性与敏感性矛盾,所以联合多个标记检测和诊断胃癌非常有必要。本研究通过生物信息学的方法筛选出了检测胃癌的最优化标志物组合:CYFA21-1、CA724、CEA、CA19-9和NSE 5个肿瘤标志物组合。CA72-4属于黏蛋白类癌抗原,是1981年Colcher等用乳腺癌转移病灶的癌细胞膜成分免疫小鼠所得的单克隆抗体,识别TAG72蛋白。它存在于乳腺、结直肠、胃等的恶性肿瘤组织中,是广谱肿瘤标志,在胃腺癌的患者血清中表达水平明显升高[8];CA19-9为糖类肿瘤相关抗原;CEA是Gold和Freedman于1965年胎儿及结肠癌组织中发现的癌胚性肿瘤相关蛋白,CEA属于非器官特异性肿瘤相关抗原,肺癌、胃癌和乳腺癌有较高表达;NSE、CYFRA21-1主要应用于肺癌。筛选出的标志物中CYFA21-1、CA724及CEA与胃癌相关均有报道,NSE和CYFA21-1在这个优化组合中对胃癌的诊断也有一定的贡献。人工神经网络(Artificial Neural Networks,ANNs)是近年来迅速发展起来的一门集神经科学、计算机科学、信息科学及工程科学为一体的边缘交叉学科,具有独特的信息存储方式,良好的容错性,大规模的并行处理方式以及强大的自组织、自学习和自适应能力,已被用于信号处理、模式识别,在肿瘤的识别上也有着广泛的应用[9-11]。
胃癌因其非特异性症状而常被临床忽视,从而延误治疗, 内窥镜等检查方法不适于普查,肿瘤标志物的发现为诊断胃癌早期带来希望。血清肿瘤标志物的检测较为便捷, 对诊断胃癌具有重要的临床意义。近年来, 胃癌标志物的研究发展很快, 但是这些标志物都缺乏特异性和敏感性, 尤其是对于胃癌的早期诊断和筛选不够理想。因此临床选定几种特异性高的指标,相互补充进行联合检测,从而提高敏感度。
王雪萍等[12]也曾经直接用5种标志物:CEA、CA19-9、CA242、CA50和CA724 建立人工神经网络模型检测胃癌,但没有进一步做独立测试检验准确率,也没有筛选最佳的组合。本研究全面的考察了目前临床常用的CYFA21-1、CEA、TPA、CA19-9、CA724、AFP、CA242和NSE等8种血清肿瘤标志物,并从中筛选出了CYFA21-1、CA724、CEA、CA19-9和NSE等5中最佳标志物组合供临床参考,且本研究除了建立模型外,还进一步用独立的测试样本对模型的应用可靠性和准确性进行了评估,结果更加可靠。
表 3 用5个标志物建立的神经网络模型预测134例训练样本的结果Tab. 3 The results of predicting 134 cases training samples by 5 markers neural network model
表 4 用5个标志物建立的神经网络模型预测40例测试样本的结果(盲法测试)Tab. 4 The results of predicting 40 cases of test samples by 5 markers neural network model (blind test)
本研究筛选了CYFA21-1、CA724、CEA、CA19-9和NSE作为肿瘤标志物的优化组合对134例样本(胃癌70例,健康对照64例)建立诊断神经网络模型,并用40例样本(胃癌19例,健康对照21例)作为盲法测试集评估此模型,盲法测试得到模型预测胃癌样本的特异性为 89.5%,敏感度为80.9%,阳性预测值81.0%。克服了单个标志物特异性和敏感性不能兼顾的问题,极大的改善了血清标志物在胃癌中的诊断中的价值。同时为临床诊断提供了标志物组合的参考。用本研究筛选的5种标志物的组合可以更好的诊断,可以减少临床经常对患者进行肿瘤标志物全套检测次数,降低患者经济负担,有很好的社会效益。
总之,本研究建立基于人工神经网络的胃癌血清标记物诊断模型,对胃癌血清肿瘤标志进行了筛选,提高了诊断效果,为胃癌的标志物检测方案提供了参考。
[1]李岩. 血清胃癌肿瘤标志物的临床价值[J]. 胃肠病学杂志, 2006, 11(6): 323-326.
[2]蔡方, 赵文丽, 武彤彤. 胃癌病人血清β2-微球蛋白含量变化的临床意义[J]. 实用医学杂志, 2006, 22(11): 1255-1256.
[3]杨国良, 薄隽杰. 尿液中膀胱肿瘤标志物检测的研究进展[J]. 中国癌症杂志, 2009, 19(7): 557-558.
[4]吴方, 魏旭倩, 孙璟, 等. 肠癌患者外周血中肿瘤标志物联合检测的临床研究[J]. 中国癌症杂志, 2009, 19(5): 353-357.
[5]王雪琴. 四种肿瘤标志物对肺癌、胃癌、肠癌的诊断价值[J]. 放射免疫学杂志, 2008, 21(2): 394-395.
[6]张毅敏, 夏文进, 毛彩萍, 等. 血清标志物CYFRA21-1、NSE、CEA、CA19-9、CA125、SCC联合检测在肺癌诊断中的应用价值[J]. 中国癌症杂志, 2008, 18(04): 306-309.
[7]Moller MF. A scaled conjugate gradient algorithm for fast supervised learning [J]. Neural Networks, 1993, 6: 525-533.
[8]王子伟, 王克义. 肿瘤的化验[M]. 杭州出版社, 2001:77-78.
[9]Lebrecht A, Boehm D, Schmidt M, et al. Surface-enhanced laser desorption/ionisation time-of-flight mass spectrometry to detect breast cancer markers in tears and serum [J]. Cancer Genomics Proteomics, 2009, 6(2): 75-83.
[10]Lancashire LJ, Lemetre C, Ball GR. An introduction to artificial neural networks in bioinformatics--application to complex microarray and mass spectrometry datasets in cancer studies [J]. Brief Bioinform, 2009, 10(3): 315-329.
[11]Caron J, Mangé A, Guillot B, et al. Highly sensitive detection of melanoma based on serum proteomic profiling [J].Cancer Res Clin Oncol, 2009, 135(9): 1257-1264.
[12]王雪萍, 佟素香. 血清肿瘤标志物人工神经网络模型在胃癌诊断中的临床应用[J]. 实用医学杂志, 2007, 23(12):1821-1822.
Application of bioinformatics combining serum tumor markers in gastric carcinoma diagnosis
HAN Xiao-hong,MAO Qiao-xia,LI Xiao-chun,SHEN Jian-fa,LU Guo-feng,YU Jie-kai(Department of Surgery,Tongxiang City Traditional Chinese Medicine Hospital,Tongxiang Zhejiang 314500,China)
HAN Xiao-hong E-mail:hxh_74@163.com
Background and purpose:Gastric cancer morbidity and mortality are rapidly increasing due to a lack of good clinical tumor marker detection methods, leaving the vast majority of gastric cancer patients to be diagnosed in their terminal phase. Early diagnosis and early treatment, which are the keys to reducing mortality, are needed to improve gastric cancer survival rates. The purpose of this study was to fi nd the best serum tumor markers combination, combine them and establish a pattern for the diagnosis of gastric carcinoma.Methods:CEA, AFP,NSE, CA19-9, CA242, CA72-4, CYFRA21-1 and TPA levels were detected in 89 gastric carcinoma patients and 85 healthy serums. The samples were divided into 2 groups. Group A contained 134 samples (70 patients and 64 healthy test subjects) and Group B contained 40 samples (19 patients and 21 healthy test subjects).Results:The serum tumor markers were evaluated the by area under curves. Then, the optimal serum tumor markers combinations were selected to build the diagnosis patterns with artificial neural networks. As a result, CYFA21-1, CA724, CEA, CA199 and NSE were selected to be the optimum serum tumor markers combination and were therefore used to build the artificial neural network. The pattern for diagnosing gastric carcinoma has a specificity of 89.5%, sensitivity of 80.9% and positive value of 81.0%.Conclusion:The combination of optimum serum tumor markers could establish patterns with a high
胃癌发病率和病死率迅速上升,发病年龄逐渐提前已引起普遍关注[1-2],绝大多数的患者确诊时已属中晚期,临床上缺乏敏感性和特异性均高的肿瘤标志物检测方法;另外早期诊断、早期治疗是提高胃癌生存率和降低死亡率的关键,因此提高胃癌早期诊断对胃癌的防治有着重要意义。肿瘤标志物在肿瘤诊断、检测肿瘤复发与转移、判断疗效、预后、群体随访与肿瘤普查等方面都有较大的实用价值。肿瘤标志物的检测较影像学诊断费用低廉,较细胞学检查简便无损伤,患者易于接受,便于推广。目前,胃癌的肿瘤标志物诊断主要有胃癌相关抗原(如CA15-3)及CEA等,但许多相关文献[3-6]都表明以上标志物诊断胃癌的敏感性和特异性均不高。
本研究应用生物信息学方法从多个肿瘤标志物中筛选最优组合并用人工神经网络联合多个标志物在胃癌的诊断上做了应用研究,同时为肿瘤普查、诊断及高危人群提供参考指标。
1.1 样本 89例胃癌患者血清均取自2002年—2008年,于浙江省桐乡市中医院住院的患者,均经手术治疗,并经病理报告确诊。患者TNM分期为分期为Ⅰ~Ⅲ期,平均年龄56.3岁(33~72岁),89例样本分为2组,70例胃癌作为训练组,建立神经网络模型,19例胃癌作为测试组,测试模型准确率。85例健康人的血清标本取自经本院同时期体检的志愿健康人群,以年龄和性别配对,平均年龄51.2岁(30~74岁)。所有的血清标本均在清晨空腹下抽取,胃癌的血清标本均在进行治疗前留取。134例样本(胃癌70例,健康对照64例)训练神经网络,40例样本(胃癌19例,健康对照21例)作为测试集,测试模型准确率。
1.2 检测方法 应用酶联免疫吸附法(enzyme-linked immunosorbent assay,ELISA)测定血清标本中癌胚抗原(CEA)、甲胎蛋白(AFP)、癌抗原19-9(CA19-9)、癌抗原72-4(CA72-4)、癌抗原242(CA242)、细胞角质蛋白19片段(cytokeratin 19 fragment,CYFRA21-1)、神经元特异性烯醇化酶(NSE)和组织多肽抗原(TPA)含量。CEA、AFP、NSE、CA19-9和CA242试剂盒由ConAg诊断公司提供,CA72-4、CYFRA21-1试剂盒由BioKey公司提供,TPA试剂盒由IDL生物技术公司提供。具体操作按试剂盒说明进行。
1.3 生物信息学方法 应用SPSS 10.0软件分别对8个标记物做曲线下面积分析,建立受试者工作特征曲线(receiver operating characteristic,ROC),其中纵坐标为特异度,横坐标为敏感度,并计算ROC曲线下面积,并以曲线下面积的大小排列8个肿瘤标志物,以此来评价各个标志物与胃癌的相关性。然后用逐步增加并验证的方法从8个肿瘤标志物中筛选出建立识别胃癌模型的优化组合。按相关重要性逐个肿瘤标志物的数量,神经网络输入神经元也相应的从1个逐步增加到8个。用神经网络模型分别计算建立的8个模型的准确率,最后筛选出最高准确率的肿瘤标志物组合。用筛选出来的优化标志物组合用以建立人工神经网络,并用盲法测试评价模型的效果。
1.4 神经网络设置 人工神经网络模型在肿瘤的识别上有着广泛的应用,人工神经网络运用共厄梯度学习方法(scaled conjugate gradient)改善的反向传播算法[7],4层结构,除输入层外还包括2个分别含10个神经元的隐含层和含1个神经元的输出层。每层都采用sigmoid传递函数,随机初始化。输出神经元为1个,对应健康人和胃癌患者的期望输出值,分别设为0和1。共进行1 000次迭代。在样本划分时,将总样本集随机划分,将所有样本随机分出2/3用来训练神经网络,剩余的1/3作为测试集,用测试集的准确率来评价模型。预测输出以0.5为阈值,输出值<0.5被模型识别为健康人,≥0.5被模型识别为胃癌患者。
2.1 8个常见血清肿瘤标记物与胃癌相关性的评估 对8个标记物做曲线下面积分析,得到胃癌的相关性按大小排序依次为CYFA21-1、CEA、TPA、CA19-9、CA724、AFP、CA242和sensitivity and specificity for the detection of gastric carcinoma.
gastric carcinoma; artificial neural network; serum tumor markers; diagnosis NSE(表1)。
R735.2;R730.43
A
1007-3639(2010)05-0364-05
韩小宏 E-mail:hxh_74@163.com
2009-12-07
2010-02-08)