王 威,段晓冉,谭善娟,姚永成,吴逸明,吴拥军
1)郑州大学公共卫生学院劳动卫生与职业病学教研室 郑州450001 2)郑州大学公共卫生学院卫生毒理学教研室 郑州450001
#通讯作者,男,1968年1月生,博士,教授,研究方向:肺癌的早期诊断,E-mail:wuyongjun@zzu.edu.cn
目前无论是在经济发达还是发展中国家,肺癌已成为男性癌症死亡的首要原因。在中国,肺癌居各类恶性肿瘤之首,发病率和病死率逐年上升,因早期无特异症状,且临床缺乏有效早期诊断方法,大部分肺癌患者确诊时已到中晚期,总体5 a 生存率大约只有15%[1-2]。因此,运用分子生物学的方法检测肿瘤发生过程中的早期分子标志,从而发现癌前病变或早期癌变被认为是肺癌早期诊断最具应用前景的手段。大量研究[3-4]表明,p16、RASSF1A 和脆性组氨酸三联体(fragile histidine traid,FHIT)等基因甲基化修饰引起的抑癌基因表达沉默在肺癌的发生发展中起着重要的作用。外周血DNA 端粒长度缩短亦可增加患肺癌的危险性。该研究采用3 层拓扑结构的BP 神经网络算法,以上述4 项分子生物标志为基础建立肺癌的早期预警模型,为肺癌的早期诊断提供有效的方法。
1.1 研究对象和内容 肺癌组的血标本取自于2009年1月至2010年6月郑州大学第一附属医院呼吸内科和胸外科200例原发性肺癌患者(鳞癌87例,腺癌72例,小细胞肺癌33例,大细胞肺癌8例;临床Ⅰ+Ⅱ期共55例,Ⅲ+Ⅳ期共145例);对照组的血标本取自同期郑州大学第一附属医院体检科体检的200例正常人(均未发现肺部或者其他器官的恶性肿瘤)。所有研究对象均知情同意。研究内容包括年龄、性别、吸烟史(每天吸烟1 支且吸烟1 a以上视为吸烟者[5])和实验室检测指标。
1.2 主要仪器和试剂 PTC200 型PCR 扩增仪(美国MJ Research 公司),EPS-350 电泳仪(瑞典Pharmaera-LKB 公司),Real-time PCR 仪MX3000P(美国Startagene 公司),全血基因组DNA 提取试剂盒(上海莱枫生物科技有限公司),引物(上海生工生物工程技术服务有限公司),GoTaq qPCR Master Mix(美国Promega 公司),甲基转移酶(美国NEB 公司)。
1.3 实验室指标的检测 严格按照全血基因组DNA 提取试剂盒的操作步骤提取外周血基因组DNA。采用实时荧光定量甲基化特异PCR(realtime methylation specific PCR,qMSP)方法检测p16、RASSF1A 和FHIT 基因的甲基化水平,参考文献[6]计算样本甲基化水平(甲基化率)。以GAPDH 作为内参基因,用荧光定量PCR 法测定端粒相对长度[4,7]。
1.4 统计学处理 采用SPSS 12.0 处理数据。应用两独立样本秩和检验比较2组甲基化率的差异,两独立样本t 检验比较2组患者年龄、端粒相对长度的差异,χ2检验比较2组性别构成和吸烟史的差异;检验水准α=0.05。
1.5 Fisher 判别分析模型的构建 见文献[4]。
1.6 神经网络模型构建
1.6.1 数据的预处理 ①数据转换:用SPSS Clementine 12.0 对数据进行预处理,根据神经网络模型中Sigmoid 传递函数的要求,选用最大最小法对数据进行归一化处理,以避免由于输入和输出数据之间的数量级别差异较大而造成较大的训练误差。②数据分组:按3∶1 的比例将200例肺癌患者和200例正常对照分成75%的训练集(肺癌患者和正常对照各150例)和25%的预测集(肺癌患者和正常对照各50例)。
1.6.2 模型的建立 采用3 层拓扑结构的BP 神经网络算法,分别在SPSS Clementine 12.0(C-神经网络)和Matlab 7.1(M-神经网络)下进行训练,BP算法的传递函数取在[0,1]内连续的Sigmoid函数。
1.6.3 模型的评价 评价指标包括灵敏度、特异度、准确度、阳性预测值、阴性预测值及ROC 曲线下面积(AUC),AUC <0.5 表示无诊断意义,0.5~表示准确度较低,0.7~表示准确度较好,0.9~表示准确度最好;用MedCalc V11.6.0.0 计算不同模型的AUC 及95%CI。
2.1 2组人群一般特征 见表1。
表1 肺癌组和正常对照组研究对象的一般特征
2.2 2组基因启动子甲基化水平及端粒相对长度的比较 见表2。肺癌组p16、RASSF1A 和FHIT 基因启动子甲基化水平高于正常对照组,端粒相对长度低于对照组。
表2 2组外周血p16、RASSF1A和FHIT 甲基化率(%)及端粒相对长度的比较
2.3 Fisher 判别分析模型和神经网络模型的构建见表3。
表3 各模型对训练集和预测集的分类结果
2.4 3 种模型的效果评估结果 见表4。Fisher 判别分析模型准确度较低,而BP 神经网络模型准确度较高,但是3 种模型AUC 及95%CI 重叠,说明模型的预测效果并无差异。
表4 3 种模型效果评估
已经证实,基因启动子异常甲基化是抑癌基因失活的一个重要表观遗传学机制,并且参与包括肺癌在内的肿瘤的发生发展[8-9]。许多研究[10-11]结果均显示p16、RASSF1A 和FHIT 基因的甲基化与肺癌相关。该研究也表明,肺癌组p16、RASSF1A 和FHIT 基因启动子甲基化水平均高于正常对照组。已有研究[12]证明p16 基因的启动子区CpG 岛高甲基化是p16 基因在癌症发生早期就失活的主要机制。该研究结果表明外周血p16 基因甲基化水平可以作为预测肺癌的一项重要肿瘤标志。RASSF1A基因也是一个抑癌基因,主要是通过细胞周期蛋白的聚集而诱导细胞周期阻滞[13]。且已有研究[14-15]证实FHIT 基因启动子甲基化是该基因表达失活的主要机制,因此,检测FHIT 基因启动子甲基化可能有助于肺癌早期诊断。
端粒是真核细胞中用于维持染色体完整性和稳定性的线性染色体末端的非编码DNA 的重复序列以及与之相连的端粒结合蛋白功能复合体[16]。课题组前期研究[16]发现肺癌组端粒长度要短于对照组,这与国外的研究[17-18]结果一致。这些结果提示外周血基因组DNA 端粒长度可以作为预测肺癌的一项重要的肿瘤标志。
BP 神经网络模型是迄今为止应用最广泛的一种神经网络算法,在样本的学习过程中强调对样本的错分最小,即经验风险最小化。该研究精简了纳入的生物标志,将4 种生物标志纳入神经网络模型中,在不同软件环境下对肺癌进行预测,准确度达到76.0%和78.0%,而Fisher 判别分析,准确度仅为67.0%。课题组前期采用肿瘤标志联合数据挖掘建立的模型对肺癌的预测准确度都达到90% 以上[19]。该研究建立的模型准确度低于前期研究模型,可能与样本不同有关,也可能与纳入模型的生物标志类型和数量不同有关。下一步需要用同一批标本对不同生物标志模型进行比较,进一步筛选生物标志、优化判别模型。
总之,该研究发现人外周血DNA 中 p16、RASSF1A、FHIT 基因启动子甲基化及端粒相对长度与肺癌有关,首次应用神经网络模型成功构建了基于上述4 种生物标志的肺癌判别模型。该研究结果具有较高的潜在应用价值,如果能够应用于肺癌高危人群筛查,对肺癌的早期诊断、早期治疗和疾病康复具有重要价值。
[1]Jemal A,Bray F,Center MM,et al.Global cancer statistics[J].CA Cancer J Clin,2011,61(2):69
[2]Siegel R,Ward E,Brawley O,et al.Cancer statistics,2011:the impact of eliminating socioeconomic and racial disparities on premature cancer deaths[J].CA Cancer J Clin,2011,61(4):212
[3]Hsu HS,Chen TP,Hung CH,et al.Characterization of a multiple epigenetic marker panel for lung cancer detection and risk assessment in plasma[J].Cancer,2007,110(9):2019
[4]魏小玲,谭善娟,何其栋,等.决策树联合生物标志在肺癌辅助诊断中应用[J].中国公共卫生,2013,29(10):1479
[5]World Health Organization.Guidelines for controlling and monitoring the tobacco epidemic[M].Geneva:WHO,1998:200
[6]Lu L,Katsaros D,de la Longrais IA,et al.Hypermethylation of let-7a-3 in epithelial ovarian cancer is associated with low insulin-like growth factor-Ⅱexpression and favorable prognosis[J].Cancer Res,2007,67(21):10117
[7]王威,李智涛,祝寒松,等.煤焦沥青烟提取物致人支气管上皮细胞恶性转化细胞端粒损伤研究[J].中国职业医学,2011,38(5):369
[8]Suzuki M,Yoshino I.Aberrant methylation in non-small cell lung cancer[J].Surg Today,2010,40(7):602
[9]Baylin SB,Ohm JE.Epigenetic gene silencing in cancer:a mechanism for early oncogenic pathway addiction?[J].Nat Rev Cancer,2006,6(2):107
[10]Zhang YW,Wang R,Song HZ,et al.Methylation of multiple genes as a candidate biomarker in non-small cell lung cancer[J].Cancer Lett,2011,303(1):21
[11]Liu Z,Li W,Lei Z,et al.CpG island methylator phenotype involving chromosome 3p confers an increased risk of nonsmall cell lung cancer[J].J Thorac Oncol,2010,5(6):790
[12]Deng D,Liu Z,Du Y.Epigenetic alterations as cancer diagnostic,prognostic,and predictive biomarkers[J].Adv Genet,2010,71:125
[13]Guo W,Dong Z,Chen Z,et al.Aberrant CpG island hypermethylation of RASSF1A in gastric cardia adenocarcinoma[J].Cancer Invest,2009,27(4):459
[14]Sozzi G,Veronese ML,Negrini M,et al.The FHIT gene 3p14.2 is abnormal in lung cancer[J].Cell,1996,85(1):17
[15]Zochbauer-Müller S,Fong KM,Maitra A,et al.5' CpG island methylation of the FHIT gene is correlated with loss of gene expression in lung and breast cancer[J].Cancer Res,2001,61(9):3581
[16]王娜,周舫,谭善娟,等.肺癌患者外周血白细胞端粒DNA相对长度检测[J].郑州大学学报:医学版,2012,47(4):445
[17]Jang JS,Choi YY,Lee WK,et al.Telomere length and the risk of lung cancer[J].Cancer Sci,2008,99(7):1385
[18]Hosgood HD 3rd,Cawthon R,He XZ,et al.Genetic variation in telomere maintenance genes,telomere length,and lung cancer susceptibility[J].Lung Cancer,2009,66(2):157
[19]冯斐斐,聂广金,吴拥军,等.基于6 项肿瘤标志联合检测的3 种分类模型判别肺癌的对比分析[J].卫生研究,2009,38(4):429