何其栋, 魏小玲, 张红巧, 王 威, 吴拥军#
1)郑州大学公共卫生学院卫生毒理学教研室 郑州 450001 2)郑州大学第五附属医院肿瘤科 郑州 450052 3)郑州大学公共卫生学院劳动卫生学教研室 郑州 450001
基于“优选肿瘤标志群”建立的决策树模型对肺癌辅助诊断的价值*
何其栋1), 魏小玲1), 张红巧2), 王 威3), 吴拥军1)#
1)郑州大学公共卫生学院卫生毒理学教研室 郑州 450001 2)郑州大学第五附属医院肿瘤科 郑州 450052 3)郑州大学公共卫生学院劳动卫生学教研室 郑州 450001
#通讯作者,男,1968年1月生,博士,教授,研究方向:生化与分子毒理,E-mail:wuyongjun@zzu.edu.cn
决策树;肿瘤标志;肺肿瘤;辅助诊断
目的:应用决策树技术联合肿瘤标志蛋白芯片建立基于“优选肿瘤标志群”的决策树模型,实现对肺癌的快速诊断。方法运用肿瘤标志定量检测试剂盒测定201例肺部良性疾病及199例肺癌患者血清中9项肿瘤标志[癌胚抗原、糖原类抗原19-9(CA199)、神经元特异性烯醇化酶、CA242、铁蛋白、CA125、甲胎蛋白、人生长激素和CA153]水平,应用logistic回归对肿瘤标志进行筛选以获得“优选肿瘤标志群”,分别于筛选前后建立决策树模型和Fisher判别分析模型。结果肺癌组9项血清肿瘤标志水平均高于肺良性疾病组(P<0.05)。筛选前基于9项肿瘤标志分别建立的Fisher判别分析模型、决策树模型和筛选后基于6项肿瘤标志建立的Fisher判别分析模型、决策树模型,其预测准确度分别为86.0%、92.5%、84.5%、91.5%。筛选前和筛选后决策树模型ROC曲线的AUC分别为0.925和0.915,均高于Fisher判别分析的0.860和0.845(Z=4.462和4.575,P均<0.01);但决策树模型和Fisher判别分析筛选前后自身相比,差异均无统计学意义(Z=1.914和1.074,P均>0.05)。结论基于6项肿瘤标志建立的决策树模型诊断肺癌的效果优于Fisher判别分析。
肺癌居我国各类肿瘤之首,且发病率及病死率逐年增长,成为严重威胁人类健康的恶性肿瘤之一。肺癌发病隐匿,转移较快,预后差,总的5 a生存率约为15%,而早期发现的肺癌患者5 a生存率则可以提高到70%~80%[1]。对肺癌进行早期诊断成为提高疗效的关键。肿瘤标志检测近年来已被用于肺癌的辅助诊断,对肺癌的早期诊断和预后都有重要的意义。目前对肺癌鉴别诊断的研究主要集中于寻找新的肿瘤标志或者联合检测多项肿瘤标志,以期提高肺癌检出的灵敏度和特异度[2-3];也有文献[4]报道采用数据挖掘技术用于肺癌的判别诊断;但是多种血清肿瘤标志联合检测时一些标志对联合检测阳性率的贡献不大,而且还会带来大量的参数,同时增加诊断成本。该研究应用蛋白芯片检测系统测定肺癌和肺良性疾病患者血清中癌胚抗原(CEA)、糖原类抗原19-9(CA199)、神经元特异性烯醇化酶(NSE)、CA242、铁蛋白(Ferritin)、CA125、甲胎蛋白(AFP)、人生长激素(HGH)和CA153共9项肿瘤标志的水平,利用logistic回归对以上9种肿瘤标志进行筛选后,联合建立决策树模型和判别分析模型,探讨2种模型对肺癌辅助诊断的意义。
1.1研究对象2010年6月至2011年12月自郑州大学第五附属医院呼吸内科及肿瘤科收集有肿瘤标志蛋白芯片检测记录的肺癌和肺良性疾病患者共400例,其中肺癌199例、肺良性疾病201例。肺癌患者均经病理或细胞学确诊,肺良性疾病患者均未发现合并有肺或其他器官肿瘤。流行病学资料和血标本收集均经研究对象知情同意后由专业调查员和医生收集。
1.2血清肿瘤标志检测方法所有研究对象的血清肿瘤标志检测严格按照多肿瘤标志蛋白芯片检测试剂盒(湖州数康生物科技有限公司)说明书步骤,由专职人员进行操作。对待测样本的测试要求在短时间内快速完成,同时使用盒内质控品对检测过程进行控制。使用生物芯片阅读仪读取结果。
1.3肿瘤标志的筛选将原始数据进行以10为底的对数处理后,以疾病(肺癌=1,肺良性疾病=0)为因变量,以9项标志为自变量,采用logistic回归分析方法,以α=0.10作为入选和剔除标准,采用偏最大似然估计前进法进行逐步回归分析。
1.4训练集和预测集选择随机选择样本中 75%的病例作为训练集(肺癌150例,肺良性疾病150例),将全部样本作为预测集(肺癌199例,肺良性疾病201例)来测试已建立模型的预测准确度。
1.5决策树模型的建立对于输出变量,定义1为肺癌,0为肺良性疾病。以训练集建模,用预测集对模型进行评价;为了提高精确率,使用推进的方法,试验次数选择10;设置预期噪声为20以避免噪声数据过度训练;选择95%精确度的置信度;使用误分类损失矩阵设置。用全部9项生物标志和进入logistic回归方程的肿瘤标志分别作为输入变量,建立筛选前后的决策树模型。
1.6统计学处理采用SPSS 12.0进行描述性统计学分析。使用SPSS Clementine 12.0建立Fisher判别分析与决策树模型,用MedCalc V12.4.0 软件绘制ROC曲线并比较2种模型的曲线下面积(AUC),用筛检试验的评价指标和ROC曲线比较筛选前后2种模型的预测效果。
2.1研究对象的一般情况参加研究的肺癌和肺良性疾病患者的年龄、性别、吸烟情况差异均有统计学意义,见表1。
表1 2组研究对象的一般特征
2.2血清肿瘤标志检测结果对9种肿瘤标志进行秩和检验中的单样本K-S检验发现所有指标均不服从正态分布,因此用中位数(M)和上、下四分位数(P25、P75)表示。肺癌组血清中9项肿瘤标志水平均高于肺良性疾病组。见表2。
2.3肿瘤标志的筛选结果经单因素logistic回归分析,9项肿瘤标志均与肺癌有关。多因素logistic回归分析后,NSE、CEA、Ferritin、AFP、CA125、CA153进入回归方程,而CA199、CA242、HGH未进入回归方程。见表3。
2.4肺癌-肺良性疾病的决策树和Fisher判别分析模型的构建利用logistic回归分析筛选前后的血清肿瘤标志群分别建立决策树模型和Fisher判别分析模型,训练集和预测集的分类结果见表4,可以看出筛选前后决策树模型的准确率均高于Fisher判别分析模型。
表2 9项血清肿瘤标志的检测结果
表3 肿瘤生物标志的多因素logistic回归分析
表4 各模型对训练集和预测集的分类结果
2.5筛选前后2种模型预测效果的比较结果见表5。筛选前和筛选后决策树模型ROC曲线的AUC均高于Fisher判别分析(Z=4.462和4.575,P均<0.01);但决策树模型和Fisher判别分析筛选前后自身相比,差异均无统计学意义(Z=1.914和1.074,P>0.05)。
表5 筛选前后2种模型对预测集的诊断结果
肿瘤标志蛋白芯片检测系统可以全面定量地比较肺癌患者和正常对照者血清中的蛋白质种类和数量变化[5],对临床肿瘤的辅助诊断或无明显症状的门诊患者的筛查,特别是对高危人群的筛检有一定意义。有研究[6-8]表明,肺癌患者血清肿瘤标志CYFRA21-1、NSE、CEA、CA153、CA125水平均明显高于正常人;而且将几项肿瘤标志进行联合检测可以提高肺癌检出的灵敏度和特异度。
该研究对Ferritin、AFP、CEA、NSE、CA199、CA242、CA125、CA153和HGH共9项肿瘤标志进行检测,发现肺癌组以上指标血清水平均高于肺良性疾病组。考虑到实验因素及样本量可能造成影响,进行多因素logistic回归分析时放宽入选和剔除标准,取α=0.10;结果中CA125对应的P值为0.054,考虑到其对后续模型的贡献,故选择其进入模型。而CA199、CA242、HGH未进入方程,说明与其他6项肿瘤标志相比,它们与肺癌的关系不十分显著。这可能与CA199、CA242、HGH在肺癌患者血清阳性率较低和特异性差有关[9-10]。
决策树是一种比较有效的机器学习分类算法,在医学上的应用是通过数据学习,用倒置的树展现参数所受到各变量的影响,并且对数据进行分类和预测其规律,建立人工智能最优的分类诊断模型,从而达到减少临床医生主观诊断的目的[11-12]。决策树是一种非参数方法,对原始数据类型的要求较低,其模型的分类结果灵敏度、特异度较高,对于临床诊断的实用性更高。C5.0算法是通过分散的数据集来构建决策树,数据集中的值使增益率最大化,在执行效率和内存使用方面上进行了改进[13]。而Fisher判别分析是基于投影,根据类间方差最大、类内方差最小的原则确定判别函数[14]。Fisher判别分析作为传统的统计分析方法仍有重要意义。该研究经logistic回归分析筛选出NSE、CEA、Ferritin、AFP、CA125及CA153共6项肿瘤标志,在此基础上建立决策树模型,其灵敏度、特异度、准确度分别为91.0%、92.0%、91.5%,各项评价指标均优于基于该肿瘤标志群的Fisher判别分析。筛选后的决策树模型ROC曲线的AUC为0.915,说明该模型能够较好地应用于肺癌的辅助诊断;且该模型AUC与筛选前基于9项血清肿瘤标志的决策树模型相比,差异无统计学意义。
总之,优选的基于6项肿瘤标志建立的决策树模型能够有效诊断肺癌。
[1]Siegel R,Ward E,Brawley O,et al.Cancer statistics, 2011: the impact of eliminating socioeconomic and racial disparities on premature cancer deaths[J].CA Cancer J Clin,2011,61(4):212
[2]田满福,韩波.检测CA199、CA125、CA153及CEA在肿瘤诊断中的意义[J].临床和实验医学杂志,2010,9(7):483
[3]Flores-Fernández JM,Herrera-López EJ,Sánchez-Llamas F,et al.Development of an optimized multi-biomarker panel for the detection of lung cancer based on principal component analysis and artificial neural network modeling[J].Expert Syst Appl,2012,39(12):10851
[4]冯斐斐,吴拥军,聂广金,等.基于“优化肿瘤标志群”建立的人工神经网络模型对肺癌辅助诊断的作用[J].肿瘤防治研究,2011,38(6):709
[5]周建光,杨梅.多肿瘤标志物蛋白芯片检测在肿瘤诊断中的临床应用及研究进展[J].中国医学检验杂志,2010,11(3):165
[6]毛正道,韦国桢,殷小伟.探讨肿瘤标记物CY211、NSE、CEA及CA125在肺癌诊断中的意义[J].实用临床医药杂志,2010,14(2):18
[7]曾聪,全国莉,王春莲.联合检测6种血清肿瘤标志物在肺癌诊断中的意义[J].广东医学,2012,33(6):808
[8]Chiu JS,Wang YF,Su YC,et al.Artificial neural network to predict skeletal metastasis in patients with prostate cancer[J].J Med Syst,2009,33(2):91
[9]王峰.血清肿瘤标志物CA125、CA199、CEA、NSE联合检测在肺癌诊断中的应用[J].中国临床实用医学,2010,4(6):17
[10]梁茱,王海枫,吴爱祝,等.多肿瘤标志物蛋白芯片检测系统在肺癌诊断中的临床意义[J].南方医科大学学报,2010,30(11):2516
[11]Kim J,Hwang M,Jeong DH,et al.Technology trends analysis and forecasting application based on decision tree and statistical feature analysis[J].Expert Syst Appl,2012,39 (16):12618
[12]薛薇,陈欢歌.Clementine数据挖掘方法及应用[M].北京:电子工业出版社,2010.
[13]刘强.基于信息增益的完全决策树算法研究[D].武汉:华中科技大学,2011.
[14]赵敏,郑崇勋,赵春临,等.利用Fisher判别式和事件相关电位的心理意识真实性识别[J].西安交通大学学报,2010,44(8):132
(2013-04-28 收稿 责任编辑 徐春燕)
Application of decision tree combined with filtered biomarkers in the diagnosis of lung cancer
HEQidong1),WEIXiaoling1),ZHANGHongqiao2),WANGWei3),WUYongjun1)
1)DepartmentofToxicology,CollegeofPublicHealth,ZhengzhouUniversity,Zhengzhou450001 2)DepartmentofOncology,theFifthAffiliatedHospital,ZhengzhouUniversity,Zhengzhou450052 3)DepartmentofOccupationalHealth,CollegeofPublicHealth,ZhengzhouUniversity,Zhengzhou450001
decision tree;tumor marker;lung neoplasm;auxiliary diagnosis
Aim: To establish decision tree model based on filtered biomarkers to achieve rapid diagnosis of lung cancer. Methods: The serum levels of 9 tumor markers (CEA,CA199,NSE,CA242,Ferritin,CA125,AFP,HGH and CA153) in 199 patients with lung cancer and 201 patients with benign pulmonary lesion were measured by multiple tumor marker protein biochip, and the models of C5.0 and Fisher discrimination analysis were developed based on the tumor markers before and after being filtered by logistic regression. Results: The serum levels of the 9 tumor markers in patients with lung cancer were significantly higher than those in patients with benign pulmonary lesion(P<0.05). The accuracies of Fisher discrimination analysis and C5.0 models based on 9 tumor markers and 6 tumor markers filtered by logistic regression were 86.0%,92.5%,84.5% and 91.5%, respectively. The area under receiver operating curve(AUC) of C5.0 model was higher than that of Fisher discrimination analysis in both of 9 tumor markers model and 6 tumor markers model(Z=4.462 and 4.575,P<0.01). However, there was no significant difference inAUCbetween before and after screening in both models(Z=1.914 and 1.074,P>0.05). Conclusion: The effect of the model of C5.0 is better than Fisher discrimination analysis in diagnosis of lung cancer especially based on the tumor markers screened by logistic regression.
*国家自然科学基金资助项目 30972457;河南省重大科技攻关项目 112102310102;河南省医学科技攻关项目 2011020082
R734.2
10.3969/j.issn.1671-6825.2014.01.011