基于人工神经网络的前列腺癌诊断模型对前列腺癌的诊断价值研究

2012-01-04 01:53宋敏王开正杭永伦李光荣田刚刘靳波
中国全科医学 2012年35期
关键词:诊断模型前列腺癌数据挖掘

宋敏,王开正,杭永伦,李光荣,田刚,刘靳波

基于人工神经网络的前列腺癌诊断模型对前列腺癌的诊断价值研究

宋敏,王开正,杭永伦,李光荣,田刚,刘靳波

目的结合前列腺肿瘤标志物检验组套和患者临床信息进行数据挖掘,建立基于人工神经网络(ANN)的前列腺癌诊断模型,为前列腺癌的临床诊断和治疗提供客观的参考信息。方法通过实验信息系统与医院信息管理系统的数据信息平台检索并统计2010年1月—2011年7月我院前列腺肿瘤标志物检验组套病例365例,其中前列腺癌组60例,非前列腺癌组305例。采用受试者工作特征(ROC)曲线下面积法筛选出有价值的指标,用244例样本(前列腺癌组40例,非前列腺癌组204例)建立ANN模型,并用121例样本(前列腺癌组20例,非前列腺癌组101例)盲法测试和评估此模型。结果纳入分析的指标有年龄、甲胎蛋白(AFP)、癌胚抗原(CEA)、总前列腺特异抗原(tPSA)和结合前列腺特异抗原(cPSA),各指标的曲线下面积分别为0.623、0.517、0.499、0.907和0.913,其中年龄、tPSA和cPSA与前列腺癌的发病有相关性(P<0.05);经方差分析前列腺癌组的年龄、tPSA和cPSA与非前列腺癌组比较,差异均有统计学意义(P<0.05)。建立的模型对训练样本预测的特异度为93.63%,敏感度为82.50%;此模型对121例测试样本预测的特异度为93.07%,敏感度为80.00%。结论数据挖掘技术能够提炼出高效的诊治信息,基于ANN的前列腺癌诊断模型对前列腺癌的早期诊断具有一定价值。

前列腺肿瘤;肿瘤标记,生物学;神经网络(计算机);ROC曲线;诊断

前列腺癌是男性生殖系统最常见的恶性肿瘤。我国前列腺癌的发病率虽然低于西方国家,但随着我国人口老龄化及生活方式的改变,近年来发病率呈显著增长趋势。早期诊断、早期治疗是提高前列腺癌患者生存率和降低病死率的关键,因此提高前列腺癌早期诊断有着重要意义。随着医疗技术的发展,越来越多的实验室检查、临床检查、医学影像和病理活检技术用于前列腺癌的诊断。为了突破基于单一指标的诊断模式的局限性和临床医生诊断的局限性,本研究联合检测前列腺癌的多种相关指标,建立基于人工神经网络(ANN)的前列腺癌诊断模型,将有限的检验数据提炼为高效的诊治信息,试图从技术层面上更好地协同临床医生对前列腺癌进行诊断和治疗。

1 资料与方法

1.1 一般资料检索并统计2010年1月—2011年7月我院检验科信息管理系统中前列腺肿瘤标志物检验组套病例共558例,年龄29~87岁,平均61.3岁。入选标准:(1)临床诊断明确;(2)甲胎蛋白(AFP)、癌胚抗原(CEA)、总前列腺特异抗原(tPSA)和结合前列腺特异抗原(cPSA)4项肿瘤标志物检查齐全;(3)为首次治疗(包括手术切除、化疗、放疗及对症治疗等)前的检验结果。最终纳入研究的共365例。根据临床病理学分为两组,前列腺癌组60例,非前列腺癌组305例。

1.2 标本采集所有患者在首次治疗前采集清晨空腹外周静脉血3 ml,离心后取血清并立即上机检测。

1.3 仪器与方法AFP、CEA、tPSA和cPSA均采用Siemens ADVIA Centaur XP全自动免疫分析系统及其配套试剂进行检测,并严格按照说明书操作。

1.4 统计学方法从实验信息系统(LIS)智能统计模块中,将所需信息以Microsoft Excel形式导出,用SPSS 17.0对纳入统计的365例患者的分组信息、年龄和4项肿瘤标志物进行受试者工作特征(ROC)曲线分析,并以曲线下面积(AUC)的大小排列5个指标,以此来评价各个指标与前列腺癌的相关性。偏态分布资料以中位数(M)及四分位间距(QR)表示,采用Wilcoxon秩和检验,以P<0.05为差异有统计学意义。

1.5 ANN模型的建立将AUC具有统计学意义的指标作为ANN BP插件NNX 2.0的输入节点,分组数值“1”和“0”作为输出赋值。用244例样本(前列腺癌组40例,非前列腺癌组204例)训练人工神经网络,建立ANN模型,并用121例样本(前列腺癌组20例,非前列腺癌组101例)盲法测试评估模型。

2 结果

2.1 ROC曲线分析各指标与前列腺癌的相关性纳入分析的指标有年龄、AFP、CEA、tPSA和cPSA,各指标的AUC分别为0.623、0.517、0.499、0.907和0.913,其中年龄、tPSA和cPSA与前列腺癌的发病有相关性(P值分别为0.016,0.000和0.000,见图1)。前列腺癌组的年龄、tPSA和cPSA与非前列腺癌组比较,差异均有统计学意义(P<0.05,见表1),入选模型。

图1 各研究指标的ROC曲线Figure 1 ROC curve of various research indicators

表1 前列腺癌组与非前列腺癌组各指标比较〔M(QR)〕Table 1 Comparison of each index between prostate cancer group and non-prostate cancer group

2.2 前列腺癌的ANN模型根据ROC曲线和Wilcoxon秩和检验,将具有统计学意义的指标:年龄、tPSA、cPSA作为ANN模型的输入节点。建模参数:输入层含3个神经元,隐含层1层含4个神经元,输出层含1个神经元。目标输出值(前列腺癌设为1,非前列腺癌设为0)。建立的模型对训练集预测的特异度为93.63%,敏感度为82.50%(见表2);用此模型对121例测试样本进行盲法验证,预测的特异度为93.07%,敏感度为80.00%(见表3)。

表2 3个指标组合建立的ANN模型预测前列腺癌的结果Table 2.Results of predicting prostatic carcinoma using the neural network model established by the combination of three serum markers

表3 3个指标组合建立的ANN模型预测测试样本的结果Table 3.Results of predicting test samples using the neural network model established by the combination of three serum markers to establish the neural network model

3 讨论

数据挖掘就是通过对大量繁杂的数据进行选择、探索、建模,提取隐含在其中的、人们事先不知道的、潜在有用的信息和知识的过程[1]。数据挖掘的常用方法有ANN、决策树方法、贝叶斯分类、K-最临近分类、支持向量机等,其精确度在很大程度上取决于挖掘方法与研究目标的匹配程度。数据挖掘技术在医学领域中的应用能有效地将各种类型和各个时期的医学信息进行深层次地分析研究,不仅能够提炼出高效的诊治信息,而且能够优化医院管理,提高工作效率。因此探索数据挖掘技术在医学信息方面的研究具有重要的实用价值和广阔的发展前景。本研究正是在数据挖掘基本思想的指导下,基于ANN的基本原理进行预测建模,为前列腺癌的早期诊断提供一种新的思路和方法。

ANN是一种在对人脑神经网络基本认识的基础上,用数理方法从信息处理的角度对人脑神经网络进行抽象,并建立某种简化模型的智能处理系统。ANN具有很强的自组织性、鲁棒性和容错性,在医学数据挖掘中得到广泛应用。ANN模型中目前应用最广泛的是误差反向传播(BP)神经网络模型。BP神经网络模型的基本思想:信号从输入层传入,经隐含层逐层处理后,传向输出层。若输出层的实际输出与期望的输出不符,则转入BP阶段。BP是将输出误差以某种形式通过隐含层逐层反传,在此过程中逐层调整层间连接权值。这种信号正向传播和BP周而复始地进行,直到网络输出的误差减少到可接受的程度,或进行到预先设定的学习次数为止[2]。目前,ANN模型在前列腺癌中的应用已经得到美国食品药品管理局(FDA)的认可[3]。利用ANN模型诊断前列腺癌可以提高诊断的准确性,在一定程度上减少不必要的穿刺等损伤。Matsui等[4]运用ANN模型预测前列腺癌,49%的患者减少了不必要穿刺。Stephan等[5]在综合多个参数的基础上,使用ANN模型提高了前列腺癌的诊断准确率,20%~25%的患者可以避免穿刺。本研究综合了年龄、tPSA、cPSA指标,建立ANN模型,经盲法验证预测的特异度为93.07%,敏感度为80.00%。说明基于ANN的前列腺癌诊断模型对前列腺癌的早期诊断具有一定价值。

ROC曲线的AUC可以反映某个诊断试验的价值大小,也可以比较两个诊断试验的价值高低。AUC的取值范围为0.5~1.0,AUC≥0.5且<0.7时诊断价值较低,0.7~0.9时诊断价值中等,>0.9时诊断价值较高[6]。因此,可从本研究看出tPSA和cPSA具有较高诊断价值;年龄具有较低诊断价值;AFP、ACE无诊断价值。随着诊疗技术的发展,越来越多的检测指标供临床医生参考,但并不是指标越多,诊断效果越好;相反,不好的指标会误导临床医生的诊断,从而降低诊断的准确性。通过ROC曲线,提炼出与疾病有相关性的指标,建立优化组合,可减少一些不必要的检查。ANN模型可以含多个输入参数,所有临床上的指标可以同时作为ANN模型的输入节点,其可以有效地利用这些看似无关的变量,进行训练预测,从而实现辅助诊断。在这些ANN模型的输入变量中,比较常见的有前列腺体积、前列腺特异性抗原(PSA)相关指标、直肠指检和年龄等。本研究利用ROC曲线AUC从AFP、CEA、tPSA、cPSA和年龄中筛选出年龄、tPSA、cPSA 3项指标,建立BP神经网络模型具有可行性。在以后的研究中,可以将医学影像、前列腺分泌物相关检测指标等纳入ROC曲线筛选,以建立更加优化的ANN模型。

完成一个诊断或治疗的过程,也就是信息的获取、处理和利用的过程。可以说,更广泛地获取信息,更科学地分析信息,更合理地利用信息,决定了医疗质量和医疗水平。在互联网、医院信息系统(HIS)和实验信息系统(LIS)基本普及的信息时代,将临床信息、检验信息和患者信息联系起来,对本身具有统计分布属性的检验结果进行数据挖掘有重要意义。毫无疑问,基于数据挖掘思想的ANN模型在前列腺癌的早期诊断、评估患者患有前列腺癌的风险、指导穿刺活检等方面具有广阔的应用前景。

1 Giudici P.Applied Data Mining:Statistical Methods for Business and Industry[M].Hoboken:Wiley Sons,2003:2.

2 韩力群.人工神经网络教程[M].北京:北京邮电大学出版社,2006:58-59.

3 Reckwitz T,Potter SR,Snow PB,et al.Artificial neural networks in urology:Update 2000[J].Prostate Cancer Prostatic Dis,1999,2(5/6):222-226.

4 Matsui Y,Utsunomiya N,Ichioka K,et al.The use of artificial neural network analysis to improve the predictive accuracy of prostate biopsy in the Japanese population[J].Jpn J Clin Oncol,2004,34(10):602-607.

5 Stephan C,Xu C,Finne P,et al.Comparison of two different artificial neural networks for prostate biopsy indication in two different patient populations[J].Urology,2007,70(3):596-601.

6 李晓松.医学统计学[M].北京:高等教育出版社,2008:236.

Artificial Neural Network-based Diagnostic Model for Prostatic Cancer

SONG Min,WANG Kai-zheng,HANG Yonglun,et al.Department of Laboratory Medicine,the Affiliated Hospital of Luzhou Medical College,Luzhou 646000,China

ObjectiveTo establish diagnostic model for prostatic carcinoma based on artificial neural network(ANN)by combining the serum markers of prostatic carcinoma and clinical information in order to provide references for clinical diagnosis and treatment of prostatic carcinoma.MethodsBased on experiment information system and hospital information system,365 patients whose serum markers of prostatic carcinoma were tested and collected from January 2010 to July 2011 were retrieved and they were divided into prostatic carcinoma group(60 cases)and non-prostatic carcinoma group(305 cases).The indicators were evaluated with the method of area under the ROC curves,and 244 cases(40 cases from prostatic carcinoma group and 204 cases from non-prostatic carcinoma group)were used to built the diagnostic model with artificial neural network and 121 samples(20 samples from prostatic carcinoma group and 101 samples from non-prostatic carcinoma group)were used to assess this model.ResultsAge,AFP,CEA,tPSA and cPSA were involved into the analysis.The areas under the curve of the indicators were 0.623,0.517,0.499,0.907 and 0.913,respectively.The incidence of prostatic carcinoma were related to age,tPSA and cPSA(P<0.05)and the three indicators showed statistically significant differences between prostatic carcinoma group and non-prostatic carcinoma group by analysis of variance(P<0.05).The specificity and sensitivity of this model were 93.63%and 82.50%for the exercise sample and 93.07%and 80.00%for the test sample.ConclusionThe technology of data mining can extract effective information of diagnosis and treatment.The diagnostic model for prostatic carcinoma which was based on artificial neural network may be a valuable clinical tool for early diagnosis of prostatic carcinoma.

Prostatic neoplasms;Tumor markers,biological;Neural networks(computer);ROC curve;Diagnosis

R 737.25

A

1007-9572(2012)12-4061-03

10.3969/j.issn.1007-9572.2012.12.043

四川省卫生厅科研课题([2010]493号100258)

646000四川省泸州市,泸州医学院附属医院检验科

刘靳波,646000四川省泸州市,泸州医学院附属医院检验科;E-mail:liujb7203@163.com

2012-06-03;

2012-11-20)

(本文编辑:张小龙)

猜你喜欢
诊断模型前列腺癌数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
MTA1和XIAP的表达与前列腺癌转移及预后的关系
前列腺癌,这些蛛丝马迹要重视
软件工程领域中的异常数据挖掘算法
前列腺癌治疗与继发性糖代谢紊乱的相关性
微小RNA-424-3p和5p对人前列腺癌细胞LNCaP增殖和迁移影响的比较
基于模糊优选反问题的电机电气故障诊断模型
对于电站锅炉燃烧经济性诊断模型的研究