伍 刚, 刘广韬, 周 青, 刘 策, 常鹏飞
(中国人民解放军第三○九医院神经外科,北京 100091;*通讯作者,E-mail:pengfei_chaung@163.com)
支持向量机模型在脑出血早期预后判断中的应用
伍刚, 刘广韬, 周青, 刘策, 常鹏飞*
(中国人民解放军第三○九医院神经外科,北京100091;*通讯作者,E-mail:pengfei_chaung@163.com)
摘要:目的通过应用支持向量机模型预测脑出血患者早期预后转归。方法收集自发性脑出血患者310例,随访观察1个月的临床转归情况。将入组患者按时间顺序以3 ∶1的比例分为数据训练组和验证组,训练组作为训练样本,用于筛选变量和建立预测模型,计232例;验证组作为验证样本,用于评价模型预测效果,计78例。结果通过支持向量机模型对78例脑出血患者的预测判别验证,支持向量机的预测准确度76.9%,敏感度77.3%,95%可信区间54.6%-92.2%,特异度76.8%,95%可信区间63.6%-87.0%。结论采用支持向量机模型能较好地判断自发脑出血患者早期预后。
关键词:脑出血;支持向量机;预后
脑出血是常见的颅内自发性出血性疾病,是成人主要的致残和致死原因[1,2]。有资料显示,我国脑出血的发病率可达(38.1-77.1)/10万人年[3]。外科治疗包括开颅手术、神经内镜血肿清除手术、立体定向钻孔血肿引流术等,需要术前对脑出血患者的预后进行风险评估,以利于降低手术风险和围术期并发症。临床上常用Logistic回归模型用于解释脑出血风险模型。但是,该模型对入选的风险因素质量有较高要求,限制其应用。
近年,人工智能技术蓬勃发展,越来越多出现在医学诊疗的各个方面。支持向量机(support vector machine,SVM)是建立在统计学习理论基础上的一种机器学习方法[4]。支持向量机是根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好的推广能力的机器学习方法。其基本思想是:把在输入空间中的线性不可分的数据集,通过内积核函数,非线性地映射到高维特征空间后,变为线性可分的数据集,随后在高维特征空间建立一个不但能将两类正确分开,而且使分类间隔最大的最优分类面框架[5]。应用支持向量机模型对脑出血早期预后进行判断的研究较少。我们试利用该方法建立一种模型,应用一些常见的临床数据和信息对脑出血患者的早期预后进行预测,以助于脑出血外科治疗术前评估及医患沟通。
1研究对象与方法
1.1对象
回顾调查中国人民解放军第309医院2011-01~2014-05入院诊断为自发性脑出血患者病例共396例(参照脑出血诊断标准[6]),排除脑外伤出血、蛛网膜下隙出血、脑肿瘤出血、脑干出血病例以及信息不完整病例,其中有效病例共计310例,占总病例数的78.9%。其中男性214例,女性96例,平均年龄(57.5±12.9)岁。
1.2方法
1.2.1收集病史资料主要包括:年龄、性别、院前意识障碍、有无高血压病史、是否脑室出血、是否基底节区出血、是否多部位出血、有无吸烟史、糖尿病史、透析病史、脑梗死病史、阿司匹林服用史、入院后凝血功能、血糖、血红蛋白、血小板、收缩压、格拉斯哥昏迷评分(Glasgow Coma Scale,GCS)、入院后有无肺部感染、消化道出血、泌尿系感染以及脑出血血肿体积(首次CT扫描按ABC/2法估算血肿体积)。共计22项影响因素。治疗1个月后进行院内随访,格拉斯哥预后评分(Glasgow Outcome Scale,GOS)评价指标其中GOS 1-3认为预后结果不良(取值0),GOS 4-5预后结果良好(取值1)。GOS评分:1=植物生存状态;2=重残状态;3=轻度神经功能受限;4=神经功能无受限;5=死亡。
1.2.2数据处理和分析所有入选变量在进行分析处理前统一进行归一化,以消除因数据绝对值差异产生的权重偏倚。公式:Vnorm=(Vi-Vmin)/(Vmax-Vmin)[7]。研究按就诊时间先后排序,抽取入组的前232例作为训练集,利用Matlab7.0.1平台调用libsvm 3.21软件。首先对libsvm的参数惩罚因子(C)和核函数参数(g)进行网格式寻优交叉验证,以获取最好的准确率。然后以最佳参数和测试数据建立预测模型,再对剩余的78例测试集数据进行预测(见图1)。
图1 matlab平台下libsvm模型处理数据的流程图Figue 1 The data processing sequence of libsvm model under Matlab platform
2结果
训练数据232例中预后良好149例,占64.2%;预后不良83例,占35.8%。预测数据78例中预后良好22例,占28.2%;预后不良56例,占71.8%。根据脑出血患者入院时所采集的临床资料,应用libsvm模型首先对训练集数据进行参数寻优,在log2C=8,Log2g=0.25,模型的最佳预测精准度是74.1%(见图2,3),并以此参数结果配置模型,对验证集数据进行预测,模型的准确度76.9%,敏感度77.3%(95%CI 54.6%-92.2%),特异度76.8%(95%CI 63.6%-87.0%)。
图2 支持向量机模型C,g参数寻优二维视图Figure 2 Parameters C, g optimization for support vector machine model in two-dimensional view
图3 支持向量机模型C,g参数寻优三维视图Figure 3 Parameters C, g optimization for support vector machine model in the three-dimensional view
3讨论
脑出血的预后评估仍是脑卒中研究的重要方向[8]。临床常用的建模方法有Logistic回归、Cox比例风险模型等。这些临床常用的传统分析方法客观要求自变量、因变量之间存在线性关系。而当自变量之间存在共线性、非线性、数据资料有缺失、获得资料有干扰信息时,预测的准确率会大大降低甚至出现错误。支持向量机对资料的要求较低,并且对错误的宽容度良好,能很好地处理带有缺失或干扰的数据资料。本文中纳入的22个变量可能存在共线性信息。逐步Logistic回归是近年来用以避免出现共线问题的常用办法。但它可能会把某些实际上对结果有显著影响的变量排除在模型之外,这无疑会损失大量的资料信息,而且也不易于解释协变量之间的关系[9]。而支持向量机模型,则不需要该过程,只要对模型参数进行优化就可以实现较为准确的预测。
本文采用了台湾大学林智仁教授等开发设计的libsvm软件包[10]。该软件包简单、易于使用且快速有效地支持向量机模式识别与回归。支持向量机通过寻求结构化风险最小化来提高机器学习的泛化能力,其优势主要体现在解决线性不可分的问题[11]。这一性质能保证SVM模型特别适合样本数量有限时资料的建模分析。因此,支持向量机对于样本量的要求并不高,经验估算方法为只要达到临床特征变量的2-3倍即可开始进行预测[12]。本研究结果显示libsvm模型分析结果能够简单快捷地对脑出血早期预后进行预测。
应用该分析模型,可以对临床患者的可能预后进行快速评估,也可作为是否需要手术干预,以及提示手术风险的参考指标。本文旨在为评估ICH患者预后提供一种便捷的辅助工具。相信通过对患者临床信息的进一步充实和样本量扩大,以及支持向量机模型参数的进一步优化,应用该人工智能方法,能够对脑出血患者早期预后评估做出更为准确的判断。
参考文献:
[1]He J,Gu DF,Wu XG,etal.Major causes of death among men and women in China[J].New Engl J Med,2005,353(11):1124-1134.
[2]van Asch CJJ,Luitse MJA,Rinkel GE,etal.Incidence,case fatality,and functional outcome of intracerebral haemorrhage overtime,according to age,sex,and ethnic origin:a systematic review and meta-analysis[J].Lancet Neurol,2010,9(2):167-176.
[3]Jiang B,Wang WZ,Chen HL,etal.Incidence and trends of stroke and its subtypes in China-Results from three large cities[J].Stroke,2006,37(1):63-68.
[4]Kourou K,Exarchos TP,Exarchos KP,etal.Machine learning applications in cancer prognosis and prediction[J].Comput Struct Biotechnol J,2015,13(15):8-17.
[5]Van Gestel T,Suykens JAK,Baestaens DE,etal.Financial time series prediction using least squares support vector machines within the evidence framework[J].IEEE Trans Neural Network,2001,12(4):809-821.
[6]赵继宗,周定标,周良辅,等.2464例高血压脑出血外科治疗多中心单盲研究[J].中华医学杂志,2005,85(32):2238-2242.
[7]杨宝华.基于Matlab的BP神经网络应用[J].电脑知识与技术:学术交流,2008,4(7):124-125.
[8]Manno EM,Meyer FB.Prognosis after intracerebral hemorrhage[J].J Neurosurg,2008,108(6):1170-1171.
[9]赵宇东,刘嵘,刘延龄,等.多元Logistic回归的共线性分析[J].中国卫生统计,2000,17(5):259-261.
[10]Chang CC,Lin CJ.LIBSVM:a library for support vector machines[J].ACM TIST,2011,2(3):1-27.
[11]李传科,许苗村.核函数的概念、性质及构造[J].电脑知识与技术,2015,11(32):171-173.
[12]张黎明,刘玉兰,康晓.支持向量机预测结肠腺瘤高级别上皮内瘤变效果研究[J].中国实用内科学杂志,2013,33(11):872-875.
Evaluation of early prognosis in intracerebral hemorrhage based on support vector machine
WU Gang, LIU Guangtao, ZHOU Qing, LIU Ce, CHANG Pengfei*
(DepartmentofNeurosurgery,ChinesePLA309thHospital,Beijing100091,China;*Correspondingauthor,E-mail:pengfei_chaung@163.com)
Abstract:ObjectiveTo predict the early prognosis of patients with intracerebral hemorrhage(ICH) using support vector machine model.MethodsTotally 310 patients with spontaneous intracerebral hemorrhage were collected and clinical outcome were followed up for 1 month. All the patients were divided into two groups with 3 ∶1 ratio by time sequence: training group(n=232) and validation group(n=78). The patients in training group were chosen as the training samples for establishing the prediction model. The patients in validation group were chosen as the validation samples to evaluate the forecasting results.ResultsThe prediction accuracy for ICH early prognosis was 76.9%, the sensitivity was 77.3%(95%CI 54.6%-92.2%), the specificity was 76.8%(95% CI 63.6%-87.0%) in validation group with SVM model.ConclusionSVM model can better predict the prognosis in the patients with spontaneous intracerebral hemorrhage.
Key words:intracerebral hemorrhage;support vector machine(SVM);prognosis
基金项目:解放军第三○九医院院内科研课题资助项目(2014MS-009)
作者简介:伍刚,男,1977-12生,博士,主治医师,E-mail:wugang152001@163.com
收稿日期:2016-03-23
中图分类号:O29
文献标志码:A
文章编号:1007-6611(2016)06-0536-03
DOI:10.13753/j.issn.1007-6611.2016.06.011