■ 张 颖 李利杰 刘海容 朱 绥 孙统达
支持向量机模型在肺癌病人住院费用影响因素分析中的应用
■ 张 颖①李利杰②刘海容③朱 绥④孙统达①
肺癌病人 住院费用 支持向量机模型
目的:建立基于支持向量机的单病种住院费用拟合模型,利用模型分析住院费用影响因素及其对住院费用的影响程度。方法:以浙江省某三级甲等医院2010年-2013年间肺癌患者的住院信息为样本,利用SPSS 16.0建立数据库,应用Weka软件建立支持向量机拟合模型,分析住院费用的影响因素。结果:影响住院费用的主要因素依次为住院天数、主诊断疾病、麻醉方式、年龄、费用类别、职业、住院次数。结论:从缩短住院天数、发展全民基本医疗保障制度等方面来控制住院费用。
Author’s address:Ningbo College of Health Sciences, No. 51, Xuefu Road, Yinzhou District, Ningbo, 315104, Zhejiang Province, PRC
近年来,医疗费用的过度增长已成为社会和民众关注的焦点。对医疗费用特别是住院费用影响因素的分析及分析方法的研究一直是医疗费用研究的重点。在以往的医疗费用影响因素研究中,较多采用多元线性回归模型等传统统计学方法[1],但这些方法的研究基础要求样本数目大,实际研究中,样本量往往是有限的,因此亟需探索一种能较好解决小样本、非线性问题的方法。本文以某三级甲等综合性医院2010年-2013年间肺癌患者的住院费用为例,通过建立基于支持向量机的住院费用拟合模型,分析其住院费用的影响因素及各影响因素的重要程度,从而探讨医疗费用的控制策略。
1.1 资料来源
本研究中资料数据来源于浙江省某三级甲等综合性医院HIS系统,选取该医院2010年-2013年间出院主诊断为肺癌的585例患者的住院信息。全部数据从HIS系统中以Excel表形式导出,并进行数据处理,对有缺失值和不符合逻辑的病例进行剔除,共计有效样本525例,占全部病例的89.74%。
1.2 研究方法
采用SPSS 16.0建立数据库,运用Weka软件建立支持向量机拟合模型,分析患者住院费用的影响因素。
1.2.1 支持向量机。支持向量机方法(support vector machine,SVM)是在统计学习理论的基础上发展起来的一种新的通用学习方法。它是建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以求获得最好的推广能力[2]。与传统统计学方法相比,它是一种专门研究有限样本情况下机器学习规律的理论,在解决小样本、非线性及高维模式识别中表现出特有的优势[3],并能够推广应用到函数拟合等其他机器学习问题中。支持向量机是在现有信息下追求最优解,克服了神经网络学习方法中合理结构难以确定和存在局部最优等缺陷,大大提高了学习方法的推广能力[4]。
支持向量机是将寻找最优线性超平面转换为求解二次规划问题,进而基于Mercer定理,通过非线性映射:RN→H,将输入空间的样本映射到更高维特征的空间H中,从而使用线性方法实现样本空间中的高度非线性问题的建模分析。
支持向量机建模的基本思想如下:
根据结构风险最小化原则,参数ω和b可通过最小化式:
公式中,ωTω/2为控制模型复杂度;C>0为一个常数,被称为误差惩罚参数,用来控制对超出误差限的样本的惩罚程度;ε为不敏感损失函数。
影响支持向量机的学习性能和泛化能力的关键是核函数的选择[5]。SVM模型中常用的核函数有以下几种:
(1)线性核函数(Linear Kernel):
(2)多项式核函数(Polynomial Kernel):K(x,xi)=[γ'(x xi)+coef)]d,其中d为多项式的阶,coef为偏置系数。
(3)径向基核函数(Radial basis function):
K(x,xi)=exp(-γ'‖x-xi‖2),其中γ为核函数的宽度。
(4)Sigmoid核函数(两层神经网络):
医疗费用影响因素的样本集属于非线性可分问题,因此在核函数选择上主要采用多项式核函数和径向基核函数进行建模分析。通过实验确定分类效果较优的核函数和参数值。
1.2.2 数据预处理。住院总费用作为因变量,采用中位数为界点,将肺癌住院总费用划分为高、低两类,并将住院总费用转化为分类变量,分别赋值为1,2。以表1中的11个字段作为自变量,年龄和住院天数这两个自变量均采用了三等分将其转化为分类变量,分别赋值为1,2,3。研究变量及其量化方法详见表1。
1.2.3 SVM模型的建立。(1)训练样本和测试样本的分配。通过系统抽样将全部525例研究对象按7∶3的比例随机分为训练集和测试集,即训练集和测试集分别为368例和157例。(2)核函数的选取。核函数决定了支持向量机的性能,其确定是建立在样本的基础上,同时需考虑各参数的影响。通过实验过程中对参数大小的调整,观察预测误差随核权重的变化,最终根据最小的误差来确定最合适的核函数。本研究中,建模尝试选择了RBF和多项式两种核函数,通过实验以及参数的调优,根据预测精度比较不同核函数的建模效果。(3)参数的确定。模型中C和γ参数选取的合适与否会直接影响模型的预测性能和推广能力。目前还尚未有通用的参数选择方法,只能通过实验对比或凭借经验。本研究采用了网格搜索法对RBF核函数中需确定的两个参数(惩罚因子C与核函数参数γ)进行确定。网格搜索法是尽可能尝试每对参数(C,γ)来寻求最优的C和γ,然后进行交叉验证,找出使交叉验证精确度最高的参数对(C,γ)作为模型参数。网格搜索法很直观但是有些原始。实际上有许多高级的算法,比如可以使用一些近似算法或启发式的搜索来降低复杂度。采用网格搜索法的主要原因:一是从心理上,不进行全面的参数搜索而是使用近似算法或启发式算法让人感觉不安全;二是涉及到的参数较少(两个参数),网格搜索法的复杂度比高级算法高不了多少;三是网格搜索法可并行性高,因为每对参数是相互独立的[5]。
训练集用于建立住院费用预测模型,测试集用于检验模型的预测效果。本研究选取368例训练集,分别建立基于不同核函数的住院费用预测模型,通过网格搜索法确定最优的核函数参数C和γ,然后选取157例测试集,检验模型的预测效果,以回代训练样本准确率和预测检验样本准确率来综合评价预测模型的性能,并最终确定合适的核函数作为预测模型的核函数。
2.1 SVM模型分析的结果
采用SVM模型进行变量筛选及影响因素重要性分析,分析结果显示,在11个变量中,医疗费用影响因素重要性从高到低依次为住院天数、主诊断疾病、麻醉方式、年龄、费用类别、职业、住院次数、婚姻状况、转归情况、民族、性别,详见表2。
从分析结果可见,住院天数是影响住院费用的最主要因素,这与宋振[6]、张文彤[7]等国内外许多研究结果一致,住院天数越多,相应的住院费用也越高。主诊断疾病决定了手术方式和住院天数的长短,不同的手术麻醉方式间接地反应了疾病的严重程度,因此主诊断疾病与麻醉方式较大程度地决定了住院费用的多少。随着患者年龄的增长,体质趋弱,导致住院费用增加。费用类别的不同对住院费用有较大影响,公费医疗患者的住院费用高于其他类型的患者。而患者的职业往往决定了患者的费用类别,因此也对住院费用有一定的影响。住院次数的增多说明患者的病情日趋严重,会导致住院费用的增加。从分析来看,影响较小的因素为民族和性别。模型筛选出的影响因素都比较符合临床特征。
表1 研究变量及量化方法
表2 SVM模型筛选的各影响因素重要程度排序
2.2 模型预测精度
为确定合适的核函数,选取多项式和RBF核函数进行测试。测试结果显示,采用多项式核函数建立拟合预测模型时,回代训练样本准确率和预测检验样本准确率分别为84.35%和89.37%;采用RBF核函数建立预测模型,SVM模型的预测精度有所提高,回代训练样本准确率和预测检验样本准确率分别为90.12%和93.26%。因此,RBF核函数是本研究中分类效果较优的核函数。对于RBF核函数,通过实验确定最优参数C为0.0769,γ为0.4368。
3.1 方法讨论与SVM模型评价
由于住院费用呈偏态分布,且影响因素多而复杂,以往研究表明医疗费用与影响因素呈非线性关系,传统的线性回归分析方法就很难对该类数据进行较好的拟合和预测[8]。支持向量机是近年来在统计学理论的基础上发展起来的一种新的模式识别方法,在结构风险最小化准则的基础之上,它的分类效率高,模型稳定性强,特别适合非线性的、样本数量有限的资料的预测模型构建和分析。
支持向量机模型的建立是一个核函数和参数优化选择的过程,在建模过程中,核函数的选择和参数的设置合适与否均会影响到模型的优劣。本研究中,通过实验比较回代训练样本准确率和预测检验样本准确率来确定核函数类型为RBF核函数,并采用网格搜索法来确定最优参数,最终采用RBF核函数的支持向量机建立的预测模型的预测精度高。可见支持向量机模型在解决分类问题时具有良好的分类效果,对医疗费用的分类和预测具有较好的前景。
3.2 控制住院费用增长的措施
从研究分析结果可见,住院费用增长的影响因素中有一部分是属于不可控因素,如患者的一些情况,包括性别、年龄、婚姻状况、职业、主诊断疾病、民族及转归情况。因此本研究针对住院天数、费用类别等相对可控制因素,从医院管理和社会医疗制度方面提出相应的建议。首先,控制住院费用增长的有效途径是减少患者的住院天数。住院天数不仅是衡量医院工作效率和医疗水平的一个指标,往往也能体现医院管理水平的好坏。因此,从医院管理方面可强化绩效考核,把病床利用率、平均住院日完成率、工作量等考核情况纳入绩效考评,以此来促进各科室提高服务效率与质量,减少患者住院天数。另一方面,医院可以通过推广单病种质量控制、推行检验检查结果互认制度以及限制择期手术前平均住院日等措施来缩短住院日,从而达到降低病人医疗费用的目的。
其次,费用类别也是影响住院费用的重要因素之一。城镇职工基本医保、商业医疗保险等医疗保障患者的平均医疗费用要高于自费和新农合的医疗患者。因此,我国需发展社会医疗保险制度,试行单病种医疗费用核算,积极推进医疗费用总额控制下的多种结算方式改革,探索开展住院按病种付费等支付方式改革。这将对控制院费用起到一定的积极作用。
[1] 王静,李曼,杨苇苇,等.多元统计方法在住院费用研究中的应用进展[J].中国卫生统计,2009,26(1):91-95.
[2] Vapnik V N. The Nature of Statistical Learning Theory[M].New York:Springer-Verlag, 2000.
[3] 沈培,张吉凯,张子刚.基于支持向量机的单病种医疗费用控制研究[J].中国卫生经济,2012,31(3):89-91.
[4] 高隽.人工神经网络原理与仿真实例[M].北京:机械工业出版社,2007,78-93.
[5] 奉国和.SVM分类核函数及参数选择比较[J].计算机工程与应用,2011,47(3):123-124,128.
[6] 宋振,李长平,崔壮,等.基于人工神经网络模型的胆石病参保患者住院费用分析[J].中国预防医学杂志,2013,14(1):31-34.
[7] 张文彤,竺丽明,王见义,等.基于BP神经网络的中医院住院费用影响因素分析[J].中华医院管理杂志,2005(3):20-24.
[8] 张菊英,韦健,杨树勤.神经网络模型在住院费用影响因素分析中的应用[J].中华医院管理杂志,2002(18):143-145.
Application of the support vector machine model in the analysis of impact factors for hospitalization expenses
ZHANG Ying, LI Lijie, LIU Hairong, ZHU Sui, SUN Tongda// Chinese Hospitals. -2014,18(10):30-32
lung cancer patients, hospitalization expense, support vector machine model
Objective: To construct the single disease hospitalization expenses fitted model based on support vector machine and analyze the impact factors and the influence degree of the impact factors for hospitalization expenses. Methods: Data were collected from the information of inpatient records of lung cancer patients offered by a tertiary hospital of Zhejiang province from 2010 to 2013. The database was created by SPSS 16.0 and the support vector machine model was constructed by Weka software for analyzing the factors of affecting hospitalization expenses. Results: The main factors affecting hospitalization expenses are length of stay, the main diagnosis, anesthesia method, age, type of payment, occupation and number of hospital admission. Conclusion: Hospital expenses can be reduced by shortening length of stay and promoting universal coverage.
2014-06-11](责任编辑 郝秀兰)
2013年浙江省医药卫生科技计划项目(2013KYB242);浙江省卫生经济学会资助课题
①宁波卫生职业技术学院,315104 宁波市鄞州区学府路51号
②宁波城市职业技术学院,315104 宁波市鄞州区学府路9号
③宁波市第一医院,315010 宁波市柳汀街59号
④宁波市鄞州区第三医院,315100 宁波市鄞州区姜山镇人民南路18号
张颖:宁波卫生职业技术学院专业副主任、讲师
E-mail:janny820830@163.com