刘 超,张步振,桑秀丽,李清竹
(1.昆明医科大学,云南 昆明 650031;2.解放军昆明总医院,云南 昆明 650000;3.昆明理工大学,云南 昆明 650000)
● 医院管理 ●
基于因子分析和BP神经网络的单病种费用预测研究
刘 超1,2,张步振2,桑秀丽3,李清竹1
(1.昆明医科大学,云南 昆明 650031;2.解放军昆明总医院,云南 昆明 650000;3.昆明理工大学,云南 昆明 650000)
单病种付费的预测问题一直是关乎医疗改革方向和进度的关键。针对单病种费用预测中影响因素多、关系复杂的问题,依托云南省某三甲医院的医院管理信息系统中恶性直肠肿瘤医疗费用数据,首先采用因子分析法对单病种费用影响因素进行降维,然后采用BP神经网络对单病种费用进行预测。预测结果表明,单病种费用的三个公因子能够阐释原始数据中86.928%信息;单病种费用预测模型的预测精度到达92.15%。因此,该模型的预测精度能够满足医院对单病种费用管理的实际需求。
因子分析;BP神经网络;预测;单病种付费
单病种付费方式是医疗保险费用支付方式之一,单病种付费能够扩大医疗保险费用的覆盖率,让有限的卫生资源合理高效的利用。单病种付费作为我国现阶段一种常用的控制医疗费用的方法,能够有效降低医疗成本、降低平均住院日、有效利用医疗资源、提高患者满意度。到目前为止,对于单病种费用的研究相对较少,或者其研究仅限于小样本量的一般性描述,缺乏一个合理、可行的费用参照体系[1]。此外,医疗保险预付款制度以及医院卫生经济管理也迫切需要制订各单病种费用标准。因此,研究单病种医疗费用模型的建立,具有重要的现实意义。
目前单病种费用测算是目前世界科研工作者研究的热点问题之一,目前开展的工作主要采用的方法有传统的回归分析法[2-3]。传统的线性回归分析方法虽然被广泛运用于单病种费用影响因素的分析中,但是对正态性、独立性与方差齐性的要求比较严格,而病种诊疗过程的复杂性和变异性,单病种费用预测越来越呈现影响因素多和非线性,费用资料具有呈偏态分布、受复杂因素影响、相关因素之间存在关联性等特点[4-5]。因此,采用传统回归模型测算单病种费用在理论上存在一定的缺陷,致使很多测算结果不足以令人信服。
智能算法也开始被广泛的应用于单病种的测算与预测,其中BP神经网络模型最为广泛,这主要是因为神经网络模型对费用数据信息在分布上没有特殊要求,且具有一定的容错性和相关因素的识别能力,对分析住院病人的费用资料更具优势[6]。但是在实际中发现,仅依靠神经网络进行预测,预测结果误差较大,测算精度有待提升。笔者认为这主要是现有模型对单病种费用影响因素估计不足,即对数据的前期噪声的研究及处理需要进一步加强。研究表明,因子分析方法能够较好的处理数据中噪声信息[7]。因此,笔者在前辈研究的基础上,以直肠恶性肿瘤为例,依托采用因子分析方法处理单病种费用数据中噪声,然后构建BP神经网络模型对单病种费用进行测算和预测。
2.1 因子分析理论
因子分析(Factor Analysis,FA)是多元统计分析中处理维数的一种有效方法,它是将具有错综复杂关系的多个变量经分析处理后变为较少的几个变量即因子[5]。
2.1.1 因子分析的基本原理
因子分析是利用“降维”的思想,通过研究多个变量之间的内部依赖关系,寻求观测数据中的基本结构,并且用少数几个“抽象”的变量去表示它的基本数据结构。
2.1.2 因子分析模型
通过模型 X =AF+ε以F代替X,从而达到实现降维的目的。F1, F2, Λ ,Fm为公共因子,ε1, ε2, Λ,εp为特殊因子,aij为因子载荷,因子分析的主要问题就是要确定因子载荷。
上述模型中,模型参数的统计意义主要体现在因子载荷和公共因子的方差贡献率两个方面。
(1)因子载荷的统计意义
若X是各分量已经标准化的随机向量,那么
式中:aij表示Xi与Fj的相关系数。
(2)公共因子的方差贡献率的统计意义
BP(Back Propagation)神经网络是 1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用极为广泛的神经网络模型之一。它是实际输出与期望输出之差对网络的各层连接权由后向前逐层校正的一种计算方法[6-7]。理论上,这种方法可以使用于任意多层的网络。由于具有工作状态稳定、结构简单的特点,是众多的神经网络模型中应用最为广泛、发展最为成熟的网络模型,见图1。
图1 神经网络结构
一对新的学习样本提供给BP网络后,它的神经元的激活值将从输入层经各个中间层向输出层传播,在输出层的各神经元输出对应于输人模式的网络响应。然后,按减少预期输出与实际输出误差的原则进行不断的学习和训练,从输出层经各中间层,最后回到输入层逐层修正各连接权,周而复始的训练直到输出值与目标值间的误差达到系统原本要求的误差范围为止[7]。
BP网络模型由为输入层、隐层和输出层,层与层之间用权值表示连接程度,并通过学习不断调整权值。用W1,W2分别表示输入层与隐层、隐层与输出层之间的连接权值,b1,b2分别表示隐层、输出层的偏差。设训练集T=[T1,T2,Λ,Tn],检验集 P=[P1,P2, Λ, Pn],网络输入U,隐层输出A,网络输出V。其实现步骤为:(1)网络训练:对于隐层 A=f(UW1+b1),对于输出层 V=f(UW2+b2),其中U=T,训练参数设为:学习速率0.05,动量常数0.95,最大迭代次数1000,期望误差 10-3;网络经 1000次迭代后,权值调整为W1=W1', W2= W2'。(2)网络预测:隐层A =f(U W1'+b1),对于输出层 V =f(UW2'+b2),其中U=P。
3.1 单病种费用组成
影响恶性肿瘤医疗成本费用的因素很多,一般从患者的人口社会学特征和基于临床路径的单病种费用两个方面来考虑[3]。依据可靠性、科学性、充分性、合理性、可操作性等原则,结合医院临床实践,选定以下指标作为影响因子。
表1 单病种费用组成
3.2 数据检验与分析
为了消除因子量纲对分析结果产生的影响,需要对原始数据进行标准化处理,而SPSS中如下形式的zscore函数可以帮助完成此次操作[9]。
首先考察单病种费用变量之间是否存在一定的线性关系,是否适合采用因子分析研究单病种费用变量间的关系。借助SPSS 18.0,巴特莱特球度检验和KMO检验分析结果如表2所示。
表2 巴特莱特球度检验和KMO检验
由表2可知,巴特莱特球度检验统计量的卡方值为183.9,相应的概率Sig值接近于0。如果显著性水平为0.05,由于值小于显著性水平,则应拒绝原假设,认为相关系数矩阵与单位阵差异有统计学意义。同时,KMO值为0.874,根据Kaiser的衡量标准可知,原变量具有很好的适切性,适合做因子分析。
3.3 对单病种费用影响因素进行降维
借助SPSS 18.0实现主成分分析法提取因子,结果如表3所示。
表3 因子分析中的变量共同度
表3显示了所有的变量共同度数据。第一列数据是因子分析初始解下的变量共同度,它表明:如果对原有8个变量采用主成分分析方法提取所有特征值(8个),那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。事实上,因子个数小于原有变量的个数才是因子分析的目标,所以不可能提取全部特征值。第二列数据是在按指定提取条件(这里为特征值大于1)提取特征值时的共同度。从表4中可知,综合医疗服务费、治疗费用、西药费用、医用耗材费用等变量的绝大部分信息(80%以上)可被公因子解释,这些变量丢失的信息较少。整体来看,所有变量的信息 50%均可以被公因子解释,因此,本文不再重新指定特征值的标准。
表4 因子解释原有变量中方差的情况
从表4可知,所有变量的86.928%信息能用3个公因子进行解释。总体上来看,原有变量的信息丢失较少,因子分析效果较为理想。
4.1 网络设计与参数确定
在经过降维处理后,利用降维后的数据进行单病种费用预测。鉴于马克威软件处理BP神经网络问题更为便捷,笔者利用马克威软件作为该预测模型的计算平台。基本步骤如下[10]:(1)训练样本和测试样本的确定:将前120个数据作为训练样本,后14个数据作为测试样本。(2) 模型参数的确定:训练函数为 trainlm;学习函数为 learndm;性能函数为 MSE;隐含层传递函数为tansig;输出层传递函数为purelin。输入层节点数为3,输出层节点数为1,迭代次数为1000,惯量因子为0.5,训练目标误差为10~3,学习率为0.85。(3)隐含层神经元数目的确定:该层神经元数目采用试算法确定,即以5为初值向上递增,检验模型的训练误差,直到找到误差最小的值,经验证隐含层神经元数目为8时,训练效果最佳。
4.2 网络训练及仿真
经马克威软件训练,待误差达到容许范围之后,得到实际值与拟合值的训练拟合图2。
图2 训练拟合图
4.3 模型预测及误差分析
将测试样本向量输入做预测,由预测数据与原始数据的分析来看,期望输出与实际输出曲线拟合度较高,具有较高的精度。其中部分预期输出与实际输出存在较大误差,其主要原因是模型参数选择时所依据的样本系列尚不能代表总体,加之 BP神经网络模型输入层节点数、隐含层节点数、节点转换函数类型、模型训练方式等都会对模型的模拟精度产生影响。为了检验模型的预测性能,采用平均绝对误差(Average Absolute Deviation, AAD)和平均相对误差(Average Absolute Relative Deviation, AARD)对模型的预测性能进行评价,同时,为了保证模型的泛化性能,随机选取 60和90个单病种费用数据进行对比。
表5 费用模型预测结果
从表5中可知,在90个数据时,测试样本预测平均绝对误差为182.895,预测的相对平均误差为0.0785,即预测的精度达到92.15%。证明模型的预测精度较高,能够较好的预测出该病种的费用情况。
笔者针对恶性直肠肿瘤医疗成本费用预测问题,首先利用 SPSS软件中的因子分析功能对原始数据进行降维处理,然后再利用马克威软件中的BP神经网络功能对预处理后的样本数据进行逼近处理和预测。得到的主要结论有:
(1)利用因子分析方法对原始数据进行预处理,提取3个公共因子,降低了变量维数,减少了输入的节点数,提高了程序运行效率;
(2)具有局部逼近特征和较强非线性映照能力的BP神经网络适于处理具有复杂变量的现实问题,基于因子分析的BP神经网络简化了网络输入样本,消除了网络输入之间的相关性,提高了网络的收敛速度,其网络的学习能力和预测精度比对样本数据不进行预处理的情形更为理想;预测精度高达 90%以上,能够较好的满足实际中医院单病种费用管理需求。
[1] ZWEIFEL P,BREYER F.Health economics[M].New York:Oxford University Press,1997.
[2] 陶红兵.基于单病种管理的医院住院病人费用控制的管理策略研究[D].武汉:华中科技大学,2008.
[3] 吴三兵,汤质如,潘爱斌,等.铜陵市单病种住院费用相关因素分析[J].中国农村卫生事业管理,2008,28(3):176-179.
[4] 王泽民.综合医院单病种住院费用影响因素研究[D].沈阳:中国医科大学,2009.
[5] 于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,2010.
[6] 鲁 俊.基于BP神经网络的单病种质量控制自动预警系统模型[J].甘肃科技纵横,2013,(4):22-25.
[7] 李 惠,刘子先,张美丽,等.基于GA-BP神经网络的单病种成本预测研究[J].中国农村卫生事业管理,2012,32(5):445-447.
[8] 高 隽.人工神经网络原理及仿真实例[M].北京:机械工业出版社,2007.
[9] 卢纹岱.SPSS统计分析(第4版)[M].北京:电子工业出版社,2012.
[10] 黄 晖,李鸿琪.马克威统计分析与数据挖掘应用案例[M].北京:中国统计出版社,2012.
(本文编辑:何庆节)
Study on single disease cost forecasting based on factor analysis and BP neural network
LIU Chao1,2, ZHANG Bu-zhen2, SANG Xiu-li3, LI Qi-zhu1
(1. Kunming Medical University, Kunming Yunnan 650031, China; 2. Genenal Hospital of PLA, Kunming Yunnan 650000, China; 3. Kunming University of Science and Technolgy, Kunming Yunnan 650000, China)
Single disease forecasting has being the key issue which relates to medical reform direction and progress. Aim at the problems of many influence factors and complex relation single disease cost forecasting. This study is based on malignancy retal tumor expense data from the HIS of a hospital in Yunnan province. First, reduces dimensions to single disease cost influence factors by factor analysis method, then forecasts the single disease cost by BP neural network. The predicted results show that the three common factors of single disease cost can explain 86.928% information of original data, the forecasting accuracy of single disease cost model gets to 92.15. Therefore, the forecasting accuracy of single disease cost model can meet the actual demand for single disease cost management in hospitals.
factor analysis, BP neural network, forecasting, single disease cost
R197.3
A
1003-2800(2014)11-0704-05
2014-06-24
国家自然科学基金资助项目(713636063);云南省应用基础研究计划重点项目(2013FA058)
刘 超(1989-),男,四川达州人,在读硕士研究生,主要从事社会医学与卫生事业管理方面的研究。
张步振(1961-),男,重庆人,主任医师,教授,主要从事医疗纠纷、技术创新、医疗资源配置等方面的研究。