城市住院患者医疗费用支付的影响因素研究

2017-09-07 07:00韩江霞
河南广播电视大学学报 2017年3期
关键词:特征选择数据挖掘向量

韩江霞

(河南广播电视大学 工商管理学院,河南 郑州 450008)

城市住院患者医疗费用支付的影响因素研究

韩江霞

(河南广播电视大学 工商管理学院,河南 郑州 450008)

通过收集某地区城市住院患者医疗费用支付相关数据,采用SPSS Clementine软件中的特征选择算法筛选出对医疗费用支付有重要影响的属性,采用支持向量机方法研究住院天数、疾病类型等对医疗费用支付的影响指数。从而更好地了解影响城市住院患者医疗费用支付的主要因素。并提出从有效缩短住院时间,完善医疗保障制度、实行单病种限额付费方式等方面来合理控制医疗费用支付的保障策略。

住院患者;医疗费用;影响因素

近年来,我国经济发展速度惊人,与此同时,却面临着人口老龄化加剧、重特大疾病患者增加等问题。这使得我国居民对医疗的需求不断增加,造成医疗需求大于医疗供给,从而导致很多居民不得不面临“看病难,看病贵”[1]问题。医疗费用支付的日益增加,成为国家和人民共同关注的焦点,也成为众多学者关注的研究领域。本文收集2015年某地区城市住院患者相关数据,运用电子商务中数据挖掘相关理论知识和方法,找出影响城市住院患者医疗费用支出的主要因素,探讨有效抑制医疗费用上涨的策略,为医疗费用的研究提供参考依据。

一、对象与方法

(一)研究对象

本文收集到2015年某地区城市居民住院患者医疗费用支付相关数据。[2]收集的数据来自5224个家庭16113个人。未达到研究的合理性和科学性,应剔除儿童、因生育孩子住院的妇女研究对象,并剔除家庭地址、住院编号等无关属性。最终研究范围包括374例城市住院患者的13个属性:家庭人均收入、性别、年龄、就业状况、医院类型、文化程度、疾病类型、住院天数、锻炼身体情况、出院原因、住院医疗费用合计、付款方式和住院医疗费用支付。[3]

(二)研究方法

用于影响因素分析的方法有很多,除了传统的Logistic回归法,数据挖掘中的人工神经网络、支持向量机等方法也都可以用于影响因素的筛选和排序。本文收集的2015年某地区城市住院患者数据包含了13个属性,具有多维性的特点,分析变量和目标值不具备正态性和方差齐的特征。相比于Logistic回归法、人工神经网络法,数据挖掘中的支持向量机法模型和原理,与研究数据的方差齐、正态性等特点不相关,只与研究对象的数量相关。因此,本文通过SPSS Clementine软件,采用特征选择算法筛选出对医疗费用支付有重要影响的因素;采用支持向量机方法对关键影响因素进行重要性排序。[4]

二、建模研究过程

本文通过特征选择、K-means聚类分析、支持向量机、精确度评价四个步骤进行2015年某地区城市住院患者医疗费用支付影响因素的分析。

(一)特征选择

本文收集的2015年某地区城市住院患者医疗费用支付相关数据,在数据属性上,虽然人为剔除了部分不相关属性,但仍存在属性重复、属性不相关的情况。本文通过SPSS Clementine软件[5],运用特征选择算法,针对研究数据,从13个属性中剔除冗余和不相关的属性,降低研究数据的维度。

特征选择算法经过筛选、分级、选择三个过程。筛选过程,即剔除存在空缺值、不合理值的相关研究对象和属性;分级过程,即用important值标记每个分析变量相较于目标值的重要指数;选择过程,即根据用户要求,选择参与建模的分析变量。其中,在分级过程中,研究对象的所有分析变量的重要性指数可以分为三类:important(重要)、marginal(一般重要)和unimportant(不重要)。根据数据挖掘和特征选择相关理论知识,我们将小于0.9的分析变量定义为unimportant,大于0.9小于等于0.95的分析变量定义为marginal,而大于0.95小于等于1.0的分析变量定义为important。我们针对374例城市住院患者医疗费用支付相关数据,通过特征选择算法建模,特征选择的结果如下图1所示。

图1中,有7个分析变量的重要性指数被定义为了important,分别是住院医疗费用合计、住院天数、付款方式、疾病类型、医院类型、出院原因、就业状况;有5个分析变量的重要性指数被定义为了unimportant,分别是年龄、家庭人均收入、性别、文化程度、锻炼身体次数。根据研究对象特征,本文选取重要性指数被定义为了important的7个分析变量作为特征选择算法的结果,用于后续进一步建模研究。

(二)K-means聚类分析

特征选择建模能够将影响医疗费用支付的重要因素筛选出来,但不能够全面考虑数据本身对研究结果的可靠性和实际性影响,这在一定程度上,会使研究结果精确度降低。因此,本文在特征选择的基础上,采用K-means聚类分析对2015年某地区城市住院患者医疗费用支付数据进行科学分类,以降低数据支付维数,提高精确度。

本研究采用K-means聚类算法对研究对象的目标值分别聚为2类、3类、4类和5类,进行结果分析。聚为2类时,分别有353、21个数据,数据差异较大,分布合理。聚为3、4、5类时,出现了在一个或两个类别中仅有极少个数据的情况,这被称为“孤立点”,不具备客观代表性,会降低支持向量机建模的精确性。因此,本研究选取将2015年某地区城市住院患者医疗费用支付聚为2类。

(三)支持向量机

图1 特征选择算法建模结果[6]

数据挖掘方法中的支持向量机主要用于对数据集的分类和预测,相比于传统的Logistic回归法、人工神经网络法,不要求数据的方差齐和正态性条件,具有解决多维数据、非线性数据的特有优势。支持向量机用于影响因素分析和影响因子排序的基本原理是,将研究数据作为建模对象,从特征空间中能够有效分开两类样本的超平面。根据数据挖掘和支持向量机相关理论知识,将超平面看作一个分类器,超平面两端的变量值分别定义为+1和-1,而分析变量在超平面的位置决定了其对目标值的影响程度。支持向量机建模的最终解,旨在找到能将不同分析变量间隔距离最大的平面,即最大间隔分类器。另外,核函数的设置是支持向量机建模的关键问题。SPSSClementine软件中包含了线性、二层神经网络、多项式和RBF四种核函数。本研究选择RBF核函数对2015年某地区城市住院患者医疗费用支付相关数据进行支持向量机建模。将特征选择算法选择的7个分析变量:住院医疗费用合计、住院天数、付款方式、疾病类型、医院类型、出院原因、就业状况,作为自变量;医疗费用支付作为因变量。支持向量机建模结果如下图2所示。

图2 支持向量机建模结果[7]

支持向量机建模结果显示,对于2015年某地区城市住院患者,医疗费用支付的的影响因子从大到小排序是:出院原因 0.1554,就业状况0.1471,医院类型0.1462,住院医疗费用合计0.1455,住院天数0.1409,疾病类型0.138,付款方式0.1269。

(四)精确度评价

对于支持向量机建模结果的精确度,本文采用损失矩阵,即模型分类或者预测的正确数量和错误数量来评价。如下表1是对于二分类问题的损失矩阵表格。其中,P11表示对于类别1正确预测为类别1的数量,P01表示对于类别0错误的预测为类别1的数量,P10表示对于类别1错误的预测为类别0的数量,P00表示对于类别0正确预测为类别的数量。即:二分类问题中,预测正确的数量为P11+P00,预测错误的数量为P10+P01。支持向量机预测和分类的精确度可以表示为:

表1 二分类问题的损失矩阵

对于2015年某地区城市住院患者医疗费用支付相关数据建立支持向量机模型时,P11、P01、P10、P00的取值分别是346、3、7、18,经计算,模型精确度为97.33%。因此,支持向量机模型用于城市住院患者医疗费用支付影响因素的分析具有较高的精确度。

三、讨论与建议

通过支持向量机建模结果可知,2015年某地区城市住院患者医疗费用支付的最重要的影响因素是患者的出院原因,这是因为在同等条件下,久病未愈的患者支付的住院医疗费用一般高于病愈后医生要求出院的患者;就业状况对医疗费用支付也有较大的影响,就业稳定的患者一般情况下比就业不稳定的患者更乐于选择较好的医院、病房、医师,因此产生的支付费用也相对较高;医院类型对医疗费用支付的影响非常直接,一般三甲医院要比普通医院的环境、服务更好,收费也相应较高;医疗费用合计越多,在扣除相关医疗报销的基础上,患者支付费用也相对较多;患者住院天数越多,接受医疗服务和治疗越多,支付费用也相对较多[9];重特大疾病或者罕见复杂的疾病类型,患者支付费用也相对较高;付款方式对支付费用的影响也是显而易见的,自费医疗患者支付费用相比采用商业保险、城市职工基本医疗保险等方式付款的费用较高。基于此,为合理控制医疗费用支付,政府和医疗机构可以从以下两方面做出改善。[10]

(一)减少无效住院天数

住院时间直接影响患者诊断治疗费用、药费、护理费、床位费等,进而影响患者的医疗服务总费用。患者住院时间长,主要有以下情形:患者住院前期检查周期长、患者出现并发症、患者手术后康复时间长、患者为了获得较高的医疗保险赔偿额度等。

医疗服务机构应该尽量减少患者无效住院时间。例如,将省、市级医院的常见病种住院诊断和服务下放到社区医院,规范医生诊断行为,禁止医生将患者的小病当作大病医治,杜绝患者及医生在医疗保险中的道德风险,从而在一定程度上减少患者无效住院时间,控制医疗服务费用支付的不断上涨。

(二)完善医疗保障制度,实施单病种限额付费制度

支付方式对医疗费用的高低有较大影响。一方面,自建立城市职工医疗保险和城市居民医疗保险以来,我国医疗费用支付有所降低。另一方面,自费医疗患者支付费用相比采用商业保险、城市职工基本医疗保险等方式付款的费用高。基于这两方面,很多医疗机构和医护人员会针对自费医疗的患者给予过度服务、过度检查。

为有效避免上述趋势的加剧,我国政府应继续不断修改和完善我国医疗保障制度。我们不仅要对现有医疗保险制度进行有效全面监督实施,还要努力做好城市职工医保与城市居民医保的衔接,探索异地就医、异地结算制度。除此之外,我国政府应出台相关政策,对常见病种实施单病种医疗限额付费,限定常见病种的最高支付标准,从而达到控制医疗支付的过度增长。

[1]杜修立,俞乔.住院医疗费用的影响因素研究:基于医院样本的实证分析[J].中国卫生经济,2011,30(2):59-61.

[2]李矛,郝艳华,吴红宇.医保与非医保梗死患者费用比较与影响因素分析[J].中国卫生经济,2013,32(11):27-29.

[3]辛一琪,胡正路.急性心肌梗死患者住院费用构成及影响因素分析[J].中国卫生经济,2011,30(8):66-69.

[4]沈培.基于数据挖掘的甲肝医疗费用影响因素与控制策略研究[D].武汉:华中科技大学管理学院研究所,2012.

[5]熊平.数据挖掘算法与Clementine实践[M].北京:清华大学出版社,2011:15-68.

[6]薛薇,陈欢歌.基于 Clementine的数据挖掘[M].北京:中国人民大学出版社,2012.

[7]沈培,张吉凯,张子刚.基于支持向量机的单病种医疗费用控制研究[J].中国卫生经济,2012,31(3):89-91.

[8]韩江霞.医疗费用支付影响因素差异性研究[D].长春:吉林大学商学院研究所,2014.

[9]江鸿,梅文华,夏苏建.再生障碍性贫血患者住院费用及影响因素分析[J].中国卫生经济,2013,32(3):40-42.

[10]吕淼,柯曼綦.关于影响我国农村居民医疗费用支付因素的探讨[J].北方经济,2008,(2):18-24.

F201

A

1671-2862(2017)03-0022-04

2016-11-25

韩江霞,女,河南郑州人,硕士研究生,河南广播电视大学助教,研究方向:电子商务、数据挖掘等。

猜你喜欢
特征选择数据挖掘向量
向量的分解
聚焦“向量与三角”创新题
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
Kmeans 应用与特征选择
向量垂直在解析几何中的应用
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
一种基于Hadoop的大数据挖掘云服务及应用
向量五种“变身” 玩转圆锥曲线