周立业,夏鑫婧,郭志飞,孙梦姣,余红梅
1山西医科大学管理学院,山西太原,030001;2山西医科大学公共卫生学院,山西太原,030001
冠状动脉粥样硬化性心脏病(以下简称“冠心病”)是一种发病率高、死亡率高的常见心血管疾病[1]。根据《中国心血管健康与疾病报告2020》估算,当前我国冠心病患病人数约为1139万人。2018年,城市和农村居民的冠心病死亡率分别达到了120.18/10万、128.24/10万[2]。今后10年间冠心病的发病率和死亡率仍将呈现稳定增长态势。作为一种慢性非传染性疾病,冠心病严重危害患者的身心健康,影响患者的生命质量。其高昂的医疗费用给患者增加了巨大的疾病负担,同时也给我国医保基金管理造成了很大的压力。许多学者采用多重线性回归方法对医疗费用影响因素进行分析[3],但医疗数据大多不符合正态性、方差齐性等条件。机器学习算法对于数据的要求较少,近几年,一些学者开始将机器学习算法应用于医疗费用研究中[1,4],机器学习也被称作人工智能,是一种利用计算机网络来处理各变量之间的复杂、非线性关系,并使误差最小化的方法[5]。但较少研究应用多种模型进行对比检验,本研究基于山西省运城市某三甲医院2019年冠心病患者的住院费用资料,采用多种机器学习算法进行分析,能更好地避免单种方法或模型可能带来的偏倚,更好地明确最有效的影响因素,为有效控制医疗成本、合理配置医疗资源、减轻患者和社会的经济负担提供参考。
选取山西省运城市某三甲医院2019年1-12月间,全年住院患者中疾病诊断为冠心病(ICD-10编码以I25.1开头)的病例数据。收集冠心病患者病案首页相关信息,包括人口学信息(性别、年龄、职业、婚姻状况等),临床特征(门诊诊断名称、住院次数、药物过敏等),付费方式,总费用以及各单项医疗费用(药品费、治疗费、化验费、护理费、卫生材料费等)等。本研究数据源自于医院内部数据系统,数据在填写、录入、传输过程中可能出现重复项、缺失数据、极端异常值等问题,为保证研究数据的准确性,使分析结果更真实、可靠,对数据进行了预处理:剔除有缺项、漏项和明显逻辑错误的病例;剔除极端值,如住院天数<1天,住院总费用在均值±3个标准差范围外的数据等;剔除病案质量为乙、丙、空缺的数据。最终纳入有效病例数据2533条,有效率为96.24%。
1.2.1 k-means聚类结果及数据离散化。目前,对住院费用水平的划分没有具体的标准,仅根据主观的看法来划分住院费用,缺乏科学依据。部分学者依据中位数将总住院费用分为两类,有研究指出[6],聚类法对住院费用的分类比中位数法更好,而且不同数据类别之间的分界点完全不受中位数大小的影响。因此,本研究选择k-means聚类法对住院费用进行分类,定义类别数量K=2,迭代次数为10,收敛条件为0,将冠心病患者住院费用分为高低两类。方差分析F=8824.786,P<0.001,分类结果有统计学意义。见表1。依据研究目的,将聚类后的住院费用作为响应变量,将可能影响住院费用的因素作为输入变量。将连续变量(年龄、住院次数和住院天数)进行离散化处理。变量赋值结果见表2。
表1 冠心病患者总住院费用k-means聚类结果
表2 冠心病患者住院费用影响因素的变量赋值
1.2.2 机器学习模型的构建与评价指标。采用分层抽样,从低费用组和高费用组分别抽取70%的样本作为训练样本集来建立模型,剩下的30%样本将作为测试样本集用来评估模型性能。将单因素分析筛选后得到的变量作为输入变量,在同一训练集上分别构建随机森林、支持向量机、神经网络和logistic回归4种分类预测模型,并利用测试集数据进行预测,通过灵敏度(sensitivity,Se)、特异度(specificity,Sp)、准确度(accuracy,ACC)、受试者工作特征曲线下的面积(area under curve,AUC)和G-means 5个指标对模型的性能进行评价。
本研究所采用的机器学习模型如下:①Logistic回归模型。Logistic回归属于广义线性回归类别,它可以用一系列的连续或分类型的变量对二分类结果进行预测,本研究利用训练样本集在glm()函数下构建logistic模型;使用step()函数对初始的logistic模型进行基于赤池信息准则的逐步回归变量筛选。②神经网络模型。神经网络模型(neural network,NN)是一种非线性、具有自适应能力的系统,它由多个处理单元(神经元)相互连接而组成,其数学模型能够模仿人脑的思考模式。其优点在于对数据的类型及分布无较多要求,通过不断迭代直至误差在允许的范围之内,且容错率较高,使数据之间的复杂关系从一个崭新的角度来处理[7]。神经网络模型由输入层、输出层和隐藏层3层神经元构成。③随机森林模型。随机森林(random forest,RF)是使用决策树作为主要分类器的综合算法,可以用于分类和回归问题。“森林”是指由多个决策树模型构成了随机森林,“随机”意味着在多个决策树的基础上增加了两重随机性,多棵决策树的输出结果决定了随机森林的输出结果[8]。在随机森林的建模过程中两个参数较为重要:ntree表示模型中树的数目,mtry代表模型中随机选择特征的数目[9]。④支持向量机模型。支持向量机(support vector machine,SVM)通过最小化VC(Vapnik-Chervonenkis)维来降低机器学习在结构上可能存在的风险,增强应用能力[6]。SVM的本质是使用核函数,利用核函数将线性不可分割的数据映射到多维特征空间,构造了一个优化的分类超平面,使得在低维空间内线性不能分开的数据,在向高维空间转换时能进行线性的区分,这使得支持向量机能够更好地处理高维、非线性、样本量较少等复杂的数据。核函数的选择影响着支持向量机的学习性能优劣。常见的核函数包括线性核函数、径向核函数、多项式核函数和Sigmoid核函数。
采用SPSS 24.0进行统计学分析,应用描述性分析对不同冠心病患者的社会学特征和住院信息进行描述;由于住院费用为偏态分布,采用非参数检验进行单因素分析,显著性检验水准α=0.05。模型的建立与评价均通过软件R i386 4.0.5实现,应用randomForest程序包来建立随机森林模型,支持向量机模型的建立应用e1071包,神经网络模型建立应用neuralnet包,应用stats包建立logistic回归模型。
本研究共纳入冠心病住院患者2533例,其中冠心病患者的次均住院费用的中位数为10331.77元,占比大小依次为卫生材料费(68.05%)、药品费(13.62%)、化验费(8.81%)、治疗费(3.63%)、床位费(3.12%)、护理费(2.74%)。冠心病患者住院费用在性别、年龄、婚姻状况、付费方式、入院途径、科室、是否药物过敏、住院天数分布上的差异存在统计学意义(P<0.05)。男性次均住院费用(21527.00元)明显高于女性(14764.44元)。年龄越大次均住院费用越高,47-58岁年龄组开始逐渐增加。已婚的患者次均住院费用(19210.60元)略低于其他婚姻状况的患者(20760.74元)。不同付费方式的患者次均住院费用存在差异,付费方式为其他的患者次均费用最高,达到26651.97元,其次是全自费患者(21978.35元)。不同入院途径患者的次均费用存在差异,其他医疗机构转入的患者费用最高(28299.36元),其次是急诊的患者,达到23881.99元。就诊于不同科室的患者次均住院费用有差异,中医科患者次均费用最高(30766.63元)。随着住院天数的增加,次均住院费用越高。见表3。
表3 冠心病患者住院费用分布
表3(续)
单因素分析筛选出的8个自变量被纳入logistic模型。在性别、年龄、婚姻状况、付费方式、入院途径、科室、药物过敏、住院天数8个自变量中,二分类变量3个,多分类变量5个,处理时将5个多分类变量转化成21个哑变量,最终引入24个自变量。采用二分类logistic回归模型,对模型进行拟合优度检验,χ2=6.736,P=0.565>0.05,说明该logistic回归模型拟合程度较好,结果如表4所示,性别、付费方式、入院途径、科室、住院天数这些因素对于住院费用的影响程度较高。从OR值可以看出,在控制其余3个自变量后,女性患者比男性患者更倾向于低费用组,女性患者是高费用组的危险度是男性患者的0.44倍;和入院途径1(门诊)相比,入院途径2(急诊)和入院途径3(其他医疗机构转入)发生高费用的可能性更大,入院途径2是入院途径1的1.48倍,入院途径3是入院途径1的2.5倍;住院天数在5-8天区间内的患者发生高费用的概率是住院天数在1-4天区间内的18.89倍。见表4。
表4 基于logistic回归的冠心病患者住院费用分析
基于神经网络方法建立冠心病住院费用影响因素的模型。将单因素分析筛选出来的8个自变量作为输入层,住院总费用作为输出层。神经网络的灵敏度是指各因子对住院费用影响程度。结果显示,神经网络模型中住院费用的影响因素排序依次为:住院天数(0.401)、科室(0.152)、入院途径(0.122)、年龄(0.107)、性别(0.078)、付费方式(0.077)、药物过敏(0.036)、婚姻状况(0.027)。见图1。
图1 基于神经网络模型的变量重要性排序
将单因素分析筛选出的变量纳入随机森林模型。随机森林模型的优劣主要取决于两个重要参数:ntree(树的数目)和mtry(随机选择特征的数目)[9]。经验证,本次研究中参数mtry设置为3,ntree设置为1000时,模型表现最佳。结果显示,随机森林模型中各输入变量的重要程度排名依次为:住院天数(0.411)、科室(0.189)、付费方式(0.105)、入院途径(0.100)、性别(0.082)、年龄(0.074)、婚姻状况(0.019)、药物过敏(0.019)。见图2。
图2 基于随机森林模型的变量重要性排序
将单因素分析中筛选出的8个自变量作为输入变量,住院费用作为输出变量。选择多项式核函数进行影响因素重要性分析。结果显示,支持向量机模型中影响因素的重要程度排序为:住院天数(0.31)、入院途径(0.19)、付费方式(0.15)、性别(0.13)、年龄(0.10)、药物过敏(0.08)、科室(0.04)、婚姻状况(0.00)。见图3。
图3 基于支持向量机模型的变量重要性排序
通过在不同模型中引入相同的自变量,比较各个模型的输出结果,可以发现冠心病患者住院费用影响因素的重要性排序在不同模型中存在一些差异。住院天数在4个模型中次序相同,入院途径、年龄、性别、药物过敏、婚姻状况在4个模型中的次序基本一致,而付费方式、科室在4个模型中的次序不一致。见表5。
表5 基于机器学习各模型的变量重要性排序
基于同一训练样本集建立神经网络模型、随机森林模型、支持向量机模型和logistic回归模型,并应用于同一测试样本集数据,比较各模型的预测效果,结果如表6所示。由表6中各项指标可知,logistic回归模型表现一般;支持向量机模型的特异度为4种模型中最佳,但其他指标均较低;随机森林模型的灵敏度、准确度、AUC值和G-means值较其他3种模型更为优异,神经网络模型各项指标略低于随机森林模型。综上所述,随机森林模型的综合性能较优,并且在很多方面优于传统的logistic回归模型,可为住院费用影响因素的研究提供方法学上的借鉴。
表6 机器学习模型在住院费用预测中的性能比较
研究结果显示,卫生材料费在冠心病住院费用中的占比最高,高达68.05%。药品费所占比重仅次于卫生材料费,达到13.62%,且这两项费用合计占比达到住院总费用的80%以上,这与黄果的研究结果类似[10]。可能的原因如下。①医疗技术的发展给冠心病患者带来更多的医疗方案选择,心脏支架介入这一治疗方案效果显著,侵入性小,已成为许多患者的首选治疗方案[3]。其中心脏支架就成为卫生材料费的重要组成部分,给患者带来较大的经济负担。②冠心病作为一种常见的慢性非传染性疾病,病程较长,手术与非手术的患者都需要长期的服药来稳定病情,手术治疗的患者在术后需要长期服用昂贵的二级预防药物[11],如β受体阻滞剂等,非手术治疗的患者则需要服用硝酸盐类、抗血栓药物,因此药品费给患者带来了较大的经济负担。医保部门应加强对药品和卫生材料流通领域的监管,建立并完善价格谈判及监管机制,避免中间流通环节造成的价格虚高;医疗机构要建立监督机制保障卫生材料和药品的使用合理性,减少资源浪费,防止医务人员为牟利而采取过度医疗的行为。
本研究结果中治疗费(3.63%)和护理费(2.74%)的占比都较低,这与郭腾飞的研究结果类似[12],医务人员的劳动价值不能得到充分体现,侧面反映出技术服务的价值认可度不高。当医务人员感受到自己的劳动技术价值无法获得相匹配的回报时,他们可能产生在药品或卫生材料中牟利的行为[13]。医院管理者应当重视医务人员在工作中所贡献的劳动技术价值,依据本地区的经济发展水平,因地制宜地确立医疗服务收费标准,提高医疗服务费用的比重,保障住院费用构成的合理性,充分体现出医务人员的知识和技术价值。这也有利于在医院内形成良性激励机制,提高医务人员的积极性,不断地提高医疗技术水平,更好地为患者提供优质的医疗服务。医疗卫生领域的价格调整不是一蹴而就的,需要通过深入调查和分析具体疾病的费用结构,建立医疗服务价格的动态调整机制,加大配套政策的改革实施力度,保障参保居民的利益,提高人民群众的获得感[14]。
本研究采用神经网络、随机森林、支持向量机、logistic回归4种机器学习算法分别拟合了住院费用分类预测模型,对冠心病患者住院费用的影响因素进行了排序。随机森林模型的准确率为71.68%,受试者工作特征曲线下的面积为0.7083,优于其他3种模型。研究结果显示,住院天数对冠心病患者住院费用的影响程度最大,在4个模型在中均位列第一,是影响住院费用的关键因素,这与王娅玲的研究结果一致[1]。首先,患者住院天数的增加,床位、护理等费用随之而增加,并且长期住院会增加院内感染和并发症的风险,病情反复,迁延不愈,都会导致住院费用的增加。其次,检查等院内系统效率不高,导致患者为等待检查而延长住院天数,以及术前住院日这类无效住院天数都会导致住院总费用的不必要增加[14]。住院天数是医院管理中的一项重要指标,反映出医疗资源利用效率的高低和医院整体医疗服务能力的好坏。有研究表明将三级医院的平均住院日从20天减少到7天,则可以降低49%的住院费用[15]。这提示医疗机构采取临床路径管理的措施提高临床科室和检查科室之间的配合效率,尽早诊断,减少无效住院天数[16]。一方面减轻患者的经济负担,同时也加快了医疗机构的病床周转率,缓解病床紧张的现象,提高了资源利用效率。科室在4种模型中的排名上偏差较大,但仍需引起关注。研究结果显示老年病科的费用较低,原因可能为老年病科所接收的病人大多为高龄患者,有较多的基础病,身体各项机能衰老,其工作主要是解决老年患者多病共存的慢性健康问题,尽可能地提高老年患者的生存质量[17]。因此,针对这类患者如采取手术等治疗手段,风险较大,大多只能采取保守治疗的方式,相较于其他科室,住院费用较低。
本研究结果显示,新农合医保患者的次均费用略高于城镇居民和城镇职工医疗保险患者,一方面因为医保之间报销比例不一致[18],另一方面可能是患者受到经济状况和医疗服务可及性的影响,无法得到及时的治疗,病情可能发生恶化[19]。这提示基层社区、乡镇卫生院应针对新农合医保居民加强健康宣教,提高居民的自我保健意识,降低因病致贫、返贫的几率。自费患者的次均住院费用高于参保患者,这与于洗河的研究结果一致[20],一方面可能因为部分自费病人自身健康保健观念较强,愿意为身体健康选择更为优质的治疗方案,另一方面由于实施了医疗保险制度改革,规范了医保报销程序,加强了医保监管力度,对参保患者过度卫生资源起到了一定的抑制作用。本研究结果表明该项改革措施有所成效,医保政策制定者应当持续推进医疗付费方式改革,保证相关配套措施的实施力度,不断完善医保目录的准入制度,从患者的需求出发,顺应时代的发展要求,减轻患者的经济负担。
入院途径也对住院费用产生一定的影响,本研究发现,门诊入院的患者次均费用远低于急诊和其他医疗机构转入的患者,这与刘萍的研究结果类似[21]。急诊入院和其他医疗机构转入的患者病情较为危急,入院后需采取紧急抢救措施或紧急手术,住院天数及住院费用都会增加。这侧面体现出主动就医、早诊早治的重要性,因此应充分发挥基层卫生服务中心在冠心病这类慢性病防治中的作用,做好慢性病的一级、二级预防工作,对全人群开展健康教育,倡导早诊早治、定期检查、主动就医的健康观念;针对重点高危人群,做好定期的健康监测和社区医生随访等工作。