马晓敏 贾卫东 杨 朔 梁颖芳 周 峰 李粤平 陈 舸 李丽霞 周舒冬 郜艳晖△ 杨 翌
有限混合模型在肝硬化住院患者医疗费用研究中的应用*
马晓敏1贾卫东2杨 朔1梁颖芳2周 峰1李粤平2陈 舸1李丽霞1周舒冬1郜艳晖1△杨 翌1
目的 针对医疗费用的偏峰、厚尾分布特征,探讨有限混合模型(finite mixture model,FMM)在识别肝硬化患者住院费用异质性、提高医疗费用预测精度等方面的可行性,为准确估计和预测医疗费用提供统计方法学支持。方法 介绍FMM原理,并将其应用于广州市第八人民医院肝硬化住院患者医疗费用研究,识别群体异质性,分析异质性来源,并与单成分广义线性模型的预测效果进行比较。结果 对2 760名肝硬化患者住院费用进行FMM分析,最优模型为包括低、中等和高费用3个成分,拟合优度与预测效果均高于广义线性模型,异质性来源分析进一步验证了FMM识别各类患者的能力。结论 FMM能够有效地识别医疗费用的异质性,解决医疗费用偏峰和厚尾分布问题,提高医疗费用预测精度。
医疗费用 有限混合模型 群体异质性
目前,我国医疗费用快速增长,占GDP的比重不断升高[1]。医疗费用的分布极其特殊,多数个体费用低于平均水平,少数个体费用极高,表现为极度正偏峰和厚尾特征;如采用传统基于正态假设的模型会导致大多数患者的预测费用高于实际,出现沃贝贡湖效应(lake Wobegon effect)[2]。因此有学者用中位数、秩和检验等非参数方法进行分析[3-4],卫生经济学领域被广泛接受和决策者主要关心的统计指标仍是人群平均费用。考虑到费用的特殊分布,近年也有学者采用广义线性模型拟合医疗费用[5-6]。
临床上患者状况千差万别,而医疗费用的特殊分布也提示患者群体存在严重的异质性,如假设医疗费用的分布来自多个分布的混合可为精准估计医疗费用提供一个新思路。有限混合模型(finite mixture model,FMM)基于回归分析和聚类分析思想,将初始分布假设为不同分布的混合,用于识别群体间的异质性,目前在经济学、生物学、物理和医学领域多有应用。本文介绍有限混合模型并将其应用于肝硬化患者医疗费用的估计中,为更精准的评价和预测医疗费用提供方法学支持,为高费用患者监测和干预提供方法借鉴。
(1)
混合模型使用极大似然法进行参数估计,表示为
(2)
(3)
FMM的实际应用中,需要事先指定成分个数,然后根据AIC、BIC等指标确定成分数,进而估计各成分的权数及特征参数,最后对随机观测X作出分类。FMM可采用SAS 9.3的proc fmm过程实现[7]。
表1显示4成分的FMM中-2logL和AIC最低,但3成分时BIC值和Pearson统计量最低,因此最优模型选择3成分FMM。
图1为模型中3个成分分布,可看出初始分布呈典型的偏峰、厚尾特征。分解为3个成分后,成分1峰
表1 不同成分数的有限混合模型和广义线性模型适配指标
*:即广义线性模型。
值较高,变异度较小,包含了较多低费用患者;成分2峰值略低,变异度较大,中等费用患者占多数;成分3无明显分布峰,包含各类费用患者、特别是高费用患者。因此成分1、2和3可分别代表低、中和高费用患者的住院费用分布。
表2显示3成分FMM中各成分比例、分布特征及绝对平均预测误差。可见成分1患者最多(52%),平均医疗费用(9135.50)和方差(23 729 701.50)最低;成分3比例最低(10%),但平均医疗费用(43 250.64元)和方差(1 417 134 742.73)均最高。在住院费用预测方面,FMM的绝对平均预测误差比广义线性模型大大减小。
图1 3成分有限混合模型各成分分布
成分特征3成分的有限混合模型*成分1成分2成分3广义线性模型*混合概率0.520.380.10尺度参数3.522.881.321.64期望(元)9135.5019934.3243250.6416574.41方差23729701.50137997330.831417134742.73167594577.11MAPE5793.0210553.18
*:模型均为Gamma分布,Log链接
表3 有限混合模型各成分患者的人口学及临床特征,n(%)
续表3
*:0为单纯肝硬变;1为肝硬变伴食管静脉曲张;2为肝硬变伴食管静脉曲张破裂出血。**:M(P25~P75)
表3显示属于各成分的患者其人口学及临床特征。可以看到,和成分1患者相比,成分2和成分3患者多倾向于大年龄、使用抗病毒药物、并伴食管静脉曲张,甚至破裂出血的患者,病情更加严重,住院天数也更长。比较3个成分患者的各项费用也可看出,从成分1到3,患者各项费用均增加,尤其是西药费和其他费用,成分3患者中位数费用是成分1患者的10倍和25倍左右。可见运用FMM分析住院医疗费用可有效识别患者的异质性,将不同特征的各类患者很好地区分。
本研究将Gamma分布的有限混合模型应用于肝硬化住院患者的医疗费用研究,结果显示肝硬化患者的住院费用表现出明显的沃贝贡湖效应,而FMM可有效识别患者异质性,成功地将肝硬化患者医疗费用分解为三个Gamma分布的混合,分别表示低、中和高住院费用的患者。其中,低费用成分患者比例最高、变异度最小,恰当地解释了总人群中住院费用的偏峰特征;而高费用成分比例最低、变异度最大,正体现了医疗费用分布中的厚尾现象。采用FMM识别出3个成分后,进一步探索成分间的异质性来源。结果显示高费用患者多数年龄大、病情严重、住院天数长,而且各项费用成分也均高;和低费用患者相比,相差最大的西药费和其他费用竟高达10倍和25倍之多,反映了这部分病情严重的患者接受特殊治疗而产生了高额费用。这些结果进一步验证了FMM在根据医疗费用识别患者群体异质性方面的能力和可靠性。近期国外亦有学者将FMM应用于老年人医疗费用研究,识别出四种不同的成分费用,并研究不同成分间各类慢性病对费用的影响,为政府制定医疗政策和高费用人群监测干预提供了指导性建议[8]。本研究中识别到的高费用患者,也可作为下一步费用监测和干预的目标群体。
对于医疗费用的特殊分布问题,国内外许多研究者曾采用广义线性模型来拟合[5-6,9]。和FMM相比,拟合Gamma分布的广义线性模型是Gamma分布有限混合模型的特例,该法不考虑患者人群的异质性,将医疗费用分布作为一个整体进行估计。本研究结果也显示广义线性模型拟合的费用分布效果劣于FMM,而拟合效果的减弱进一步导致预测精度的降低。
本文应用FMM时采取了空模型进行分析。实际工作中,也可以根据研究目的和数据特征时将协变量引入模型,如引入临床检验信息或共病信息,区分各种成分的同时研究费用的影响因素。此外,本研究基于Gamma同质分布混合,而有限混合模型支持多种链接和分布函数[7],不仅可探索同质混合,也可分析成分间不同分布的混合,在应用上更为复杂,需要更多的后续研究。
[1]朱川.我国近年卫生费用增长及分析.中国外资,2013(4):226-227.
[2]Deb P,Burgess J F.A Quasi-experimental Comparison of Econometric Models for Health Care Expenditures.Hunter College Department of Econometric Working Papers,2003:212.
[3]金琦,何其勇,赵云波,等.1540例肝硬化患者住院费用影响因素分析.中国卫生统计,2016,33(1):91-93.
[4]李仁鹏,张丽,徐爱强,等.山东省乙型肝炎病毒感染相关疾病经济负担分析.中国卫生经济,2013(12):8-10.
[5]罗开明,吴黎军.基于秩和检验和广义线性模型的单病种结算研究.中国卫生统计,2015(4):655-657.
[6]杨彩霞,孙广恭,常艳群,等.脑梗死患者住院费用影响因素分析.中国卫生统计,2011(6):706-707.
[7]Dave Kessler A M.Introducing the FMM Procedure for Finite Mixture Models.SAS Global Forum 2012,2012(2012):328.
[8]Eckardt M,Brettschneider C,van den Bussche H,et al.Analysis of Health Care Costs in Elderly Patients with Multiple Chronic Conditions Using a Finite Mixture of Generalized Linear Models.Health Econ,2017,26(5):582-599.
[9]Dasa V,DeKoven M,Sun K,et al.Clinical and cost outcomes from different hyaluronic acid treatments in patients with knee osteoarthritis:evidence from a US health plan claims database.Drugs Context,2016,5:212296.
(责任编辑:郭海强)
The Application of Finite Mixture Model in the Study of Medical Expenditures for Liver Cirrhosis Inpatients
Ma Xiaomin,Jia Weidong,Yang Shuo,et al
(DepartmentofEpidemiologyandBiostatistics,PublicHealthSchool,GuangdongPharmaceuticalUniversity(510310),Guangzhou)
Objective To explore the finite mixture model(FMM)in identification of heterogeneity of medical cost of liver cirrhosis inpatients and feasibility of improving the prediction precision,we provide statistical methodology support for accurate estimation and forecast in terms of the skewed and heavy tail distribution characteristics of medical expenditures.Methods The principle of FMM is introduced and applied to medical expenditures of liver cirrhosis inpatients from the eighth people's hospital of Guangzhou to identify population heterogeneity,and then we analyze sources of heterogeneity,and compare the prediction results with single component of generalized linear model.Results After modeling the medical expenditures of 2 760 liver cirrhosis inpatients by FMM,the three gamma distribution components of FMM is fitted,including the low expenditures,median expenditures,high expenditures.The goodness-of-fit and predictive effect of FMM are better than the generalized linear model,and the source of heterogeneity analysis further verifies identification ability of FMM.Conclusion The finite mixture model has a good effect on identifying heterogeneity of hospitalization medical expenditures,solving the problem of the skewed and heavy tail distribution characteristics of medical expenditures,finally improve the predictive accuracy.
Medical expenditures;Finite mixture model;Heterogeneity of population
国家自然科学基金(No.71573059)
1.广东药科大学公共卫生学院流行病学与卫生统计学系(510310)
2.广州市第八人民医院
△通信作者:郜艳晖,E-mail:gao_yanhui@163.com