高保锴,虎昭言,王文龙,乔慧*
在实际研究中,经常会在计数资料中遇到零膨胀现象,即观测值为“0”的比例远大于其他取值比例。如机动车-电动车碰撞事故发生频次、森林火灾发生次数等。该类资料中“0”值过多且相同“0”值能够表达不同含义,常会导致数据呈现过度离散,表现出较大变异,从而超出相同条件下Possion回归和负二项回归等传统计数模型能够预测的范围[1-3]。为了正确展开参数估计和统计推断,国内外学者相继提出零膨胀及其推广模型,理论和实践的交互印证使之逐渐成为统计学的研究热点之一。但在居民住院情况的研究领域中,大多成果仍集中在对住院率、未住院率等的分析,其个案数据结果常局限在“是”或“否”,对于次数背后的含义和科研价值不能充分挖掘。故而本文将住院行为以次数分级,充分把握大量观测值为“0”的数据特征,拟构建Possion回归、负二项回归、零膨胀Possion回归和零膨胀负二项回归模型,并对其进行对比分析,进而深入剖析居民住院次数的影响因素,从而为符合零膨胀相关特征数据的拟合提供方法学上的实证研究,有效弥补住院频次分析的缺乏,以此丰富卫生服务利用研究的方向和形式,同时为合理规划宁夏卫生资源配置、制定或调整相关政策向山区倾斜等提供数据支持和理论依据。
1.1 资料来源 本研究资料来源于2019年7—8月开展的“创新支付制度,提高卫生效益”项目卫生服务调查数据库[4]。该项调查采用多阶段分层整群随机抽样的方法确定调查对象,具体抽样方法为:在宁夏南部山区7个县中随机抽取4个样本县(盐池县、海原县、彭阳县、西吉县);再以经济发展水平好、中、差作为分组依据,将各县辖区内的所有行政村划分为3个层次,每层按照40%的比例,采用随机数字表法抽取样本村;随后根据所在村庄的户主花名册进行系统抽样,每个村庄抽取20~33个家庭户作为样本户;将户内所有常住(居住时间≥6个月)成员列为调查对象,开展后续入户调查。原始数据库共有27 196份问卷信息,本研究去除关键变量缺失或不明确的问卷后,纳入可供分析的问卷22 427份(82.46%)。
1.2 研究方法 本研究选取的因变量为居民过去1年内住院次数。考虑到患者住院情况是多因素作用的结果,选取自变量时应综合各方面的影响,本研究以文献回顾、社会理论支持及专业知识储备为基础,结合数据库现有变量,初步选取9个可能影响居民年住院次数的潜在自变量[5-6]。选取的自变量及其赋值见表1。
表1 宁夏南部山区居民年住院次数影响因素分析的自变量选取及赋值Table 1 Selection and assignment of independent variables possibly influencing the annual number of hospitalizations in mountain residents from southern Ningxia
1.3 统计学方法
1.3.1 模型拟合 采用Stata MP 16.0统计软件进行数据分析和模型拟合。对居民的基本特征和年住院次数进行描述性分析,计数资料以相对数表示。利用软件拟合Possion回归[7-8]、负二项回归、零膨胀Possion回归[9]、零膨胀负二项回归[10-11]模型,以P<0.05为差异有统计学意义。
1.3.2 模型评价 采用SPSS AU进行过离散检验,当O≥1.96时,说明数据存在过离散现象,即存在聚集性,负二项回归模型的拟合效果优于Possion回归。Vuong检验(零膨胀检验)、赤池信息准则(AIC)和贝叶斯信息准则(BIC)统计量计算均通过Stata MP 16.0统计软件实现。当Vuong≥1.96时,说明数据存在零膨胀现象,拟合零膨胀相关模型是更好的选择;当Vuong<-1.96时,建议选择Possion回归或负二项回归模型;当|Vuong|<1.96时,无法判断何模型更优[12]。AIC/BIC值越小,认为模型的拟合度越高。
2.1 22427例居民的基本特征及年住院次数 22 427例居民中,男11 683例(52.09%),女10 744例(47.91%);年龄1~19 岁 5 571 例(24.84%),20~39 岁 6 713 例(29.93%),40~59岁 6 371例(28.41%),60~79岁3 385例(15.09%),80~岁387例(1.73%)。年住院次数为0次19 802例(88.29%),1次1 933例(8.62%),2次456例(2.03%),≥3次236例(1.06%)。居民基本特征分布情况见表2,年住院次数分布情况见表3。
表2 宁夏南部山区居民的基本特征分布情况(n=22 427)Table 2 Demographics of mountain residents from southern Ningxia
表3 宁夏南部山区居民年住院次数分布情况(n=22 427)Table3 Distribution of annual number of hospitalizations of mountain residents from southern Ningxia
2.2 模型拟合结果 以居民年住院次数为因变量,以性别、年龄、婚姻状况、文化程度、职业、常住人口规模、家庭年人均收入、贫困户/低保户情况、离家最近的乡镇卫生院距离为自变量,分别进行4种模型的拟合。(1)Possion回归、负二项回归分析结果均显示:性别、年龄、婚姻状况、文化程度、职业、常住人口规模、家庭年人均收入、贫困户/低保户情况是居民年住院次数的影响因素,差异有统计学意义(P<0.05),见表4~5。(2)零膨胀Possion回归分析结果显示:在计数过程中,文化程度、职业、家庭年人均收入、贫困户/低保户情况、离家最近的乡镇卫生院距离是居民年住院次数的影响因素,差异有统计学意义(P<0.05);在零过程中,性别、年龄、文化程度、职业、离家最近的乡镇卫生院距离是居民年住院次数出现零膨胀现象的影响因素,差异有统计学意义(P<0.05),见表6。(3)零膨胀负二项回归分析结果显示:在计数过程中,性别、文化程度、职业、常住人口规模、家庭年人均收入、贫困户/低保户情况是居民年住院次数的影响因素,差异有统计学意义(P<0.05);在零过程中,年龄、婚姻状况、文化程度、职业是居民年住院次数出现零膨胀现象的影响因素,差异有统计学意义(P<0.05),见表7。
表4 宁夏南部山区居民年住院次数影响因素的Possion回归分析Table 4 Possion regression analysis of factors influencing the annual number of hospitalizations in mountain residents from southern Ningxia
表5 宁夏南部山区居民年住院次数影响因素的负二项回归分析Table 5 Negative binomial regression analysis of factors influencing the annual number of hospitalizations in mountain residents from southern Ningxia
表6 宁夏南部山区居民年住院次数影响因素的零膨胀Poisson回归分析Table 6 Zero-inflated Poisson regression analysis of factors influencing the annual number of hospitalizations in mountain residents from southern Ningxia
表7 宁夏南部山区居民年住院次数影响因素的零膨胀负二项回归分析Table 7 Zero-inflated negative binomial regression analysis of factors influencing the number of hospitalizations per year in mountain residents fromsouthern Ningxia
2.3 模型评价
2.3.2 零膨胀检验 对本次拟合零膨胀Possion回归模型和标准Possion回归模型进行Vuong检验,统计量值为8.84;对本次拟合零膨胀负二项回归模型和标准负二项回归模型进行Vuong检验,统计量值为4.18。两次检验结果均>1.96,表明该数据确实存在零膨胀现象,拟合零膨胀相关模型是更好的选择。
2.3.3 模型拟合指标 对于本次实证数据,零膨胀负二项回归模型的Log likelihood对数似然(LL)值最大,AIC值最小,BIC值仅大于负二项回归模型,见表8。
表8 4种离散模型拟合指标比较Table 8 Comparison of the fitness indicators for four discrete choice models
3.1 模型最优解 本研究采用宁夏南部山区居民卫生服务利用数据开展实证分析,结合过离散检验和零膨胀检验结果,有理由认为居民年住院次数具有聚集性和零计数过多的特点。AIC作为权衡模型复杂度和数据拟合度的指标之一,在鼓励数据拟合优良性的同时尽可能避免过度拟合情况的出现,因此在模型选择时应优先考虑AIC值最小者[13]。此外,相比于AIC,BIC在大数据量时对模型参数惩罚得更多,导致BIC更倾向于选择参数少的简单模型,这间接解释了本研究中模型评价时负二项回归BIC值小于零膨胀负二项回归BIC值的现象。综上,在该实证数据的拟合中,零膨胀负二项回归模型是最好的选择。
3.2 影响因素 零膨胀模型分成两个过程,其中“计数过程”回答变量影响结局发生频次的问题,“零过程”回答变量影响结局发生与否的问题[14]。
3.2.1 计数过程 基于最优模型,其计数过程结果提示女性、无业及从事小生意/小买卖、家庭年人均收入处于中等及以上水平、贫困/低保户对居民年住院次数有正向影响,家庭常住人口规模达4人以上、高中及以上文化程度对居民年住院次数产生负向影响。(1)相对于男性,女性在1年中住院的次数要更多一些。其可能原因为:一方面,女性的身体素质在整体水平上弱于男性,并且在女性特有的四期(经期、孕期、产期、哺乳期)中卫生服务需求和利用均远高于男性;另一方面,随着国家将部分妇科常规检查和特殊检查纳入重大公共卫生服务项目,女性的疾病检出率升高,因筛查入院的次数也相应增加。(2)从事小生意/小买卖者相比于务农者的年住院次数更高。其原因与家庭年人均收入越高年住院次数越多的原因类似,都在于低收入人群“小病不看、大病不治、重病才住院”的现象较为常见,而可支配收入高意味着在就医方面有更多的选择和接受度,故而呈现出高收入人群卫生服务利用度“虚高”的现象。此外,在本研究中尚不能得出企业主与务农者在年住院次数方面存在统计学差异的结论,部分原因在于调查人群集中在农村地区,企业主的占比仅为0.08%,较大的样本不均衡性带来的偏倚不容忽视,故在后续研究中拟引入机器学习,适当改变训练集合,以探求更为真实的结论。(3)无业者及贫困/低保户的年住院次数较高。其原因需要结合调查背景进行分析,在实际入户询问过程中,调查员发现该两类人群中“因病失业、因病致贫”的比例突出,直接导致其年住院次数增加。(4)常住人口规模越大,年住院次数越少。其原因在于:人口规模较大通常意味着人均可支配收入较少,就医行为会在一定程度上受到限制,住院次数也会因此减少。(5)在探究文化程度对居民年住院次数的影响时,高中及以上者与文盲/半文盲者间存在明显的统计学差异,文化程度达到高中及以上人群的年住院次数相对较少,其原因为:该类人群一般具有较高的医学保健意识和预防知识储备,一定程度上可以规避健康危险因素并做到“早发现、早诊断、早治疗”,且可供其选择的治疗方式也更为广泛[15],故而其住院需求也随之减少。该项结果也在侧面反映出,保健宣讲及医学常识的科普在初中及以下文化程度人群中的力度不够、收效不足。
3.2.2 零过程 最优模型的零过程结果提示,文化程度和部分职业对居民住院次数出现零膨胀现象有正向影响,40~59岁、在婚两个因素对居民住院次数出现零膨胀现象有负向影响。(1)以文盲/半文盲者为对照,文化程度越高者的年住院次数为0的概率越大。分析其原因:一方面,文化程度的提升对健康意识的提高有着较大影响[16];另一方面,居民文化程度与收入呈正比的趋势从20世纪末就变得更加突出[17],因此高文化程度人群一般具有正确的健康理念和保持维系健康的资本,患病的可能性更低,无须住院的概率自然会更高一些。此处看似与计数过程所得结论“学历层次达到高中及以上人群的年住院次数相对较少”相矛盾,实则不然,零过程用以推断出现零次住院的可能性,即该类人群不患病的概率,而计数过程则是推断患病后实施就医行为的概率。(2)村医、从事小生意/小买卖者、教师3类人群相比于务农者,年住院次数为0的概率更大。基于调查样本县经济及农业发展水平,不难了解到当地务农者仍处于传统农业发展模式中,对于现代化、智能化、自动化的应用尚未全面普及,农民所承担的体力劳动更多,因劳累患病的概率更高,通常不能保证年住院次数为0。(3)40~59岁者归属于五大人口年龄组中的“壮年组”[5],相比于0~19岁的“少儿组”,年住院次数为0的概率较小。其原因在于该年龄段居民承担的家庭责任更重,且身体素质已经迈过高峰期,新陈代谢降低,若不加以控制和调节,体态和体质会变差,可以预见其对于医疗卫生的需求不断升高,无须住院的概率必定降低。(4)与未婚者相比,在婚者的年住院次数为0的概率较小。原因可能为:一方面,在患较轻病症时,配偶的关心和督促会增加其选择就医的可能性;另一方面,未婚者中绝大多数为青少年,健康基础较好、危险因素暴露少,在婚群体与之相比会有更高的患病可能性。
3.3 建议 为全面改善宁夏南部山区居民住院就医情况,现针对以上影响因素提出如下建议:(1)持续建立、完善妇女全生命周期健康服务体系和管理体系,并在医疗优惠政策方面做出适当倾斜;(2)健全特殊人群医疗救助机制[18],给予失业者、无业者等人群更多的医疗卫生服务关注,以此防止此类人群“因病致贫、因病返贫”;(3)加大对农村地区的教育投入与支持,引导高端人才开发、振兴乡村,提高当地整体文化程度,以此更好地传播健康理念,推行健康政策;(4)组织、动员农村居民积极开展健康家庭建设,推进健康教育工作,倡导健康生活理念,提升居民健康保健意识,进而形成正确的就医观;(5)推进“全程机械化+综合农事”[19],解放农村劳动力,降低农民劳动强度,拓宽农民增收渠道。
作者贡献:高保锴负责提出概念、撰写论文;虎昭言负责清洗和管理研究数据;王文龙负责文献查找、整理和归纳;乔慧为课题研究提供资金支持,并对文章关键内容进行审批;所有作者参与了问卷调查与资料收集。
本文无利益冲突。