田 静,关 静
(天津大学 数学学院,天津 300350)
有序多分类变量在社会学、医学、经济、环境、工业等各种领域中经常出现。例如,在医学领域中,是否患病为二分类变量(患病为1,健康为0),患病程度为多分类有序变量(重度贫血4、中度贫血3、轻度贫血2、正常1、血红蛋白增高0);心理测试中,将人的压力视为三分类的有序变量,0表示没有,1表示轻度,2 表示重度;调查研究中,将人们对生活的满意度、自我评价或健康等级等看作多分类(0,1,2,…)的有序变量。有序多分类变量在研究中引起许多统计学者的兴趣。在对这类变量进行相关性分析时,相依变量的多元联合分布建模是一项具有挑战性的任务。变量之间的相依关系往往具有复杂的结构,并受到严格的约束,这使得模型参数的可行性估计难以获得。在所有的建模方法中,Copula模型已经成为一种流行的数据建模方法[1-2]。它允许从边缘分布中分离相依结构,从而成为一个灵活和强大的相依数据的分析工具。随着Copula理论的不断发展和壮大,Copula函数衍生出多种类型,常用的有椭圆Copula和阿基米德Copula[3]。椭圆Copula 族虽然也提供了灵活的相依结构,可以刻画正相关和负相关,但它们没有封闭形式的联合分布函数。因此,在高维情况下推导联合概率时面临着重复进行高维积分的问题。阿基米德Copula函数族虽然避免了高维积分的问题,但是模型中变量的相关结构是对称可交换的,所有的随机变量之间具有相同的相关性。这种假设在变量间的相依结构非对称时显然表现出一定的局限性。为此,我们考虑使用分层(也称为嵌套)的阿基米德Copula模型[4]。
Joe[4]首次提出了分层阿基米德Copula(HAC)模型,允许非对称性和更多灵活性,可以很容易地纳入许多已知的模型来处理广泛的相依关系。HAC模型的基本思想是构建阿基米德Copula的分层结构,即从底层开始将边缘分布函数连结形成阿基米德Copula,逐级构建,最后终止于顶层。变量间的相关性和描述其关系大小的Copula参数随HAC层级的增加递减。根据这种思想,Bernardi等[5]利用分层阿基米德Copula研究了投资组合中各风险的相关结构在风险管理中的重要性。Wójcik 等[6]对分层阿基米德Copula 在巨灾风险上的应用进行了研究。Brechmann[7]推导了带有阿基米德生成元的分层Kendall Copula的性质,并将其应用于德国的股票收益。Côté和Genest[8]利用分层Copula来分析加拿大保险公司8个汽车和财产保险投资组合之间的关系,显示了分层阿基米德Copula模型在精算领域的适用性,为风险聚合和资本分配提供了有效的方法。Deng 和Chaganty[9]利用分层阿基米德Copula 来探讨家庭成员间患病与否的相关性,初步探索了针对二分类数据的HAC模型的构建。Li和Lu[10]利用HAC来捕捉引起死亡的相互竞争的病因之间的相依性,并评估了降低或消除癌症致死率对预期寿命的影响,为保险业务和养老金系统管理提供了重要的见解。Cossette等[11]构造了保险索赔频率和索赔支出的分层阿基米德Copula模型,推导出评估保险索赔总额的计算新方法,更好地构建了集合风险的相依性模型。
从现有文献来看,基于相依有序多分类变量的分层阿基米德Copula模型的研究较少,并且大部分HAC的建立仍是基于同一族的生成元,未能用不同族的生成元反映异质性变量间的非对称相关。鉴于此,本文利用组合HAC模型来分析有序多分类数据。首先通过潜变量建模得到有序边际的边缘概率模型,进而构造基于HAC的非对称相依模型,并给出两步极大似然估计法[12-13]来估计模型参数。然后通过Monte Carlo模拟来展示组合HAC在参数估计和模型拟合上的效果,并结合实际数据应用来验证此模型在实际问题中的有效性。
设Y是一个有序多分类的响应变量,取值1,2,…,K。X是m维的解释变量,Y*是连续的潜变量,并且与解释变量有关,
式中,β为m维的待估回归参数。若存在K-1 个阈值rk(k=1,…,K-1)可以将Y*分成K个有序部分,就可由潜变量Y*得到有序响应Y。不失一般性,设r0=-∞和rK=-∞,则有
式中,-∞<r1<…<rK-1<∞。显然,当K=2 时,Y是一个二分类的响应变量。
当Y和X已知时,可得有序阈值
为有序响应Y的概率模型。
由Copula函数的定义,一个t元CopulaC(u1,u2,…,ut)是一个边缘分布均服从[0,1]均匀分布的多元累积分布函数。对j=1,2,…,t,令uj=Fj(Yj)为一元随机变量Yj的分布函数,则Y1,Y2,…,Yt的联合分布函数为:
Sklar定理指出,若随机变量Y1,Y2,…,Yt是连续的,则C是唯一的;否则,C由Ran(F1)×Ran(F2)×…×Ran(Ft)确定的域所决定,Ran(Fj)为Fj的值域。
设Y为有序向量,Y1,Y2,…,Yt之间存在相依关系。若的分布为Fj(j=1,2,…,t),则由式(3)易知每个Fj都对应着一个潜变量和有序阈值,并且有
1)当Fj=Φ为标准正态分布时,
2)当Fj为标准logistic分布时,
命题1.设Y=(Y1,Y2,…,Yt)′为t个有序变量组成的向量,Y1,Y2,…,Yt之间存在相依关系且的分布为Fj(j=1,2,…,t)。联合分布函数由Copula函数给出,则Y1,Y2,…,Yt的联合概率密度函数为:
式中,I(ij)(j=1,2,…,t)由式(8)给出:
当异质性变量间不再具有对称的相依关系时,Joe 所提出的分层Archimedean Copula 函数(HAC)模型[14]是一个很好的选择。实际上,一个HAC函数是多个生成元函数的复合函数,复合操作将内部函数的输出链接到外部函数的输入,允许更加灵活的相关性的存在。HAC模型有完全嵌套和部分嵌套两种,图1中结构A为完全嵌套HAC的结构,结构B和结构C为部分嵌套HAC的结构。
图1 不同HAC 的网络结构图Fig.1 Network structure of different HACs
根据图1,一个三维的完全嵌套的HAC定义为
式中:φ1、φ2可以是相同或不同的生成元函数。所对应的Copula 函数的参数分别为θ1,θ2。令Yi=ki(i=1,2,3),则ui=。常用的生成元函数有Clayton,Gumbel和Frank等。
Savu和Trede[14]指出,构造的HAC必须满足:
1)对所有的j=1,2,必须完全单调;
2)令ω=φj+1◦满足,其中
3)层次越高,所对应的生成元函数的参数值越小,即θ2≤θ1。
在构造HAC 时若使用单一类型的生成元函数显然满足上述条件,但若要利用不同生成元构造HAC 应首先对其存在性和合理性进行验证。
设Y=(Y1,Y2,…,Yt)′是t维相依有序向量,其相关结构满足完全嵌套的HAC。对j=1,2,…,t,潜变量的分布Fj满足式(5)的定义。ηj=(αj,βj)′,其中αj=(αj,1,…,αj,K-1)′和βj分别为边缘分布所对应的类边界截距和回归参数。θ=(θ1,θ2,…,θt-1)′为Copula 模型中的相依参数,并且θ1≥θ2≥…≥θt-1。对n个独立同分布的随机样本Y1,Y2,…,Yn,边缘分布和联合分布所对应的对数似然函数为lj(Yij;ηj)=logfj(Yij;ηj) 和。采用两步极大似然估法[13]来进行参数估计,在第1步,假设边缘分布独立,估计每个边缘分布中的参数ηj:
第2步,当边缘分布中的参数固定在第一步的估计值时,最大化Copula函数的对数似然函数,求Copula函数中的相依参数:
从而可得到参数的估计值。
在本节中,通过模拟研究来比较单一生成元和组合生成元构造的三维完全嵌套的HAC模型(Frank,Gumbel 和Clayton)在参数估计上的效果。我们感兴趣的参数是HAC 中的相依参数θ。为了便于参数的一致性比较,将所有的相依参数转换成Kendall 秩相关系数,分别计算每个模型下参数估计的偏差(BIAS),并给出参数估计的均方误差(MSE)。取随机变量间真实的Kendall 秩相关系数为τ=((Y1,Y2),Y3)′=(0.8,0.4)′。在模拟中,取样本容量n为100,300,500,1 000,重复模拟1 000次。
首先,模拟生成元函数取Frank,Gumbel和Clayton 3种单一类型时参数的估计效果。结果参见表1。
通过表1可以看出,随着模拟次数的增加,BIAS逐渐减小,参数的估计值均向真实值靠拢,MSE也减小。此外,对于3 种不同的HAC 模型,Frank 族和Gumbel 族与Clayton 族相比在模拟样本中能保持较好的、相对稳定的结果。因此,在下一节模拟中可以选择Frank族和Gumbel族2种生成元函数构造HAC进行分析。
表1 HAC 为单一生成元的偏差(BIAS)和均方误差(MSE)数值结果Tab.1 BIAS and MSE of a single generator in HAC
由上述结果可知,在构造HAC时Frank族和Gumbel 族的结果较为稳定,因此在组合HAC 中选择这2种函数进行构造。在三维HAC 的第1 层选择Frank、第2 层选择Gumbel。根据Savu 和Trede[14]给出的构造条件,此时
对于x>0,。满足2.2 节中Savu 和Trede[14]的构造条件,从而得到Frank-Gumbel-HAC(F-G-HAC)模型。同理,在三维HAC的第1层选择Gumbel、第2层选择Frank,得到的Gumbel-Frank-HAC(G-F-HAC)模型也满足上述条件。分别拟合Frank-HAC,F-G-HAC,Gumbel-HAC,G-F-HAC 4种模型,利用赤池信息准则(Akaike information criterion,AIC)和贝叶斯信息准则(Bayesian Information Criterion,BIC)来比较不同模型的拟合效果,结果见表2。
根据AIC和BIC准则可知,AIC值和BIC值越小,模型拟合效果越好。再结合表2的数值结果说明,在模拟生成的样本中,Frank-HAC的拟合效果优于F-GHAC;G-F-HAC 的拟合效果优于Gumbel-HAC。而与Frank-HAC 相比,G-F-HAC 模型得到的AIC,BIC 均最小,拟合效果较优。因此,应用G-F-HAC 模型进行实例数据的分析。
表2 4 种HAC 的拟合效果Tab.2 Comparison of generator combinations in HAC
本节将举例说明HAC模型在分析自评健康等级数据中的适用性。研究不同地区自评健康状况的相关性有助于了解居民健康状况和医疗卫生服务之间的关系,以及该地区的社会保障和医疗保障的发展情况,并为国家卫生政策的制定,居民健康水平的改善提供有效信息。从经验上来讲,由于各地区医疗政策、生活环境、发展水平等的差异性,该相关结构往往具有非对称的特点,HAC可以检验这种假设。我们将该方法应用于美国平民人口样本的自评健康等级调查数据集(MEPS)[15],以检验和量化不同地区自评健康状况的非对称相关结构,以及自评健康状况与个人信息间的关系。MEPS是一套针对美国居民健康状况和医疗服务的大规模调查。数据包括个人利用医疗服务的记录,受访者的自评健康状况和个人详细信息(人口统计特征、社会经济状况、健康状况、医疗保险覆盖范围和就业情况等),以及可能影响健康状况评估的其他信息。我们使用2008年的调查数据。研究考虑了美国中西部、西北部和南部的子样本。最终的样本包括1 500组数据。
自我评估的健康状况(响应变量)是一个有序的分类结果,用1、2、3、4、5 分别代表优秀、非常好、好、一般、差。表3显示了自我评估健康状况的频率和百分比。可以看出,大多数被抽样的人认为自己的健康状况都在“一般”以上。除了自评健康状况外,调查数据还包含了可能影响健康状况评估的其他信息(解释变量):X1-log(家庭收入)、X2-年龄、X3-受教育时间、X4-性别(0 代表男性,1 代表女性)、X5-有无慢性病(0代表无,1代表有)、X6-是否就业(0代表否,1代表是)。解释变量的样本均值如表4所示。每个地区人数分布以及解释变量的的差异性也证实了不同地区的异质性。一般来说,5个类别之间提供了足够的观察结果,可以来检验不同地区间的非对称结构。
表3 自我评估健康状况的频率分布Tab.3 Distribution of self-assessment health status
表4 解释变量的样本均值Tab.4 Sample mean of explanatory variables
利用完全嵌套的G-F-HAC模型来研究3个地区间的真实相依结构。选择logit连接函数来对边际分布建模。表5给出了边缘分布和HAC模型的参数估计结果。
由表5可知,健康状况与家庭收入、受教育时间呈正相关,与年龄、性别、有慢性病呈负相关。这点与预期相符。一般来说,受教育时间越长,家庭收入越高,生活质量越高,对健康的关注度也越高,从而健康状态相对会越好。随着年龄增长,患各种疾病的风险增加,并且女性由于生理结构原因本身就有患相关疾病的风险,慢性病的存在也会引发身体抵抗力的下降,因此健康状况相对较差。从就业状况上考虑,已就业居民会有各种的医疗保障,对健康状况起到积极的影响,因此呈正相关。而在西北部该指标相关系数为负数,是因为该地区发展工业重工业较多,不利于身体健康,这点恰好体现出了不同地区间的差异性。由相依参数不同结果得到南部和中西部的相关性更强,其次是西北部的结果。结合相关系数均为正值可知,3个地区存在着正相关,非对称相依结构得到验证。非对称相依结构的研究对社会保障和医疗服务的发展具有重要意义。
表5 利用G-F-HAC 和logit 连接函数的参数估计结果Tab.5 Parameter estimation using G-F-HAC and logit link
在有序多分类数据下,相依变量的相关性分析仍是一项复杂的任务。本文通过潜变量建模得到有序边际的边缘概率模型,进而建立基于Frank Copula和Gumbel Copula组合的分层阿基米德Copula(HAC)非对称相依结构。本文提出的3维组合HAC结构灵活,既避免了复杂的高维积分,又能刻画非对称相依,并且对依赖参数的约束也更简单,能描述更广泛的相依关系。模拟研究表明了所提模型良好的统计性质。实际数据的应用也证明了该方法的有效性。在所提模型中,有序响应变量的类别可以是二分类甚至多分类。因此,该模型也更容易推广到高维模型。