刘永睿,王朋炎
1.安阳工学院,河南安阳,455000;2.安阳学院,河南安阳,455000
复合次序模型是研究因变量为分类数据时的统计模型,是广义线性模型的推广,在生物学、医学、金融学、社会学等领域中都有着广泛的应用,是一种重要的处理因变量为离散型随机变量的统计模型。因变量是分类数据的问题在诸多学科中都是非常常见的,而传统模型多应用于因变量是连续型的,因此复合次序模型的理论挖掘越来越受到学者们的重视,该模型的应用也存在着广泛的空间,备受学者们的关注。另外,随着科技的发展,数据的收集和存储变得越来越容易,人们开始不仅关心数据间的因果关系,更关心数据间的数学关系,从而使得数据分析中的数据维度不断增加。而在协变量维数pn→∞时,模型的性质往往存在着未知的变化,因此研究模型估计的大样本渐近性质成为了统计学领域的一个热点,也是大数据时代的发展需要。传统的广义线性模型只能处理因变量相互独立的数据,而对于处理纵向数据则容易产生较大的误差,因为纵向数据间往往具有一定的相关性,从而造成模型的估计不再满足无偏性,因此传统的广义线性模型不再适用。1986年,Liang和Zeger首先提出了可用于分析纵向数据的广义估计方程(GEE)[1],该统计模型在传统广义线性模型的基础上克服了纵向数据间的时间相依性,经过长时间的应用和实践,广义估计方程已经能够处理多种类型的纵向数据,是目前应用较为广泛的分析纵向数据的工具之一。理论上广义估计方程可应用于各类广义线性模型下的纵向资料的分析领域。因变量的数据类型已涉及连续型和离散型,离散型的数据有二项分布、多项分布、Poisson分布等,但相关理论尚不完善。Wang在其文章中研究了因变量为二分类纵向数据的GEE估计的存在性、相合性以及正态性[2-3],二分类数据的GEE是在Logistic模型上的拓展,而对于多分类(大于2)数据的GEE,其模型和估计还有待研究。
本文研究的因变量Y是属于多项分布离散型随机变量,观测数据为纵向数据,在Logit模型的基础上建立了复合次序模型,并建立了该模型的广义估计方程,本文重点讨论模型估计的存在性和有效性,在大样本的情况下,给出该模型广义估计方程估计的存在性、相合性以及渐近正态性定理,其研究结果将为多分类纵向数据的统计分析提供一种新的思路。
复合次序模型是一般线性模型的推广,属于广义线性模型,主要用来分析因变量Y为分类变量,比如Y取k个“状态”,其中的个别状态又可细分为更具体的状态,各个状态之间又具有明显的次序特征。如某种药物的疗效可分为:治愈、好转、显效和无效。而第二类好转又分为明显好转和微小好转,第三类显效又分为明显显效、轻微显效。复合次序模型首先对大类进行建模,然后再对每个小类进行建模,构成复合型的次序模型[4]。
其中,
方差记为:
即,
这是经典的Logit模型。
为方便证明,本文给出以下模型假设。
(3)存在两个正的常数c1、c2,满足:
由微分中值定理可得:
渐近正态性是参数估计的重要性质,渐近正态估计又称“相合渐近正态估计”[5-6],是保障估计有效性的重要参考,同时也反映了估计量的优良性质,在此基础上可以进一步对参数进行区间估计。文献[2]研究了协变量维数趋于无穷的Logistic模型的渐近正态性,并给出了相应证明,其证明方法对于本文的研究具有参考意义。以下将首先提出复合次序模型的广义估计方程的估计的渐近正态性定理,然后结合相关知识证明其正确性。
因此,要证明渐近正态性定理成立,只需证明下列两式成立即可:
首先证明(9)式:
下面证明(10)式:
其中:
所以由假设条件可得:
同理,由假设可得:
定理证毕。
通过本文的研究,证明了在协变量维数趋于无穷的纵向数据下,复合次序模型的广义估计方程的估计的存在性、相合性以及渐近正态性,证明了本文所研究的模型具有较为有效的估计,并且随着协变量维数的增大具有良好的大样本性质,在一定程度上克服了由大数据时代所带来的数据灾难问题,因此该模型具有一定的推广价值和意义。模型将因变量为二分类的广义估计方程推广至多分类的情形,拓展了广义估计方程中因变量的研究范围,为纵向离散型随机变量的建模提供了新的选择。但是广义估计方程的推广仍然存在很多难题,本文的因变量为五分类,若因变量分类再增多,模型中的联系函数和因变量的数学期望将会更加复杂,广义估计方程的参数估计的存在性以及有效性将难以得到有效保障。可见,虽然统计学界对于纵向数据的研究由来已久,能够处理的数据类型也越来越多,建模的方法也层出不穷,但是随着数据形式和数量的日益繁杂,对纵向数据的研究仍然面临着诸多的问题和挑战,广义估计方程的理论还有待进一步完善。