戴建国
(广州大学 数学与信息科学学院,广东 广州 510006)
多分类有序变量间的间距差异研究
戴建国
(广州大学 数学与信息科学学院,广东 广州 510006)
对多分类有序变量各类别间的间距差异性问题,基于Gini集中系数和不一致性指标分别给出了两种度量间距差异指标和两种检验方法,并由概率分布构造类别得分来近似反映间距差异,最后用对数线性模型对实例加以分析,结果表明对模型拟合效果有所改进.
有序变量;对数线性模型;度量指标;得分
大数据、数据挖掘等词已被大家广泛热议,而在数据挖掘过程中常见的一类数据则是定性数据,其通常是非连续,多分类的,甚至在有些数据分析过程会把连续变量离散化. 在有些分类数据各类别会存在序的关系,如把对某一事物的评价看成一个分类变量,则可能有“讨厌”,“不喜欢”,“喜欢”,“非常喜欢”4个类别,它们之间则存在序的关系,对于这样的有序分类数据除了有序聚类分析,排序分析方法分析外[1],还可以构建统计模型,如对数线性模型、逻辑回归模型、贝叶斯模型等[2].
所谓多分类有序变量通常是指分类数大于2,且类别之间存在次序关系的变量. 在数据分析过程中所涉及到的有序变量各类别之间的间距通常不是相等的,就如上述说到的对某一事物的评价,其中“讨厌”到“不喜欢”和“不喜欢”到“喜欢”两组间距是不相等的,但在一般的数据分析过程中通常将其视为等距的而损失一些信息,导致模型拟合效果不是很好. 下面对有序变量间的间距差异问题给出了两种度量指标和两种统计检验方法,并给出了一种有序类别得分的选择方法,用其近似反映有序类别间的间距差异,最后通过实例说明.
当用符号ω来描述定性数据对象时,将其取值作为得分,例如有序变量的类别“讨厌”,“不喜欢”,“喜欢”,“非常喜欢”可用1,2,3,4作为得分来反映各类别差异,假定ω可取k个不同的值,对应的概率分别为即有显然有当使用对数线性模型来拟合有序列联表时,其对象得分的选择对模型的拟合是有影响的. 在此用概率来刻画ω的离散程度,用信息论中的话来讲,当pi越接近1时“确定性”程度越大,当pi取值小得越多越分散.由此给出两种衡量的量,一种是基于不相似指标[3]得到的D(ω),另一种是基于Gini集中系数[4]得到指标S(ω).
如果多分类有序变量的k各类别的间距相同时,则ω的各取值的“确定性”期望概率为对于而若多分类变量间距不同时会存在差异,因而为了刻画间距不同时的离散程度,构造统计量的D(ω),S(ω).
对于ω的Gini集中系数[4]定义为
构造度量指标S(ω)为
在这先引入拟合优度x2的检验统计量对有序分类变量的类间距的差异做出检验,同样可用不一致性指标D来检验,所谓的拟合优度是研究数据与原假设拟合的程度或一致的程度[5],检验统计量均是通过观测频数和期望频数来构造的,具体过程如下:
先求H0为真时发生在每一类的概率p,而此处的H0为真时是指各类别间的间距是相同的,即每一类发生的概率p都等于. 再求H0为真时的期望频数fe,假设总体N,则有各类期望频数均为fe=NP,并设观测频数为f0,则似然比检验统计量其df=k-1,k为类别数,且x2近似卡方分布.
对于另一种检验统计量为
其中N为总数,在大样本下当D<0.03时,可认为不拒绝原假设,即认为各类别间的间距无差异.
如果检验发现多分类有序变量间的间距存在差异时,可以通过考虑不同的得分来近似反映它们的差异,如前面所提到的4类评价“讨厌”,“不喜欢”,“喜欢”,“非常喜欢”,若视间距相同时,可能会赋予得分1,2,3,4或2,4,6,8等来反映间距无差异. 但实际上它们的间距是不相等的,所以可对分数进行调整,人们也通常会凭着感觉和经验来赋予得分,如“讨厌”到“不喜欢”和“不喜欢”到“喜欢”后者差距可能会比前者大,则赋予得分为1,2,4,5,而在这里给出一种依据概率分布选择得分的方法来近似反映各类别间的间距差异. 具体如下:
设各类别概率分布为p1,p2,...,pk. 定义得分为
在这主要对一个有序二维列联表用对数线性模型来说明,数据来源于2006年美国社会调查的数据集,由认为占星术是否科学和教育水平构成二维列联表,并在不考虑序和考虑序的情况下分析,首先给出几种对数线性模型的定义.
在I×J维列联表中,当不考虑两变量X,Y的序时,其饱和模型可定义为
其中uij为期望频率,λ为某一常数,代表行影响,代表列影响,代表交互影响,当=0时为独立模型.
其中参数β反映了相关的方向和强弱,当β>0时,X趋势递增,Y也递增;当β<0时,X趋势递增,而Y递减;当β=0时,为独立模型. 原始数据构成的列联表见表1.
根据前面所给的公式(1)(3)计算间距差异的指标统计量,c, r分别代行列变量,对行计算得S( r)=0.093,D( r)=0.30均不等于零,说明行变量各分类的间距不相等,同样对列变量计算得S( c)=0.203,D( c)=0.34,均不等于零,也说明各分类的间距不相等. 并对他们做拟合优度x2检验和D检验,检验结果是非常显著的(行:x2=1111.36,df=5-1=4,p<0.001,D( r)=0.308>0.03列:x2=1078.15,df=3-1=2,p<0.001,D( c)=0.342>0.03),即各类别间的间距是不相等的.
表1 原始数据集
在表2中, 首先给出了不考虑序的饱和模型A,其次是考虑等间距时(行得分=(1,2,3,4,5),列得分=(1,2,3))模型B的拟合的效果,其中采用BIC和AIC作为评价指标,其值越小说明效果越好. 通过上面的检验可知各类型间距是存在差异的,从而用上面给出的公式(5)计算得分来近似反映间距的差异(行得分=(0.057, 0.368 ,0.669 ,0.810 ,0.952),列得分=(0.337, 0.813, 0.975)),从新构建对数线性模型C,并在表2中给出拟合效果.
从3个模型拟合的效果来看(由BIC和AIC准则,其值越小说明拟合得越好),模型C拟合效果最好,说明如果变量有序而不考虑的话则会损失一些信息,同样如果有序变量各类别间间距不等而视为相等时也会损失一部分信息.
表2 模型拟合效果
在定性数据分析中,多分类有序变量的间距差异是普遍存在的,通过实例根据所构造的度量指标和统计检验给予论证,说明给出的类别得分在有些时候比用等间距得分更能反映类别间的间距差异,但不足的是还没能找到一个更为准确的度量间距差异的指标,然而在统计学家Leo. A Goodman的RC模型中,将得分视为参数,最后通过模型把得分估计出来,当模型拟合很好时,其得分也能较好反映有序变量间的间距差异.
[1]朱建平,杨贵军,张润楚.列联资料的有向聚类分析及其应用[J].数理统计与管理,2002,21(4):28-33.
[2]ALAN AGRESTI. Analysis of Ordinal Categorical Data[M]. 2th ed. New York: John Wiley & Sons Inc, 2010: 44-341.
[3]ALAN AGRESTI. Introduction to categorical data analysis[M]. New York: Wiley, 1996:158-163.
[4]LLOYD C J. Statistical Analysis of Categorical Data[M]. New York: Wiley, 1999: 69-71.
[5]陈民恳,朱建平.数据挖掘中多分类有序变量间距差异分析及应用[J].统计与信息论坛,2007,22(1):27-31.
Abstract:For the problems of the difference distance between the more orderly categorical variables, using the Gini concentrated coefficient and inconsistency index, two metric distance difference index and test methods were given respectively, and the probability distribution category scores were constructed to approximately reflect differences. Finally, using the logarithm linear model, an analysis was made of the example. The results showed that the model fitting effect was improved.
Key words:orderly variables; logarithm linear model; metrics; score
A Research into the Space Differences between Ordinal Multi-categorical Variables
DAI Jianguo
(School of Mathematics and Information Science, Guangzhou University, Guangzhou 510006, China)
O213
A
1008-2794(2017)04-00121-04
2017-02-22
戴建国,硕士,研究方向:概率统计、数据挖掘,E-mail:1012894435@qq.com.