名义变量的关联强度分析

2017-08-11 10:48戴建国
商丘师范学院学报 2017年9期
关键词:名义测度度量

戴建国

(广州大学 数学与信息科学学院,广东 广州 510006)



名义变量的关联强度分析

戴建国

(广州大学 数学与信息科学学院,广东 广州 510006)

针对独立性检验统计量不能度量关联性强弱和一些关联测度不具解释性的问题,首先介绍了Goodman—Kruskal提出的两种度量名义变量间关联性强弱的指标,然后将其拓展到多变量的情况,并给出了实例进行分析,结果表明其对实际情况的确有更好更合理的解释意义.

名义变量;关联测度;可解释性

0 引 言

随着大数据时代的兴起,在数据分析工作中经常会遇到离散变量数据的情况,在医学和社会学统计工作中尤为普遍,而其也通常是通过列联表的形式来分析.在对于最简单的二维名义变量列联表(即两个变量都不存在自然序)分析时,通常只对两个名义型变量进行独立性检验,涉及到的检验统计量有皮尔逊卡方统计量,Yate’s连续修正卡方统计量,似然比等检验统计量.但对于独立性检验统计量来说,它们只能验证变量间有没有关联,而不能给出一个度量关联的指标,当然也存在一些度量列联表中变量关系强弱的指标,比如Phi系数,列联系数,Cramer’s系数[1]等一些度量指标,而他们依然存在局限性,首先它们作为一个度量指标没有给出合理的解释,其次是比较难用于高维列联表的情况.而本文介绍的测度λGK,τGK克服了这些局限性,它们是Goodman—Kruskal在1954年提出来的[2],其都是以引入某变量后而减少预测误差比例为基础来构造的统计量.目前对于这两个关联测度的研究与应用的文献有[3-6],尤其在文献[3]中从不同的角度给出了τGK的更为一般的形式和深入的研究.

1 列联表的概念与结构

设一个二维列联表,其行为名义变量A有r个类别,列为名义变量B有c个类别,如表1所示,

表1 二维列联表的一般结构

2 关联测度λGK,τGK的定义与解释

2.1 关联测度λGK

当有两个名义变量X,Y时,分别视为自变量和因变量,设它们的类别数分别为I,J,则有一个二维列联表与之对应,其主要过程是基于最佳预测,当不知道X信息时,自然而然会将Y预测为其边缘概率最大的一类;知道X信息时,则在X的每一个类别下预测Y类别中最大的那一类,其相对减小即为:

当可拓展到有n个名义变量的情况,设其中一个因变量为Y,其他n-1个为自变量记为X1,……X(n-1),对应的类别数分别为N1,……,N(n-1),则对应的关联测度为:

2.2 关联测度τGK

3 实例分析

表2 有关党派认同的数据

4 结束语

对于以上给出的关联测度,其与一些检验统计量和关联指标相比,不仅能度量关联性的强弱,而且具有可解释性,在国外已被广泛讨论与应用,但在国内比较少人关注这两个关联测度,而且随着R软件的普及,也有专家给出计算相关指标的函数包,并命名为Goodman-Kruskal以方便被更多人使用,但该包中只给出两个名义变量的计算函数,并没有给出多变量的情况,所以有待进一步去研究.

[1]薛允莲,姜世强,刘贵浩,等.列联表资料的关联强度[J].中国卫生统计,2011,28(3):244-246.

[2]GoodmanLA,KruskalWH.MeasuresofAssociationforCrossClassifications[J].Springer-Verlag,1979,31(49):20-30.

[3]HuangW,ShiY,WangX.Anominalassociationmatrixwithfeatureselectionforcategoricaldata[J].Statistics,2013,25(25):58-65.

[4]BiswasA,ParkE.Measuresofassociationfornominalcategoricalvariables☆[J].JournaloftheKoreanStatisticalSociety,2009,38(3):247-258.

[5]TahaA,HadiAS.Pair-wiseassociationmeasuresforcategoricalandmixeddata[J].InformationSciences,2016,s346-347:73-89.

[6]LeeAJ.Somesimplemethodsforgeneratingcorrelatedcategoricalvariates[J].ComputationalStatistics&DataAnalysis,1997,26(2):133-148.

[责任编辑:王 军]

Nominal variable correlation strength analysis

DAI Jianguo

(School of Mathematics and Information Science,Guangzhou University,Guangzhou 510006,China)

in view of the independence test statistics can’t measure strength of correlation and some associated measures can’t be interpreted,first introduced the Goodman-Kruskal correlations strength index between two nominal variables i,then extended to multivariable case,and gives the examples were analyzed,and the results show that the fact there are better and reasonable explanation.

nominal variables;correlation measure;interpretability

2017-02-21

戴建国(1992—),男,江西抚州人,广州大学硕士研究生,主要从事概率统计,数据挖掘的研究.

O211

A

1672-3600(2017)09-0011-03

猜你喜欢
名义测度度量
鲍文慧《度量空间之一》
三个数字集生成的自相似测度的乘积谱
R1上莫朗测度关于几何平均误差的最优Vornoi分划
模糊度量空间的强嵌入
非等熵Chaplygin气体测度值解存在性
Cookie-Cutter集上的Gibbs测度
逆行,以生命的名义
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
以二胎的名义,享受生活
地质异常的奇异性度量与隐伏源致矿异常识别