张林泉
(广东女子职业技术学院,广东 广州 511450)
在实际研究工作中,人们常常用列联表的形式来描述属性变量(定类尺度或定序尺度)的各种状态或是相关关系,这在某些调查研究项目中运用得尤为普遍[1].列联表可用来进行卡方检验、做相关分析、给出相应的关联系数、计算特定的统计量等.本文通过列联表考察CEO年龄组与企业规模关系两个变量的期望频数,运用卡方检验这两个变量间的独立性.
交叉分组下的频数分析又称列联表分析.编制交叉列联表是交叉分组下频数分析的第一个任务.交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表.
频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系.对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成.
(1)根据收集到的样本数据,产生二维或多维交叉列联表;
(2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析.
对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务.
交叉列联表的卡方检验.卡方检验属假设检验的范畴,步骤如下:
(1)建立原假设.在列联表分析中卡方检验的原假设为行变量与列变量独立.
其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计.期望频数的分布反映的是行列变量互不相干下的分布[2].
卡方统计量观测值的大小取决于两个因素:第一,列联表的单元格子数;第二,观测频数与期望频数的总差值.在列联表确定的情况下,卡方统计量观测值的大小取决于观测频数与期望频数的总差值.当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关;反之表明行列变量之间越独立[3].
在统计上卡方统计量的观测值究竟达到什么程度才能断定行列变量不独立呢?由于该检验中的Pearson卡方统计量近似服从卡方分布,因此可依据卡方理论找到某自由度和显著性水平下的卡方值,即卡方临界值.
(3)确定显著性水平(Significant Level)和临界值.显著性水平α是指原假设为真却将其拒绝的风险,即弃真的概率.通常设为0.05或0.01.在卡方检验中,由于卡方统计量服从自由度为(行数-1)×(列数-1)的卡方分布,因此,在行列数目和显著性水平确定时,卡方临界值是可唯一确定的.
(4)结论和决策.对统计推断做决策通常有两种方式.第一,根据统计量观测值和临界值比较的结果进行决策.如果卡方观测值大于临界值,则认为实际分布与期望分布之间的差异显著,可以拒绝原假设,断定列联表的行列变量间不独立,存在相关关系;反之,如果卡方观测值不大于临界值,则认为实际分布与期望分布之间的差异不显著,不能拒绝原假设,不能拒绝列联表的行列变量间相互独立;第二,根据统计量观测值的概率p值和显著性水平α比较的结果进行决策.如果p值小于等于α,则认为卡方观测值出现的概率是很小的,拒绝原假设,断定列联表的行列变量间不独立,存在依存关系;反之,不能拒绝原假设[2-3].
例1 550名公司CEO基本情况数据[4]按年龄组和公司规模编制的二维交叉列联表(见表1)对CEO年龄组与企业规模关系两个变量的关系进行检验,用独立性检验方法(the test for independence),研究这两个变量是否存在依赖关系.
提出原假设(null hypothesis)和备择假设(alternative hypothesis)分别为:
H0:CEO年龄组与企业规模之间是独立的;
Ha:CEO年龄组与企业规模之间是不独立.
计算检验统计量χ2值,χ2=77.887.确定概率P值和判断结果.
根据卡方统计量观测值的概率p=.000值小于0.05,则认为卡方观测值出现的概率是很小的,拒绝原假设,支持备择假设,断定列联表的行列变量间不独立,存在依存关系.即CEO年龄组与企业规模之间是不独立,因此可以认为CEO年龄组与企业规模有关.用Cramer's V判断年龄组与企业规模之间相关强度,p=.000,显示有统计显著关系,但系数值(v=0.376),这种关系为弱相关.卡方检验基本上是双尾检验,但因我们只关心是否(fo-fe)2>0,故图2的临界区是在右尾.
表1 企业规模与CEO年龄组交叉表
图1 交叉分组下的频数分析图形
图2 卡方检验临界区设定
参加调查的共有550名CEO,实际观察频数中,300人是中小企业CEO,占总人数的54.55%,250人是大企业CEO,占总人数的45.45%;年龄<=39、40-49、50-59、60-69、70and over的人数分别为47、87、193、180、43,分别占总数的8.55%、15.82%、35.09%、32.73%、7.82%;
(1)中小企业的CEO共300人,按年龄组分布为:小于等于39年龄组有42人,占中小企业总人数的14.00%(行百分分比),占年龄小于39年龄组总人数的89.36%(行百分分比),点总人数的7.64%(总百分比);其余组同理.
(2)大企业的CEO共250人,按年龄组分布为:小于等于39年龄组有5人,占大企业总人数的2.00%(行百分分比),占年龄小于39年龄组总人数的10.64%(行百分分比),点总人数的0.91%(总百分比);其余组同理.
从总体上讲,550个CEO按<=39、40-49、50-59、60-69、70and over的年龄组分布是8.55%、15.82%、35.09%、32.73%、7.82%.如果遵从这种年龄组的总体比例关系,中小企业300人的年龄组分布也应为8.55%、15.82%、35.09%、32.73%、7.82%,于是期望频数为300*8.55%、300*15.82%、300*35.09%、300*32.73%、300*7.82%.同理,大企业250人的年龄组分布也应为250*8.55%、250*15.82%、250*35.09%、250*32.73%、250*7.82%.
综上,可以认为CEO年龄组与企业规模有关.用Cramer's V判断年龄组与企业规模之间相关强度,p=.000,显示有统计显著关系,但系数值(v=0.376),这种关系为正向弱相关.
参考文献:
[1]何晓群.多元统计分析[M].第三版.北京:中国人民大学出版社,2012.
[2]薛微.统计分析与SPSS的应用[M].第三版.北京:中国人民大学出版社,2011.
[3]贾俊平,何晓群,金勇进.统计学[M].第五版.北京:中国人民大学出版社,2012.
[4]Ron Larson,Besty Farber.基础统计学[M].第四版.中国人民大学出版社,2010.
[5]Stephen Wolfram.The Mathematica Book[M].5thed.Wolfram Media,2003.