钟无涯,颜 玮
在社会经济统计的应用实践中,包括居民生活消费情况统计、房地产价格变化统计等大量的社会调查是建立在统计抽样的基础上完成的。这类通过样本信息推测总体信息的统计工作,以及其他许多必须通过参数估计、统计推断和统计检验的工作都必然要涉及到自由度(degree of freedom,DF)的概念。然而目前国内的大部分统计学教材对于自由度概念产生的背景、原因和性质等方面没有给出相关的解释,也没有对自由度概念作出完整、统一的定义。在实践中对涉及自由度的应用也大都直接在公式中生成,或机械套用。李友平(2007)探讨了社会经济问题研究中统计假设检验与统计抽样分布中自由度的概念,并通过案例给出了自由度的粗略计算。程志明和韩兆洲(2011)则综合了相关文献在基于独立性、样本量等不同角度下对自由度的理解从而给出了自由度的一般性定义,并同时对自由度在几何、样本方差、回归分析、独立性检验和拟合度检验中的应用进行了阐述。在文献中他们对自由度的概念和计算做了一定程度的说明,并列举了自由度在多个领域的应用实践。但对自由度概念的产生以及应用中自由度具体形式的取舍原因并未详细说明。本文将在此基础上,立足于自由度在经济统计实践中的应用特点,力图以更简洁和直观的方式阐明自由度的产生背景与原因,列举自由度的应用案例并尝试给出一个社会经济统计角度的自由度概念。
自由度概念的产生与抽样调查密不可分。抽样调查能够解决全面调查无法解决或较难解决的问题,并且可以补充和修订全面调查的结果。相比总体调查方式,抽样调查方式具有经济性、时效性、准确性和灵活性等优越性。虽然限制在许多严格的条件假设以及诸多定律、定理如中心极限定理等基础之上,也建立起相应的假设检验体系,但是,以点测面,或者以偏概全的抽样调查方式却仍然无法排除抽样方法本身产生失真的风险性。因此,为了降低判断失真的风险,提高抽样样本与总体样本的相关性,必须在形成抽样样本的数据构成上特别慎重,同时也必须在样本数据的处理上权衡斟酌。自由度的概念就是在这样的背景和要求中产生的。
一般情况下,在确定样本数量n后,样本是由总体中任意抽取n个元素构成。这个过程是完全任意的,即所谓的“自由”,并且抽取的方式是多样的。若以H代表总体,n代表样本数量的话,抽取的方式将是CnH种。但是,基于抽样样本的性质需要以及用途等方面的要求,抽样样本必须体现出总体样本的特定特征要求,因此必然使得抽样样本的形成在某些方面受到约束,比如均值xˉ要求、方差σ2要求等等,因此,样本组成并不能完全随机的选取n个元素,即必须放弃某些样本的自由选择机会以满足相关约束条件或特征目标。出于满足样本和总体之间某些约束条件的原因,通过限制部分变量或者元素的可调整性以实现这样的目的,这是样本选择过程中自由度概念产生的最基本原因。
通常情况下,自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据或元素的个数。谢启南、韩兆洲(1991)认为自由度是指在一组数据中可以自由取值的个数。Gravetter和Wallnau(2008)认为:自由度是指样本中有多少个数是独立的,并可以自由变换的。以上学者的自由度概念偏重于起源思想和数量概念,且与本文中所提出的自由度概念的产生原因相契合;Mayhew(2004)则从样本量和显著性两个角度界定自由度,认为在统计检验中自由度甚至有时直接等于样本容量,有时却要根据样本容量来调整计算;而对于不同的显著性检验,自由度的计算也是不一样的,正确地选择样本自由度是进行显著性检验的基础。Joseph(2008)认为,自由度是在不违背约束条件前提下可以随意变化信息的数量。这两位学者的自由度概念偏重于应用实践的范畴。笔者认为,如果单从社会经济统计的实践角度出发,统计样本的代表性、统计过程的科学性、统计检验的合理性以及统计结果的真实性应该是决定统计工作质量的主要方面,而这些方面工作的质量又都取决于统计工作的力足点,即统计样本。因此,在形成统计样本之初进行自由度的选择和确定,其重要性不言而喻。此外,因为形成统计样本的主要目的是为了体现出总体样本特征的,因此界定自由度必然应该从把握样本与总体关系进行契入。但是,抽样样本与统计总体的关系基于统计目的、统计性质、统计方法、统计主体以及统计数量的不同而各异,因此不可能从统计方法角度去对自由度概念进行概括定义。根据以上分析,笔者认为,自由度应该是在体现样本与总体关系(出于统计目标的不同,关系描述和特征目标也有所差异),且不违背相关约束条件前提下可以随意选择、变化的元素数量。从另外一个角度看,自由度实际上是样本构成中真正体现随机选择的有效元素数量,是实际样本容量与有效样本容量的区别。
既然涉及到容量,或者元素数量,因此必须考察自由度的数量问题。以一个相对简单的自由度应用公式-样本,这是大部分教科书提供的计算公式。如果n非常大,则从整体角度观察,n与n-1所引起的数值区别几乎可以忽略;而当n的数值不大,那么对于整个的统计体系而言,由于采用n与n-1两种不同取值,就有可能带来结果之间很大的差额。这仅仅是一个单一变量方差计算应用,如果涉及到多变量、协方差或者其他相关性分析,不同的自由度取值对于建立在抽样样本基础之上的整个统计体系的影响之大是显而易见的。一般而言,相关变量少、元素数量少的抽样样本对自由度取值的敏感性很大,相对而言,对于元素数量较多,相关变量多的抽样样本对自由度取值的敏感性相对较弱。
通常情况下,抽样样本的所有数据都可以通过统计分析工作得出,但是总体数据却只能通过基于抽样样本的统计分析结果去推算测度,因此必然存在一个统计数据和真实数据之间的拟合度问题。通常所谓的客观存在的统计总体的真实数据即“参数(Parameter)”。那么,有什么依据使得抽样样本与统计总体的内在关系具备以推测估算的方式去洞察呢?其中一个基本要求就是抽样样本的统计量必须是总体参数的无偏估计,这是之所以可以通过抽样样本去估测统计总体的先决条件,同时也是社会经济统计学和计量经济学理论体系中的一个重要基石。一个比较形式的描述性证明过程如下:
总体H中有一样本S(s1,s2,s3,...sn),E(Hˉ)=μ,D(H)=σ2;根据参数的无偏性估计特点,则必然有E(sˉ)=μ,方差的计算为例E(D(S))=σ2。以自由选择的n个元素(即样本元素全部自由选择,而不采取n-1)构成样本S的情况说明,即:
由此可以看出,统计样本S的n个元素如果全部自由选择的话,E(D(S))≠σ2将无法满足参数的无偏性估计特点。因此,当统计样本S的放弃一个元素的自由选择,即自由度为n-1时,却能够满足参数的无偏性估计特点:
由此可以形成结论:放弃一个元素自由选择机会的统计样本S的方差是总体H方差的无偏估计量,而全部自由选择元素的样本方差却不是总体H方差的无偏估计量。产生如此差异的关键因素在于抽样样本S的元素数量n的自由度选择。这也说明大多数教科书并未解释的样本方差计算时为什么选择n-1。
例1:某市统计局欲了解宽松货币政策环境下居民收入水平和消费水平的情况。调查采用随机抽样的方式在某居民小区完成,希望通过小区抽样数据来推断小区整体居民的收入情况和消费情况。该小区共有居民10000户,采用随机的方式抽取了2000户居民组成样本。因为选取的方式是在整体中随机抽取,所以选取样本的方式可以有C200010000种,但是在实践操作过程中一般只会选取一个样本。在选取样本之前,整个小区作为数据总体有一个客观存在的小区居民收入和消费情况,但对于调查者而言这个数据是未知的。中心极限理论支持随机抽取的样本数据整体呈现正态分布的特点,抽取的数据量越大,正态分布的特点越明显。但是总体的实际分布情况却并不一定如此,因此在以抽样样本估计统计总体是有风险的。统计理论要求样本统计量必须与总体参数相等,因此,样本组成元素的选取是受到一定条件约束的。比如最简单的一个统计指标算术平均数xˉ,其计算方式即为,而且不同的样本组成就有可能有不同的算术平均数xˉ以及其他相对应的统计量。这是从不同样本去推测总体数据的情况,但单就单个样本而言,给定了xˉ,也就意外着给定。但是由于平衡关系,其中的n-1个元素还是可以自由变化的,第n个元素只需要平衡前面n-1个的波动就可以实现xˉ。因此,在这个居民收入和消费情况统计的抽样样本中,可以自由变化的户数应该是2000-1=1999户,而不是2000。
例2:某大型设备生产商拟进行生产工艺升级,希望实现流程改进,经过研发部门的设计,现有2种生产流程备选,分别命名为流程A和流程B。现在希望通过现场多次测试的方法来了解并判断流程A和流程B的整体运行效率的差别,从而做出对这两种流程的取舍决定。表1是测试数据,图1是测试结果的直观显示。
表1 生产流程用时表 (单位:天)
图1 生产流程用时柱形图(单位:天)
一般情况下,对于两个方案的取舍是通过计算其生产流程的平均用时来决定的,或者进行对两种生产流程是否有明显差距进行判断,基于此,以两样本的假设检验判断方式来进行自由度的使用说明。
这里对流程A和流程B的自由度选择做一说明:
流程A和流程B的样本方差,采用DF=n-1,理由已经前述。
对两样本数据进行的假设检验需要用到流程A和流程B的合并样本方差(Pooled Sample Variance),这里的自由度选择DF=n1+n2-2。理由是因为流程A和流程B的样本方差在样本选择之时已经各舍弃一个自由度,因此基于独立样本方差基础之上计算的合并样本方差自然应该延续单独样本方差的自由度的选择。因此两样本的合并样本方差应该是由总的样本数量n1+n2舍弃2个样本控制量,即DF=n1+n2-2。根据流程A和流程B的测试次数数据可知:DF=5+6-2=9。假定此次假设检验采取的显著性水平为0.10,由于给出的备择假设H1未指明方向,故此次假设检验为双尾检验。分析过程如下:
同理:s(B)=2.0976
因为流程A和流程B的测试次数较小(获得的数据中流程A仅仅5次,流程B是6次),因此采用t值进行检验。
α=0.10,DF=9的t分布条件下,H0:μa=μb的接受域为[-1.833,1.833],而我们计算出来的t=-0.662∈[-1.833,1.833],因此不能拒绝H0:μa=μb。统计结论是流程A和流程B在生产过程中所占用的时间并没有明显的差距,这也和图1测试时间柱状图所表现出来的情况类似。
自由度是一个广泛应用于数理、经济、工程以及医药等多个学科统计分析工具的初级和基础概念。根据国内学者对自由度的理解和应用等方面的相关文献,同时参考了部分国外学者在该领域的一些代表性观点、看法,本文从社会经济统计角度对自由度概念产生的原因和基础进行了分析,并给出了自由度的基本定义,即:自由度应该是在体现样本与总体关系(出于统计目标的不同,关系描述和特征目标也有所差异),且不违背相关约束条件前提下可以随意选择、变化的元素数量。特别指出,自由度概念的界定应该在全面的把握样本与总体关系基础上而不应该仅仅从统计应用的角度出发。本文通过两个社会经济统计的实例,着重体现自由度在实际应用中的变化调整,并对统计结论进行了解释。
[1]李友平.关于社会统计中“自由度”概念的解析[J].统计与决策,2007,(6).
[2]程志明,韩兆洲.自由度的认识与应用[J].统计与决策,2011,(12).
[3]谢启南,韩兆洲.统计学原理[M].广州:暨南大学出版社,1991.
[4]Dauglas A.Lind,William G.Marshall.Statistical Techniques in Busi⁃ness&Economics(11thEdition)[M].New York,US:McGraw-Hill,2002.
[5]Gravetter and Wallnau.行为科学统计(第七版)[M].北京:中国轻工业出版社,2008.
[6]Glenn,Littler.A Dictionary of Mathematics[M].Totowa,NJ:Barnesand Noble Books,1984.
[7]James,Glenn.Mathematics Dictionary(4thEdition)[M].New York:Van Nostrand Reinhold,1976.
[9]Joseph.Degreesof Freedom[J].Teaching Statistics,2008,30(3).
[10]Mayhew.A Dictionary of Geography(3rdEdition)[M].Oxford,UK:Ox⁃ford University Press,2004.