南京农业大学大豆研究所/国家大豆改良中心/作物遗传与种质创新国家重点实验室(210095) 邢光南 赵团结 盖钧镒
用SAS程序模拟抽样绘制t、F和χ2分布*
南京农业大学大豆研究所/国家大豆改良中心/作物遗传与种质创新国家重点实验室(210095) 邢光南 赵团结 盖钧镒△
△通讯作者:盖钧镒,E-mail:sri@njau.edu.cn
长期以来作为国际著名的统计软件SAS以其强大的统计功能受到广大使用者的青睐,并被广泛介绍〔1-3〕。利用计算机辅助教学有利于改进统计课程的教学〔4〕,对那些内容抽象,学生难以理解,用传统教学方法难以奏效的教学内容开展SAS系统辅助教学卓有成效〔5-7〕。t、F 和 χ2分布是重要的抽样分布,是 t、F和χ2检验的基础,由于这些分布的概率密度函数公式复杂,也是生物统计学教学的重点和难点。本文结合教科书的基本原理通过编写SAS程序模拟上述抽样分布,以加深教学过程中对t、F和χ2分布及其检验的理解。
χ2分布若所研究的总体μ不知,而以样本代替,则,此时独立的离差个数为 n -1 个,v=n-1〔8〕。
F分布 在一个平均数为μ、方差为σ2的正态总体中,随机抽取两个独立样本,分别求得其均方和,将和的比值定义为 F :F(vv,v2)=/,此 F 值具有的自由度v1和的自由度v2〔8〕。如果在给定的v1和v2下按上述方法从正态总体中进行一系列抽样,就可得到一系列的F值而形成一个F分布。
宏creat用于产生样本及其特征数如平均数、总和数、t值、u值、χ2值和F值,其中数据步data cy有三个循环语句,外循环语句用于产生100000个样本,两个并列的内循环语句分别用于产生样本容量分别为n1和n2的随机样本(F测验需要两个样本),并分别于每个样本后计算相应的方差。依据基本原理中的相应公式,第一个内循环后计算样本容量为n1的t值、u值和χ2值,第二个内循环后计算分子样本容量为n1,分母样本容量为n2的F值。
宏pct用于输出t、u、χ2和F分布的特征数、分位数及绘制累积概率分布图。proc univariate过程用于输出t、u、χ2和F 分布的分位数,如常见的P=0.95,用于理解其为何作为假设检验统计推断的临界值。
宏dist通过调用宏creat、宏pct和改变宏参数,产生各种分布的特征数、分位数及绘制累积概率分布图和频数分布图。通过改变宏参数可随时改变样本容量,从而获得不同样本容量下的分布,以满足不同样本容量下各分布的异同比较。详细的语句解释见程序。
t分布是一组对称密度函数曲线,具有一个单独参数v以确定某一特定分布,v是自由度〔8〕。本实验中当样本容量分别为5、10和30时,t分布的平均数分别为0.00541、-0.00045和 -0.00007,方差分别为2.00821、1.27955和1.06911。自由度较小的t分布比自由度较大的t分布具有较大的变异度。可见当v增大时,t分布趋向于标准正态分布。t分布曲线是对称的,围绕其平均数ut=0向两侧递降。由于t分布受自由度制约,所以t值与其相应的概率也随自由度而不同,如本实验中当样本容量分别为5、10和30时累积概率P=0.95对应的t值分别为2.15626、1.82674和1.68806,与文献〔8〕附表4一致。在假设测验时,当算得的|t|大于tα时,则表明其属于随机误差的概率小于规定的显著水平,因而可否定原假设。反之,若算得的|t|<tα,则接受无效假设。
本实验中当样本容量分别为5、10和30时,同时模拟的u分布的平均数分别为0.00189、0.00204和0.00171,方差分别为 0.99367、0.99621 和 1.00937。可见差异不大,都是标准正态分布。
χ2分布图形为一组具不同自由度v值的曲线。χ2值最小为0,最大为+∞,因而在坐标轴的右面。自由度小时呈偏态,随着自由度增加,偏度降低,至+∞时,呈对称分布。该分布的平均数为v,方差为2v〔8〕,如在本实验中当样本容量分别为5、10和30时,模拟的χ2分布的平均数分别为4.01224、8.97165和28.9879,方差分别为7.98599、17.7960和58.1971。χ2分布分位数与文献〔8〕附表6一致。
从图1可见,F分布乃具有平均数μF=1和取值区间为〔0,+∞〕的一组曲线;而某一特定曲线的形状则仅决定于参数v1和v2。在v1=1或v1=2时,F分布曲线是严重倾斜成反向J型;当v1≥3时,曲线转为偏态。随着分子自由度的增加,F分布逐渐趋向于正态分布〔8〕。本实验中分母自由度为29,分子自由度分别为1、4和29的F分布平均数分别为1.06977、1.07854和 1.07491,方 差 分 别 为 2.50501、0.71181 和0.17673,可见随着分子自由度的增加,F分布的方差逐渐减小。本实验中F分布分位数与文献〔8〕附表5一致,说明了模拟的可靠性。
图1 样本容量n1分别为2、5和30,n2为30的F频数分布图和累积概率分布图
本文通过学生较熟悉的SAS软件编写程序进行模拟抽样,获得了t、u、χ2和F抽样分布,统计出的抽样分布分位数与理论值一致。分位数是判断假设检验是否显著的标准。通过模拟抽样求出各自由度下t、χ2和F分布所对应的分位数加深了学生对t、χ2和F抽样分布和统计假设检验的理解。本文中的程序在课堂上作为讲授理论课的例子辅助教学,激发了学生的学习兴趣,收到了良好的教学效果。
1.曾平,刘桂芬,曹红艳.广义线性模型贝叶斯分析的SAS实现.中国卫生统计,2009,26(1):104-106.
2.修良昌,丁元林.SAS中网页格式输出的实现.中国卫生统计,2009,26(2):209-211.
3.徐英,李燕芬.日期型数据在SAS和SPSS中的处理.中国卫生统计,2010,27(1):94-95.
4.岳朝龙.99’SAS软件应用高级研讨会交流论文选登 SAS系统辅助教学的实践与体会.统计教育,2000,(1):44-45.
5.林爱华,柳青,方积乾.二项分布及其正态近似的电脑实验设计与教学实践.医学信息,2000,13(4):179-180.
6.林爱华,骆福添,朱淑明,等.样本均数的抽样误差与置信区间估计的电脑实验.卫生软科学,2004,18(3):109-112.
7.邢光南,赵团结,盖钧镒.生物统计教学中用SAS程序讲解抽样分布.农业网络信息,2010,(3):107-110.
8.盖钧镒.试验统计方法.北京:中国农业出版社,2000:74-144.
国家重点基础研究发展规划项目(2009CB118404),教育部高等学校创新引智计划项目(B08025),农业部公益性行业专项(200803060),国家自然科学基金项目(30900902)