甘大旺(特级教师)
在各个版本最新的高中数学教材中,统计内容的份量均再一次增加,但相应的学法研究、复习辅导并没有随之“升温”.因此,本文就高中概率统计的一个知识点“独立性检验”进行诠释,例谈其在高考备考中的应用.
独立性检验是统计学中两种卡方检验之一,高中数学中独立性检验的第一步是依题意完善或作出2×2列联表,如表1所示.
表1
其中,x1,x2是一类变量X的两个互斥状态,y1,y2是另一类变量Y的两个互斥状态,a,b,c,d是分别具有状态x1与y1,x1与y2,x2与y1,x2与y2的样本频数,且都要求频数均不小于5.
诠释2改变列联表中第2行与第3行的位置、第2列与第3列的位置,都不会改变随机变量K2值的大小,如下列3种变换(如图1),也分别满足
图1
(cb-da)2=(ad-bc)2,
(bc-ad)2=(ad-bc)2,
(da-cb)2=(ad-bc)2.
高中独立性检验的第三步是根据下列统计学上的概率临界值表,间接判定两类变量“X与Y有关系”的可信程度(如表2).
表2
诠释3因为独立性检验的基本思想类似于反证法,所以直接用所算K2值对比表2中临界值k就可查找两类变量“X与Y有关系”出错的至多概率,从而“X与Y有关系”判断正确的至少概率(把握性)是1-P(K2>k).
诠释4借助概率临界值表,可以逆向延伸和理解K2
例1为了考察某种药物预防疾病的效果,进行动物试验,得到如表3所示的药物效果与动物试验的列联表.
表3
由以上数据给出以下结论:① 能在犯错误的概率不超过0.05的前提下认为药物有效;② 不能在犯错误的概率不超过0.025的前提下认为药物有效;③ 能在犯错误的概率不超过0.010的前提下认为药物有效;④ 不能在犯错误的概率不超过0.005的前提下认为药物有效.
其中,正确结论的个数是________.
解析 根据列联表,计算得
查概率临界值表知,结论①成立的充分条件是K2≥3.841,所以结论①正确;结论②成立的充分条件是K2<5.024,所以结论②错误;结论③成立的充分条件是K2≥6.635,所以结论③错误;结论④成立的充分条件是K2<7.879,所以结论④正确.
综上所述,正确结论的个数是2.
点评 查阅独立性检验的概率临界值表时,要贴近实际问题,看准、看懂、用准“有关”或“无关”“出错误”或“有把握”“至少”或“至多”等关键词.
例2某共享单车经营企业欲向某市投放单车,为制定经营策略,该企业在已经投放单车的乙市分两组进行随机调研,针对15至45岁的人群,按比例随机抽取300份问卷,统计结果见表4.
表4
(1)从统计数据可直接得出“是否经常使用共享单车与年龄界限(记作m岁)有关”的结论,在用独立性检验的方法说明该结论正确时,为使犯错误的概率尽量小,年龄m应该取25还是35?请说明理由.
(2)对于(1)中所取的年龄界限m的值,大约有多少把握认为“经常使用共享单车与年龄达到m岁有关”?
解析 (1)取m=25,整理数据绘制列联表(如表5所示).
表5
再取m=35,整理数据绘制列联表(如表6所示).
表6
点评 对于两类分类变量X与Y的2×2列联表,相应算出的K2越大(小),判定“X与Y有关”的出错概率就越小(大),即认为“X与Y有关”的把握性就越大(小).
练习1如果两个分类变量X与Y的2×2列联表如表7所示.
表7
对于同一样本,以下数据说明X与Y有关系的可能性最大的一组是( );可能性最小的一组是( ).
A.a=45,b=15 B.a=40,c=20
C.a=35,c=25 D.a=30,c=30
练习2某工厂两个车间的工人在一次技术比赛中的成绩,可以绘制成列联表(如表8).
表8
于是,推断“比赛成绩与车间有关系”错误的概率属于区间( ).
A. (0.3, 0.4) B. (0.4, 0.5)
C. (0.5, 0.6) D. (0.6, 0.7)
练习4某制造企业有25周岁以上(含25周岁)职工300名,25周岁以下职工200名.为调查职工的日平均生产量是否与年龄有关,现从中分层抽取了100名职工,先统计了他们某月的日平均生产件数,然后按员工年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组职工的日平均生产件数分成5组分别进行统计,得到如图2所示的频率分布直方图.企业授予日平均生产件数至少80件的职工为“生产能手”.
图2
(1)绘制职工类别(“生产能手”与“非生产能手”)与年龄的2×2列联表;
(2)试问:有多大的把握认为“生产能手与所在的年龄组有关”?
提示:(1)“25周岁以上”年龄组有60人,“25周岁以下”年龄组有40人,再对照两个频率分布直方图,绘制2×2列联表,如表9所示.
表9