金石
回归分析与独立性检验是常见的统计方法,这部分内容多出现在高考试题中,更是近几年高考的热点. 此部分知识主要考查同学们的统计基本思想及初步应用,试题难度为中等偏上.
重点难点
重点:理解回归分析、独立性检验的基本思想及实施步骤.
难点:回归分析中残差变量的解释与分析,相关系数、指标R2的理解;独立性检验中随机变量K2的含义.
方法突破
(1)回归分析中重点考查的是对两个线性相关关系的变量的研究,具体步骤是:①画散点图;②利用最小二乘法求回归直线方程中的■=■=■,■=■-■■;③用回归直线方程进行预报.
(2)首先要充分理解独立性检验原理. 独立性检验原理指的是在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就判断这个假设不成立,且该推断犯错误的概率不超过这个小概率. 在解决具体问题时通过计算随机变量K2=■的观测值k(注意公式中a,b,c,d,a+c,b+d,a+b,c+d在2×2列联表中的位置),并且在临界值表格中找到满足k≥k0的临界值k0,那么犯错误的概率不超过k0对应的P(k≥k0)即为判断犯错误的概率,从而得出有多大的把握认为两个分类变量有关.
典例精讲
■例1 某产品的广告费用x与销售额y的统计数据如下表:
■
根据上表可得回归方程■=■x+■中的■=9.4,据此模型预报广告费用为6万元时销售额为( )
A. 63.6万元 ?摇 B. 65.5万元?摇?摇
C. 67.7万元 ?摇 D. 72.0万元
思索 由于回归直线过样本点的中心(■,■),所以利用所给数据求出■,■,将其带入回归方程中,求出■,从而得出回归直线方程;再令x=6,求得■的值即为本题的答案.
破解 由已知可得■=■=3.5,■=■=42,所以样本点的中心为(3.5,42),且■=9.4. 由此得■=■-■■=42-9.4×3.5=9.1. 所以回归直线方程为■=9.4x+9.1. 当x=6时,■=65.5万元,故选B.
■例2 某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
■
■
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
■=■,■=■-■■.
思索 利用所给数据和回归直线的斜率和截距的最小二乘估计公式求出■,■,进而得到回归直线方程. 利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,可以从正负相关及该地区农村居民家庭人均纯收入每年变化幅度方面加以说明. 预测该地区2015年农村居民家庭人均纯收入,可将2015年的年份代号9代入所求的回归直线方程求出■即可.
破解 (1)由所给数据计算得■=■(1+2+3+4+5+6+7)=4,■=■(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,■(ti-■)2=9+4+1+0+1+4+9=28,■(ti-■)(yi-■)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,■=■=■=0.5,■=■-■■=4.3-0.5×4=2.3. 故所求回归方程为■=0.5t+2.3.
(2)由(1)知,■=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 将2015年的年份代号t=9代入(1)中的回归方程,得■=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
■例3 通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
■
由K2=■算得K2=■≈7.8.
附表:
■
参照附表,判断下列结论正确的是( )
A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C. 有99%以上的把握认为“爱好该项运动与性别有关”
D. 有99%以上的把握认为“爱好该项运动与性别无关”
思索 由所给随机变量K2的观测值k在临界值表格中找到满足k≥k0的临界值k0,那么犯错误的概率不超过k0对应的P(k≥k0)即为判断犯错误的概率,从而得到有多大的把握认为两个分类变量有关.
破解 由于K2的观测值k在临界值表格中找到满足k≥k0的临界值k0=6.635,那么犯错误的概率不超过k0对应的P(k≥k0)=0.010即为判断犯错误的概率,所以在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别有关”. 也可以表示为有99%以上的把握认为“爱好该项运动与性别有关”. 故选C.
■例4 为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
■
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
附表:
■
K2=■.
思索 首先将2×2列联表补充完整,可以清晰地得出调查的500位老年人中有多少位需要志愿者提供帮助,这样就可以得出该地区老年人中,需要帮助的老年人的比例的估算值了. 再由所给随机变量K2公式求出观测值k在临界值表格中找到满足k≥k■的临界值k■,那么犯错误的概率不超过k0对应的P(k≥k0)即为判断犯错误的概率,从而得到有多大的把握认为两个分类变量有关.endprint
破解 首先将2×2列联表补充完整,如下表:
■
(1)由表中清晰地得出调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者帮助的老年人的比例的估算值为■=14%.
(2)由所给随机变量K2公式求出观测值k=■≈9.967,由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
变式练习
1. 已知变量x与y正相关,且由观测数据算得样本平均数■=3,■=3.5,则由该观测数据算得的线性回归方程可能是( )
A. ■=0.4x+2.3?摇 B. ■=2x-2.4
C. ■=-2x+9.5?摇 D. ■=-0.3x+4.4
2. 设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为■=0.85x-85.71,则下列结论中不正确的是( )
A. y与x具有正的线性相关关系
B. 回归直线过样本点的中心(■,■)
C. 若该大学某女生身高增加1cm,则其体重约增加0.85kg?摇
D. 若该大学某女生身高为170cm,则可断定其体重必为58.79kg
3. 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据:
■
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程■=■x+■;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤. 试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
4. “十一”期间,某城市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表,下列结论正确的是( )
■
A. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘与性别有关”
B. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘与性别无关”
C. 有90%以上的把握认为“该市居民能否做到‘光盘与性别有关”
D. 有90%以上的把握认为“该市居民能否做到‘光盘与性别无关”
5. 为考察高中生的性别与是否喜欢数学课程之间的关系,在我市某普通中学高中生中随机抽取200名学生,得到如下2×2列联表:
■
根据独立性检验的基本思想,约有多大的把握认为“性别与喜欢数学课之间有关系”?
附表:
■
■
K2=■.
参考答案
1. A 2. D
3. (1)图略;
(2)■xiyi=66.5,■=■=4.5,■=■=3.5,■x2i=32+42+52+62=86,■=■=■=0.7,■=■-■■=3.5-0.7×4.5=0.35. 故线性回归方程为■=0.7x+0.35.
(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能减少了90-70.35=19.65(吨标准煤).
4. C
5. 由所给随机变量K2公式求出观测值k=■≈6.061>5.024,所以约有97.5%的把握认为“性别与喜欢数学课之间有关系”.endprint