程海奎 章建跃
(1.河北师范大学数学科学学院 050024;2.人民教育出版社 课程教材研究所 100081)
必修课程安排了样本数据的直观表示方法、样本数据的统计特征(集中趋势参数、离散程度参数)的刻画方法,并根据样本数据的统计特征估计总体的相应特征.这些方法属于单变量统计问题,其核心思想是用样本估计总体.接下来以样本估计总体为核心思想,结合典型实例,利用成对样本数据的统计相关性研究两个变量之间的统计相关性,采用的方法是先直观描述后定量刻画,重点研究变量间的线性相关关系.例如,先借助成对数据散点图,直观观察相关关系的类型、方向和强弱;再构造相关系数定量刻画线性相关关系的密切程度;最后建立一元线性回归模型,进行预测.为了回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题,我们先将它抽象为两个分类变量的独立性问题,利用2×2列联表表示数据,采用假设检验的方法进行推断.这些问题涵盖了估计和假设检验两种基本推断方法,并蕴含着丰富的统计思想和方法.例如,刻画数据特征的方法、最小二乘思想、小概率原理、频率估计概率、假设检验基本原理等.本单元可以引导学生在解决问题的过程中,了解统计分析的一般方法,提高数据分析素养.
课程标准指出,本单元的学习,可以帮助学生了解样本相关系数的统计含义,了解一元线性回归模型和2×2列联表,运用这些方法解决简单的实际问题.会利用统计软件进行数据分析.课程标准强调了如下几点:
第一,理解两个随机变量的相关性可以通过成对样本数据进行分析;
第二,理解利用一元线性回归模型可以研究变量之间的随机关系,进行预测;
第三,理解利用2×2列联表可以检验两个随机变量的独立性.
另外,课程标准特别强调要通过具体案例,引导学生参与数据分析的全过程,并使用相应的统计软件,这是与统计课程的特点紧密相关的,需要广大一线教师给予特别关注.
1.成对数据的统计相关性
(1)结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.
(2)结合实例,会通过相关系数比较多组成对数据的相关性.
2.一元线性回归模型
(1)结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
(2)针对实际问题,会用一元线性回归模型进行预测.
3.2×2列联表
(1)通过实例,理解2×2列联表的统计意义.
(2)通过实例,了解2×2列联表独立性检验及其应用.
从上述内容和要求的框架可以发现:
第一,本单元的内容结构是:
两个数值变量用散点图直观是否具有统计相关性(定性)——用相关系数刻画线性相关关系的密切程度(定量)——建立一元线性回归模型进行预测.
两个分类变量用2×2列联表直观判断变量关联性(定性)——构建统计量χ2进行独立性检验(定量)——对变量间的关联性进行统计推断.
因此,先利用统计图表作定性分析,再建立统计量进行定量分析,在此基础上进行统计推断,这是对数据进行统计分析的“基本之道”.
第二,课程标准强调通过实例展开成对数据的统计分析,说明本单元的教材、教学不能搞“纸上谈兵”,要让学生沉浸在统计分析的活动中,在亲身实践中掌握变量之间相关性、关联性的统计分析方法,体验其中的统计思想.
第三,成对数据的相关性与一元回归模型紧密联系,都是研究两个数值型变量间的相关关系.只有通过样本系数判断出两个变量之间具有较强的线性关系时,建立一元回归模型才有意义.
第四,课程标准对相关统计软件的使用提出专门要求,体现了统计课程的特点.实际上,统计软件的学习是统计课程的一部分.
本单元内容的学习基础主要来自以下几方面:
通过必修课程的学习,学生已经初步建立样本估计总体的思想,从而为学生理解用样本相关系数推断变量间的相关性、估计回归系数奠定了认知基础.利用两个事件的独立性定义两个变量的独立性,根据频率稳定到概率的事实,利用频率推断两个事件是否独立,可以降低理解的难度.
统计中刻画数据特征(均值、方差)的一般方法,为构造样本相关系数、用偏差平方和最小估计回归系数、构造独立性检验的统计量等提供了可资借鉴的思想方法.
假设检验的基本原理是本单元的学习难点,可以引导学生类比反证法来理解.
下面从内容本质的分析入手讨论这些内容的育人价值以及教学中需要注意的问题.
4.1.1 相关关系——变量间的不确定关系
两个变量之间的数量关系有两种不同的类型:一种是我们非常熟悉的函数关系,另一种是相关关系.变量间的相关关系可作如下直观描述:当一个变量取一定的数值时,与之对应的另一个变量的值虽然不完全确定,但它按某种规律在一定的范围内变化.变量间的这种关系称为不确定性的相关关系.严格的数学刻画是:
设样本空间Ω={ω},将Ω上的两个随机变量(X(ω),Y(ω))称为随机向量.在概率论中,可以根据(X(ω),Y(ω))的分布判断X和Y是否独立,如果不独立,就具有某种相关性.在实际中,我们常常利用成对样本观测数据(xi(ωi),yi(ωi)),i=1,2,…,n推断变量间的相关性.
之所以将X和Y之间的关系称为相关关系,是因为变量X可能是影响变量Y的主要因素,但不是唯一因素,还有其他种种因素,而这些因素我们又不能完全把握.
研究函数关系,可以用数学分析的方法.例如,已知y和x之间具有线性关系,即y=a+bx,此时只要知道变量的两组取值就可以确定函数表达式.研究相关关系则必须对变量进行多次观测,借助统计的相关思想和方法进行解决.当然,在解决的过程中,往往要利用函数的思想和方法,也就是用确定性的工具解决不确定性问题.
4.1.2 散点图—描述相关关系的直观工具
由于相关关系的不确定性,寻找变量X和Y之间的相关关系时,首先要对变量进行观测.设n次观测值为(xi,yi),i=1,2,…,n.在直角坐标系中,横轴代表变量X,纵轴代表变量Y,将观测数据用坐标点的形式描绘出来,得到的图形称为散点图.散点图是研究相关关系的直观工具,可以定性判断相关的类型、方向和相关关系的强弱.
如果散点大致分布在一条直线附近,又不完全在一条直线上,说明变量间具有线性相关关系;如果这些点大致分布在一条曲线附近,说明变量间具有非线性相关关系;如果这些点的分布几乎没有什么规则,说明两个变量间没有相关关系.对于线性相关,如果散点从左下角到右上角沿直线分布,那么两个变量正相关;如果散点从左上角到右下角沿直线分布,两个变量负相关.散点在整体上和某一直线越接近,两个变量间的线性相关关系越强.
4.1.3 相关分析与回归分析的关系
对变量间的相关关系,在定性分析的基础上,需要进行定量分析.定量分析有相关分析和回归分析两种方法.相关分析是用一个指标(称为相关系数)来反映变量间相关关系的密切程度.回归分析就是根据相关关系的具体形态,选择一个合适的数学模型,来近似表达变量间的平均变化关系.相关分析和回归分析具有共同的研究对象,在具体应用时,需要互相补充.作相关分析需要依靠回归分析表明变量相关的具体形式,而进行回归分析需要通过相关分析表明变量间的相关程度,只有变量间存在高度相关时,由回归分析得到的变量间的具体形式才有意义.
相关分析研究变量间的相关方向和相关程度,它不提供相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况.相关分析不必确定哪个变量是自变量,哪个是因变量,所涉及的两个变量可以都是随机变量.回归分析根据观测数据,确定一个数学方程式(回归方程),根据这个方程式可以由已知量推测未知量,为估算和预测提供一个重要方法.回归分析必须事先确定具有相关关系的变量中哪个为自变量,哪个为因变量.一般地说,自变量是普通变量(人为可以控制其取值),因变量是随机变量.
4.1.4 如何构造样本相关系数
在定性刻画的基础上,需要构造一个数值指标(统计量)来刻画成对数据相关性的强弱,进而推断两个变量间相关关系的强弱,这是一个有一定难度的任务,可以借鉴必修中构造一组数据的方差的方法.具体构造过程中,可以从直观出发,先构造一个量,在研究其性质的过程中进行不断修正,直到得到一个合适的统计量.
例如:假设图1是依据对变量x和y进行观测得到的观测值(xi,yi),i=1,2,…,n所绘制的散点图.
图1
并画散点图(如图2所示).可以发现,散点大部分分布在第一象限和第三象限,平移后的成对数据多数为同号,所以散点的横、纵坐标之积多数为正.同理,如果变量x和y之间是线性负相关,那么平移后的成对数据散点图将大部分分布在第二象限和第四象限,平移后的成对数据多数为异号,所以散点的横、纵坐标之积多数为负.这样,平移后的成对数据横纵坐标之积的和的正负可以反映两个变量是正相关还是负相关.
图2
为了消除样本量n的影响,构造
显然,Lxy符号为正时正相关,Lxy符号为负时负相关.
但是Lxy受数据量纲的影响,为了消除量纲的影响,可以对数据进行标准化.用
为简单起见,把上述“标准化”处理后的成对数据分别记为
得到
r是否能度量成对数据的相关关系的强弱呢?为此,我们进一步研究一下r的几何意义及相关性质.
几何解释:
第二分量构成n维向量
则有
r=x′·y′=|x′||y′|cosθ=cosθ.
所以,r等于向量x′,y′夹角的余弦.
相关系数的性质:
(1)|r|≤1;
由此可以看到,相关系数刻画了成对数据线性相关的密切程度.一般地,|r|越接近1,表明线性关系越密切(或越强).在回归模型诊断中,通过平方和分解,构造决定系数R2的过程中,可对r的意义有进一步认识.
在统计中,我们用样本相关系数估计两个变量的相关系数.由于样本具有随机性,由两个变量的不同样本数据得到的相关系数一般也不同.当样本量n较小时,样本相关系数波动较大;但当样本量n较大时,样本相关系数波动幅度较小,呈现出稳定性规律,此时用于推断两个变量间线性关系强弱具有较高的可信度.
需要注意的是:(1)相关系数只衡量变量间线性关系的密切程度,即使变量间具有确定的非线性函数关系,|r|也可能非常接近0.(2)当n很小时,即使|r|非常接近1,也不表明变量间的线性关系强.例如,无论x和y之间是何种关系,只要两组数据对应的点的连线与坐标轴不平行,成对数据的相关系数|r|恒为1.
相关系数是变量间线性关系密切程度的度量,刻画了两组成对数据的相似性,在现实中有许多应用.例如,在教育测量中,测验的统计指标有难度、区分度、信度和效度.利用这些指标,可以对测验分数的可靠性、有效性、测验目的达到的程度,以及根据测验结果所获得的信息做出科学性的决策等给出定量的回答.
区分度是衡量试题对学生实际学习水平区别程度的指标,可用学生在某试题上的得分与测验总分之间的相关系数r作为该题的区分度.
信度是刻画试卷可靠性程度的指标.测验作为测量学生学习水平的工具,也存在一个测验的成绩是否稳定、是否可靠的问题.试卷的信度就是指该试卷对同一组被试实施两次或多次测试,所得结果的一致性程度.一致性程度越高,试卷的信度就越高.实际中可使用两份等价的试卷,对同一组被试相继实施两次测验,求两次测验成绩的相关系数,将这个值作为两份试卷其中任何一份的信度系数.
效度是测量的准确性和有效性指标,也就是测量的结果与所要达到的目标之间相符合的程度,或者说测验本身所能达到测验目的的程度.由于测量目的不同,效度有不同的类型.具体分类为:内容效度、校标效度、结构效度.其中校标效度所表示的是该测验成绩与作为标准的另一个测验(校标)的成绩之间的相关程度.效度系数是两次测验成绩之间的相关系数.例如,高考模拟测验以高考试卷作为校标,如果某模拟测验成绩与未来高考成绩的相关系数接近于1,说明该模拟试卷的效度高.
4.1.5 变量相关性的教学思考
相关关系的概念是描述性的,不必追求形式上的严格.建议采用案例教学法,对比函数关系,重点突出相关关系的两个本质特征:关联性和不确定性.关联性是指当一个变量变化时,伴随另一个变量有一定的变化趋势;不确定性是指当一个变量取定值时,与之相关的变量的取值仍具有随机性.因为有关联性,才有研究的必要性,因为其不确定性,从少量的变量观测值,很难估计误差的大小,因此必须对变量作大量的观测,但每个观测值都有一定误差,为了消除误差的影响,揭示变量间的本质联系,就必须要用统计分析方法.
判断两个变量间是否具有相关关系,一是凭经验及学科专业知识,二是借助散点图.如可以引导学生对表1中的4个例子逐一分析其关联性和不确定性,然后结合散点图,进一步判断相关关系的类型和方向.
表1
例5(非线性相关和不相关的例子) 对0到18岁之间的未成年人来说,年龄和身高之间具有非线性的相关关系.对成年人来说,年龄和身高之间没有相关关系.
例6吸烟和患肺部疾病之间不具有因果关系,但具有相关关系.引入两值变量X和Y:
大量调查发现吸烟对患肺部疾病有一定的影响.但不吸烟者也可能患肺部疾病,吸烟者也可能不患肺部疾病,因此X和Y之间具有相关关系.
适当列举非线性相关和不相关的例子,有助于对相关关系的全面了解,但我们研究的重点是线性相关关系,而且正相关或负相关只对线性相关有意义.
在构造样本相关系数的教学中,首先要让学生明确这里的任务是构造一个统计量,用以刻画成对数据间线性相关的强弱;要让学生理解数据的平移不影响成对数据线性相关的强弱,但可以突出数据的特征;标准化可以消除数据量纲的影响.另外,通过几何解释及性质的讨论,可以使学生进一步明确样本相关系数的统计意义.
当两个变量之间具有线性相关关系时,根据成对样本数据绘制的散点图中的点大致分布在一条直线附近,可以利用观测数据确定一个数学方程式(回归方程),由这个方程式可以从已知量推测未知量,为估算和预测提供一个重要方法.
4.2.1 数学模型
假设因变量Y主要受自变量x的影响,它们之间的数量关系为Y=a+bx+e,其中x是非随机变量,a,b是未知的常数,e是随机误差项,它反映了未列入方程的其它各种因素对Y的影响.因此Y是随机变量,它可以用由x的值完全确定的部分a+bx和随机误差e来解释.假定随机误差e的均值为0,方差为σ2.
将样本观测数据(xi,yi),i=1,2,…,n代入Y=a+bx+e中,得数据结构模型:
求解模型:求未知参数a,b的估计值,估计误差方差σ2(高中不要求).
4.2.2 最小二乘思想
当两个变量之间存在相关关系时,由于其不确定性,如果只有很少几组变量观测值,很难估计误差的大小.法国数学家勒让德(Le Gendre,1752—1833)在根据测量数据预测彗星轨道的问题时,发现了有效利用全部测量数据的方法,即通过计算得出一组数值,在使数据组的偏差达到最小的意义下,这些数值是最优的.勒让德的方法得出的数值充分利用了所有数据信息,这个方法现在叫做最小二乘法.
1809年,德国数学家高斯(Gauss,1777—1855年)在一篇论文中分析了如何充分利用一系列测量数据来预测天体轨道的问题,其中也叙述了最小二乘法.事实上,勒让德第一个发表了最小二乘法思想,并影响了统计学;高斯也使用了最小二乘法,并且考虑了最小二乘法的误差分析问题,他还发现了最小二乘法理论中的重要结果,这个结果从统计学的角度回答了最小二乘法在缩小误差上的优势,使得在勒让德那里只是处理测量数据的代数方法逐渐渗透到统计数据分析的领域,最小二乘法对统计学就像微积分对于数学中的影响一样深远.高斯的巨大声望使一些历史学家把最小二乘法归功于他.
下面通过一个简单问题,阐述最小二乘思想.
4.2.3 回归系数的最小二乘估计
如何确定回归直线方程,使得这条直线在整体上与数据点最接近?
许多统计思想和方法都比较直观,采用探究式教学,学生可能提出各种不同的方法.为了防止漫无边际的想法,教学中应对确定回归直线的方法提出一些基本要求.例如:尽可能利用全部数据,体现整体偏差最小,便于数学计算,结果确定等等.
以这些要求为基础,通过对一些可能的合理方法进行逐步修正,最后把学生的思路引导到使用最小二乘法估计参数,得出回归直线方程.下面是一些可能想到的方法.
方法1:逐渐移动直线,测量各点到直线的距离,使距离和最小.该方法体现了整体偏差最小的思想,缺点是难以实现,而且测量的方法很难得到确定的结果.
方法2:选择两点画直线,使直线两侧的点的个数基本相同.这种方法没有利用全部数据信息,其结果会因人而异.
方法3:用多条直线的斜率和截距的平均值作为回归直线的斜率和截距.这种方法既没有利用全部数据信息,也没有体现整体误差最小的思想,结果也不确定.
这种方法称为最小二乘法,最小二乘法的优点是:有效利用了全部测量数据,使误差平方和达到最小,防止了某一极端误差对决定参数估计值取得支配性地位.用数理统计知识可以证明这样的估计也是最佳的.
上式右边展开后是关于b的二次三项式,根据二次函数的性质可以得到,当
时,Q(a,b)达到最小.
4.2.4 一元线性回归模型的诊断
理论上,任意n组成对数据,都可以按最小二乘法得到一个回归方程.它能否较好地描述x和Y之间的关系呢?这个问题需要通过模型诊断进行回答.
我们仍然采用先定性后定量的方法进行模型诊断.
可得
考虑回归平方和占总偏差平方和的比例,构造统计量
我们把R2称为决定系数或回归贡献率, 它是线性相关系数的平方,其取值范围是0≤R2≤1.特别的,当R2=1时,残差平方和等于0,所有数据点都在回归直线上,此时x和Y之间具有确定的线性关系.R2的大小反映x与Y之间线性关系的密切程度,R2越接近1,x与Y之间线性关系越密切.
4.2.5 利用数学软件进行回归分析
一元回归分析要绘制散点图、残差图及进行复杂的数值计算,Excel、R-软件、GeoGebra都有回归分析的功能.而GeoGebra作为一个开源软件,功能强大、操作简便.下面通过实际问题说明如何用GeoGebra进行回归分析.
例经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树12组成对数据,试根据数据建立树高关于胸径的经验回归方程.
打开GeoGebra,在菜单中选择表格区,在表格区A,B列输入数据,选中A,B列,然后选择“双变量回归分析”.分别点选“散点图”或者“残差图”显示图形,在回归模型点选“线性”显示回归方程.点选Σx可显示各种统计量的值.经过上述操作,得出结果如图3所示.
图3
估计和假设检验是两种基本的统计推断方法.假设检验的基本原理类似于反证法.先对研究的总体提出某种假设H,根据样本数据构造一个统计量T,直观上可根据统计量取值范围做出拒绝或接受假设H的判断.定量的方法是依据小概率原理(实际推断原理),给定一个小概率α,在H成立的条件下,求得统计量T的分布,确定拒绝域D满足P(T∈D)=α,一旦{T∈D}发生,则拒绝假设H.
独立性检验是非参数假设检验χ2-分布拟合检验的一个特例,所研究的问题是如何根据成对样本数据判断两个2×2分类(属性)变量是否独立,可以用图4概括检验的步骤:
图4
学生已有的认知基础有:古典概率模型,条件概率,频率稳定到概率,两个事件相互独立的概念.解决问题的依据是小概率原理以及假设检验的基本原理.理解其中蕴含的思想方法是培养学生数据分析素养的重要途径.
4.3.1 问题的数学抽象
在现实中有一类问题也属于变量的相关性问题.例如,不同年级的学生的近视情况是否有明显的差异?某学校男生和女生在体育锻炼的经常性是否有差异?吸烟与患肺部疾病是否有关?等等.对这类问题,需要给出一个统一的数学描述.
例如,对于男生和女生体育锻炼的经常性是否有差异的问题,我们可以作如下数学描述:
用Ω表示该校全体学生构成的集合(总体),从总体中任意选择一名学生,定义变量X和Y如下:
X和Y是两个只取2个值的分类变量.
如果P(Y=1|X=0)≠P(Y=1|X=1),说明体育锻炼的经常性有性别差异;
如果P(Y=1|X=0)=P(Y=1|X=1),说明体育锻炼的经常性没有性别差异.
容易证明P(Y=1|X=0)=P(Y=1|X=1)等价于P(X=0,Y=1)=P(X=0)P(Y=1),即事件{X=0}与{Y=1}相互独立.根据两个事件独立的性质得:{X=0}与{Y=0},{X=1}与{Y=0},{X=1}与{Y=1}都相互独立.因此,对于2×2随机变量,如果{X=1}与{Y=1}独立,则称变量X和Y相互独立.
这样,我们研究的问题就抽象为判断两个变量X和Y是否独立的问题.
对于普查获得的全部数据,容易判断变量X和Y是否独立.如果是随机抽样获得的样本数据,该如何进行推断呢?
4.3.2 假设检验基本思想方法
先分析一个简单的问题,了解假设检验的基本思想与一般步骤.
问题抛掷一枚六面体骰子,重复120次试验,各点数出现的频数如表2所示:
表2
能否认为这个骰子质地均匀?
如果骰子质地均匀,出现每个点数都是等可能的,理论上每个点数出现的频数都是20,但由于随机性,观测频数应在20附近波动,根据频率稳定到概率的事实,当重复试验次数足够大时,波动幅度不会太大.如果波动幅度太大,就难以用随机性来解释了,此时怀疑骰子的质地不均匀.
一般地,设随机变量X的可能取值为x1,x2,…,xk,做n次重复试验,出现的频数分布为m1,m2,…,mk,m1+m2+…+mk=n.检验假设H0:P(X=xi)=pi,i=1,2,…,k.
在H0成立的条件下,事件{X=xi}发生的期望频数为npi(i=1,2,…,k),构造统计量
χ2是反映频率与概率(或观测频数与期望频数)之间整体相对偏差大小的统计量.直观上,当χ2的值过大时,怀疑H0不真.χ2多大才算过大呢?需要给出一个定量的标准.统计学家证明了当H0成立时,χ2近似服从自由度为k-1的χ2分布,给定一个小概率α,确定临界值χα,使得P(χ2≥χα)=α.依据小概率原理,当{χ2≥χα}发生时,怀疑H0不真,做出拒绝H0的判断,当{χ2<χα}发生时,接受H0.
在检验骰子质地是否均匀的问题中,χ2统计量近似服从自由度为5的χ2分布(如图5).给定α=0.05,利用GeoGebra软件,得到
图5
P{χ2≥11.07}=0.05,
χ2=5.06<11.07,
不拒绝H0,没有理由认为骰子质地不均匀.
如果120次重复试验,观测到各点数出现的频数如表3:
表3
从上面的分析看到,假设检验的一般步骤为:
建立假设→构造统计量→确定检验规则→作出判断并解释.
4.3.3 如何进行独立性检验
(1)建立假设
H0:2×2分类变量X和Y独立.
通过随机抽样得到X和Y的样本数据,用列联表(表4)表示如下:
表4
(2)构造检验的统计量
同理可以求得事件{X=0,Y=1},{X=1,Y=0},{X=1,Y=1}的期望频数.
假设H0成立,四个事件的观测频数与期望频数如表5所示.
表5
对于2×2列联表数据,χ2的具体表达式为
在零假设H0成立的条件下,观测频数与期望频数整体应比较接近,χ2的值不应太大.
(3)确定检验规则
零假设H0成立的条件下,随机变量χ2近似服从自由度为1的χ2分布.
对于给定的小概率α,求得临界值χα,使得P(χ2≥χα)=α.依据小概率原理,当事件 {χ2≥χα}发生时,拒绝H0,认为X和Y不独立;否则不拒绝H0,认为X和Y独立.
s×t独立性检验,χ2近似服从自由度为 (t-1)(s-1) 的χ2分布.
(4)推断结论的解释
拒绝零假设H0可能犯错误,但犯错误的概率不超过α;不拒绝零假设,也并不意味着X和Y一定独立,只是对这组样本数据没有充分的理由拒绝零假设;不拒绝H0时也可能犯错误,此时犯错误的概率β无法控制.一般α小时β就较大,α大时β就小.当作出不拒绝的判断时,可取较大的α值.
回归分析是应用非常广泛的一种统计分析方法.所涉及到的建立统计模型思想、最小二乘思想、方差分析思想(构造统计量,评价回归拟合效果),在统计中占有重要地位.独立性检验则是利用概率知识,综合考虑样本容量、显著性水平(犯错误的概率)的一种定量统计分析方法.本单元内容按“实际背景——抽象统计模型——构造统计量进行数据分析——得出结果并解释”的路径,采用从直观描述到数学刻画、先定性后定量的统计分析方法,引导学生在解决实际问题的过程中,体会统计思想、积累数学活动经验,发展数学建模、数据分析素养.下面提出本单元教学的几点建议.
用样本估计总体是统计的基本思想,也是发展学生数据分析素养的主要载体.
学生在初中学习了用统计图表表示数据、用平均数和方差等数字特征刻画数据的特征,虽然也涉及了样本估计总体,但重点在于对数据本身的统计特征的描述和刻画,对数据的随机性考虑不多.高中的统计内容开始强调数据的随机性,要求通过随机样本数据对总体作出估计.估计的目标是得到总体的有关结论,此时对样本数据本身进行刻画不再是目标,而是达到目标的一种手段或载体.因此,在高中的统计教学中,应加强用样本估计总体的思想.
必修课程的统计主要是关于单变量总体的估计,例如通过样本数据的均值、方差、百分位数估计总体相应的数字特征.在选择性必修统计中,我们仍然用样本估计总体的基本思想展开研究,只是数据由一维变为二维,总体由单变量变为双变量.在本章,通过样本相关系数估计两个变量的关系,通过一元线性回归模型刻画两个变量的线性关系,通过χ2统计量检验两个分类变量的独立性,都是关于两个变量这个总体的估计,教学中应充分重视.
我们知道,函数、代数、几何、概率等内容是从定义出发,主要使用演绎推理的方法证明结论.演绎推理是从一般到特殊的推理,只要前提正确、推理形式正确,得到的结论必然正确,因此得出的结论具有确定性.而统计是从样本数据出发,根据样本数据的结论推断总体的结论,这是一个从部分到总体、特殊到一般的推理,在推理方法上属于不完全归纳.不完全归纳的特点是前提正确并不意味着得到的结论正确,也就是说统计的推断有可能犯错误,结论具有不确定性.由于出发点和推理方法的不同,统计与函数、代数等内容在对结论的判断标准上也不一样,前者是好与坏,后者是对与错.教学中要准确把握统计学科的这些特点,只有从整体上准确把握统计学科逻辑的特点,才能准确理解统计的内容和方法,才能更好地发挥统计的育人功能.
统计中每一个概念和方法的引入都有其必要性,之所以成为目前的形式也都有其合理性.教学中体现好这个过程,不但有利于明确学习的目标和任务,让学生感受到知识的产生是自然的、合理的,还有利于在概念和方法的形成过程中让学生体会统计的思想方法,积累数据分析的经验.
我们知道,数据分析是一个透过数据探索客观事物本质和规律的过程,可以概括为:(1)面向实际背景,凝练统计问题;(2)明确问题目标,收集整理数据;(3)合理构建模型,优化推断结论;(4)回归实际问题,形成决策知识.本单元的教学要特别注意落实这个过程,注重从统计的直观到数学化表达的转化,并让学生参与其中.例如,对于估计一元线性回归模型参数所用的最小二乘法,教学中可以启发学生先从直觉出发,寻找整体上与散点最接近的直线,然后逐步过渡到对“整体最近”的数学刻画,再从实际意义、数学运算等角度考虑,在若干表达式中选择“平方和最小”作为标准.在此过程中,学生既可以体会从统计直观到数学表达的转化过程,从中理解统计方法;又可以体会针对同一个问题可以有不同标准,由不同标准得出的不同结论都有一定的合理性,由此体会统计的特点和统计思想,积累数据分析的经验,培养数据分析、数学建模、逻辑推理、数学运算和数学抽象等素养.
课程标准在本单元“内容要求”中明确提出“会利用统计软件进行数据分析”的要求.事实上,如果不用统计软件,那么就无法完成本单元的教学任务.因此,为了有效展开本单元的教学活动,应该要求学生掌握几种常用的统计软件,明确要求学生在学习本单元内容时使用统计软件探索数据的规律.例如,利用统计软件对一组样本数据进行排序等整理,计算出各种特征数,画各种统计图等;又如,在用一元线性回归模型刻画两个变量之间关系时,利用统计软件画散点图、计算样本相关系数、求经验回归方程、画残差图等.