李 健 (人民教育出版社课程教材研究所 100081)
用最小二乘法估计一元线性回归模型的参数,既是高中统计教学中的一个重点,也是一个难点.但受限于某些客观原因[1],许多一线教师并不注重其教学质量,仅对学生提出能够记住公式、会计算的低阶思维层次要求.这种现象不仅可能使学生失去重要的统计思维培养机会,还容易使学生产生消极的数学学习情感,十分不可取.那么,如何改变这种现状?一条有效的途径是通过数学史料,帮助师生理解最小二乘法的由来与特点.统计史书籍记载了许多关于最小二乘法的发展史,这些史料有助于教师更好地认识与理解最小二乘法,进而改善其对最小二乘法的教学.本文的目的即对最小二乘法进行历史溯源,并据此提出教学启示.
18世纪,测地学中面临确定船只在大海中的位置、测量地球经线长度等问题;而在天文学中,土星与木星通过引力对各自轨道的影响问题也十分棘手.尽管问题的背景不同,但这些问题都可以转化为利用实际测量值估计线性方程的参数问题[2]76-77.例如对于可以实际测量到的量x1,x2,x3,若某方程a1x1+a2x2+a3x3=0成立,如何才能有效地估计出a1,a2,a3呢?
由于x1,x2,x3可以通过实际测量得到,故可以通过3次测量,将3组测量值(x1i,x2i,x3i)分别代入方程a1x1+a2x2+a3x3=0,其中i=1,2,3,再将三个方程联立得到关于a1,a2,a3的三元线性方程组
(1)
进而求解.
由于测量值(x1i,x2i,x3i)存在误差,故所求得的a1,a2,a3也自然存在误差.为了尽可能地减小误差,人们想到增加测量次数进行估计的方式来应对.
那么,究竟是如何使用多次测量值估计a1,a2,a3的呢?不妨设进行了9次测量,则将9组测量值(x1i,x2i,x3i)分别代入方程a1x1+a2x2+a3x3=0,其中i=1,2,…,9,再将9个方程联立,可得关于a1,a2,a3的三元线性方程组(2):
(2)
为了解决上述问题,当时的科学家或数学家们采用了许多方法,例如梅耶、欧拉、拉普拉斯等人都对这一问题进行了研究[2]76-77.尽管他们采用的具体方法不一,但其核心思想类似,均是将多个方程合并为数量较少的几个方程,并且保证这几个方程恰好有唯一解.以方程组(2)为例,可以将前三个方程、中间三个方程、后三个方程的左右两边分别求和,将得到的三个新方程联立,进而得到新的方程组(3).接下来,只要能够顺利求解出方程组(3),就可以得到a1,a2,a3的估计值.
(3)
然而,上述方法却存在很多不足之处,例如合并方程的原则是什么,以及这种估计方法的误差有多大[2]79,都无法得到良好的解决.因此,如何利用实际测量值估计线性方程组的系数,成为当时的一项紧迫任务.
自19世纪初诞生后,最小二乘法很快得到一些欧洲天文和测地工作者的广泛应用.随后,高斯也注意到最小二乘法的重要性,并将最小二乘法和概率结合起来,提出了计算误差的算法[4].由于这部分内容与高中教学的关联性不强,故不在此进行过多介绍,有兴趣的教师可以自行查阅相关文献.
尽管最小二乘法比起前人的估计方法有了长足的进步,但依然存在一些难以让人满意的地方,其中一个显著的短板即对极端数据的敏感性:最小二乘法特别容易受到极端数据的影响.
例如在人教A版《普通高中教科书(数学·选择性必修第三册)》的“一元线性回归”一节中,设置了一道研究父亲与儿子身高关系的问题[5]107.已知14对父亲及其儿子的身高数据,通过最小二乘法,可以得到这组数据对应的线性回归直线 (图1).在其他点不变的情况下,将其中的点P(182,185)替换为点Q(162,185),利用最小二乘法将得到一条新的线性回归直线(图2).观察图2中的点Q,它与其他点相距甚远,属于极端数据.再通过比较图1与图2中的线性回归直线,能够明显发现两者间的差异,这反映出最小二乘法对极端数据的敏感性.
图1 图2
最小一乘法和最小二乘法的另一个差异体现在解的数量与形式[6].回归分析中使用最小一乘法,有时可能出现多个解,并且无法得到解的显式表达,并不适合更为复杂的数学推导和研究;而利用最小二乘法得到的解通常是唯一的,且有显式表达,这对进一步的数学推导和研究十分重要.
通过对最小二乘法的历史溯源,使我们看到了最小二乘法更加鲜活的一面.从教学层面而言,“最小二乘法的历史溯源”这一教学资源,体现出其独特的价值,能为一线高中数学教师的教学带来如下几方面的启示.
《普通高中数学课程标准(2017年版)》(下称《课标》)要求学生掌握一元线性回归模型参数的最小二乘估计方法[7],可见最小二乘法具备极强的工具属性.溯源最小二乘法的发展史可知,其产生背景源自天文学与测地学中的实际应用需要,抽象出的数学问题即为“如何以测量值估计线性回归模型的参数?”实际上,通过测量值合理地估计方程系数,正是求解一元线性回归模型的关键.通过以上分析,建议教师可以在教学中突出体现测量值估计模型参数的应用性,这符合最小二乘法的历史发展,能够使学生感受数学的应用价值,增强学生对数学的认同感,充分激发学生的数学学习积极性.
最小二乘法作为估计一元线性回归方程参数的工具,蕴含着极有价值的数学思想.估计一元线性回归模型的参数时,最小二乘法的本质是求得残差平方和(*)最小时的参数估计值,教学时应当重视学生对残差平方和表达形式的理解.对于表达式(*),其教学关键之一在于使学生感受为什么要对残差的平方进行求和.在统计活动中,通常的做法是通过“精炼”所收集数据的个性化信息,以获取少量的整体信息,例如计算一组数据的算术平均数,最终将无法看到每个原始数据,而只能看到一个代表其集中趋势的值.最小二乘法中的求和运算也是起到这个作用,为了找到大量数据的最佳拟合直线,需要“精炼”大量的残差信息,转而获取所有残差信息的代表值,在最小二乘法中的这个代表值即残差平方和.实际上,对个体信息的汇总处理方式,被称为“聚合”(Aggregation),统计学家、统计学史家施蒂格勒将“聚合”列为统计学的七大支柱之首,其重要性不言而喻[8].因此,教学时可以引导学生思考为何要进行求和运算,这将有助于学生更好地体会统计中的聚合思想.
尽管《课标》仅要求学生掌握最小二乘法,但通过本文中的历史溯源可知,利用实际测量值估计一元线性回归模型的参数方式不止一种.在人教A版《普通高中教科书(数学·选择性必修第三册)》中,就提出了最小一乘法与最小二乘法两种方式[5]108.在比较最小一乘法与最小二乘法的优劣时,应该了解二者各有所长:如果问题仅仅是寻找数据对应的一元线性回归模型,在方便使用计算机的前提下,最小一乘法便是一种极好的选择,它能够弱化极端数据对估计造成的影响;但如果缺少计算机工具,或者需要进行更复杂的数学问题分析,那么采用最小二乘法得到一元线性回归模型的具体表达式则更显方便.通过对使用不同估计方法的异同进行比较,将有助于提升学生的数学方法论认识,通常而言,数学问题的解决方法并无好坏之分,应该针对具体问题与客观条件,考虑哪种方法更合适.