王化琨,李春艳,陈莉莉,周亚晶
(黑龙江大学数学科学学院,黑龙江 哈尔滨150080)
回归分析是研究多个变量间的非确定性关系的一种统计分析方法,它在自然科学、经济学和社会管理学等领域的定量分析中有着广泛的应用。“应用回归分析”是高校统计学本科专业的必修课程,它的先修课程有高等代数、数学分析、概率论与数理统计等专业基础课。“应用回归分析”的教学目的,是使学生能够理解和掌握基本的线性回归模型,并了解其他常用的回归模型,例如岭回归、Logistic回归等。通过该课程的学习,学生不仅对回归分析的理论有所了解,而且能够利用回归的方法进行数据分析、统计建模,解决实际问题。
本文作者是高校数学学院统计学专业的专任教师,多年来担任“应用回归分析”的主讲教师。我们针对该门课程的特点,结合这些年在教学工作中发现的问题和积累的经验,对“应用回归分析”课程的教学内容和教学方法做一些有益的探讨。
根据我院统计学本科专业偏精算方向的实际情况,我们在讲授“应用回归分析”时,既要对回归分析的重要理论作严格的数学证明、公式推导,使回归分析的学习不失数学的严谨性。但是,考虑到本科生的实际情况,对一些过于复杂的理论,我们只介绍它们的意义,并不作数学推导。这样一来,我们不但降低了回归分析理论学习的难度,而且保证了回归理论的完整性。同时,考虑到本科层次的回归分析的教学目的,重点是教授学生如何利用回归的方法来研究变量间的数量关系。因此,我们在选用教材上着重于回归分析的应用。综合考虑这些情况,我们选用了何晓群、刘文卿著的《应用回归分析》这本书。在实际的讲授中,对于作为回归分析基础的一元线性回归和多元线性回归内容,我们全面系统地介绍了它的理论,包括定理证明、公式推导。这样既训练了学生的数学思维能力,又加深了对线性回归的理解。
另外,对于像自变量的选择与逐步回归、多重共线性等内容,我们将教学重点放在学生对这些问题的理解上。我们在教学中发现,将这些内容与实际问题相结合,更能加深学生的理解,而且有助于激发学生的学习热情。例如,在介绍变量的选择这部分内容时,我们举了空气污染研究中的变量选择。该研究讨论了某地区死亡率与气候、社会经济和污染变量的关系。它列举了15个可能影响死亡率的变量,分别是年平均降水量、一月份平均气温、七月份平均气温、65岁以上老年人口百分比、每户人口数、接受学校教育年限的中位数、具有合理住宅的百分比、每平方英里的人数、非白种人的百分比、白领阶层的百分比、低收入家庭的百分比、碳氢化合物相对潜在污染、氮氧化合物相对潜在污染、二氧化硫化合物相对潜在污染、相对湿度、各种原因导致的经过年龄修正的总死亡率等。我们不从流行病学的角度去评论,只是利用数据进行变量选择的示范。又如,在介绍共线性数据的变量选择时,我们探讨了枪械在底特律凶杀案件中的作用。根据Gunst和Mason收集的1961 ~1973年的数据,响应变量为该城市的凶杀率,预测变量是与凶杀案相关联或对凶杀率上升有影响的变量,例如,每100 ~1000人中配备的全职警察人数、失业人口百分比、制造业人口百分比等。通过实例的讲解,学生对于所学的内容的理解更加深刻,同时也接触到一些利用回归的方法处理实际问题的技巧。
回归方法通常处理的变量的观测数据量很大,手工计算回归模型参数和检验统计量很困难。因此,通常需要统计软件进行计算。在回归分析中,常见的软件有SAS、SPSS等。这些软件都是收费性质的软件,虽然软件公司提供面向高等院校的免费版本,但功能较为有限。考虑这样的实际情况,我们在回归分析的实验课教学中采用了免费开源的统计软件,R软件。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。我们在实际的实验教学中,在讲解R软件的基本操作过程中,将如何利用R语言建立并求解回归模型融入其中。通过这种方式训练学生利用统计软件解决实际问题的能力。同时,我们在选择回归模型实例时,尽量考虑社会经济和管理领域的实际问题,选择和教学内容相关,同时又具有启发性的案例。这样,既训练了学生解决实际问题的能力,又锻炼了学生对社会经济现象的理解分析能力。
每年一届的大学生数学建模竞赛,目前已成为全国高校规模最大的基础性学科竞赛,它通常选择在实际的社会生产生活或者经济现象中遇到的实际问题为试题,目的是考察大学生运用所学的数学知识解决实际问题的能力。实际上,很多的竞赛试题都可以通过建立合适的回归模型加以解决。我们的回归分析开设在每学年的上学期,恰好和数学建模竞赛的时间相吻合,我们在教授回归分析的同时,鼓励学生报名参加该项赛事。我们根据学生的学习情况,将学生适当分组,充分调动学生的积极性和创造性。同时,学生在数学建模竞赛中也检验了所学的理论知识,激发了他们的学习热情。例如,针对建筑工程协会提供的一个由于遗漏了预测变量而造成人工的自相关现象的例子。该协会希望了解住房工程开工规模与人口增长的关系,其目的是为了预测建筑业的发展规模。由于客观条件的限制,不可能知道潜在的购房者的准确数据,只能把当地的居民数量作为反映潜在购房者规模的变量。收集的数据是该地区25年的资料,包括住房开工数、人口规模等。经过分析,一元线性回归可以反映人口规模和住房需求的关系。但是,人口规模与开工数之间的关系较为复杂,往往是住房开工数会影响人口规模(通过人口迁移),反之不然。通过分析这个实际模型,学生接触了现实生产生活中的变量更复杂,或许有其他的变量更好地解释开工规模,由于忽略了这样的变量而造成了误差间的自相关。这些可能的潜在变量包括失业率、婚姻和家庭的社会趋向、政府的住房政策、建筑和抵押资金的供给。通过实际分析,在引入了抵押资金后,误差的自相关性消失了,模型较好地反映了变量的关系。
应用回归分析是一门实践性比较强的统计学专业课,在以理论教学为主的前提下,还应与实践教学和案例教学结合。针对该课程的特点,我们改变了以期末考试的“一张卷”定分数的传统考核方式。我们以期末考试与平时能力测试相结合的考试方试。其中,期末考试主要考查学生对回归分析的基本理论和基本方法的理解掌握程度。平时能力测试包括平时作业的完成情况、上机实践考核、实践报告。此外,我们还建立了回归分析教学网站。我们将很多相关的参考资料放到网站上,包括教材、参考书、参考文献、教学大纲、教学计划、多媒体课件、实验案例、习题和解答、教学录像等。这样,极大地方便了学生在课前预习和课后复习。我们利用这个网站,课后与学生在网上交流学习情况、辅导答疑等。学生的平时测验也放到网站上,让学生在网上提交测验,这样给学生充分的思考时间。在期末考试结束后,教师结合以上几个方面的分数,给出学生的该门课程的最终成绩。
[1]何晓群,刘文卿.应用回归分析[M].中国人民大学出版社,2011.
[2]Samp rit Chatter jee.例解回归分析[M].机械工业出版社,2013.
[3]纪跃芝,王纯洁.《应用回归分析》的课程改革与实践[J].教育教学论坛,2014,(2).
[4]黄蕊,贺乐平.关于《回归分析》课程的教学思考[J].新课程研究,2014,(4).