SPSS软件在数学建模竞赛中的应用实践

2020-07-16 18:19徐燕
教育教学论坛 2020年23期
关键词:多元线性回归相关分析数学建模

徐燕

[摘 要] SPSS软件菜单化操作、图表化的输出特点是非统计学专业人员进行数据分析的有利工具。该文以2019年全国大学生数学建模竞赛D题为例,以SPSS23软件为工具,简述该软件在数学建模竞赛中的应用,对数据进行相关分析、多元线性回归分析和残差分析等。

[关键词] 数学建模;SPSS;相关分析;多元线性回归;残差分析

[基金项目] 2019年度高等学校中青年教师国内访问学者项目资助

[作者简介] 徐 燕(1981—),女,博士,广州民航职业技术学院人文社科学院数理统计学专业副教授,南方医科大学生物医学工程学院访问学者,主要从事统计学方法和应用教学与研究。

[中图分类号] G642.0    [文献标识码] A    [文章编号] 1674-9324(2020)23-0331-03    [收稿日期] 2019-10-08

一、引言

SPSS软件是当前世界上应用最广泛的统计软件之一,特别是对于非统计学专业人员,其菜单化操作、图表化输出的风格体现了其自动化、智能化操作平台发展的成果。使用SPSS软件,我们几乎可以完全自动的自变量的预变换、筛选、模型优化、检验等工作。因此,SPSS软件是一个深受广大用户的喜爱的强大的统计工具。

信息技术的飞速发展,产生了海量的数据。如何管理、分析和使用大数据是当前市场迫切的需求,从全国大学生数学建模竞赛近年来的频频出现的大数据相关的题目也可以感受的到。作为非统计学专业的大专生,对于复杂的数据统计分析方法和工具接触并不很多,如何让这些学生快速入门和掌握一门有利的数据分析软件工具、完成数据分析和建模等任务就是我们近几年来数学建模培训教学研究的重点。

二、2019年全国大学生数学建模竞赛D题简述

空气污染对生态环境和人类健康危害巨大,通过对PM2.5等“两尘四气”浓度的实時监测可以及时掌握空气质量,对污染源采取相应措施。由于国控点监测数据的实时性和经济性不足,而自主研发时效性和经济性并优的微型空气质量检测仪的监测数据可能受到温度等气象学因素的影响,以及设备本身随着使用时间的延长可能产生监测误差,因此我们需要对自建点监测数据进行检验和校正,提高其精确度。我们首先需要对自建点数据与国控点数据进行描述性统计分析和探索性分析,寻找导致自建点数据与国控点数据差异的因素,最后建立模型对自建点数据进行校准和预测。

监测数据可能受到温度等气象学因素的影响,我们通过相关分析探索变量之间的关系,再通过散点图初步发现变量之间的回归关系,进而采用多元回归分析进行建模,并对模型进行残差分析。我们以竞赛提供的监测数据为例,使用SPSS23进行数据分析和建模。

三、SPSS23数据分析和建模应用

(一)建立数据文件

竞赛提供的Excel数据文件,SPSS软件可以直接读取Excel数据文件,需要对变量进行适当的定义,从而生成完善的SPSS数据文件。

(二)相关分析

SPSS软件中提供了“相关”子菜单,其中双变量(Bivariate)过程可以实现连续性变量的相关分析。

1.操作过程。(1)“分析”→“相关”→“双变量”,打开“双变量相关”对话框;(2)将“PM2.5”与“温度”“湿度”“风速”“压强”“降水量”选入“变量”列表框中;(3)单击“确定”按钮。

2.结果分析。相关分析结果如表1所示,PM2.5与风速和温度存在负相关关系(Pearson r<0,P<0.001),温度的增大,PM2.5有减小的趋势;PM2.5与压强、降水量和湿度有正相关关系(Pearson r>0,P<0.001),随着压强或降水量或湿度的增大,PM2.5有增大的趋势。

由相关分析的结果,PM2.5等监测变量指标与温度等气象学变量有相关关系,因此,提示我们进行下一步的多元回归分析。

(三)多元线性回归分析

SPSS软件中提供了“回归”子菜单,其中线性(Linear)过程可以实现多元线性回归分析。

1.操作过程。第一步:做散点图,观察变量之间的趋势。因为有多个变量,所以做散点图矩阵。(1)“图形”→“图表建构程序”,打开“图表建构程序”对话框,选择“散点”,将右侧出现的散点图矩阵图表拖入画布中,单击“确定”,绘制散点图。(2)在输出文件中双击图形区域,进入编辑状态,选择“元素”→“增加趋势线”,在图形中添加回归线。

从散点图矩阵可以看到,PM2.5与风速和温度存在负相关关系,PM2.5与压强、降水量和湿度有正相关关系,与相关分析结果一致,并且变量之间呈现一定的直线关系,因此,提示我们进行下一步的多元线性回归分析。

第二步:多重线性回归分析,如图1。(1)“分析”→“回归”→“线性”,打开“线性回归”对话框;(2)将“PM2.5_1”选入“因变量”列表框中,将“PM2.5”“温度”“湿度”“风速”“压强”“降水量”选入“自变量”列表框中;(3)在“方法”下拉列表框中选择“逐步”;(4)单击“确定”按钮。

由于进行了变量筛选,SPSS首先给出了每一步模型的输入/移出变量,展示了变量的筛选过程,如表2(迭代步骤较多,仅展示前两个模型的结果)。第二,SPSS给出了模型的汇总,报道了决定系数R、R方和调整的R方,R方的值越接近于1说明模型的拟合效果越好,如表3。第三,SPSS给出了模型的ANOVA检验,报道了变异的分解、自由度、均方和F值、P值,P<0.05说明模型有统计学意义,如表4。最后,SPSS给出了模型的参数,以及各个系数的假设检验,从而我们可以写出所建立的多元线性回归方程。

第三步:残差分析,首先对残差的独立性进行检验,可以在上述回归过程中“统计量”子对话框汇总选择“Durbin-Watson检验”,如图2。输出结果如表5,Durbin-Watson值为1.980,通过查统计表,与界值进行比较说明满足独立性。然后,SPSS软件的“图形”模块可以输出残差直方图和P-P图,从图中可以看出,模型的残差没有严重的偏离,基本服从正态分布。因此,由残差分析说明所建立的模型具有较好的拟合效果。

四、讨论

相关分析与回归分析关系密切,一般有相关分析发现变量之间的相关性,相关系数r反映了两个变量之间的密切程度,下一步利用散点图判断变量之间的线性或非线性关系,然后利用回归分析进行建模,回归系数β反映了自变量对因变量的平均数量变化关系。

多元线性回归模型可以采用“向前”“向后”“逐步”等多种回归分析方法来进行自变量的筛选,这些方法在分析中可以相互对比讨论,同时结合人工筛选。

回归分析有严格的使用条件,在拟合时需要不断对这些条件进行检验判断。回归模型建模步骤一般包括如下:①做散点图观察變量之间的变化趋势;②对数据的分布特征进行探索和检验,进行预变换,使其满足回归分析的数据要求;③进行多重线性回归分析,建立基本模型;④进行残差分析,分析模型的拟合效果,讨论离群点和多重共线性问题。经过以上过程后,可以得到统计学上认可的模型,下一步还应当结合专业背景,将分析结果应用到实际中去检验其实用价值,讨论实际应用中存在的问题。

五、总结

我们以2019年大学生数学建模D题为例,利用SPSS软件建立了有效的校准模型.SPSS软件是非统计学专业的大专生解决数据分析、数据建模问题的有利工具,其菜单化、图表化的特点让非统计学专业的大专生能够快速入门、输出结果结构化简单明了,易于理解和应用。

参考文献

[1]张文彤,邝春伟.SPSS统计分析基础教程(第3版)[M].北京:高等教育出版社,2017.

[2]武松,潘发明.SPSS统计分析大全[M].北京:清华大学出版社,2014.

[3]林建忠.回归分析与线性统计模型[M].上海:上海交通大学出版社,2018.

[4]汪东华.多元统计分析与SPSS应用(第二版)[M].上海:华东理工大学出版社,2018.

Application Practice of SPSS Software in Mathematical Modeling Competition

XU Yan1,2

(1.Academy of Humanities,Guangzhou Vocational and Technical College of Civil Aviation,Guangzhou,Guangdong 510403,China;

2.College of Biomedical Engineering,Southern Medical University,Guangzhou,Guangdong 510515,China)

Abstract:The menu-based operation and graphical output characteristics of the SPSS software are useful tools for non-statistical professionals to carry out data analysis.Taking problem D of National College students' Mathematical Modeling Competition in 2019 as an example,this paper briefly describes the application of SPSS23 software in mathematical modeling competition,and carries on the correlation analysis,multiple linear regression analysis and residual analysis,etc.

Key words:mathematical modeling;SPSS;correlation analysis;multiple linear regression;residual analysis

猜你喜欢
多元线性回归相关分析数学建模
城乡居民医疗费用的相关性与回归分析
数学建模中创造性思维的培养