基于统计回归的数据分析教学方法研究

2019-01-18 07:54宋晓崔勇张茜王义张增辉
中国教育技术装备 2019年16期
关键词:数据分析

宋晓 崔勇 张茜 王义 张增辉

摘  要 大数据时代背景需要自动化专业本科生具备初步的数据分析能力。基于此,研究给出一种基于统计回归的数据分析案例,详细分析Excel、MATLAB的回归方法,同时在数据回归时以逐层深入的方式给出回归方法。学生上机实践证明,这种教学方法能够使学生初步掌握数据分析基本思路和方法,为他们以后从事相关研究工作打下良好基础。

关键词 统计回归;数据分析;MATLAB;系统建模与仿真

中图分类号:G642.0    文献标识码:B

文章编号:1671-489X(2019)16-0032-03

Teaching Method for Statistical Regression in Data Analysis//SONG Xiao, CUI Yong, ZHANG Xi, WANG Yi, ZHANG Zenghui

Abstract The big data era requires the undergraduate students of automation major to possess the ability of data analysis. To help the

students to possess this ability, this paper studies a data analysis case

of statistical regression. In this case, the regression methods in Excel

and MATLAB are introduced. Moreover, regression methods based on further analysis are presented. The course effects validate the feasibility of studied methods. The students are promising to acquire the data analysis abilities.

Key words statistical regression; data analysis; MATLAB; system modeling and simulation

1 前言

“系统建模与仿真”是面向北京航空航天大学自动化学院建模仿真理论与技术专业本科生开设的专业必修课程之一。系统建模与仿真技术是人类认识和改进客观世界的重要手段,在航空、航天、船舶、汽车等多个应用领域有着重要的理论意义和实用价值。本课程的教学目的是使学生系统了解系统建模与仿真的方法、技术与应用领域,培养学生掌握系统仿真的建模方法与仿真工具,掌握仿真系统的设计与实现方法。通过课程的学习,培养学生从方法论、认识论和实践论角度,理解与分析客观世界对象,具备建立对象模型系统、设计与构建仿真工程系统的能力,为今后从事相关工程技术研究和应用系统研发工作打下必要的基础。作为一门重要的培养解决复杂工程问题基本技能的课程,“系统建模与仿真”课程的讲授是学生学习相关专业课程、硕博阶段开展科学研究的重要技能之一。

知识驱动建模(如牛顿力学定律)和数据驱动建模是两种主要的建模方式,前者包括物理、数学等领域的经典解析模型,可以用常微分、偏微分、矩阵理论等手段建模,后者近几年随着人工智能技术的发展而逐渐被大家所重视。数据驱动中真实而丰富的数据是关键,通常的神经网络、人工智能都需要大数据,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据具有数量大、产生快等特点,通常需要专业的计算机、数学等理论、工具进行处理和挖掘。

针对数据驱动建模的重要性和学生学习数据模型的积极性,针对“系统建模与仿真”课程中缺乏面向数据分析综合训练案例的问题,设计一个面向人群疏散仿真中门通过率的数据回归实验。之所以选择人群仿真作为数据分析的主要对象,一方面是因为人群仿真属于社会仿真,学生很熟悉它的模型特點,但又对社会力、神经网络建模等学术研究比较陌生;另一方面,通过几次志愿者人群实验,积累了大量人群轨迹数据可以作为数据分析的对象。因此,选择人群仿真实验,向学生讲授如何利用Excel和MATLAB等工具实现初步的数据回归分析,以期为他们研究生阶段的深入研究打下良好基础。

2 案例背景:门通过率的统计回归模型

通常根据人们对模型的认识深浅,可将模型分为白盒、黑盒和灰盒模型。而人的行为,目前看更多是黑盒模型,比如股市中的博弈、逃生疏散中的人群行为,都很难用简单的数学公式去建模。

然而对这一类黑盒系统,往往可以通过一些手段去获取相应的一些数据,甚至是大数据;然后通过对数据的统计分析,可以找出与数据拟合最好的模型,从而实现对黑盒模型的数据回归建模。实际上,回归模型是用统计分析方法建立的最常用的一类模型。

在过去的20年中,行人行为建模主要有两种方法:社会力模型和元胞自动机模型。前者是连续的,后者是离散的,通常情况下社会力模型仿真过程中需要进行更多的计算。由于计算机计算水平的增加,社会力模型由于其连续性的特点逐渐成为主流。社会力模型的最大特点是其普适性,它可以轻松应用于任何场景,但它的微观行为和宏观的统计数据与真实情况还是有一定差距的。

目前,越来越多的研究开始专注于使用神经网络数据驱动模型来进行人群运动的仿真。有学者提出基于人工智能的人群运动仿真方法,该方法需要通过马路上的监控收集大量的微观行人运动数据,并通过一个神经网络来学习。他们的结果显示,该神经网络可以模拟行人通过人行横道时的微观行为。与此同时,其他研究利用循环神经网络完成在指定区域内行人轨迹的预测工作。他们的研究表明,神经网络模型比社会力模型更能准确地模拟行人行为。

与专门讲述统计方法的其他课程不同,课程不涉及回归分析的数学原理和方法,而主要是通过一个典型案例——人群疏散中门通过率(Exit Capacity,简称EC)的实例,讲授如何使用统计回归工具解决实际问题。

图1为利用开发的人群疏散仿真软件(Pedestrian Eva-

cuation Simulation Studio,PESS;網址:http://www.multiblogs.org)计算EC的仿真程序截图,得到数字仿真模式下如表1所示的结果。其中,EC的单位是人数/秒,门宽(w)单位是米,行人期望速度(v0)单位是米/秒。

3 统计回归方法教学设计

第一步,教会学生把数据用Excel进行可视化,主要使用Excel的“插入→散点图”工具菜单。因为单纯用肉眼看数据一般很难看出数据的变化趋势,但可视化到曲线图则可以比较方便地观察其变化趋势,实现曲线的初步预判。

有了这些数据处理的基本技能,可以进一步教授学生神经网络建模的方法。比如建立面向多场景的人工神经网络(ANN)人群运动模型。这里神经网络模型还是由数据驱动的,将多场景人群行为封装成四层神经网络,输出行人的速度及位置。所使用的训练数据及验证数据均来源于真人实验。将仿真结果与真实数据进行对比,无论是从微观现象,还是宏观数据,所设计的神经网络模型如果均优于社会力模型,那么就能体现出数据建模的优势。同时,ANN人群模型输入参数可以加入路径规划信息,并将输入参数进行矢量旋转,从而能够应用于各种场景,弥补目前神经网络人群运动模型的不足。

4 结语

从以上实例可以看出,建立数据分析模型是根据已知的大量实际数据,首先从常识和经验分析其基本特点,分析其最可能存在的回归变量,辅以作图(比如散点图),决定取哪几个回归变量及它们的形式(比如线性的,二次的,幂指数的,逻辑斯提克曲线的,等等),然后可以用数据回归工具进行分析(比如最小二乘法、Lingo、MATLAB工具箱等)。如果用软件求解,那么需要在数据拟合后进行统计分析,包括R、F、偏、方差等,对回归的数据模型进行整体评价,以检验对应的回归变量对因变量的影响是否显著(若包括零点,则不显著)。如果对结果不满意,还可以继续改进,比如换一种曲线、添加一次项、二次项和交互项等。

通过对多名大四学生在实际实验作业中的观察和分析,在实际上机过程中,可根据学生掌握数据回归技巧的程度实施差异化要求。

1)对有一定基础的学生,只把以上功能需求提出,点出Excel和MATLAB相关工具的名称,剩下的回归可以都要求学生自己实现;在学生遇到编程困难时,教师可给予一定提示。

2)对基础比较差的学生,最好给出比较具体的分析步骤,工具软件也必须提示到相应的菜单;同时,每当其遇到困难时,采取讨论的方式,进一步讲解,直至学生理解并实现数据回归功能。

实践证明,本文设计的数据回归与分析案例可以有效应用于建模仿真专业本科生的大作业或实验案例,是帮助学生理解课程中数据分析概念、掌握相应数据分析技巧的行之有效的教学手段。北京航空航天大学自动化学院教学组经过几轮的应用实践,从课堂交互、学生反馈、课程考核以及后续的毕业设计实践上均反映出该方法的有效性。后续还将进一步改善以上案例,使之能够更有效地运用于学校正在建设的精品课程中,为进一步增强学生的动手实践能力和科研创新能力提供工具和平台支撑。

参考文献

[1]姜启源,谢金星,等.数学建模[M].北京:高等教育出版社,2010.

[2]Ferscha A, Zia K. Lifebelt: Crowd evacuation based

on vibro-tactile guidance[J].IEEE Pervasive Compu-ting,2010,9(4):33-42.

[3]ZHONG J, LUO L, CAI W, et al. Ea-Based Evacuation Planning Using Agent-based Crowd Simulation[M]//Pro-

ceedings of the 2014 Winter Simulation Conference.

2014:395-405.

[4]Helbing D, Farkas I, Vicsek T. Simulating dynami-

cal features of escape panic[J].Nature,2000,407(9):

487-490.

[5]WANG Y, WANG J, SONG X, et al. An Efficient Adap-tive Fuzzy Switching Weighted Mean Filter for Salt-and-Pepper Noise Removal[J].IEEE Signal Processing Letters,2016,23(11):1582-1586.

[6]WU Y, SONG X, GONG G. Real-time load balancing scheduling algorithm for periodic simulation models

[J].Simulation Modelling Practice and Theory,2015,

52(1):123-134.

[7]SONG X, LIANG MA, YAOFEI MA, et al. Selfishness- and Selflessness-based Models of Pedestrian Room Evacuation[J].Physica A: statistical mechanics and its applications,2016,447(4):455-466.

猜你喜欢
数据分析
电子物证检验的数据分析与信息应用研究
基于matlab曲线拟合的数据预测分析
分众媒体趋势下场景营销的商业前景
佛山某给水管线控制测量探讨
大数据时代高校数据管理的思考
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议