王雪松 杨筱菡
摘要:相较于飞速发展的信息化、大数据浪潮和要求日益提升的交通安全目标,传统的交通统计分析课程内容设置和教学形式都不能满足日益增长的交通安全研究的需求。通过介绍统计分析方法在宏观交通安全管理、道路设施安全影响因素判别和事故多发道路判别与改善等领域的具体应用,说明交通统计分析课程内容在新時代下的要求。在此基础上介绍了此课程在主要教学内容方面的完善,以及案例分析与理论相结合、多元化教学的教学方法方面的改革。
关键词:交通工程;现代统计模型;机器学习方法;案例教学法;多元化教学
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2019)51-0082-03
一、课程改革背景
近年来,随着信息化和大数据工程的飞速发展,全国每天使用道路交通设施、参与交通活动的人数以亿计,其产生的交通数据更是以兆计。同时,随着人工智能和机器学习技术的迅猛发展,以智能网联为代表的道路基础设施信息化进程也在不断加快。多元且海量的交通数据使得交通安全研究面临着前所未有的新任务。
另一方面,与发达国家相比,国内在交通安全基础理论、关键技术等方面研发不足,迫切需要梳理决定我国交通安全的影响因素,在道路实施设计、交通管理政策等方面建立完善的分析体系,因此对交通相关专业人才的专业素养要求也日益提高。而交通统计学的思维和方法已经渗透到交通工程研究的每个环节,也成为高校培养交通工程相关专业人才不可或缺的内容之一。
交通统计分析课程是交通工程专业的本科生必修的专业类课程之一,是一门交通数据分析理论和方法的介绍类课程,是一门既有复杂理论知识,又有丰富应用技巧的交通专业基础课程。在目前的教学模式下,教学与应用仍然存在脱节现象,在进行小课题研究、毕业设计处理数据时,有些学生误用统计方法,使大量的信息和统计数据得不到有效的利用;有些学生又盲目使用计算机和统计软件,不管是什么研究类型的数据都简单地交给计算机处理,用计算机取代统计,势必造成大量统计方法的滥用和误用。
相较信息技术的飞速发展、大数据挖掘技术革命的浪潮和要求日益提升的交通工程目标,传统的交通统计分析课程内容设置和教学形式都不能完全达到预期的教学目的。为了培养符合新时代要求、具有科学研究思维、能应用统计方法指导交通安全研究的学科交叉性创新人才,必须不断探索有效的教学方式方法,对交通统计学课程进行改革和改进。
二、课程改革需求分析
我国城市数量多,城市体量大、道路复杂,道路设计安全性考虑不足,城市范围内道路设施机非混行严重、事故频发,需要系统研究宏观交通安全管理、道路设施安全分析、事故多发道路判别与改善技术,建立我国道路交通安全分析方法体系。我们就从宏观交通安全管理、道路设施安全影响因素判别和事故多发道路判别与改善等方面介绍新时代下交通统计分析的应用需求。
1.宏观交通安全管理。宏观交通安全影响因素众多,不同国家、城市社会发展状况与交通安全形势也存在显著差异,首先可以应用描述性统计分析方法分析各国家与城市历年交通事故特征。采用分布拟合优度检验,对比不同国家不同城市间的事故分布规律差异,探究中国交通安全的发展水平,用以规划、预测未来的发展趋势。采用离散选择模型建立事故数与安全影响因素的回归模型,并采用敏感性分析研究模型显著影响因素对于事故发生的影响程度。通过聚类方法,将事故显著性影响因素进行划分,进行类比和对比分析。归纳各国在事故影响因素方面的相似性和差异性。借鉴国外先进的统计分析技术,通过模型迁移学习方法,形成我国国家及城市区域宏观交通安全分析模型集。
2.道路设施安全影响因素判别。城市路网结构复杂,交通流量大,道路设施机非混行严重、事故频发,道路设计安全性考虑明显不足,亟待对道路设施进行分类,对同一类型的设施合理划分研究单元,进而建立安全分析模型剖析事故与道路设计、交通运行等因素的关联,对事故发生机理进行准确解析。因此举例来说,从安全分析单元划分角度,将交通事故在空间上进行集聚,针对城市主干路、信控交叉口、城郊主干路、高速公路四类典型道路,依据道路几何设计、交通运行状态、交通管控方式、事故分布形态等特征,采用分类的回归模型将道路设施划分为合理的安全分析单元。从安全分析模型构建角度,例如针对事故小样本数据,考虑事故时空相关性,采用负二项离散选择模型构建各类设施的安全性判别;考虑事故严重程度、碰撞形态的差异性及关联性,采用多元分层混合效应模型构建事故严重程度判别模型。从影响因素评估及对比角度,基于各类设施安全分析模型,计算道路几何设计、交通运行状态、交通管控方式等影响因素对交通事故数量、严重程度、事故形态的影响,作为道路设计标准制订、交通安全改善的依据。从以上三个方面构建面向城市道路设施的安全评估方法体系,构建不同类型道路设施安全分析模型,系统识别安全影响因素,形成复杂城市道路网络设施安全分析技术。
3.事故多发道路判别与改善。交通事故的发生具有偶然性,是小概率事件,事故的发生受到人、车、路、环境等多方面因素的影响,以及事故属性的多样性的影响,在建立事故多发道路判别指标体系和方法时,可以采用核密度估计、基于安全可提高空间的贝叶斯算法判别事故多发道路。采用包括事故数、死亡事故数等多样化评价指标,基于统计的一致性检验、排序差异性检验对判别结果进行评价,构建事故多发道路判别方法体系。基于历史事故数据和现场调研,编制典型安全隐患清单,构建城市道路安全改善措施知识库,采用经验贝叶斯法、统计回归模型法等测算改善措施的事故修正系数。在对事故指标、事故代替指标优劣筛选基础上,采用实验组和对照组的对比检验方法,评测改善效果。
三、课程内容改革
传统的课程主要内容涵盖了描述性统计分析方法和统计软件(SAS、SPSS),交通数据处理方法的基本原理和方法,多元线性回归在交通工程中的应用,分类变量的logit回归模型和离散选择模型介绍。
改革后的课程内容主要体现在增加常用的现代统计学方法和机器学习简介,统计软件增加了常用的R语言和在交通领域常用的LIMDEP。从内容结构来看,可以分成四个板块。
1.传统的统计分析方法。具体包括描述性统计分析方法,提供数据的初步整理、相关性分析、方差分析等;多元线性回归,用来拟合山区高速公路组合线形几何特征等;分类变量回归模型,用来拟合不同事故类型模型等;离散选择模型,应用到不同道路上的事故数预测及影响因素判别等;非参数检验和评估方法,进行统计模型的有效性和可靠性研究等。这部分内容仍然是课程的主要内容,也是将来能用相对复杂统计模型解决实际问题的理论基础,因此要求学生必须掌握每个统计方法的思想和原理。
2.现代统计模型。具体包括混合效应模型,分析不同道路类型下驾驶员跟车行为研究;条件自回归模型,用于城市宏观安全分析等;时间序列模型,拟合随时间变化的事故数变化规律;贝叶斯估计方法完成复杂模型的参数估计。这部分内容将弱化对原理及理论部分的要求,主要以案例分析的方式展开,了解如何使用这些统计模型进行建模,掌握如何进行模型结果的分析和模型的评估。
3.基于数据挖掘的机器学习方法。具体包括决策树,进行驾驶员疲劳等级分析与判定等;经验贝叶斯,用来进行统计模型可迁移性提升;随机森林,进行城市快速路交通事件持续时间预测研究;聚类分析,影响交通安全的影响因素判别。这部分内容主要以介绍为主,主要目的是让学生适当拓宽學习内容的深度和广度,跟上信息化新时代下交通领域研究发展的步伐。
4.统计软件的应用。具体包括SAS,R,LIMDEP,这几类软件都含有非常丰富的常用统计模型及机器学习模型,为实现各类统计模型的估计和检验提供操作基础。
四、课程方法的改革
1.以案例分析为切入点的理论与应用相结合。一个高素质高质量的交通专业人才,应该具备科学的统计思维方式,掌握常用的交通统计学方法的原理,并会利用统计软件解决实际交通具体问题。而事实上,非统计专业的本科生在学习统计方法类课程时都普遍认为太难太枯燥,听不懂,学不会,实践应用更困难。相比很多更“专”的专业课而言,这是一门数学课,是一门副课,久而久之就失去了学习的动力,将学习止于考试,因此教学模式的改革势在必行。
由于笔者在多年的科研中积累了很丰富的统计方法解决实际问题的鲜活案例,结合多年的教学心得和经验,经过加工,将这些案例搬进课堂,通过计算机演示软件的实现过程,并对模型输出结果进行解释、分析和评价。这一过程使课堂教学摆脱大量的烦琐演算的束缚,大幅度增加在宝贵的课堂时间内讲授的信息量,同时也让学生做到“所见即所学、所学即所用”。为了减少学生对统计方法的误用和滥用,一些基本的统计原理介绍还是必不可少的。因此在综合几个案例分析后,总结归纳其中的一些重要基本统计理论概念,例如在多次进行了多元线性回归分析建模后,可以对t检验、方差分析、均方误差等概念介绍其统计思想和基本原理。在完成用Logistic回归和Probit回归建模后,可以介绍Wald统计量、ROC、OR等评价指标的作用。在完成离散选择模型建模后,可以通过引入联结函数的定义,将以上三类统计模型统一到广义线性回归建模范畴,拓展了学生思路的同时也理清了不同模型间的关系、差异和适用条件。通过这些类似“翻转”的教学模式,实现以案例分析为切入点的理论与应用相结合的特点,并且大大降低了交通统计学的教学难度,也使得交通统计学的理论体系更加迷人。
2.多元化教学方法。改革后的教学内容较之前,从数量上来看,有成倍的增加,如何在不变的学时内完成更多的授课内容是教学方法改革的另一重点。因此,应该更高效地利用课堂时间,充分利用信息化手段,利用好课堂外的时间,将内容碎片化,将学习碎片化。
充分利用有限的课堂时间,以案例分析为切入点的理论与应用相结合的教学方式,压缩部分传统统计模型的讲授时间,减少无必要的详细手工计算,减少复杂的公式推导,减少部分浅显内容(例如描述性统计),改为自学或以实际数据分析小报告的形式完成。针对不同的案例,统计学方法有不同的处理方法,每种方法又有相应的应用条件,因此为了防止误用和滥用,教学侧重模型适用范围、使用要求和模型结果判别分析等方面,这样不仅能大大降低交通统计学的难度,而且也节约了教学时间。
其次,将学生按4—5名为单位分组,每组配备有一个研究生担任助教。教师确定几个典型交通案例,并提供相关脱敏后的原始数据集,课前让学生以小组形式尝试分析这几个案例,提出解决案例的思路,选用相应的统计方法,解决案例问题。最后每个小组都将解决案例的过程通过课堂报告的形式展示,整个过程大概需要占用2次课堂时间,在此过程中,针对同一个案例,学生们之间可以分享到不同的解决思路并有所共鸣,从而对统计学方法有更深刻的切身体会。
针对有一定统计学基础且兴趣浓厚的同学,可以布置一些较为复杂的统计案例课题并鼓励推荐参加已开设的“交通安全分析与数据挖掘”系列讲座。
交通统计分析课程改革的目的是通过学习本课程,让新时代下的交通专业人才与时俱进,对交通数据的采集和分析统计技术有较全面的了解,使之能更有效地服务于交通专业人才专业素养的提升。
参考文献:
[1]方守恩.新时代下道路交通研究面临的新任务新挑战[J].交通与运输,2018,(1):1-3.
[2]王雪松,王丽.以交通工程专业需求为导向的交通统计分析教学改革[J].教育教学论坛,2012,(31):99-100.
[3]王雪松,王晓梦,杨筱菡.平纵组合线形几何特征对车速变化的影响[J].同济大学学报,2018,46(05):0620-0625.
[4]陈亦新,王雪松.山区高速公路组合线形路段车道偏移行为[J].中国公路学报,2018,31(4):98-104.
[5]高珍,柯阿香,余荣杰,王雪松.基于随机生存森林的城市快速路交通事件持续时间预测研究[J].同济大学学报,2017,45(09):1304-1310.
[6]王雪松,袁景辉,杨筱菡.基于随机效应模型的交叉口事故碰撞类型建模[J].同济大学学报:自然科学版,2016,44(1).
[7]胥川,王雪松,张惠,陈小鸿.基于决策树的驾驶疲劳等级分析与判定[J].同济大学学报:自然科学版,2015,43(1):75-81.
[8]王雪松,宋洋.基于条件自回归模型的城市宏观安全分析[J].同济大学学报,2014,42(8):1176-1180.
[9]王雪松,宋洋,黄合来,张丹云.基于分层负二项模型的城郊公路安全影响因素研究[J].公路学报,2014,27(1):100-106.