摘" 要:融合地理、计算机和数学等多学科知识,深入探究交通领域的数据可视化、聚类分析和时序预测等技术. 强化学生的数学建模素养,着重培养学生的实践能力和创新思维,以适应人工智能的高速发展.
关键词:数学建模;概率统计应用;跨学科;交通大数据
中图分类号:G633.6" " "文献标识码:A" " "文章编号:1673-8284(2024)06-0026-07
引用格式:唐颖超. 面向道路交通安全的跨学科研究性学习:以“北京市道路交通事故数据挖掘与分析”为例[J]. 中国数学教育(高中版),2024(6):26-32.
人类社会进入人工智能时代,数学已经渗透到人类社会的各个角落,这对数学应用能力的培养提出了前所未有的高要求. 数学建模作为连接数学理论与实际应用的重要桥梁,在高中数学教育中发挥着举足轻重的作用.《普通高中数学课程标准(2017年版2020年修订)》更是将数学建模列为六大核心素养之一,凸显了其在新时代教育中的重要地位.
然而,当前高中阶段的数学建模活动多局限于封闭性验证实验,学生往往只能通过预设的、条件固定的题目来掌握解题流程,缺乏与真实情境的联系. 因此,本文倡导对高中数学建模进行创新,由验证性问题转向更具挑战性的研究性问题,由封闭性问题转向开放性问题.
以“北京市道路交通事故数据挖掘与分析”为例,引领学生开展面向道路交通安全的研究性学习探索. 期望通过这一实践活动,培养学生的跨学科素养和综合能力,更好地应对未来挑战.
一、教学内容
1. 学科背景
现代社会,交通的便捷与安全关系着我们的生活质量和国家的经济发展. 每个人都是交通参与者,因此,深化对道路交通安全的理解至关重要. 同时,为了响应《交通强国建设纲要》和《北京市“十四五”时期交通发展建设规划》对道路交通安全体系的建设要求,对道路交通事故的数据挖掘与分析显得尤为重要. 这一问题的核心挑战在于,如何运用先进的数据挖掘技术和算法从道路交通事故数据中提取有价值的信息,并对其进行有效分析,进而提高对交通事故的治理水平.
2. 设计说明
本课题以项目式学习为设计理念,跨学科融合地理、计算机和数学学科知识,旨在培养学生的数学建模和数据分析素养. 本课题共分为跨学科初探、多角度实践和深度研讨三个阶段,学生将经历选题、做题和结题的数学建模过程,锻炼团队合作能力,提升跨学科、多角度、深层次的思维能力.
3. 组织形式
(1)跨学科初探.
以北京市海淀区道路交通事故数量和车流量关系分析为例进行案例学习,帮助学生掌握数学建模的核心步骤. 在此过程中,学生将阅读参考文献,探讨关于道路交通安全的现实问题.
(2)多角度实践.
学生在学习案例、阅读文献和课堂讨论后,基于北京市海淀区交通事故数据,发挥创意和智慧,确定了三大研究方向并分组. 教师在此过程中把控节奏,提供关键性指导建议,确保方案的科学性和可行性. 学生充分利用课后时间深入研究,提升研究效率.
(3)深度研讨.
生生互评与教师点评共同助力,改善薄弱环节,深入探讨研究局限,并指明优化方向. 与此同时,教师为学生介绍前沿研究成果,展示应用落地形态,有效拓宽学生的全局视野.
二、学生学情
本课题针对具备统计学基础和编程能力的高三学生开展. 强调探索性,要求学生在道路交通真实场景中运用数据知识、灵活调整策略、撰写研究报告. 考验学生的学习基础、思考深度,以及交流表达和创新能力.
三、教学目标
1. 深入理解数学建模流程
通过案例研究和成果展示,引导学生深入理解数学建模的关键步骤,包括研究背景、问题定义、数据处理、模型选择、模型评估等.
2. 培养数学抽象与模型选择能力
使学生能够根据项目情境进行数学抽象,选择合适的模型,如线性回归、聚类分析、时序预测等.
3. 掌握数据处理与分析工具
针对道路交通事故领域数据量大、涉及空间计算的特点,培养学生运用Excel,Mathematica,Python,R等软件处理分析大样本数据的能力.
4. 提升创新能力与全局视野
通过交通领域案例探究与前沿问题应用现状的结合,提高学生的创新能力与全局视野,树立学生积极严谨的科研价值观.
四、教学策略
现代教育背景下,先进技术为教学注入了新活力. 本课题运用以下工具丰富教学内容、提升教学效果.
1. 案例学习
深入分析北京市海淀区交通事故案例,帮助学生熟悉道路交通场景,掌握数学建模核心步骤.
2. 项目式学习
研究过程中,确保选题有引领,做题有跟进,结题有升华,助力学生完成整个项目的生命周期.
3. 人工智能
课题涉及大数据与人工智能技术,引入领域专家与数学教师协同指导,为学生答疑解惑,助力学生深入研究.
4. 信息技术
运用图表等可视化技术,降低跨学科门槛,使课堂展示更加直观、生动.
五、教学过程
1. 跨学科初探
北京市海淀区交通事故分析案例,旨在引导学生掌握数学建模原理与步骤,并培养学生在实际情境中运用专业工具进行数据收集、分析和处理的能力.
(1)研究背景.
交通事故频发已经成为严峻的社会问题. 中国平均每8分钟就有一人因车祸离世,凸显了道路交通安全问题的严重性. 科研界需要采取更专业、系统的研究方法来应对.
(2)问题定义.
本研究旨在探讨北京市海淀区交通事故数量与车流量之间存在的潜在关系,分析车流量对交通事故数量的影响.
(3)数据处理.
研究北京市海淀区道路交通事故数据,时间跨度为2022年第四季度到2023年第三季度,共71 682条数据. 具体包括交通事故发生时间、交通事故GPS定位、交通事故所在道路名称,以及该道路当日车流量,示例如表1所示.
对信息路和人民大学北路的事故数据进行统计,发现信息路的事故日平均道路车流量(2 073辆 / 日)显著高于人民大学北路(158辆 / 日),同时信息路全年发生的交通事故次数(413次)也远多于人民大学北路(13次). 这一对比有助于学生初步认识车流量与交通事故数量之间可能存在的正相关关系.
按道路名称对交通事故数据进行整合,以各条道路上的交通事故年总量为因变量,交通事故日平均道路车流量为自变量.
[Y:交通事故年总量 次 / 年,]
[X:交通事故日平均道路车流量辆 / 日=事故日道路车流量总和道路事故数量,]
共得到661条数据,变量描述统计如表2所示.
为了直观分析[Y]与[X]之间的关系,尝试绘制散点图,如图1所示. 根据散点图,可以发现数据点主要集中在低道路车流量和低交通事故数量的区域,随着道路车流量的增加,交通事故数量也有增加的趋势,但并不是线性关系.
对[Y]与[X]分别取对数,重新绘制散点图,如图2所示.
(4)模型选择.
由图2,我们看到散点大致分布在一条直线周围,因此尝试用一元线性回归描述数据,如图3所示. 借助Excel软件的数据分析工具回归功能进行拟合,得到[y]对[x]的回归方程为[y=0.793 6x-0.238 5],其中[y=lgY],[x=lgX],故[Y=10-0.238 5 ∙ X0.793 6].
(5)模型评估.
从图4的回归统计信息中看到,[R2]约为[0.377],说明回归方程能够减少因变量[y]的37.7%的方差波动. 考虑到实际上影响交通事故的因素众多,如天气、驾驶员行为、道路复杂度等,故认为在仅使用单一变量下达到目前的拟合程度是可以接受的.
从图4系数表中看到变量[x]的回归系数的检验统计量[t≈19.952,P-value=1.214E-69],在显著水平为0.05的情形下回归系数显著. 由回归分析可知,交通事故数量与车流量之间存在显著正相关关系,符合认知猜想.
如图5,将真实交通事故年总量和预测交通事故年总量进行对比,发现对于真实交通事故年总量超过[32]次的道路,当前模型拟合效果较好,否则拟合效果较差. 把[Y=32]代入[Y=10-0.238 5 ∙ X0.793 6]中,得到[X≈155,] 即对于日均交通流量超过[155]辆的道路,交通事故数量具有较好的统计特性;对于日均交通流量较低的道路,由于交通事故的偶发性,需要更加复杂的模型才可以精确拟合.
2. 多角度实践及研讨
经过案例学习、文献阅读和课堂研讨,梳理出三大课题方向:数据可视化、聚类分析和时序预测. 数据可视化通过专用软件揭示交通事故的时空分布规律,为深入分析奠定基础;聚类分析通过地理位置、道路条件等因素分类交通事故数据,揭示各区域交通事故发生的特点和成因;时序预测利用ARIMA模型预测未来交通事故数量,为交通安全预警提供科学依据.
鼓励学生自由组队,每组3 ~ 5人,推选组长并明确分工. 教师全程跟进,引入人工智能专家为学生答疑解惑,确保项目有序、顺利地推进. 这种组织形式旨在培养学生的团队合作精神和科研能力,同时为交通安全领域的深入研究贡献力量.
小组交流展示阶段性研究成果,相互借鉴、取长补短,引导学生从全局视角出发思考问题,为交叉、融合、创新的问题解决方式的提出奠定基础. 下面为部分展示内容.
(1)北京市海淀区交通事故数据可视化及分析.
① 背景分析.
北京市海淀区交通事故频发,数据可视化分析能揭示交通事故发生的时间、空间和模式,提高公众交通安全意识,优化交通规划,减少交通事故,保障居民安全.
② 数据处理.
利用Mathematica软件进行空间数据预处理,生成热力图(图略). 揭示北京市海淀区交通事故高发地点,如西三旗桥、箭亭桥、上清桥、西直门桥等,与官方数据相吻合,验证了分析的准确性.
如图6,通过热力图分析,发现周一9时和周五19时为北京市海淀区交通事故高发时段,初步推测与通勤、接送孩子和进出京人流量叠加有关,但是缺乏数据支持直接因果推断.
(2)基于DBSCAN模型分析北京市海淀区交通事故的空间分布与影响因素.
① 研究背景.
北京市海淀区交通事故频发,本研究尝试以空间聚类揭示交通事故发生的空间规律.
② 问题定义.
挖掘北京市海淀区交通事故高发区域,并进一步探究其背后的影响因素.
③ 数据处理.
由于数据量过大,通过简单随机抽样的方式在71 682个样本中随机抽取300个样本进行研究,并过滤部分离散噪声. 用Python软件将样本数据导入经纬度坐标轴上,考虑到北京地区经纬度1度大约是110千米的实际情况,小组选取了半径约为1千米的范围进行聚类分析. 具体地,尝试了0.01,0.008和0.007三个不同的半径参数,以寻找稳定的聚类效果.
④ 模型选择.
K-means算法对异常值敏感,且更适用于球形数据. 相比之下,DBSCAN算法基于数据密度进行聚类,能够抵御异常值的干扰,且不受数据形状的限制,能够很好地适应交通事故数据的条形分布特点. 因此,选择DBSCAN算法作为本研究的聚类方法.
⑤ 模型评估.
如图7,DBSCAN聚类分析成功揭示了北京市海淀区道路交通事故的高发区域,与利用Mathematica软件得到的分析结果相互印证. 为了探究交通事故高发区域的影响因素,可以进一步收集道路设计、交通信号、驾驶员行为等数据,挖掘其对交通事故的影响. 学生通过交流、讨论发现,如果能获得交通事故类型数据(如轻微交通事故、一般交通事故、重大交通事故、特大交通事故),再聚类分析,可以更精准地定位交通安全管理重点区域.
(3)基于ARIMA模型预测道路交通事故数.
① 研究背景.
运用时间序列模型对交通事故进行短期预测,有助于揭示未来交通事故发展规律并制定预防策略,共建安全交通环境.
② 问题定义.
依据2023年1月至6月北京市海淀区交通事故发生的历史数据,预测同年7月至10日北京市海淀区每日交通事故的发生数量.
③ 数据处理.
梳理总计181天的观察期内的交通事故数据,以日为单位进行汇总统计,共发生了43 884起交通事故,日均242.5起. 该时间段内,北京市海淀区交通事故发生的时间序列图,如图8所示.
④ 模型选择.
ARIMA模型能动态捕捉数据的时序特征,包括趋势和季节性变化,并提供灵活的模型选择和优化. 优于仅反映平均水平的均值方法,更适合揭示现象发展规律与预测未来趋势.
首先,学生分析了如图9所示的时间序列图,该序列长期来看有波动上升趋势,非平稳数据经过一阶差分运算处理后得到平稳序列,并通过自相关图(ACF)和偏自相关图(PACF)验证了其平稳性. 接着,通过AIC准则选择了最优模型ARIMA(3,1,1),利用最小二乘法估计模型参数. 最后,通过白噪声检验验证了模型的残差序列为白噪声,确保了模型的准确性和可靠性.
⑤ 模型评估.
宏观:ARIMA模型从序列自相关角度揭示了交通事故数序列的发展规律,但ARIMA假定未来趋势与过去相似,更适宜短期预测. 用ARIMA(3,1,1)模型预测同年7月初的交通事故数量(如图9和表3),发现有8天的观测值落在95%的置信区间内. 平均绝对误差(MAE)为49.2,意味着预测与真实值平均相差49.2,平均绝对百分比误差(MAPE)约为16.3%,表明模型预测精度较高.
微观:能否使用ARIMA模型预测单条道路的交通事故发生数量?学生探索后发现原数据为白噪声序列,无法使用ARIMA模型预测,需要进一步探索合适的预测方法.
3. 应用前景
教师总结指出这些研究成果具备广泛的应用前景.
数据可视化技术可以助力交通事故管理系统,优化警力部署,未来可以进一步拓展多维度可视化,添加道路类型、天气条件、交通流量等维度,以提升交警研判能力.
聚类分析成果可以用于道路交通事故高发识别,用于导航语音播报、路口或者转弯地段的风险警示,以及乡村道路岔口的电子哨兵等. 基于路段的聚类,未来可以结合多维度信息,如路况、天气、交通流量等,进一步优化聚类效果,降低交通事故发生风险.
时间序列模型预测结果,可以用于地图导航,实时提醒用户出行风险,提高出行安全性. 为提升预测精度,可以融合历史信息和实时信息,运用更高级模型. 据报道,江苏省泰兴市将实时风险地图应用于辖区内道路风险管控,使得辖区内交通事故发生数量、死伤人数和直接经济损失同比下降20%,取得了良好的实践应用效果.
六、教学反思
在现代教育浪潮中,跨学科研究性学习崭露头角. 对于高中数学建模与数据分析的教学,遵循课程标准要求、创新教学模式显得尤为关键. 针对学生的数学建模和数据分析素养,要明确培养目标,以实际问题为导向,鼓励学生运用前沿思想方法解决复杂问题,培养实践能力和创新思维.
本课题在高中数学常规教学中引入项目式学习、案例研究等教学方法,让学生在实践中学习,在探索中成长,使课堂的理论教学与现实问题相结合,需要学生综合运用不同领域知识,提出创新解决方案,锻炼了学生的综合素质.
坚守“以生为本”的教育理念,关注学生的学习需求与兴趣,灵活调整教学策略. 引导学生关注现实问题(如交通事故),探寻根源与建模解决方案,让学生体会数据的力量与价值. 同时,培养学生的自主学习能力和团队合作精神,促进学生之间的思想碰撞与共同成长.
研究性实验鼓励学生自主设计实验方案,科学收集研究数据,有序进行数据分析,体验科学研究的过程与方法,为未来的学术和职业发展奠定基础. 这对高中数学教师提出了更高要求,需要教师具备跨学科快速学习能力,进而为学生提供更加专业的指导.
结合创新教学模式、坚持“以生为本”、推动研究性实验教学的转变等措施,笔者引导学生进行了面向道路交通安全的跨学科研究性探索. 研究成果具有较高的应用价值和现实意义,为学生未来的学术与职业发展奠定了坚实的基础. 这一教学模式的推广与实践,有望为教育领域的创新与发展注入新的活力.
参考文献:
[1]章建跃,张艳娇,金克勤. 数学建模活动的课程理解、教材设计与教学实施[J]. 中学数学教学参考(上旬),2020(5):13-19.
[2]倪倩. 人工智能时代大学数学建模教学的机遇与挑战[J]. 中国多媒体与网络教学学报,2023(11):46-49.
[3]陈平. 培养建模能力" 提升核心素养:“数学建模:学生身高、体重的数据分析”教学设计与反思[J]. 中国数学教育(高中版),2023(6):41-47.
作者简介:唐颖超(1985— ),女,中学一级教师,主要从事高中国际课程教育及比较研究.