基于货运车辆车载 GPS 大数据的道路超速率计算与分析

2021-08-20 03:19何梓亮李扬周博俊徐鑫哲
机电工程技术 2021年11期
关键词:路段速率神经网络

何梓亮 李扬 周博俊 徐鑫哲

摘要:在我国交通事故统计中,人为失误导致的交通事故占90%,超速行为的危险性已引起各界重视。尤其大型货物运输车辆,其重量大,制动性能較差,该类车辆超速导致的交通事故通常比较严重。对货物运输平台提供的车辆行驶相关数据(包括 GPS定位数据、时间数据、速度数据)进行处理和分析。通过OSMnx在 Open Street Map下载广东地图数据并处理,运用隐马尔科夫模型对原始 GPS定位数据进行地图匹配,对车辆行驶数据进行 LSTM时间序列建模和学习训练,将训练好的网络用于各个路段车辆超速的预测。结果表明,该方法能够很好地拟合超速率的变化趋势,物流平台可以根据预测结果对司机进行提醒,对减少驾驶员的超速行为和保障安全行驶具有重要意义。

关键词:交通安全;超速;地图匹配;LSTM神经网络;时间序列预测

中图分类号:U279文献标志码:A文章编号:1009-9492(2021)11-0044-04

Calculation and Analysis of Road Over-speed Ratio Based on Freight Vehicle

GPS Big Data

He Ziliang,Li Yang ※,Zhou Bojun,Xu Xinzhe

(School of Mechanical and Electrical Engineering, Guangdong University of Technology, Guangzhou 510006, China)

Abstract: In the statistics of traffic accidents in our country, the traffic accidents caused by human error account for 90%. The danger of speeding behavior has attracted attention from all walks of life. Freight vehicle have high weight and poor braking performance. The traffic accidents caused by such vehicles speeding are usually serious. The vehicle driving data included GPS information, speed and record time which provided by the transport platform were processed and analyzed. The Guangdong street map data was downloaded from OpenStreetMap and OSMnx tool was used to process it. Then, the Hidden Markov Model was used to match the record location data to the map street. After that, LSTM model was used to fit the vehicle driving data and predict the over-speed ratio of the street. The result show that the model can fit the trend of change of over-speed ratio well, which is helpful for the transport platform. It is of great significance to reduce the over-speed behavior of drivers and ensure safe driving.

Key words: traffic safety; over-speed; map matching; LSTM neural network; time series prediction

0 引言

2020年8月6日,最高人民法院发布《交通肇事罪特点和趋势司法大数据专题报告》指出,在交通肇事案件中,货车肇事率占32.04%,远高于货车保有率(10.71%),其超速、超载等问题尤为突出。因此,研究大货车的超速行为,预测各路段的超速率具有重要的理论意义和实际意义。

目前,国内外关于超速行为在时间维度的研究较少。2020年,Yufang LI 等[1]选用路程、限速、平均速度、车道数等特征,对车辆在城市道路、郊区道路和高速公路的速度采用 GA-BP 算法和传统 BP 算法进行建模对比,结果表明 GA-BP 具有更好的准确性和动态跟踪性。2011年,Xu Liu 等[2]改进了传统 DBSCAN聚类用 R*树存储数据耗费大量资源的缺点,用链表进行数据储存,并对中国南方地区经纬度和超速数据进行实验。通过设定经纬度范围3 km对区域进行划分,统计各区域的超速数量,然后采用上述改进后的基于密度的聚类算法对各地区超速数据进行聚类分析,得出超速高发地段。2018年,东南大学钟宁[3]采用小波神经网络和 BP 神经网络对吴江区2016年3月每天的超速事件数量进行时间序列建模对比,以均方误差、平均绝对误差和平均相对误差作为模型的评价指标。小波神经网络各评价指标值分别为38.2397、4.8571和0.2016,BP 神经网络各指标分别为135.7863、8.5943和0.3182,可见小波神经网络对超速事件数量预测精度明显比 BP 神经网络高,且趋势拟合得更平滑。潘龙帅[4]、李文茹[5]等对城市车辆超速事件亦提供了各自的预测模型,但从目前国内外研究现状来看,数据获取主要通过模拟驾驶采集或单一车辆的数据采集,普遍性比较差。对速度的分析中,只是对城市进行分区域或道路性质进行区分,缺乏对细分路段的速度分析。由于货车的车载终端数据采集间隔达到15 s,不适合采用实时性较强的方法。

因此本文利用物流平台提供的货运车车载终端记录的数据,提取时间、GPS定位和速度3个特征。先将原始 GPS定位数据进行地图匹配,将每条数据都映射到相应的路段,然后针对每个路段计算每天的超速率 Ps( Ps =× 100%, C 为路段该日产生记录总量, Cs 为路段该日产生超速记录总量),采用时间序列分析对每天的超速率 Ps 进行趋势拟合以及预测,最后对时间序列模型的预测结果进行评价。该方法在道路超速事件获取时更具有普遍性,而且细分到各个路段的进行超速分析,预测结果更具代表性。

1 运输记录采集处理

1.1 运输数据获取

驾驶员运输数据由清远某物流平台提供,选取与地图数据相对应的经纬度进行数据筛选。数据采集时间为2018年6月1日—2018年7月13日,记录采集间隔为15 s ,数据内容包括:车辆 id 、车辆 GPS 定位、记录时间、车速和里程等,选取关键特征如表1所示。

1.2 数据清洗

在实际运输工况下,货运车经常进出隧道和经历颠簸的泥泞路段,车载终端因为信号被屏蔽或因抖动产生断电复位等情况,导致记录产生异常,在进行统计前需要先对原始数据进行清洗。

(1) 重复数据剔除

将各个字段值都相等的数据记为重复记录,并将其剔除不纳入统计。

(2) 速度数据处理

本文主要是对运输过程中超速率的研究,可以剔除掉连续10 min以上速度都为0 km/h的数据,减少了数据总量,可有效提高检索速度。

汽车进入隧道时,由于 GPS信号弱,在出隧道时记录值会产生漂移,速度值将达到160 km/h以上,本文将速度上限设为150 km/h ,超过该范围数据采用拉格朗日插值法(Lagrange Interpolation Polynomial)进行替换填补。拉格朗日插值法是根据已知数据点建立插值函数,缺失值由其对应的 xi 即可求出近似 L(xi)进行替换。对于平面内的 n 个点,可以找出一条多项式曲线都过这 n 个点:

将 n 个点(x1,y1), (x2,y2), … , (xn ,yn)代入式(1) 化简可得:

在本文中,选取速度缺失值前后5個数据建立拉格朗日曲线进行插补。

2HMM地图匹配

2.1 地图数据采集

地图数据来源为 Open Street Map ,在 python3.8环境下,通过osmnx读取保存,本论文主要分析物流平台记录数据中车辆运输密集路段,经度范围在 (112.0,113.0),纬度范围在(23.0,24.0)。地图数据以.shp文件进行保存,在 python中通过geopandas对其进行读取处理。地图匹配所需数据字段如表2所示。

根据道路交通法规及高速公路管理规定:高速公路行驶的小型载客汽车最高车速不得超过120 km/h ,其他机动车不得超过100 km/h 。因此对“maxspeed”缺失数据进行填充,当路段为高速时,将空值替换为“100”,当路段为省道国道时,空值替换为“80”。

2.2HMM地图匹配

采用隐马尔可夫模型 (HiddenMarkovModel, HMM )进行地图匹配,在国内外已有大量采用该方法进行地图匹配的研究。对马尔科夫链,可以用公式(3) 进行描述:

式中:Xn为在时间 n 时的状态,即在知道Xn的前提下,Xn +1的状态只与前一时间状态Xn有关,与前( n-1) 个时间状态无关。

本文采用 Yang[6]提出的 HMM 与precomputa-tion融合的地图匹配算法,该算法在进行地图匹配前,采用哈希建立一个地图数据的路径表(UBODT)来存放一定阈值下各区域对应的所有最短距离路段。在 Map Matching阶段,传统开销巨大的路径查询就可以用哈希表搜索来替换,大大提高了匹配的速度。图1所示为地图匹配总体流程。

根据驾驶员运输数据中的“pos_longitude”和“pos_latitude”字段,将其转化为 GPS 轨迹形式进行地图匹配,将每个记录都映射到相应的路段上。图2所示为所有车辆整月在所选区域内的行驶工况分布。

3 超速率时间序列分析

3.1LSTM时间序列

LSTM (Long-short Term Memory)模型是 RNN 循环神经网络的改进。图3所示为 RNN 网络中的一个神经元结构,其中Xt为输入,ht为输出,tanh函数作为激活函数。

图3所示 RNN 神经元可以用式(4) 进行表示:

ht =tanh(Wh ×[ht -1,xt ]+bh ) (4)

式中:Wh和bh分别为权重矩阵和偏置。

可以看出每个输出与上一次输出和当前输入有关,对于之前的信息没有记忆功能。因此,为了解决 RNN 这种长期记忆能力差,即梯度消失的问题,LSTM应运而生。图4所示为 LSTM网络的神经元结构。

与 RNN 神经元相比, LSTM 增加了遗忘门和输入门。遗忘门ft 对上一隐藏状态 ht-1和当前输入Xt进行信息取舍,通过 sigmoid 函数(值域为(0, 1),越接近0舍弃的信息越多,越接近1保留信息越多)将其保存为[0, 1]之间的向量,然后与上一细胞记忆状态相乘决定对旧细胞的取舍。可用式(5)对ft 进行表示,Wf和 bf 分别为相应权重矩阵和偏置。

输入门 it 同样以 sigmoid函数作为激活函数决定更新的信息。ht-1和Xt通过 tanh函数,数值大小将缩放到[-1, 1]之间,得到细胞状态候选值 t ,然后与 it 相乘决定当前细胞状态的记忆和保留。it 和 t 可用式(6) ~ (7) 计算。

细胞状态记忆单元 Ct 通过对上一状态 Ct-1记忆信息与当前细胞状态记忆信息叠加所得,计算如式(8):

最后,与遗忘门和输入门一样,输出门Ot以 sigmoid函数得出信息取舍条件,再通过 tanh函数处理细胞记忆状态 Ct 后与Ot相乘得出最终细胞单元的输出,计算如式(9) ~ (10):

3.2 路段信息分析

通过地图匹配后,每条车载终端记录都对映射到路网轨迹 fid上。对每条路段进行统计分析,表3所示为路段信息统计。

在该区域中,一共有1164条路段,途径货运车共1568辆,总记录数达3684515条。其中 fid为2737的路段车流量最大,该路段为 S350省道途径中华村、木古村和新坑村路段,长度6840 m ,总记录数98456条。fid为4360的路段的日均超速率最高,该路段为 G55二广高速途径肇庆路段长度为4050 m ,日均超速率为31.24%。这两个路段最具代表性,因此本文选用这两个路段进行分析,其他路段亦可通过相同方法进行分析。

计算 fid为2737和4360每天的超速率,并对其周期性和趋势性进行分析。在各路段速度分析中,需要选取合适的时间尺度,比如年、季度、月、日或小时等。该尺度需根据特征的分布规律进行确定,在本文中路段速度信息与人们出行规律,天气等因素有关,在工作日和周末由于车流量的变化会导致超速率呈现类周期性变化。图5所示为上述两路段的每日超速率分布。

3.3 超速率时间序列预测

对两个路段分别进行时间序列建模,建立超速率LSTM时间序列模型步骤如下。

(1) 将样本数据进行标准化,本论文采用零均值法,将样本数据转换为标准差为1,均值为0,转换如式(11),以 fid=4360的数据为转换后图形如图6所示。

(2)划分数据集和测试集,样本数据为43天的超速率Ps,取前36天数作为训练集,后7天数据作为测试集。

(3)根据数据规模和时序特性设置时间步和隐层细胞数,建立LSTM时间序列模型。

(4)对测试集进行预测,采用均方根误差RMSE和绝对误差 MAE 对预测结果进行评价。计算公式如式(12)~(13)。式中yi为第i个实际值,y?i为第i个预测值,m为样本数。

(5)对数据反标准化并对结果进行可视化。对fid=2 773路段进行时间序列分析建模,设置时步中递归次数为7,隐层细胞数为7,迭代次数2 000次,每次迭代样本数为7,训练LSTM模型。将训练好的模型对测试集进行预测,然后对数据反零均值化后,预测值与实际值的均方根误差为0.005 6,平均绝对误差0.004 6,可见模型能够较好地预测超速率。

预测值与实际值对比如表4所示,取第一个时间步以后,即后36天的数据进行可视化,并对后7天数据预测值与原数据进行对比,如图7所示。图中浅色线为原始数据,深色线为预测数据,可以看出预测曲线与原始曲线基本匹配。

对fid=4 360路段进行相同操作,设置时步中递归次数为7,隐层细胞数为7,迭代次数2 000次,每次迭代样本数为7,训练LSTM模型。将训练好的模型对测试集进行预测,然后对数据反零均值化,预测值与实际值的均方根误差为 0.015,平均绝对误差 0.012。预测值与实际值对比如表5所示,将数据反标准化后,对后36天数据进行可视化如图8所示。

从测试集预测结果来看,两个路段的 LSTM 模型都有不错的预测效果,能够很好地对超速率进行预测和对超速率变化趋势进行拟合。

4 结束语

本文采用货运平台提供的驾驶员自然驾驶数据,实现了对货运车定位数據的轨迹匹配,并针对两条最具代表性的路段的行驶数据进行 LSTM 时间序列建模,避免了 RNN 循环神经网络梯度消失的问题。最后,对路段的超速驾驶危险性进行预测,采用均方根误差评价测试集的准确性。结果表明,该模型在两个路段的超速率趋势拟合中均有不俗表现。本文的研究方法为物流运输平台提供了理论参考,其他路段亦可仿照本文方法建模预测道路的危险性,建立一个超速行驶危险性网络。

参考文献:

[1] Yufang LI, Chen REN, Hongwei ZHAO, et al.Investigatinglong-term vehicle speed prediction based on GA-BP algorithmsand the road-traffic environment[J]. Science China(InformationSciences), 2020,63(9):121-123.

[2] Yingji Liu, Xu Liu, Yu Yao.Overspeed Events Multiple SectionsResearch Based on Clustering Algorithm[C]//International Con?ference on TMEE, Changchun, China, 2011.

[3] 钟宁.超速行驶的道路交通安全风险管控研究[D].南京:东南大学, 2018.

[4] 潘龙帅, 高建平, 宋哲, 等. 多源信息融合的车速预测方法及整车能量管理[J]. 河南科技大学学报(自然科学版), 2020,41(6):23-31.

[5] 李文茹.城市汽车运行速度分布预测模型研究[D].长春:吉林大学, 2018.

[6] Yang C ,Gidófalvi, Gyz. Fast map matching, an algorithm inte?grating hidden Markov model with precomputation[J]. Interna?tional Journal of Geographical Information Science, 2018,32(3):547-570.

第一作者简介:何梓亮(1995-),男,广东佛山人,硕士研究生,研究领域为交通大数据分析和挖掘。

※通讯作者简介:李扬(1966-),男,广东湛江人,博士,教授,研究领域为智能装备制造、智能仪器仪表、自适应控制、过程传感与流动成像、视觉检测等,已发表论文150篇。

(编辑:刁少华)

猜你喜欢
路段速率神经网络
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
MIV-PSO-BP神经网络用户热负荷预测
基于元胞自动机下的交通事故路段仿真
基于元胞自动机下的交通事故路段仿真
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
盘点高考化学反应速率与化学平衡三大考点
走好人生“特殊路段”
化学反应速率与化学平衡考点分析
通过提高心理速率改善记忆