闫鹏,张林
(华北理工大学 建筑工程学院,河北 唐山 063210)
上世纪80年代以来,我国智能交通系统逐步加速发展,目前,在城市交通管理、交通控制以及交通规划等领域智能交通系统得到广泛应用。在城市智能交通系统的发展过程中,虽然城市道路交通拥堵的紧张形势得到了有效缓解,但是通过车辆检测器、电子警察抓拍以及GPS定位系统等智能交通数据采集设备产生了数据量巨大的交通数据,主要包含交通流量、道路事故以及车辆违法数据,然而,交通大数据隐藏的价值信息尚未得到有效挖掘。
面对交通大数据,传统的数据存储、处理以及分析方法已经不能充分挖掘出具有高价值密度的数据信息。因此,目前城市交通系统面临数据种类繁多以及价值密度较低等诸多问题,如何智能化分析交通大数据,成为制约实现城市交通良好发展目标的瓶颈,必须积极采取有效措施加以解决。通过采用合适高效的数据挖掘方法,分析交通流量、道路事故以及车辆违法数据的时间或者空间特征,力争为城市交警部门准确判断道路交通运行状态效果、道路事故和车辆违法预警提供具有参考价值的建议[1-3]。
当今,以Hadoop大数据平台为代表的新兴大数据技术在处理大数据时表现不凡,为高效分析交通大数据难题提供了有效解决途径。通过采用Hadoop大数据平台智能分析城市交通大数据时空分布特征,可以深度挖掘交通大数据的潜在价值信息,为城市交通管理提供理论及技术支持,有效提升城市交通系统管理水平[4-5]。
1997年,加拿大Robert教授首次应用词频统计方法[6-7]解决了所在领域研究的热点问题,2002年,国内梁立明和邱均平2位教授首次采用词频统计方法分析相关问题的发展状况以及变化趋势。在诸多专业领域数据特征分析挖掘研究时,词频统计方法得到了广泛的应用。词频统计方法的原理即根据用户需求统计指定关键词的频率,并按照指定的关键词频率高低排列,进而分析所研究问题的本质特征。该方法的实质在于统计规定的文件内特定词语出现的频率,可根据分析统计结果得到特定词语的分布特征规律。
目前,应用词频统计方法挖掘数据方式主要为人工统计,此种方式极大降低了大数据计算效率。此外,词频统计分析小样本量数据不足以说明数据分布特征,必须具备充足数据量才可明确数据的隐藏的价值信息,因此,该方法适用于交通大数据的智能特征分析研究。
由于CentOS7系统具有良好的稳定性以及极高的安全性等优势,因此,选择CentOS7系统作为Hadoop集群运行环境,并安装配置相应的基础运行文件,保障Hadoop集群正常运行。交通大数据智能特征分析需要不断调试编译MapReduce程序以及综合考虑数据分析平台前期开发和后期Hadoop集群部署的便捷性,因此,Hadoop集群采用伪分布式安装模式部署。伪分布Hadoop集群软件[8-11]配置如表1所示。
表1 Hadoop集群软件配置
Hadoop集群正常运行需要安装合适JDK(Java Development Kit)开发环境,因此,下载JDK1.8版本压缩包并安装,在CentOS7.2操作系统中终端输入java-version命令查看JDK是否成功安装,图1所示表明JDK 1.8成功安装。
图1 JDK成功安装界面
在上述步骤安装之后,即可安装配置Hadoop集群,Hadoop集群配置文件分别为core-site.xml文件、hdfs-site.xml文件、mapred-site.xml文件以及yarn-site.xml文件配置。Hadoop集群主要文件完成环境配置,运行CentOS7.2操作系统终端输入./start-all.sh命令查看伪分布式Hadoop集群是否可以正常启动,输入jps查看Hadoop集群所有进程进程是否配置成功。Hadoop集群节点正常启动如图2所示。
图2 Hadoop集群正常启动
基于Hadoop平台的交通大数据智能特征分析研究,主要包含3个关键步骤,分别为读取配置文件、创建Job(设置Job运行主类)以及设置Job,其中,设置Job步骤主要包含Input和Output阶段、Map阶段、Shuffle阶段以及Reduce阶段。词频统计MapReduce实现流程如图3所示。
(1)Input和Output阶段
Input阶段负责指定文件的输入目录位置以及将数据文件划分为N个片段,片段的大小应和HDFS分布式文件系统的Block大小(64MB)相符合。Output阶段主要负责整理以及输出数据,并将输出文件存储于指定目录位置。
(2)Map阶段
该阶段以解析以及实现Map函数为核心,计算处理输入数据片段的键值对
(3)Shuffle阶段
将Map阶段具有相同key值的键值对划分为一组,并将具有相同key值的数据传递至相同的Reduce阶段。
(4)Reduce阶段
根据Reduce函数处理具有相同key值的键值对,并将最终分析结果写入HDFS分布式文件系统存储。
图3 词频统计MapReduce实现流程
城市交通数据主要包含交通流量数据、道路事故数据以及车辆违法数据3种数据,由于所研究的城市交通数据采集设备受限以及保密性原则等原因,该项研究主要以城市交通道路事故数据为例,开展基于Hadoop平台的交通大数据智能特征分析研究,力争通过分析道路事故数据的时空分布特征规律,为城市交通管理良好发展提供技术以及数据支持。
采集的道路事故数据来源于某市交警支队所属城市道路事故数据管理系统,采集时间间隔为2019年1月1日至8月31日,共计30903起道路交通事故,包含8个月的交通事故的报警时间、地址类型、事发地址、报警细类(事故类型)等内容,并将采集的数据存储在HDFS分布式文件系统,道路事故数据示例以及数据项描述分别如表2和表3所示。
表2 道路事故数据示例
表3 道路事故数据项描述
3.2.1 时间特征分析
(1)小时特征分析
根据Hadoop数据平台智能分析存储于HDFS分布式文件系统的道路事故数据,道路事故发生数小时分布的结果如图4所示。从小时分布特征角度分析,道路事故发生数小时分布呈波动式变化趋势,在上午9时事故发生数达到最大值为2 473起,凌晨4时事故数达到最小值为77起。上午7时至晚上19时时间段内,不同小时事故发生数高于小时事故发生次数平均值1 287起。此外,上午8时至中午11时以及下午17时至18时,两个时间段内不同小时事故数均达到2 000起以上,属于道路事故发生率较高时段。
图4 道路事故发生数小时分布
从报警细类发生数角度分析,不同小时报警细类主要以机动车与机动车以及机动车与非机动车报警细类居多,非机动车与行人报警细类占比相对于其它报警细类较少;根据不同报警细类发生数小时分布图5可知,不同报警细类发生数最低值均处于夜晚0时至凌晨4时,然而,单车肇事以及非机动车与行人报警细类发生数最大值,分别处于下午15时以及上午9时,其它4种报警细类均处于8时,在7时至21时时间段内不同报警细类发生数高于其它时段。
图5 不同报警细类发生数小时分布
(2)日特征分析
分析道路事故发生数时间特征分布,不仅可通过小时周分布体现,也可以通过统计分析日期分布特征体现,通过编写并运行MapReduce程序对不同日期道路事故发生数分类统计,具体统计分析结果如图6和图7所示。根据道路事故发生数日期分布图6可知,不同日期道路事故发生数基本在均值997起(占比3%)上下浮动,事故发生数日期分布相对稳定。但是,不同日期的事故发生率较高,多数日期发生的事故数在970起以上,13日至26日期间事故发生数略高于其它日期,17日发生道路事故发生数最多共1086起,日期事故数占比达4%。
图6 道路事故发生数日期分布
从不同报警细类发生数角度分析,由图7可知,不同报警细类发生数日期分布整体相对稳定,不同日期的报警细类主要以机动车与机动车以及非机动车与机动车类型居多,机动车与机动车报警细类日期发生数均值为677起,多半数日期机动车与机动车发生数超过该报警细类发生数均值,尤其在1日、10日、15日至17日以及24日至25日等12 d该报警细类发生数均在700起及以上,属于机动车与机动车报警细类高发日期。非机动车与机动车报警细类发生数分布基本在均值199起上下变化,在23日该报警细类发生数达到日期分布最高值为234起。此外,诸如单车肇事以及非机动车与非动车报警细类日期发生数均在60起以下,与机动车与机动车以及非机动车与机动车报警细类相比而言,属于低发报警细类类型。
图7 不同报警细类发生数日期分布
(3)周特征分析
采用Hadoop数据平台智能词频统计道路事故发生数,道路事故发生数以及不同报警细发生数周分布分别如图8和图9所示。根据事故发生数周分布图8可知,道路事故发生数周分布差异性较大,例如,周二事故发生数和周六事故发生数相差约600起。对比道路事故发生数周分布也可知,周五和周六道路事故发生数较高,周二和周日道路事故数较低,周六为道路事故发生数周分布最大值,周二道路事故发生数为周分布最低值。
根据不同报警细类发生数周分布图9可知,不同报警细类周分布特征相对稳定。与其它报警细类相比,不同报警细类发生数周分布中机动车与机动车报警细类占比最高,非机动车与行人报警细类占比最低。此外,在周五非机动车与非机动车、非机动车与行人以及机动车与行人报警细类发生数均达到最高值,单车肇事、机动车与非机动车以及机动车与机动车报警细类发生数分别在周一、周三以及周六达到最高值。
图8 道路事故发生数周分布
图9 不同报警细类发生数周分布
3.2.2空间分布特征
根据采集的道路事故数据以及实地调研结果可知,该市交警部门主要将主城区划分为5个管辖区域,因此,将道路事故数按照不同区域以及不同报警细类分类统计,以便分析不同区域事故形态特征分布规律,经过Hadoop数据平台智能词频统计分析结果如图10所示。
图10 道路事故发生数区域分布
从区域事故发生数角度分析,由图10可知,该市道路事故主要发生B区域以及E区域,2个区域事故发生数占比高于其它区域事故发生数占比,B区域事故发生数9 038起,属于道路事故高发区域。根据不同报警细类区域分布表4可知,5个管辖区域不同报警细类分布规律较为明显且变化趋势相对稳定。在5个管辖区域中,机动车与机动车、机动车与非机动车仍然属于报警细类高发类型,2种报警细类发生数占比分别在67%和20%左右变化,高于其它3种报警细类发生数占比。其中,在B区域以及E区域机动车与机动车报警细类发生数均达到6 000起,高于其它5种报警细类发生数占比。此外,不同区域非机动车与行人报警细类发生数占比均为1%,低于其它报警细类发生数,属于低发报警细类类型。
表4 不同报警细类区域分布
(1)基于大数据分布式并行计算技术,采用HDFS分布式文件系统实现了城市交通道路事故大数据的分布式存储;采用MapReduce分布式计算框架并行化词频统计方法的技术,以某城市道路事故数据为例,从道路事故发生数以及报警细类2个方面,智能分析了道路事故数据的时空分布特征,明确了道路事故时间分布特征和空间分布特征规律。
(2)根据道路事故特征分析结果可知,从城市道路事故发生数角度分析,道路事故发生数小时分布呈波动式变化趋势,上午8时至中午11时以及下午17时至18时,属于道路事故发生率较高时段;道路事故发生数日分布相对稳定,13日至26日期间事故发生数略高于其它日期;道路事故发生数周分布相对稳定,周五和周六道路事故发生数较高,周二和周日道路事故数较低;道路事故主要发生B区域以及E区域,2个区域事故发生数占比高于其它区域事故发生数占比。此外,从城市道路事故报警细类角度分析,城市道路事故主要以机动车与机动车、机动车与非机动车2种报警细类为主,非机动车与行人报警细类为报警细类低发事故类型。