基于Hadoop的交通流量统计分析系统的应用研究

2016-04-18 07:24耿兴隆王丽河北软件职业技术学院河北保定071000
河北软件职业技术学院学报 2016年1期
关键词:智能交通大数据

耿兴隆,王丽(河北软件职业技术学院,河北保定071000)



基于Hadoop的交通流量统计分析系统的应用研究

耿兴隆,王丽
(河北软件职业技术学院,河北保定071000)

摘要:随着信息技术和物联网技术在城市交通领域的广泛应用,城市交通流量数据已经呈现出大数据的诸多特征。采用传统的信息处理技术对交通大数据进行分析时不可避免地遇到了性能瓶颈。基于Hadoop的交通流量统计分析系统可以很好地统计和分析这些数据。通过基于Hadoop的平台对交通流量信息的处理方法展开研究,设计了交通流量统计分析系统,并给出相应研究数据,最后对系统进行仿真并验证系统的可行性与有效性。

关键词:智能交通;大数据;Hadoop;MapReduce

1 系统研究背景

云计算、大数据和物联网技术的不断发展,引领着智能交通相关应用技术的快速发展,信息技术越来越广泛并深入地应用于智能交通中。在人们生活条件不断提高的前提下,汽车走进了千家万户,城市交通拥堵,引起了国家和社会的广泛关注,智能交通就显得尤为迫切,而智能交通越来越依赖于信息处理技术。

Hadoop是针对互联网应用而提出的一种被广泛认可的、面向大数据计算的、开源的大数据计算系统开发框架,其以HDFS和MapReduce编程模型为核心,在大数据计算方面表现出优越的运算效率。随着在网络搜索、数据挖掘和用户行为分析等众多的互联网领域的大量成功应用,基于Hadoop的行业应用研究已经成为计算机领域的研究热点。Hadoop是一个分布式体系结构,它是由Apache基金会负责研究和开发的,用户不需要透彻地了解位于该体系非常底层的实现过程,就能够用常用的编程语言编写出相应的应用程序。运用集群来进行快速运算和储存。Hadoop的一个重要组成部分是分布式文件系统(System File Distribute Hadoop),简称为HDFS。HDFS的一个优点是它的高容错性,对硬件的要求非常低,并且它具备对应用程序数据的高数据速率,适用于超大数据集的应用。HDFS对POSIX的要求比较宽,在文件系统中对数据的读取操作是通过流的方式进行的。

2 主要研究内容

在城市中,每天都产生大量的交通信息,Hadoop HDFS的出现可以很好地利用这些信息数据,对城市交通进行合理的引导,从而缓解城市交通拥堵的压力,为人们的日常生活和工作提供便利。

本课题组首先对Hadoop中的HDFS和MapReduce编程模型进行了深入研究,并对目前常见的几种大数据计算平台进行了分析比较;然后,在实际布署的Hadoop集群环境中,设计并实现了一种分布式引导交通流分配方法,该方法在已知城市路网数据集的条件下可以兼顾交通引导和优化交通流分配,同时也提出了一种获取城市路网数据集的搜索算法。围绕上述方法设计并实现了一种基于Hadoop的交通信息服务系统,能够根据实际出行需求,兼顾优化城市路网交通流分配的目标,向用户提供分布式交通引导服务。通过构建中间层实现了根据接入的用户请求,自动触发Hadoop计算任务的功能,解决了Hadoop原有的离线式批处理工作方式不适合实时在线信息服务的问题。

以深入理解Hadoop系统结构为前提,在实验环境下对三个节点的Hadoop集群进行了完全分布式部署,并分析了怎样在该集群上进行相应的MapReduce程序编写。

通过统计数据分析了交通信息服务系统的需求,对交通信息服务系统做了基于Hadoop的MapReduce模式的设计和实现,并对交通信息服务系统进行了测试。

3 系统设计的目标和原则

通过采集系统获得了交通流量方面的海量数据,需要搭建计算能力超强的数据运算平台(数据的冗余度高),研发该系统的主要目标为:(1)代替传统数据并行处理方法,以减小编程工作量;(2)充分利用资源,提高应用效率;(3)高效管理数据,及时反馈处理结果;(4)扩展系统灵活性,增强系统可用性。

系统设计的原则有两个。第一,经济原则。在搭建基础设施时充分利用了当前资源。第二,高效原则。系统以大数据作为技术依托,根据平台的典型特征,可以很好地分配现有的资源,极大地提高了资源利用率,并且对系统构架进行合理的调整,最终实现了大规模数据的高效处理。

4 系统总体设计

4.1系统模型体系结构设计

基于Hadoop的交通信息服务系统模型如图1所示,系统包括三层,分别为服务器、中间件以及底层。

图1 系统结构图

4.2功能子模块设计

系统功能如图2所示。整个系统管理层包括六大功能模块:

(1)客户端通信模块:负责发送请求和接收结果。

(2)结果显示模块:负责将服务器发送的结果,通过Google Maps绘制并显示在客户端。

(3)数据预处理模块:负责将交通道路网中的所有连通的路径进行处理,得到任意两个节点间的最短路径集合。

(4)服务器通信模块:负责监听客户端的请求,并把请求传递给中间层去处理,并在处理结束后把结果发送给客户端。

(5)中间层模块:负责衔接通信模块和底层基础设施模块,负责用程序实现Linux命令行操作等。

(6)底层基础设施层:即Hadoop集群,主要负责后台运算。

图2 系统功能模块图

4.3 MapReduce实现统计分析算法

根据交通道路网的所有路径集合得出最短路径集合关键代码如下。

Reduce过程实现的是key值相同的value进行权值计算,最小值为最短路径,并把所有的最短路径输出,输出的格式是键值对。输出的结果即为最短路径集合。

根据交通道路网的路径请求统计各个OD对出现的次数程序。

Reduce过程实现的是将所有key相同的数据都进行相加,得到一个新的数据,输出的格式是。输出的结果即为各个OD对出现的次数。

根据最短路径集合和各个OD对出现的次数,给出推荐路径程序。

Map过程实现的是对读取的每一行字符串进行分割,把前三个字符作为key,把后面的字符作为value。

Reduce过程实现的是对key值相同的value进行处理,根据字符串中是否包含”=”来判断是请求次数还是最短路径。输出的结果即为对于各个路径请求给出推荐路径。

5 结论与展望

在对Hadoop体系结构和城市交通路径导航有了较为深刻的理解的基础上,在实验室内利用普通台式机构建了Hadoop集群,并在集群上进行城市交通信息服务系统的开发和测试。

当然,Hadoop并不是万能的解决方案,Hadoop适合于海量数据的计算处理等应用场合,而且Hadoop目前的版本还不够完善,有的功能特性还没有实现,如果Hadoop能支持更多的数据类型,并且能使数据关联更加容易,则会使Hadoop适应更多的领域。

参考文献:

[1]刘鹏.云计算[M].北京:电子工业出版社,2010.

[2]王鹏.云计算的关键技术与应用实例[M].北京:人民邮电出版社,2010.

[3]Tom White.Hadoop:The Definitive Guide[M].O’Reilly-Media,Inc.,2012.

[4]MapReduceTutorial[EB/OL].(2015-10-15)[2011-08-19].http://hadoop.apache.org/common/docs/current /mapred_tutorial.html.

The Application of Traffic Statistical Analysis System Based on Hadoop

GENG Xing-long,WANG Li
(Hebei Software Institute,Hebei Baoding 071000,China)

Abstract:With the wide application of information technology and Internet of things technology in urban transportation,urban traffic flow data have been presented with many features of large data.The bottleneck of the traffic data is analyzed with the traditional information processing technology.Hadoop based traffic flow statistics analysis system can be very good for the statistics and analysis of these data.Based on the Hadoop platform,this paper studies the processing method of traffic flow information,designs the corresponding traffic flow statistic analysis system,gives the corresponding research data,and finally,simulates and validates the system.

Key words:intelligent transportation;big Data;Hadoop;MapReduce

作者简介:耿兴隆(1982-),男,河北衡水人,讲师,硕士,主要研究方向为软件技术开发与应用;王丽(1982-),女,河北衡水人,讲师,主要研究方向为会计、统计分析等。

基金项目:2014年河北省统计科研计划项目“基于Hadoop的城市交通流量统计分析平台的设计与研究”(2014HY19)

收稿日期:2015-10-16

文章编号:1673-2022(2016)01-0044-04

中图分类号:TP311.03

文献标志码:A

猜你喜欢
智能交通大数据
基于物联网的智能交通系统架构
基于支持向量机的车牌字符识别方法
智能交通中的车辆检测专利技术综述
基于大数据背景下的智慧城市建设研究