基于移动互联网大数据的客流数据处理系统与特征分析研究

2018-07-06 08:10
交通与港航 2018年3期
关键词:客流终端交通

上海市城乡建设和交通发展研究院

0 引 言

大数据是信息化水平发展到一定阶段的必然结果。随着移动互联网和智能移动终端的发展与普及,移动互联网数据是大数据的最主要的组成部分。移动互联网大数据主要包含移动智能终端的网络信令、协议、流量等网络信息;终端用户的社交、导航、新闻、搜索等行为信息以及用户的各类注册信息等。通过对这些信息的采集、提取、挖掘和分析,可以全面、清晰、准确地勾绘出用户特征,此类用户画像信息已成功地应用在精准营销领域,体现出了“数据是资源”的经济学价值。在城市智能交通领域,移动互联网大数据的挖掘应用,可以极大地提高传统传感器交通采集的时空覆盖范围和频度,减少传统的交通调查抽样数据的样本数据自身的局限性。深入挖掘移动互联网数据对于交通规划、交通管理、交通指挥以及交通运营意义重大。

1 移动互联网大数据的主要特性

1.1 无时不在、无处不在,时空覆盖面广

现今,智能移动终端如同我们的身体器官,与我们形影相随,通过移动终端,我们与社会保持着实时的联系与沟通。在移动互联的技术大背景下,我们的一举一动,都被数字化地记录下来。智能穿戴设备不但记录着我们行为的外在数据,而且自动实时记录、监测着我们生命体的运行。毫不夸张地说,移动互联网数据就如同“上帝之眼”,7×24不停地“关注”着每一个生命体。在交通领域,用移动互联网数据,可以获取居民出行时间、出行距离、出行的OD等居民出行特征;利用如微信、QQ社交软件,如高德、百度导航软件,挖掘出人群的迁徙、分布和出行轨迹以及路况拥堵等信息。移动互联网数据广泛的时空覆盖特性,为智能交通发展带来前所未有的改变。

1.2 多源、多维、海量、异构,“流”数据在线处理难度较大

据统计,2003年以前人类共创造了5艾字节(Exabytes)的数据,而今天创造如此大量的数据只需要两天时间。美国网络分析公司 StatCounter 报告显示,2016年10 月份,全球网站来自移动端(包括手机和平板)的访问量首次超过了桌面端(包括台式机和笔记本)(见图1)。移动互联网大数据的时代来临了!移动互联网用户使用智能终端的行为特点的碎片化和多样性,其所产生的数据也大多是非结构性、异构和海量的数据。与传统的结构化小数据相比,这种多源异构、分布广泛、动态增长的移动互联网大数据对数据传输、处理和存储提出了较高的要求难度,尤其是交通路况短时预测业务对大数据的要求更高,本文将在后面予以详述。

2 移动互联网大数据平台的架构设计

传统意义上的数据采集传输、存储计算和处理分析主要针对结构化数据展开。对于移动互联网大数据来说,涉及的数据包括终端的加速度计、陀螺仪、指南针、GPS、无线信号(如GSM、WiFi)和蓝牙等传感器数据以及用户的行为数据。在平台架构设计时,需要根据业务的需求和处理的时间将划分为在线、近线和离线三种方式来处理。这其中,在线处理的处理时间通常在毫秒级,一般采用流处理方式;离线处理的处理时间通常以天为单位,一般采用批处理方式,这样会最大程度地利用好输入/输出系统;近线处理对其处理模式没有特别的要求,处理的时间一般在分钟级或小时级,在实际情况中多采用此处理方式,可根据需求灵活选择。

针对移动互联网数据特点,常用的移动互联网大数据处理系统在交通行业的应用平台架构如图2所示。

该架构中,数据储存的数据形式可分为格式化数据、半格式化数据、文本数据。格式化数据采用成熟的关系型数据库作为存储解决方案,半格式化数据采用NoSQL数据库来进行存储和管理,文本数据采用HDFS来进行存储,利用YRAN实现资源的调度和管理。根据数据使用场景,可分为实时数据和非实时数据,对于实时数据首先采用内存数据库进行存储和管理,经处理后再进行持久化存储。

2.1 数据源

多源的交通异构数据源中,有车辆检测器数据、GPS数据、收费交易数据、交通卡数据和手机信令数据等结构化数据,也有交通监控视频、交通事故报警信息、交通管制信息、互联网社交文本数据等非结构化数据以及来自气象、水务和市政施工的半结构化数据,这些数据共同构成了交通大数据资源。从数据量、数据流和数据处理难度看,视频数据和移动互联网数据首屈一指。

图1 桌面终端和智能移动终端数量占比曲线图(图片来自:StatCounter)

图2 移动互联网大数据平台架构通用架构图

2.2 数据传输、处理和存储

数据传输、存储和处理层是交通大数据处理体系的框架核心,Sqoop整合数据源数据,存储于分布式数据库HBase中,这里一般采用H D F S的H B a s e。MapReduce离线计算框架用作交通模型预测和交通规律挖掘,Storm实时计算框架用于实时处理大规模流数据,开展短时交通预测。

2.3 数据挖掘分析与应用

交通大数据的挖掘分析就是希望通过数据揭示交通特征与规律。可以包括居民出行行为、居民出行模式、居民职住分布以及交通自动检测、交通拥堵规律统计、交通短时预测报警以及交通政策评估等业务。

3 基于移动互联网大数据的客流出行分析及应用

在上述数据架构设计的基础上,利用移动通信公司的手机信令数据、互联网公司的社交数据和导航数据,搭建基于移动互联网大数据的城市客流分析系统。其技术原理、关键技术和主要功能如下:

3.1 技术原理与技术路线

基于移动互联网大数据的实时客流采集分析系统的技术思路是:

步骤1,在每个统计时刻,从手机通信运营商和互联网服务企业的服务器实时获取带有脱敏加密手机用户信息。信息主要包括时间序列、终端ID、智能终端的位置、智能终端的用户使用信息。系统对每个终端ID进行实时位置跟踪和处理分析,判断该终端ID是否在目标区域,计算其进入、离开和停留在目标区域的时间。

步骤2,计算当前时刻、时段各个目标区域内的终端总量,根据终端样本比例、人均随身手机持有比例,放样至总体人群,最后,得到当前统计时刻各个空间区域内的真实人口数量,即总体人口在整个目标区域的分布和进出信息。

步骤3,根据应用需求,按照各种算法模型,动态监测目标区域客流动态、勾绘目标区域客流的电子图像。结合交通规划、交通管理和客流组织、预警疏导对目标区域的客流信息的要求,处理并展示应用数据结果。

基于移动通信信令数据的客流检测技术路线见图3。

3.2 关键技术

3.2.1 智能终端定位空间与基础目标空间之间的匹配、映射技术

首先需要根据终端数据的空间定位尺度,确定客流数据计算和存储的最小空间范围,确定基础目标空间作为客流数据空间统计的基本单元,如可以按照500 m×500 m的网格确定基础目标空间,然后将终端的位置信息映射到基础目标空间。将手机用户所处的位置按照交通小区划分。

3.2.2 动态客流推算技术

针对桥隧、通道、轨交站点等断面,根据移动用户经过该断面两个交通分析区域的先后顺序及时间间隔,判断移动用户是否有跨越通道断面的行为。通过断面动态客流推算模型,估算断面客流量。

区域动态客流推算:针对某一特定区域、客流集散中心、重要交通枢纽以及大型活动场所,通过区域动态客流推算模型,推算进、出、逗留客流量,分析不同时间段该区域的客流集散规律。

3.2.3 客流计算多层扩样技术

通过实测或者人口普查数据,建立用多层扩样模型,将检测到的终端用户群体扩样至全体人群,并确保计算的客流准确性。

3.2.4 海量数据并发处理技术

利用大数据理念与技术研究建立海量数据并发处理技术,确保系统从动态信令数据到动态客流分布的快速计算和快速响应,保证输出动态数据的实时性和准确性。采用先进的分布计算集群技术,通过海量数据处理服务器提供多个实时通道和优先级别,保证信息及时响应;通过多级数据过滤、设置数据分组、小批量实时数据实时处理、并行计算与负载均衡等处理,保证海量数据的高效存储和快速处理。

3.3 主要功能

3.3.1 客流动态监测与预警

基于移动互联网数据的上海市区域客流密度见图4,基于移动互联网数据的上海国际度假区客流动态检测与预警见图5。

3.3.2 客流迁徙方式、迁徙数量和迁出迁入地分析

通过移动互联网大数据,对区域客流的迁徙及出行方式做出分析和统计。如2016年五一小长假上海客流的迁移数据见表1~表5。

图3 基于移动通信信令数据的客流检测技术路线

图4 基于移动互联网数据的上海市区域客流密度

图5 基于移动互联网数据的上海国际度假区客流动态检测与预警

3.3.3 客流特征画像

根据移动互联网大数据的职住算法,上海国际度假区主题乐园游客总体特征如下:以上海本地游客为主,占据游客总量的80%以上,其次是北京游客占总量的4.13%,苏州游客占2.55%。外地游客来源地比较分散,以周边城市和北京、广州为主。游客以男性游客为主,占所有游客的63%。从年龄分布来看,游客主要以青年为主,其中74.77%的游客属于青年群体。

通过对来访外地游客的当晚居住地判断,14.9%的游客住在3 km范围内的酒店,22.1%游客住在5 km范围内的酒店。从住宿情况来看,大部分游客选择住在迪士尼园区里面的玩具总动员酒店以及迪士尼乐园酒店等,3~5 km范围内游客主要住在上海红锦国际酒店和上海康桥万信酒店公寓等。

以客流高峰日2017年2月3日(初七)为例,当日客流在早8点至9点,客流攀升迅速,为入园客流高峰期,晚间闭园时段客流消散迅速(见图6);全天主要聚集地客流稳定,主要集中在米奇大街、奇想花园、探险岛、宝藏湾、明日世界、梦幻世界、玩具总动园等区域;晚7点至8点,焰火表演期间客流迅速向主题乐园区域集中,出现当日聚集峰值。

表1 2016年五一小长假上海市客流迁徙量和三种交通方式占比

表2 2016年五一小长假上海市客流迁入量和三种交通方式占比

表3 2016年五一小长假上海市客流迁出量和三种交通方式占比

表4 2016年五一小长假上海市客流迁入量和排名

表5 2016年五一小长假上海市客流迁出量和排名

图6 2017年2月3日(初七)客流曲线

4 结束语

客流信息是一切分析社会现象基础。通过移动互联网大数据技术,及时准确全面地掌握客流,挖掘客流特征,对实现城市规划科学性、城市管理精细化和城市运行安全的基础具有非常重要的意义。本文通过对基于移动互联网大数据的城市客流检测分析的探索研究,仅仅是客流数据应用的起步,该项工作的拓展应用任重道远。

猜你喜欢
客流终端交通
客流增多
城市轨道交通节假日期间大客流行车组织思考与实践
繁忙的交通
X美术馆首届三年展:“终端〉_How Do We Begin?”
通信控制服务器(CCS)维护终端的设计与实现
小小交通劝导员
GSM-R手持终端呼叫FAS失败案例分析
基于自学习补偿的室内定位及在客流分析中的应用
人工免疫算法在电梯客流时段划分的应用
ABB Elastimold 10kV电缆终端及中间接头