□ 文/ 吉静 王天瑞
随着智慧城市建设的推进及智能交通系统的发展,交通数据分析需求愈加急迫。一方面,交通数据采集的范围、广度和深度急剧增加,正在形成以微波、线圈、GPS、车牌等交通流检测数据,交通监控视频数据,以及系统数据和服务数据等为主体的海量交通数据。另一方面,在大数据环境下开展研判应用的数据分析需求急迫,研判应用将有利于整合多种类型的交通数据,深入挖掘分析各业务条线情报,洞悉交通环境演变轨迹和机理,有利于最大程度地发挥交通数据的效能,提高交通运输系统的运行效率和服务水平,为公众提供高效、安全、便捷、舒适的出行服务。
如何以一种有序的方式迅速有效地管理交通大数据,进而能对研判应用进行标准化建设变得越来越关键。本文结合上海市交通大数据建设以及研判应用建设的具体实践经验,研究大数据环境下的数据标准化、数据应用的标准化流程,并根据实际案例,分析车辆研判应用中的黑车问题。
数据标准化主要是对数据基本单元的标识、分类编码、含义、表示格式等各个方面进行规范和统一。经过标准化的数据是信息系统的基石,它可以确保各项业务以完整、有效、高效的方式运行。对数据进行标准化有利于数据的查询检索以及与其他用户的数据交换,可加强数据在系统间及环境间的实用性和共享性,提高数据的长期使用价值。可以说,数据标准化工作是信息化建设最基础的工作。
数据标准化活动主要采用“确定数据需求—提取数据元—确定数据标准化要素”的方法。首先梳理各业务领域的数据需求,采用“自底向上”的方法,分类、汇总数据项,并抽象实体类,构建实体类的层次关系和数据模型。采用“自顶向下”的方法,通过对实体类定义、属性的规范化描述,提炼出标准化的数据元素,并将其实例化为实体元数据、数据元素元数据、类属元素元数据。
数据集成环境以数据对象层为核心,包含多种来源的数据,也包括对人、车、路的描述。数据集成环境统一建设基础数据集、规范化数据库、中间研判数据集,为各研判应用提供标准化、一致的基础数据源。
数据集成环境中的数据如图1所示,包括:路网数据、设备数据、其他数据等。路网数据主要指快速路网、地面道路网、高速公路网数据;设备数据主要指各种采集源数据,包括:线圈数据、SCATS数据、卡口数据、GPS数据等;其他数据包括天气数据、事故数据、违法数据等。各数据之间存在着相应的关联关系。
▲图1:数据集成环境
路网数据以及设备点位需要在GIS图层中进行配置,建立相应的关联关系。上海市浦东新区的道路图层与卡口图层如图2、图3所示。
▲图2:道路图层
▲图3:卡口图层
数据组织是沟通输入数据和输出数据之间的桥梁,是数据标准化建设中的关键阶段,是整个研判应用开展的基础条件。将各自管辖范围内的人、车和路数据按照应用方向进行组织,形成数据组织的标准化。
数据组织模型不仅关注数据的含义和表示,还关注数据中的各对象间的关联关系、拓扑关系等,包括设备和道路对象从属关系,道路对象层次关系和道路拓扑关系等。人、车、路的数据组织模型如图4所示。
▲图4:数据组织模型
由于大数据存在领域广泛、存储处理产品众多,不仅大数据的定义、相关术语、分类、 架构等方面缺乏统一描述,各种大数据产品的技术要求也不尽相同, 这种现状一定程度上阻碍了大数据产业的良性发展。对于交通领域的大数据发展,针对研判应用,需要建立相应的标准化建设流程。
研判应用根据研究对象的不同分为人、车、路三个方面。研判应用分析框架如图5所示。
对车的研究主要是车牌快速检索、车牌数据分析、车牌属地分析、套牌分析、非法运营车辆分析、区域出行分析、虚假号牌分析;对人的研究主要是人群密度中宏观分析、人群密度OD分析、轨道客流分析;对路的研究主要是道路指数分析、快速路拥堵状态分析。
▲图5∶研判应用分析内容
建立适用于城市交通领域的大数据分析流程和方法,能够实现简单的数据分析到工程化应用的过渡。无论是对人、车、路进行研究时,研判应用都需要进行标准化研究。
在对这些研判应用进行研究时的标准化流程如图6所示。
▲图6:研判应用标准化建设流程
数据配置
依托数据集成环境,抽取研判专题的个性化路网基础配置、对象配置及数据表结构和地址,生成专题配置文件。
数据预处理及质量监控
研判系统保存原始数据不进行数据质量检查,但在研判应用环节,将根据精度需求对各类数据进行预处理及质量监控和修补,对接入数据的完整性、一致性和有效性进行检查,通过数据碰撞及数据质量算法过滤异常数据,标识并剔除异常数据。数据预处理及质量监控的流程如图7所示。
▲图7:数据预处理及质量监控
分类与聚合
研判应用所服务的业务条线,都存在按照主题、业务、时间、空间及对象分类的特征,在进行个性化专题分析中,数据分类是前置条件;有些数据分类过于分散的情况,需要进行归类聚合,此功能是开展统计和挖掘的前置功能单元。
参数提取
通过原始数据“物理变化”提取基础模型参数,如20s流量生成1min流量,单元段车速生成发布段车速等,基础参数提取与研判应用需求相关,是算法模型及指标计算的前置功能单元。
算法模型
研判指标计算和结果输出需要构建独立的算法模型,如拥堵分析、路口指数等,算法单元将完成基础数据的“化学变化”,得到特定目标参数。
统计分析
按照时间维度对参数、指标及输出结果进行统计,如按照天、周、月和年,早高峰、晚高峰等,以及按照地域、空间、人群、类型进行分类统计,统计分析功能是所有研判应用的必备功能单元。
挖掘分析
挖掘分析为通过海量历史数据创建规律,按照时间维度、空间维度识别规律的差异性,常规特征及异常特征,发现数据背后的现实情况,该功能是连续数据类研判应用的必备功能单元。
关联分析
通过数据碰撞发现新问题和新特征,是研判系统的主要工作,关联分析依托数据集成环境,对与目标分析对象的研判应用建立关联分析,是研判应用进行业务方向转换与主题迁移的必备功能单元。
可视化展示
所有的研判应用都将创建可视化展示,直观反应研判应用的分析结果,便于相关部门进行执法管理。
根据以上的研判应用标准化建设流程,以车辆研判应用作为具体实例,分析数据应用情况。本节将详细描述黑车研判应用的流程,以及可视化展示的具体功能。
以车辆出行数据为基础,分析交通出行行为。基于已知历史黑车轨迹行为,创建黑车识别算法模型,对卡口历史过车数据进行疑似黑车识别与挖掘,并将黑车疑似名单交由相关部门进行缉查。黑车研判应用分析流程如图8所示。
▲图8:黑车研判应用分析流程
黑车研判应用可视化展示分为3个部分:疑似黑车信息、黑车活动规律、黑车过车记录。
疑似黑车信息
以月为单位,根据已查黑车及轨迹分析确认疑似黑车清单,并按照疑似度排序。疑似黑车信息如图9所示。
▲图9:可疑黑车清单
黑车活动规律
黑车活动规律显示黑车出现的小时统计表、月统计表、周统计表、黑车经过卡口次数前十排行,如图10所示。
按小时统计规律:以小时为单位,统计黑车在一天中主要活动时间的小时分布,后续补充同类车辆的主分布时间规律,对比观察黑车异常出行时间特征。
按天统计规律:以月为单位,分析疑似黑车的活动天数,黑车出行活动具有不规律性和偶然高发日期特性。
按周统计规律:以周为单位,分析工作日及双休日期间,黑车出行活动规律不同常规车辆。
按抓拍次数由高到低(卡口前10)统计:以卡口断面为对象,提取被抓拍位置,按照由高到低排序。
▲图10:黑车分析结果
黑车过车记录显示该车辆最近一周的过车记录,具体包括黑车经过地点、经过时间以及过车图片,如图11所示。
▲图11:黑车识别结果
本文分析大数据环境下的研判应用标准化建设,包括数据标准化、和研判应用标准化建设流程。根据实例,对车辆研判中的黑车进行分析,分析了黑车的可疑识别清单,以及黑车的活动行为,为相关部门的管理、派警缉查等提供了有效帮助。大数据标准化是大数据行业良性发展的基础之一,本文研究的标准化建设将为大数据的研判应用提供技术支持。