基于车牌识别数据的车辆特征分析研究

2019-11-05 07:45丁岩杨万祥汪清杨乐胡晓
科技视界 2019年28期
关键词:城市交通数据挖掘

丁岩 杨万祥 汪清 杨乐 胡晓

【摘 要】近几年来,由于智能卡口设备的广泛部署,全国各地都积累了海量的车牌识别数据,这些数据为智慧城市分析提供了有力保障。车辆特征的分析,可以为城市交通、城市犯罪和城市治理等方面做出决策依据。因此,本文根据车牌识别数据,采用数据挖掘k-means聚类分析方法,分析路网中的车辆行为特征,对车辆行为进行时空刻画。分析发现,一般情况下,地域、时间和车辆属性共同决定了部分车辆的行驶规律。除此之外,摄像头的安装位置也会对卡口记录的数据产生极大影响,摄像头区域设有停车区域,极其容易造成车辆停滞车辆产生很多重復数据的情况。更多的情况,家庭用通勤车在工作日表现出很明显的早出晚归特征,并且只在早晚高峰出现行车记录,且轨迹固定,车辆活动具有区域性。研究结果表明,从车辆的角度解析城市交通,从交通的角度剖析城市发展,对智慧城市,智慧交通的研究和政策制定具有重大意义。

【关键词】车牌识别数据;数据挖掘;行驶规律;城市交通

中图分类号: TP391 文献标识码: A 文章编号: 2095-2457(2019)28-0004-004

DOI:10.19694/j.cnki.issn2095-2457.2019.28.002

【Abstract】Recently, large number of license plate recognition data have been accumulated throughout the country due to the extensive deployment of intelligent card port equipment. These data provide a powerful guarantee for the analysis of intelligent cities.The analysis of vehicle characteristics can provide decision-making basis for urban traffic, urban crime and urban governance. Therefore, according to the license plate recognition data, this paper uses the data mining K-means clustering analysis method to analyze the vehicle behavior characteristics in the road network, and describes the time and space of the vehicle behavior. The analysis shows that in general, the driving rules of some vehicles are decided by region, time and vehicle attributes.In addition, the installation position of the camera will have a great impact on the data of the recording of the card. The camera area has a parking area, which is extremely easy to cause a lot of duplication of data in the vehicle stagnant vehicle. More and more, the home use commuter car shows a clear feature of early arrival and evening return in the working day, and only in the morning and evening peak running record, and the track is fixed, the vehicle activity is regional. The research results show that the analysis of urban traffic from the angle of vehicles and the analysis of urban development from the perspective of traffic is of great significance to the research and policy making of intelligent cities, intelligent traffic.

【Key words】License Plate Recognition Data; Data Mining; Driving Rules; Urban Traffic

0 引言

近年来,随着人民生活水平的稳步提升,汽车已经成为生活中不可或缺的交通工具,随之而来,机动车的数量也逐年递增。据统计,截止2017年底,我国机动车保有量达3.10亿辆。2017年在公安交通管理部门新注册登记的机动车3352万辆,其中新注册登记汽车2813万辆,均创历史新高[1]。与此同时,经过多年信息化建设的推进和大数据云计算人工智能技术的不断完善,公安道路监控系统建设得到了长足进步,越来越多的城市路口、高速检查站和桥梁隧道都部署了监控摄像头,每辆机动车上也都安装了全球定位系统或者行车记录仪[2]。在这些设备的帮助下,车辆的行驶行为被记录下来,公安信息化部门也都搭建了一体化的大数据平台,以供交通大数据存储和查询分析。基于这些数据,人们可以对车辆轨迹进行研究,监控道路交通情况,检测异常车辆行为[3-4]。与此同时,生产研究工作也在逐步推进。目前投入使用的分析系统基本都是以基于记录的数据比对,查询碰撞来完成相关任务。除此之外,很多学者也根据车辆轨迹的时空信息进行了特定车辆的研究,如出租车载客地点分析、城市交通拥堵预测等[5]。这些工作对城市交通安全,打击犯罪和恐怖主义活动有着重要的意义。

卡口数据是使用车牌识别技术后的二次结构化数据,可以监控所有道路车辆的行驶记录,获取数据容易,且部署和维护成本低廉。本文针对卡口数据,基于数据挖掘技术,建立车辆行驶轨迹流程,对海量卡口数据进行了分析和梳理,建立车辆分析特征体系。特别的,我们针对提取的车辆轨迹特征,结合无监督学习算法K-means对车辆进行聚类分析。通过指标体系分析发现,一般情况下,地域、时间和车辆属性共同决定了部分车辆的行驶规律。除此之外,摄像头的安装位置也会对卡口记录的数据产生极大影响,摄像头区域设有停车区域,极其容易造成车辆停滞车辆产生很多重复数据的情况。更多的情况,家庭用车在工作日表现出很明显的早出晚归特征,并且只在早晚高峰出现行车记录,且轨迹固定,车辆活动具有区域性。

1 相关工作

目前,车辆行为分析的研究工作层出不穷。得益于深度学习技术的飞速发展,大量的研究直接利用视频图像技术识别车辆行为,以此来分析车辆在监控区域内的短期行为模式。例如,监控区域的车辆违章行为或者检测高速道路上的行人等潜在危险目标[6]。也有针对公共安全领域,研究车辆在重点区域的异常行为检测[5]。另一方面,得益于全球定位系统(GPS)的发展,车辆行驶轨迹分析技术通过对海量车辆轨迹和时间序列的分析,进行预测城市交通、出租车载客优先选择点、车辆超速异常行为监测(超速,逆行等)和城市尾气污染等工作[7]。面对道路卡口数据,研究者们主要通过分析性查询来识别伴随车、套牌车和轨迹预测等任务[8-11]。然而,大量的研究工作只是研究了特定数据的分析工作,缺少推广作用。一方面,基于视频图像的分析技术,只能针对监控区域额进行分析判断,无法分析车辆的长期行为特征。再者,基于神经网络的图像分析算法时间复杂度高,很难快速检测车辆行为,目前还无法做到海量视频的大规模快速检测。另一方面,基于GPS数据的研究工作必须采取车载GPS记录数据检测,设备成本高昂,同时还要考虑数据的远程传输成本,不符合现阶段公共安全领域车辆监控的实际情况。面对海量卡口数据,目前的分析型任务主要是基于数据比对等方法实现或者特定任务制定,很少有对卡口数据的综合分析和实证。其他的,针对车辆卡口数据,研究者们还针对性地进行了车辆分析,例如识别和提取危险化学品车辆,对车辆进行行车轨迹和行车时间预测[12-17]。

2 模型及方法

交通卡口系统通过车牌识别(车牌号码,车牌颜色)等信息进行二次分析,形成结构化数据,每个记录包含车辆车牌号码、车牌颜色、抓拍时间,卡口编号等主要信息。我们首先根据车牌编排规则,过滤了特定车牌的特殊车辆,如军车,警车或者大使馆车辆,例如车牌以“WJ”开头的特殊车牌车辆等。由于隐私保护,在保证车牌唯一性的前提下。

我们使用hash函数对过滤后的车牌号码信息进行了加密模糊。

根据卡口数据特点[14],车辆的轨迹可用一个时序顺序的轨迹点集合表示Pathj={p1,p2…pn},其中pi表示该车辆在第i时刻的抓拍卡口位置,j表示车辆j,j为标注车辆的唯一编号。根据实际情况,车辆的行驶一般不会具有持续性,往往会发生停车等情况。因此,我们将整个轨迹集合切分为多个子轨迹的集合PathSetj={S1,S2…Sm},以此来表示车辆的行驶记录,每个子轨迹Sh代表车辆的一个独立行程。我们规定,如果两个相邻记录的间隔时间大于一个阀值T,则将这条轨迹切段,前一个点为上一条轨迹的终点,后一个点为下一条轨迹的起始点。如图1是车辆的轨迹切分过程示例。

正常模式概率(normal pattern):定义车辆以天为单位的轨迹相似概率。

轨迹循环概率(trip cycle):车辆轨迹之间的最长公共序列的比例。

最高卡口频次(max frequency):定义车辆最常经过的卡口为p,则最高卡口频次表示为经过该卡口的总次数。

以上特征再与每天起始点是否主城区,每天终点是否主城区、是否是本地车和平均每天轨迹点数量等4个特征组合形成21个特征体系(轨迹段阈值时间为30min)。

3 实验及结果分析

與某市相关部门合作,我们提取了该市实际运行的卡口数据系统中从2017年11月中完整三周的数据。该市的卡口系统一共包括1507个卡口,我们截取了2017年11月6日至2017年11月26日完整三周的数据记录,其中记录车辆为10783380辆,本地车4204556辆。本地车根据车牌颜色统计,蓝色车牌为3664300辆,黄色车牌为326048辆,白色车牌为24845辆,黑色车牌为17854辆。由于车牌号码和车牌颜色为车辆的唯一标示,经过数据清理,首先清洗了车牌号码不完整的车辆34500辆,清洗车牌颜色记录不正确的车辆,清洗后剩余车辆总数为8685600辆。

本文首先使用提取的特征集合构造分析集合,使用无监督学习算法K-means对整体数据进行聚类分析。通过分析,我们将全部车辆聚类后分为18类[18-19],如图2所示。

车辆的行驶行为受到驾驶目的的直接影响,通过分析发现,有一类车辆的活动只活跃于高速公路检查站或者临近市区的郊区道路,且郊区道路皆属于高速公路卡口记录,如图3所示为该类车辆通过卡口记录的分布。该类车辆中,包含本地车数量为1133740辆,其余均为外地车辆。不难发现,该类车辆主要为过境车辆,且外地车辆居多。这类车鲜少进入主城区,只在高速通过,可归类为过境车辆。

城市车辆的用途大多为市民的上班通勤车,通过聚类分析,我们发现通勤车的驾驶行为表现因人而异。如图4所示,结果中第3类通勤车的主要特征表现为出行行为集中分布在早6:00至9:00,晚18:00至21:00。在早晚高峰阶段,其中大于50%的通勤车辆主要分布在主城区核心区域(城市中心区域)和新兴高新科技区域(雨花区软件谷),江北新区的通勤车辆较少。但经过细致分析,江北新区的车辆有其独特的昼伏夜行出行特征,即该区域车辆表现为凌晨夜间活动较多,但白天鲜少活动,如图5所示。另一方面,由于住家与工作单位的地理位置十分接近,一类车辆轨迹记录点较少,但特定是在其最高卡口频次指标上,这类通勤车的最高卡口频次是一般通勤车的2倍。可见,这类通勤表现为近距离、中心化的早出晚归通勤车特征。在城际高速公路出入口,通勤车的比例较小,几乎没有通勤车通过。

另外,由聚类结果知,有两辆车分别单独处于一类。经过分析,其最高卡口频次分别为4574和9240次,这两辆车为停车位置位于卡口拍照区域,每次有车路过,他们就会被记录一次。因此可见,摄像头的安装位置也会对卡口记录的数据产生极大影响。

通勤交通车的管理对城市交通治理政策的出台非常关键,直接关系着城市交通资源的配置和平衡,交通拥堵的缓解,对是否出台机动车限行限牌等措施的推行有很强的指导作用。因此,通勤交通车的分析可以对交通政策精细化实施提供有效的指导。

4 结束语

得益于电子卡口设备的广泛部署,海量车牌识别数据的分析能帮助我们更全面地了解车辆的行为特征与身份标识,为分析车辆出行行为和城市智慧发展提供了有力保障。因此,本文在该市车牌卡口数据的基础上,基于数据挖掘技术,建立车辆行驶轨迹流程,对海量卡口数据进行了分析和梳理,建立车辆分析特征体系。特别的,我们针对提取的车辆轨迹特征,结合无监督学习算法K-means对车辆进行聚类分析。通过指标体系分析发现,一般情况下,地域、时间和车辆属性共同决定了部分车辆的行驶规律。除此之外,摄像头的安装位置也会对卡口记录的数据产生极大影响,摄像头区域设有停车区域,极其容易造成车辆停滞车辆产生很多重复数据的情况。更多的情况,通勤车在工作日表现出很明顯的早出晚归特征,并且只在早晚高峰出现行车记录,且轨迹固定,车辆活动具有区域性。车辆的时空特性分布是城市智慧化运营的重要指标之一,在未来的研究中,我们还将深化车辆行为分析,建立更完善的车辆画像体系,探索道路路网的流量结构,研究城市机动车行为的预测算法,从车辆的角度解析城市交通,从交通的角度剖析城市发展,对智慧城市,智慧交通的研究和政策制定具有重大意义。

【参考文献】

[1]乔永锋.汽车行业正迈入新时代[J].中国汽配市场,2017(06):10.

[2]杨健,顾涛.公安视频专网安全管理系统的设计与研究[J].网络安全技术与应用,2017(3):154-155.

[3]黄卫.道路视频监控中的车牌自动识别算法分析[J].电子技术与软件工程,2017(16):79-79.

[4]马春香.基于海思平台的智能视频车牌识别算法[D].杭州电子科技大学,2012.

[5]Ma X,Koutsopoulos H N.A New Online Travel Time Estimation Approach using Distorted Automatic Vehicle Identification Data[C].International IEEE Conference on Intelligent Transportation Systems. IEEE, 2008:204-209.

[6]邱凌赟,韩军,顾明.车道模型的高速公路车辆异常行为检测方法[J].计算机应用,2014,34(5):1378-1382.

[7]吴子珺,于重重,孙利民,等.一种针对特定车辆潜在群体的行驶轨迹预测方法[J].计算机应用研究,2014,31(7):1951-1955.

[8]畅玉皎,杨东援.基于车牌照数据的通勤特征车辆识别研究[J].交通运输系统工程与信息,2016,16(2):77-82.

[9]郭昕,陈川.基于车牌识别数据的车辆使用特征研究:以上海市快速路非沪车牌识别数据为例[J].综合运输,2016(1):77-84.

[10]韩国华,蒋雨薇,丘建栋,等.基于车牌识别数据的出行特征研究[J].黑龙江交通科技,2017,40(9):213-214.

[11]孙剑,冯羽.自动识别环境下车辆的出行矩阵估计新方法[J].同济大学学报(自然科学版),2011,39(12):1800-1804.

[12]李晓莉,石建军.行程时间异常值处理方法研究[J].武汉理工大学学报(交通科学与工程版),2012,36(1):116-119.

[13]侯立文,谭家美.城市交通中利用Gram—Charlier分布估计行程时间可靠性[J].中国管理科学,2009,17(6):139-146.

[14]孙玉砚,孙利民,朱红松,等.基于车牌识别系统车辆轨迹的行为异常检测[J].计算机研究与发展,2015,52(8):1921-1929.

[15]Liu S, Liu Y, Ni L, et al. Detecting Crowdedness Spot in City Transportation[J].IEEE Transactions on Vehicular Technology, 2013, 62(4):1527-1539.

[16]Bacon J,Bejan A I,Beresford A R,et al.Using Real-Time Road Traffic Data to Evaluate Congestion[M].Dependable and Historic Computing.Springer Berlin Heidelberg,2011:93-117.

[17]Mohamad I, Ali M A M, Ismail M. Abnormal driving detection using real time Global Positioning System data[C]// IEEE International Conference on Space Science and Communication. IEEE, 2011:1-6.

周世兵.聚类分析中的最佳聚类数确定方法研究及应用[D].江南大学,2011.

T. Caliński, J Harabasz. A dendrite method for cluster analysis[J].Communications in Statistics, 1974,3(1):1-27.

[18]周世兵.聚类分析中的最佳聚类数确定方法研究及应用[D].江南大学,2011.

[19]T.Caliński,J Harabasz.A dendrite method for cluster analysis[J].Communications in Statistics,1974,3(1):1-27.

猜你喜欢
城市交通数据挖掘
新形势下我国城市交通发展战略思考
老龄化背景下关于城市交通适老化对策的思考
上海城市交通大数据研究与实践
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
契合城市交通需求 推进单轨交通发展
数据挖掘的分析与探索
基于GIS的城市交通流模拟与决策分析
基于GPGPU的离散数据挖掘研究