罗孝羚,蒋阳升*
(西南交通大学a.交通运输与物流学院;b.综合交通大数据应用技术国家工程实验室,成都610031)
出租车乘客的出行目的是交通调查中的重要内容,其对城市功能结构规划,城市道路网络规划,交通组织设计及优化具有重要的意义.传统出租车乘客出行目的调查方式主要有旅行日记调查、电话调查、小组调查等人工调查方式[1-3].传统的调查方式要求前期准备、试点调查、实地调查、调查结果整理和录入,需要耗费大量的人力和物力.
近年来随着信息设备在交通领域的广泛应用,使得一些原始的交通数据得以自动传输到数据库系统,并保存下来.在这样的背景下,利用已有的原始数据,获取有价值的交通信息成为研究热点.如公交数据方面有:利用公交车IC卡数据分析票价结构[4-5],利用公交GPS数据分析公交车运营服务可靠性[6],融合IC卡数据和GPS数据获取乘客出行需求[7-12].出租车数据有:利用出租车运营数据分析路段行程时间和速度[13-15],利用出租车GPS数据分析运营效率[16].地铁数据有:利用地铁数据对地铁运营现状进行分析[17-18].这些研究都说明通过有效的技术手段对一些已有的数据进行挖掘,能够快速有效地获取有价值的交通信息,相比于传统的人工调查方式,这种方式能够节约大量的人力物力.
通过上述分析可知,传统的出租车出行目的调查需要耗费大量人力物力的问题.为了解决该问题,结合数据挖掘技术,本文通过融合出租车运营数据及地图的爬虫数据,实现出租车乘客出行目的的识别.
本文中所用到的成都市出租车数据包含的主要字段为:车辆ID编号,每次触发GPS设备时的时刻,以及在当前时刻下车辆所处位置的经纬度且是否有乘客在车上.表1为成都市出租车的部分运营信息表.
表1 成都出租车数据库系统记录数据Table 1 Recorded data in database system of Chengdu taxi
由于需要训练识别模型和检验所训练的模型对出行目的识别的准确性,因此我们对成都市区域的乘客进行了抽样问卷调查,主要的调查内容是乘客的出行目的和出行特征.
在调查数据之后,需要对数据进行相应的处理,如将文字表达方式数字化,以及将数据区间化,方便后续计算机处理,表2为处理之后的调查数据.
本文所用到的POI点信息是利用爬虫技术从高德地图上获取的,具体步骤是首先在高德地图申请密钥,然后根据获得的密钥结合爬虫技术就可以从高德地图获取特定区域所有的POI点信息,表3为部分获取的POI点信息.
表2 部分转化后的调查数据内容Table 2 Partial transformed data content by survey
表3 部分爬取的POI点信息Table 3 Partial information of crawled POI
从上述部分爬取的POI点的信息可知,每个POI点的信息包含其所属类别,具体类别与该POI点的信息功能相对应.由于乘客从下车点到最终目的地的距离处于一定范围内(具体范围为依据调查数据确定),我们将该乘客从下车点到最终目的地所能够容忍的距离定义为半径阈值r,因此,从POI点层面,可以对乘客的出行目的做出相应的判断.如图1所示,我们认为乘客下车之后,可能前往POI 2点作为其最终目的地,由于POI 1点与下车点的距离大于半径阈值r,乘客将不会选择POI 1点作为最终出行目的地.
图1 半径阈值说明示意图Fig.1 Sketch map of radius of the threshold
本文提出的基于出租车数据和POI点数据的出行目的识别方法是从出行特征和所属POI点类别两个层面对出行目的进行识别,然后依据两个层面的识别结果进行综合判断
依据出行特征判断出行目的,本质上属于分类问题,目前该问题已经有多种方法可以解决,如神经网络、贝叶斯、决策树、支持向量机、最近邻等方法.由于不同方法的识别效果不同,因此在实际使用过程中需要通过测试,然后选择分类方法.虽然这些方法的原理差别很大,但是这些方法总体都可以表示为依据特征推导对象所属类别,具体到该问题为
由于出租车具有灵活便利,具备门到门的服务能力,因此在调查中,乘客乘坐出租车出行的“下车点离最终目的地的距离”这一内容进行了调查以确定乘客从下车点到达可能的最终目的地的阀值半径r.因此,依据这个条件,通过POI点层面也可以对其出行目的进行判断,可以表示为
最终出行目的的识别,需要将依据特征识别的出行目的和依据POI点类别识别的出行目的实现有效融合,才能够得到最终的出行目的.将两种不同的方式作为一个集合,则可能出现式(2)~式(5)的情况.
式(2)由于基于POI点识别方式的结果为空集,最终出行目的只能为依据出行特征识别的出行目的;式(4)由于两种方式识别的结果完全一致,最终出行目的即为任意一种方式识别的出行目的;式(5)则是由于基于POI点识别方式识别出多种出行目的,且多种出行目的中有一种恰好和使用特征识别的出行目的一致,最终出行目的为两者识别结果的交集,则以上3种情况的最终识别结果都可以表示为
式(3)则是基于POI点识别方式的结果不为空且与基于特征识别的结果出现不一致的情况,因此在最终确定识别目的时存在两种方式,一种为以出行特征为主导的即最终识别目的按照式(6)计算(文献[19]和文献[20]的出行目的识别方法),另外一种则是以POI点为主导的,可以表示为
式(7)表示出现两种方式识别不同情况时,采用POI点识别结果为准,但基于POI点识别的结果在非空集的情况下可能存在两种情况,即出现全是同一种出行目的或出现不全为一种出行目的.当全是一种出行目的时,最终出行目的即为该目的;但当出现不同的出行目的时,我们提出了两种方法,其中第1种为统计各类出行目的的数量,并将数量出现最多的类型作为最早出行目的,第2种为以离下车点距离最短的出行目的地类型作为最终出行目的.
式(8)表示以目的地类型出现次数最多的作为最终出行目的,式(9)表示以离下车点距离最短的出行目的地类型作为最终出行目的.在后续实例验证中,我们将从实际实验结果对不同方式进行分析和讨论.
Step1 通过调查数据对数据特征即目标进行数字化和区间化处理.
Step2 通过调查数据对不同的出行目的的识别模型进行训练和验证,并依据识别精度选择最佳的识别模型.
Step3 依据所提到的出行特征识别方式,通过实际运营的出租车数据对乘客的出行特征进行识别.
Step4 依据所提出的下车点经纬度,结合设定的半径阀值r对乘客可能的最终目的地POI点类型进行判断.
Step5 融合出行特征和POI点两种方式获取的出行特征,得到最终乘客的出行目的.
本文所用到的调查数据为成都市6:00-24:00随机调查数据,共获得有效的调查问卷1 014份,其中调查数据是采用随机确定调查地点,然后安排调查地点进行全天(6:00-24:00)的调查,因此调查数据具有代表性.运营数据为成都市2016年8月6~12日1周内所有出租车运营数据,其中出租车运营数据每天时段为6:00-24:00,每天该时段出租车自动记录的数据约4 000 000条.选择该时间区间的数据是因为本文旨在探索非节假日的出租车乘客出行目的,而所选择的这1周没有特殊的节假日,所以所选取的样本具有代表性.
4.2.1 分类方法测试
为了测试不同分类方法对于本问题的适用性,结合调查数据采用不同的分类方法对出行目的识别精度进行验证,结合Matlab工具包,采用十折交叉验证方法,最终识别效果如图2所示
图2 不同识别方法的识别准确度Fig.2 Recognition accuracy of different approaches
通过图2的识别结果可知,不同的识别模型其识别精度差别较大,从47%到65.7%,识别准确度最高的为决策树,因此,我们对决策树的识别结果的混淆矩阵进行了分析,以获得具体类别识别准确率的情况,具体混淆矩阵如表4所示.
表4 决策树识别结果的混淆矩阵Table 4 Confusion matrix of identified results by decision Tree(%)
从上述决策混淆矩阵的误识别分析可知,某些不同出行目的由于其出行特征较为类似(上班和上学、休闲娱乐与购物和医疗等),因此,仅仅依靠出行特征进行识别,容易出现较大的误识别率.针对这个问题,我们提出基于出租车运营数据和POI点数据的出行目的综合识别方法.
4.2.2 本文方法应用及对比分析
由于在上述6种不同的识别方法中决策树的识别准确率最高,因此在出行特征层面的出行目的识别方法仍采用决策树,然后结合乘客下车POI点半径阈值r内的可能目的地的POI点类型进行综合决策.为了进行对比,数据集及识别准确度的验证方法与上述一致,依据本文2.3节中的最终识别规则得到的对比识别结果如图3所示.
图3 文献[19]和[21]及本文方法识别精准度对比Fig.3 The comparison of recognition accuracy between proposed approach and literatures[19,21]
其中决策树+POI(I)为式(8)的出行目的的决策方法,决策树+POI(II)为式(9)的出行目的的决策方法.通过上述不同方法的结果对比分析可知,本文提出的在现有的出行特征识别出行目的基础上融合下车点所属POI点信息的出行目的决策方法具有明显的优势,相比现有的出行特征估计出行目的的方法,所提出的决策树+POI(I)能够提高6.31%的识别准确率,决策树+POI(II)能够提高15.76%的识别准确率.
根据调查数据的测试结果,我们对出租车数据采用决策树+POI(II)的方法进行出行目的的获取.结合对所有乘客出行特征的识别结果,并依据调查数据设置乘客下车点可能的POI点的半径阈值r为50 m,对成都市1周出租车乘客的出行目的进行提取,提取的结果如图4所示.
依据所提出的方法,计算成都市1周的出租车运营数据的识别结果,共获得出行人次为219 942人,其中工作日出行人数为160 895人,节假日出行的人数为59 047人.整体来看,1周中成都出租车乘客出行的主要目的是回家及上班,而购物所占的比重非常小.其中,工作日乘客乘坐出租车的主要目的是餐饮、上班、办事等,而节假日时乘客乘坐出租车的主要目的是回家.通过分析数据可知,节假日时回家乘客数量很高是由于这部分出行主要发生在22:00以后的深夜,因为在这个时间段公交车辆及轨道交通的服务已经暂停,只能够选择出租车回家,造成出租车回家的乘客在节假日比例很高.
图4 本文方法对实际出租车运营数据的乘客出行目的识别结果Fig.4 Identification result of actual taxi operation data based on proposed approach
本文提出了一种基于出租车运营数据及POI点数据的出租车乘客出行目的识别方法,该方法通过调查数据进行验证,并最终应用于实际的数据中,可得到如下结论:
(1)通过数据实验表明,本文所提出的基于出车组运营数据及POI点数据的出租车乘客出行目的识别方法,与现有的仅仅根据出租车运营数据识别乘客出行目的的方法相比,能够显著提高其识别精度.
(2)在所提出的方法中,针对实际数据量较大的问题,我们改进了判断预定半径阀值范围内出现的POI点的获取算法,结合地理知识,将距离判断转化为经纬度差判断,能够非常显著节约计算机计算时间,使所提出的方法能够有效运用于实践.
(3)在出租车运营数据与POI点数据进行融合识别时,我们实验了两种不同方式的识别判断方法(决策树+POI(I)与决策树+POI(II)).实验结果表明,虽然半径范围内,POI点都有可能成为乘客的目的地,但是乘客更加趋向于距离较短的POI点作为其最终目的地,这也体现了相比于其他公共交通,出租车具有灵活机动性,能够实现门对门服务.