上海市第五次综合交通调查新技术方法实践

2016-12-14 10:13董志国薛美根陈必壮
城市交通 2016年2期
关键词:小客车校核数据挖掘

李 娜,董志国,薛美根,陈必壮,朱 洪

(上海市城乡建设和交通发展研究院,上海200040)

上海市第五次综合交通调查新技术方法实践

李 娜,董志国,薛美根,陈必壮,朱 洪

(上海市城乡建设和交通发展研究院,上海200040)

如何使人工调查与数据挖掘相结合,是高效经济地进行综合交通调查的关键。上海市第五次综合交通调查在调查方案设计、项目设置上更加注重项目的全面性和关键性、数据的多元性以及内容的针对性,数据采集手段上首次采用个人手持终端,并利用公共导航地图云技术进行地址精确定位。在抽样和扩样技术方面,主要提出居民出行调查的抽样和扩样方法。在信息数据挖掘方面,分析了遥感用地、手机信令、车牌识别和车载GPS数据的挖掘技术和方法。最后阐述了综合校核的主要思路和小客车特征数据的校核方法。

综合交通调查;居民出行调查;交通大数据;上海市

自20世纪80年代以来,上海市已开展五次综合交通调查,2014年完成最新一轮综合交通调查,在调查方案设计、抽样和扩样、信息数据挖掘、综合校核等关键技术环节成功应用了新技术和新方法。

1 调查方案设计技术

调查方案设计是整个调查工作的基础,调查方案要切合城市发展的阶段性特征,同时也受制于调查经费的限制。在调查方案设计之前,必须对城市综合交通的发展现状、可供利用的统计数据和相关信息采集数据、可供采用的交通调查技术手段等进行充分的基础调研。上海市虽然有多次调查的经验,与第四次调查相比,第五次调查结合交通大数据挖掘、个人手持终端调查等调查技术发展趋势和技术准备,紧密围绕上海市城市总体规划(2015—2040)、“十三五”综合交通发展规划、第二轮白皮书落实等重点工作,关注城市交通发展重要地区和热点问题,在调查项目设置、内容和规模设计、调查指标选取、调查手段等方面有所调整。

1.1 项目设置

历次上海市综合交通调查的项目设置均覆盖城市发展背景资料、综合交通基础数据、人员出行、车辆出行、货运交通、道路运行、公共交通运行、对外交通等方面。但是历次调查项目设置也不尽相同,均需要结合当时综合交通发展实际情况和需要,对调查项目设置进行调整。第五次综合交通调查共分为交通设施普查及资料收集、人员出行调查、车辆出行调查、系统运行调查、信息数据挖掘五大类、24个分项(见图1),项目设置上着重考虑以下四个方面。

1.1.1 注重调查项目的全面性,反映各类城市交通系统状况

综合交通调查与专项交通调查的重要区别在于全面性,前者需要覆盖各个系统。从上海市历次综合交通项目设置来看,项目逐渐覆盖了综合交通的各个方面(见表1),除基础设施、人员出行、车辆出行和系统运行等常规调查大类,加强了信息数据挖掘调查,共开展了基于综合交通信息平台、遥感用地信息、车载GPS、手机信令、公交一卡通、车牌识别技术等6项信息数据挖掘调查。此外,结合近年来上海市综合交通发展的重点,新增部分调查项目。例如,结合上海市航运中心建设和行业管理需要,加强货运方面的调查,增加道路货运场站设施摸底、快递物流设施和车辆出行特征调查。同时,交通环境问题关注度日益增高,故增加交通环境调查分项。

1.1.2 注重调查渠道的多元化,为调查数据的校核分析创造条件

在制定调查方案之前,需要对综合交通及相关基础数据进行全面摸底,包括统计部门的人口和就业岗位数据、规划部门的用地数据、综合交通行业管理部门的行业统计数据、公安交警部门的交通管理数据等。基础数据的调研具有三重作用:1)为核心调查的方案制定提供母体数据;2)充分利用已有数据,减少调查工作量;3)部分数据可为调查数据提供校核依据。

上海市已建立起比较规范的综合交通常规数据资料的年度统计制度。本次调查除通过交通行业统计资料收集外,进一步拓展相关行业统计数据和信息数据资源。例如,补充收集统计部门第三次经济普查、车辆保险购买数据和车辆年检数据、市境出入口和高架路(桥)车牌识别数据、房屋土地资源信息中心的房屋建筑数据库等。数据渠道的多元化使调查项目的设置更丰富,也是进行综合校核的重要基础。

1.1.3 注重调查项目的关联性,对调查关键指标进行多角度比对分析

图1 上海市第五次综合交通调查项目和内容Fig.1 Survey items and contents of the 5th Shanghai Comprehensive Transportation Survey

由于居民出行调查等核心内容在实际调查过程中不可避免地存在样本偏差、出行漏报(瞒报)等问题,导致调查数据存在一定失真。因此,调查方案设计应注意有效解决此类问题,通过设计若干专项调查,对关键调查指标进行多角度综合论证,确保最终调查成果能够真实反映城市交通实际特征。例如,为获取轨道交通接驳方式的结构特征,设计居民出行链问询、轨道交通车站客流问询和公交一卡通刷卡数据挖掘三项调查,综合分析轨道交通车站的接驳特征;调查小客车的出行特征需要小客车出行样本、小客车出行问询调查、道路小客车载客人次调查三方面数据,进行综合校核分析。因此,在调查项目设计之初,需对数据处理阶段关键指标的校核方法进行考虑,使各个调查项目的指标设计指向明确,避免口径和概念混淆导致无法比对校核的现象出现。

1.1.4 注重调查内容的针对性,聚焦交通重点和热点问题

综合交通调查成果应服务于近期城市综合交通发展的需要。居民出行调查中,样本构成方面增加郊区建成区的样本规模;调查内容方面增加近两年是否有新购小客车意愿和对市区沪牌、沪C牌和外地牌照的选择意愿,以及出行成本调查。同时,停车设施普查中,除对住宅进行停车设施排查外,首次对非居住类建筑内部停车和路内停车设施和需求进行普查。典型用地交通吸引特征调查中,重点对商业综合体、医院、学校等建筑类型进行调查。另外,结合综合交通节能减排工作,加强小客车和货车车辆能耗调查和交通排放调查。

1.2 调查技术手段

1.2.1 首次采用个人手持终端记录调查数据

上海市历次居民出行调查均采用纸质表格填写,本次调查采用个人手持终端(以下简称PDA)进行调查数据录入(见图2),在入户访问时即完成现场数据录入,并通过预先设计的程序,在录入时即完成调查问卷填写信息完整性检查、出行空间轨迹逻辑性检查等。调查数据在现场同步上传到数据平台,减少了传统方式还需誊抄入库的环节,避免登记信息在传递过程中丢失,同时可以实时查看调查进度和总体质量。

图2 个人手持终端(PDA)和软件录入界面Fig.2 Showcase of PDAdevice and software input interface

表1 上海市历次综合交通调查项目设置的变化Tab.1 Survey item design of Shanghai Comprehensive Transportation Survey

采用PDA进行调查,首先须具备足够的PDA设备以及可供调查数据上传存储的数据平台,其次录入软件设计应人性化、便于操作,同时利用嵌入开发的方式植入路名库和地名库、逻辑审核规则,实现现场审核。采用PDA调查能够有效提高调查实施质量、数据汇总速度和精度。但是该技术对调查员的素质要求更高,前期软件设计、培训需投入大量人力,特别要加强录入软件逻辑审核规则的测试。

表2 规范的地址文本定位实例Tab.2 Examples of normalized address texts

图3 上海市各区居民出行调查样本量Fig.3 Sample size of Shanghai Household Travel Survey by districts

1.2.2 利用公共导航地图云技术进行地址精确定位

传统调查方法在定位技术方面均存在不足,无论前期人员培训和组织工作如何细致,都不能预知或减少后期人工校正的工作量。本次调查首次采用公共导航地图云平台进行调查地址精确定位(见表2)。公共导航地图云平台作为互联网共享数据和开放功能的接口集合,技术成熟,恰好可弥补传统调查方法在基础路名库收集、地址定位、人工校验等阶段的不足。

使用公共导航地图云平台提高地址定位精度的基本思想在于:1)利用公共云平台的地址资源,统一地名,在调查实施前制定规范约束输入;2)对接公共云平台的地址解析功能,将符合规范的录入地址转换成空间坐标;3)充分挖掘返回坐标的相关信息,快速定位出需要人工校对的部分,以此提高定位精度。

2 抽样调查样本选取和扩样技术

抽样调查是普遍采用的调查方法,适用于规模巨大而无法实施普遍调查的研究对象。本次综合交通调查中出行类的核心调查仍然沿用抽样调查方法,主要包括居民出行调查、小客车使用调查、出租汽车出行调查、货车出行调查和公共汽(电)车客流调查等。下面主要介绍居民出行调查的抽样和扩样技术。

2.1 居民出行调查样本规模确定

抽样率的确定与调查目的、抽样调查方法、城市居民出行特征和交通模型精度相关。因此在调查方案设计中,要根据调查方法的精度要求确定抽样率,并考虑调查时间、费用和数据分析处理工作量等因素,尽量做到在满足精度要求的条件下,减少调查样本,节约调查时间和费用。同时还要考虑调查表格回收率和有效率,虚假数据和调查方案实施性等隐私,适当扩大设计抽样率。

本次调查样本规模设定除进行理论技术估算外,还需加强对中心城区周边地区、新城及新市镇出行特征调查的总体要求。借鉴国内外相关调查经验以及上海市历次居民出行调查成功经验,并考虑调查组织难度、调查员规模等实施条件,最终调查样本规模设定为7.5万户,抽样率约为0.94%。

2.2 居民出行调查抽样方案

居民出行调查采用抽样调查方法。按照随机原则,保证总体中每个单位都有同等机会被抽中。常用的抽样方法主要有纯随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样等。

本次居民出行调查的调查对象规模大(第六次人口普查全市825万家庭户)(见图3)、调查范围广(整个市域6 340km2)、调查周期短(一周)。在调查方法的选择上要兼顾科学性与可操作性。综合考虑多方因素,并对人口母体数据库中的相关属性信息进行分析后,确定总体上采用三阶段抽样方法(见图4)。第一阶段抽样采用两层分层抽样法,第一层是将全市划分为中心城区、中心城区周边地区、新城及新市镇、郊区及其他地区等四个区域,第二层是将街道(乡镇)分层。第二阶段抽样采用等距抽样法,分别是居委会等距抽样和普查小区等距抽样。第三阶段抽样采用整群抽样法,每个普查小区按照户花名册随机连续抽取28户,即一名调查员一周所需完成工作量。从抽样结果看,中心城区周边地区、新城及新市镇等重点关注地区的抽样率较上一次调查提高一倍左右。

2.3 居民出行调查扩样

本次居民出行调查的母体人口为2013年统计常住人口区县分布、2010年普查常住人口居(村)委会分布和年龄结构的人口数据。综合考虑母体人口实际情况和出行特征分析要求,扩样技术思路如下。

2.3.1 以各居民小区的户籍常住人口和外来常住人口为扩样对象

本次调查对象为上海市所有在被抽中家庭的住宅单位中居住、生活的人员。按照人口普查定义包括家庭户和居住区集体户,但不包括集体宿舍的集体户(学生宿舍、职工宿舍),因此扩样对象与抽样对象保持一致。

2.3.2 以街道、年龄结构确定扩样系数

本次调查样本覆盖全部街道、乡镇,而居(村)委会仅部分覆盖,因此扩样层面仍然以街道、乡镇为准。同时,考虑到中青年调查对象比例偏低,老年比例偏高,在扩样时还需按照母体年龄结构分别确定扩样系数。

2.3.3 以统计部门人口统计数据为母体人口

统计部门的年度人口统计数据能提供年度常住人口数据,仅有区县人口数和全市年龄结构无法满足扩样要求。母体人口街道层面年龄分组结构以第六次人口普查为准,区县层面分布和全市年龄结构以2013年统计人口为准。

2.3.4 采用三次扩样

依据现有母体人口所能获得的信息,采用三次扩样。全程扩样系数(一次扩样系数×二次扩样系数×三次扩样系数)共计84万个。扩样步骤如下:1)一次扩样按照2010年第六次人口普查资料,进行“人口类型(2种)×街道分布(229个)×年龄结构(9组)”交叉扩样,共计4 122个扩样系数;2)二次扩样按照2013年统计人口资料,进行“人口类型(2种)×区县分布(17个)”交叉扩样,共计34个扩样系数;3)三次扩样按照2013年统计人口资料,进行“人口类型(2种)×年龄结构(3组)”交叉扩样,共计6个扩样系数。

图4 上海市第五次居民出行调查抽样流程Fig.4 Sampling procedure of the 5th Shanghai Household Travel Survey

图5 上海市建设用地布局和近5年增长情况Fig.5 Shanghai developed area distribution and growth in recent 5-year

3 主要交通信息数据挖掘应用

第五次综合交通调查开展了六项信息化专题调查,其中综合信息平台数据挖掘主要是对上海市交通信息中心历史数据进行挖掘分析,公交一卡通数据主要是对公共交通客流特征进行挖掘分析,技术方法沿用第四次调查的技术方法。以下重点介绍其他四项数据挖掘技术。

3.1 遥感用地数据挖掘

图6 上海市居住类和非居住类建筑容积率空间分布Fig.6 Floor area ratio of resident and non-residential buildings in Shanghai

图7 通过手机信令数据进行轨道交通换乘多路径识别Fig.7 Identification of rail transit orbit multipath transfer by mining mobile phone signaling data

本次采用的遥感影像数据以航空遥感影像为主,卫星遥感影像为辅。航空遥感影像包括2013年和2008年数码航空影像(地面分辨率0.25 m)、2000年扫描航空影像(地面分辨率0.4 m),解译获得上海市23万个分析单元用地信息(见图5)。

综合上海市房屋土地资源信息中心房屋建筑数据及测绘数据,获得全市分类用地分布,得到28类用地的面积总量及空间布局,并获得全市13类建筑的建筑总量、空间布局及每个分析单元的用地开发强度(见图6)。

3.2 手机信令数据挖掘

挖掘2011—2014年手机信令数据,覆盖全市约6万个基站,日均1 800万移动通信用户,每1~2 h回报信令数据,辅助校核居民出行调查获取的人口分布、出行分布等特征。主要进行三方面的数据挖掘:1)分析地下轨道交通车站客流换乘特征(见图7);2)分析穿越核查线手机用户客流特征;3)分析手机用户昼夜分布特征(见图8)。

3.3 车牌识别数据挖掘

上海市公安局交通管理部门2012—2014年车牌识别数据覆盖42个市境道口、343个中心城快速路断面和14个越江桥隧,利用这些数据对小客车实际保有量、车辆出行分布等人工调查结果进行辅助校核。

数据内容包括车辆号牌、车牌颜色、途径设备断面时间、途径设备断面车速、车辆属地及设备断面编号等。挖掘内容包括:1)基于车牌数据识别车辆行驶路径,获取车辆出行空间分布特征;2)基于市境出入口、高架路(桥)的车牌数据,刷选长期在上海市使用的外地车牌总量和出行特征。

3.4 车辆GPS 数据挖掘

车辆GPS信息采集技术是利用安装在车辆上的移动卫星定位终端获取车辆轨迹,通过与GIS技术相结合,可计算获得车辆所在路段的行驶车速、拥堵状态等交通运行特征。目前,车载GPS终端广泛用于出租汽车、货车、公共汽车及部分私人小客车等车辆上。基于车载GPS数据的应用分析已在个人出行导航、路况发布、企业调度、交通管理和决策等多个层面形成有效支撑。

图8 手机用户人口密度分布Fig.8 Mobile phone user density

本次调查共挖掘2.9万辆出租汽车及1万辆货车的GPS信息,根据GPS数据的采集特点,获取出租汽车出行OD、高架路(桥)和地面主要干路行驶车速(见图9)、货车主要通行道路分布等。

图9 早高峰时段高架路(桥)和地面主要干路行驶车速Fig.9 Travel speed on viaducts and on-street arterials in the morning peak period

4 综合校核与分析

4.1 综合校核技术思路

综合校核与分析技术方法是以交通调查扩样数据为基础,利用相关的交通管理统计数据、交通信息挖掘数据和辅助专项调查数据,对关键调查指标进行综合比对和校核,并借助交通模型技术平台进行模拟分析。

可应用以下四类数据对出行特征指标进行比对校核:1)交通行业相关统计指标,例如将轨道交通、公共汽车统计的客运量与居民出行调查中相应出行量进行比对;2)交通大数据,例如将手机用户穿越交通核查线数据与居民出行调查的时空分布特征数据进行比对;3)其他专项调查,例如通过轨道交通问询调查对居民出行调查中的轨道交通接驳方式进行补充校核;4)交通模型,可对机动车行驶总里程、公共交通客运周转量等交通行业或信息化手段无法获得的指标进行判断。

4.2 小客车出行特征校核实例

人员出行特征和小客车出行特征校核是最重要的综合校核。人员出行特征校核的核心校核指标包括出行率、方式结构、出行时刻、出行距离和时耗、出行分布等。小客车出行特征校核主要针对出车率、出行率和载客人次等关键指标。下文以小客车为例,基于多源数据,采用比对分析和模型模拟等方法进行校核(见表3)。

小客车出车率指有出行的小客车数量占小客车总量的比例,本次调查中可通过两项调查获取这一指标,居民出行调查扩样后得到小客车出车率为72%,年检站小客车问询调查得到小客车出车率为83.4%,第三次和第四次调查中小客车出车率分别为90.2%和90.0%。综合比对不同来源的数据,居民出行调查存在部分漏填,利用年检站小客车问询调查数据进行校核,并结合历年小客车出车率下降的趋势,最终校核小客车出车率为83%。

5 结语

上海市综合交通调查已开展五次,积累了成熟的技术方法,值得在后续的调查中延续。但是,本次调查也存在一些遗憾。由于公交信息化数据的欠缺,使得公交一卡通数据的挖掘只能满足部分公交客流特征的需要。此外,根据国内外城市入户调查的经验,可以征求被调查者意见,同意后作为志愿者携带GPS对出行路径数据进行采集,从而对问询调查的结果进行进一步校核。

从交通调查技术发展现状来看,随着交通行业统计制度的日趋完善,以及信息采集技术的多元化和精细化,基础设施类和系统运行类调查可以逐渐做到年度甚至实时更新,人工调查的工作越来越少。交通大数据的挖掘为出行需求特征的校核提供了较为可靠的依据。例如,通过车牌识别数据获得小客车出行空间分布,通过手机信令数据获得人口居住地分布以及出行时空分布等特征,

表3 小客车出行特征综合校核说明Tab.3 Passenger car travel characteristics comprehensive validation instructions

以此校核居民出行和小客车出行。但是,现状交通大数据颗粒度和挖掘技术还不足以获得传统人口调查获取的出行次数、出行目的、交通方式等重要出行特征。因此,现阶段人工调查辅以交通大数据挖掘仍然是调查的主流技术。

[1]上海市第五次综合交通调查技术报告[R].上海:上海市城乡建设和交通发展研究院,2015.

[2]上海市第一次综合交通调查成果报告[R].上海:上海市城市综合交通规划研究所,1987.

[3]上海市第二次综合交通调查成果报告[R].上海:上海市城市综合交通规划研究所,1996.

[4]上海市第三次综合交通调查成果报告[R].上海:上海市城市综合交通规划研究所,2005.

[5]上海市第四次综合交通调查成果报告[R].上海:上海市城市综合交通规划研究所,2010.

The Practice of New Survey Technology and Methodology in the 5th Shanghai Comprehensive Transportation Survey

Li Na,Dong Zhiguo,Xue Meigen,Chen Bizhuang,Zhu Hong
(Shanghai Urban-Rural Construction and Transportation Development Research Institute,Shanghai 200040,China)

The key to effectively and economically implement a comprehensive transportation survey is to successfully integrate manual works with job of data mining.The recently implemented 5th Shanghai Comprehensive Transportation Survey has concentrated more on integrity and criticality of survey itself,variety of the collected data types,and pertinence of the needed contents when planning the survey.Noticeably,the PDA devices are first used in the household travel survey.Public navigation map cloud technology is applied to improve accuracy of location technology.An enhanced sampling method is adopted at household survey.In order to better understand Shanghai's travel behavior and features,a couple of advanced technologies are further introduced,including big data mining,remote sensing,mobile phone signaling data processing,license plate recognition and vehicle GPS data mining.At last,the paper also demonstrates the main principles to explore and extract passenger car characteristics.

comprehensive transportation survey;household travel survey;transportation big data;Shanghai

1672-5328(2016)02-0035-08

U491.1+1

A

10.13813/j.cn11-5141/u.2016.0206

2015-12-08

李娜(1979—),女,上海人,硕士,高级工程师,主要研究方向:城市交通规划。E-mail:li.na_scctpi@163.com

猜你喜欢
小客车校核数据挖掘
发电机进相试验失磁保护与低励限制配合关系的校核
探讨人工智能与数据挖掘发展趋势
北京小客车摇号又创新高3076人抢一个指标
通行费校核分析方法探究
基于卫星遥感图像的收费站位置自动识别与校核
FPSO火炬塔海运绑扎方案及强度校核
全省实行小客车总量调控管理
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究