大数据在广州市第三次交通综合调查中的应用

2019-06-25 08:48苏跃江陈先龙吴德馨
城市交通 2019年3期
关键词:信令广州市数据挖掘

苏跃江,陈先龙,吴德馨

(1.广州市交通运输研究所,广东 广州 510627;2.广州市交通规划研究院,广东 广州 510030;3.同济大学道路与交通工程教育部重点实验室,上海 201804)

0 引言

城市交通综合调查通常包括居民出行调查、公共交通调查、道路交通运行调查、交通基础设施盘点等内容,是掌握城市交通运行规律的基础性工作。发达国家大型城市一般每隔5年开展一次综合调查,中国北京、上海等城市从2000年开始均已形成5年一次大规模调查的工作机制,并在2014年均已完成第五次交通综合调查工作。广州市最近一次开展全市交通大调查是在2005年,距今已过去12年。期间,影响广州市交通运行的外部环境及内部因素均发生较大变化,与2005年相比,城市建成区面积增长68.4%,常住人口和就业人口增长均超过40%,中小客车保有量约为2005年的3.5倍,公共汽(电)车运营里程增长71%,地铁运营里程从35 km拓展至309 km。城市空间结构和交通格局发生重大变化,进而导致居民出行规律、交通供需特征等变化显著,原有调查数据及结论已不能体现当前交通特性,难以有效指导交通工作。因此,亟须尽早启动新一轮交通综合调查工作,为交通规划、交通运营管理以及交通政策和战略等决策提供可靠依据。

大数据在交通领域的应用为交通信息采集、监测城市与交通系统的互动演变过程提供了重要的技术支持。文献[1]基于手机信令数据映射至交通分析单元,经预处理、匹配分析、数据去噪等一系列海量数据运算处理,并在交通调查和交通规划中进行应用;文献[2]通过手机信令数据对上海市职住空间特征进行分析;文献[3]利用手机数据与家访调查数据对比,并通过手机数据来判断居住地和工作地;文献[4]基于北京市公共交通IC卡数据对城市职住关系和通勤交通进行研究;文献[5]通过道路卡口车牌识别数据推断快速路网匝道之间的OD;文献[6]对大数据的信息采集、质量控制、特征提取、关联分析、模型建立、信息融合等方面进行归纳;文献[7]梳理城乡规划学科领域运用大数据开展规划研究的适应性和局限性并建构相关理论和方法;文献[8]从“动、静、显、隐”4个维度揭示大数据的内涵特征与应用方法,并构建大数据在城市规划的应用模式;文献[9]利用大数据的分析方法有效支撑了《上海市城市总体规划》的编制,并对大数据时代总体规划编制技术与方法进行探索。本文基于大数据资源优势,充分发挥传统抽样调查与大数据的互补融合,并以广州市为案例进行实证研究。

1 传统抽样调查与大数据挖掘的关系和差别

1.1 传统抽样调查与大数据挖掘的关系

居民空间活动包含社会经济、地理空间、交通方式、活动场所和行为模式等5 个维度的属性特征。传统抽样调查(包含普查、访谈、问卷等)往往是调查某一天或某一个时段居民个体的属性和出行信息,基于调查信息统计样本的社会经济信息(职业、收入等)、地理空间(居住地、就业地等)、出行信息(出行量、出行OD、交通方式等)、行为模式信息(出行意愿、出行时间价值、购车意愿等)等来分析个体空间活动的属性特征,但很难确定连续和动态的空间活动特征。利用大数据连续的特征追踪和海量数据使观测个体的空间活动特征成为可能,利用手机信令数据和互联网位置数据监测居民的职住特征、利用GPS数据挖掘出租汽车乘客的空间活动特征、通过AFC数据挖掘轨道交通乘客的时空分布特征、利用互联网地图的路径规划数据挖掘不同区域通过道路网络及公共交通网络形成的交通可达性等均成为可能。结合传统抽样调查可以全面了解个体空间活动属性,从而为城市规划、城市治理等提供更精细化的数据支持。

1.2 传统抽样调查与大数据挖掘的差别

传统抽样调查基于问卷的定制设计,采取当面问询的方式采集信息,其优点是交通针对性强、采集信息准确。然而,由于调查成本和人力的限制(即使采用智能设备采集也只是手段),使得其样本量小、可重复性较弱,致使调查样本可靠性存在问题,例如居民出行调查中由于存在沉默需求导致出行率偏低和出行时间分布不可靠、由于母体(人口总量)的不确定性导致抽样无法做到均匀分布或随机分布等问题(见表1)。

大数据挖掘具有连续、动态、数据量大等特点,其优点是产生的数据样本量大,可以利用动态数据进行重复分析。但是,大数据为衍生产品并非交通定制数据,无法通过大数据获取相关群体的行为、心理等信息,并且大数据往往是局部对象的全样本,难以实现全对象关联,导致对城市现象揭示的片面性。很多数据挖掘分析需要假设条件才能确定,例如大多数城市由于票制政策一般只有公共交通IC 卡上车刷卡信息,需要通过出行链假设推断用户下车和换乘车站;由于基站的密度和辐射范围,基于手机信令数据判断的位置为模糊地址,也无法判定出行方式、出行目的等;利用手机信令数据分析一次出行与传统抽样调查出行存在差别,大数据的算法更需要多种情景和敏感性测试,同时基本所有大数据都不是全样本,需要借助母体进行扩样。

表1 传统抽样调查与大数据挖掘特点对比Tab.1 Characteristics of traditional sampling survey and big data exploration

2 城市交通综合调查演变

2.1 演变历程

2.1.1 北京市

1986年,北京市开展第一次交通综合调查工作,调查内容为7.2 万户的居民出行,调查成果为北京市交通规划和建设管理服务并发挥重要的作用,首次利用调查数据分析了北京市居民的出行规律和时空分布,并开展公共交通线网的优化研究工作等。时隔14年之后于2000年开展第二次交通综合调查工作(之后每5年开展一次调查,并且从2002年开始每年开展一次小样本调查工作,见图1),调查涉及6.4 万户居民出行、道路流量、公共汽(电)车等4 大项11 小项,调查成果用于诊断居民出行需求和城市交通拥堵问题,支持全市交通模型构建,为《北京交通发展纲要(2004—2020)》提供重要的数据支撑。2005年开展第三次调查工作,调查涉及居民出行、道路流量、轨道交通等6大项14小项,调查成果用于对北京市交通运行、管理和发展趋势进行全面、系统的总结和判断,为“十一五”综合交通规划、奥运交通保障措施、奥运后的交通行动计划、相关的交通政策评估等提供重要的数据支持。2010年开展第四次调查工作,调查涉及居民出行、公共交通等11 大项16 小项,调查成果用于对北京城市交通发展新趋势和特征进行全面系统的总结和判断,为制定“十二五”综合交通规划、缓解交通拥堵政策、《北京交通发展纲要(2014—2030年)》等提供重要的数据支持。2014年开展第五次交通综合调查工作,调查内容包含手机信令数据采集分析、居民出行调查、公共交通调查、道路流量调查、专项辅助调查、数据收集等6 大项17 小项,调查成果对支持城市总体规划修编、轨道交通规划和评估、京津冀都市圈一体化等提供重要的支持[10]。

2.1.2 上海市

1986年,上海市开展了第一次交通综合调查工作,主要开展居民出行调查,调查成果用于第一轮上海市城市综合交通规划的编制,创建了上海市交通规划模型,在内环高架、杨浦大桥、延安路高架、地铁二号线等项目的论证工作中起到较大的作用。1995年和2004年分别开展第二次和第三次交通综合调查工作(之后每5年开展一次调查)。第二次调查成果对开展新一轮上海市城市总体规划、综合交通规划、轨道交通网络规划以及城市交通发展白皮书等研究发挥了重要的作用。第三次调查成果对开展上海市综合交通发展战略、“十一五”综合交通规划,支持长三角都市圈的交通规划以及世博会交通规划等起到积极作用。2009年开展了第四次交通综合调查工作,调查成果为“十二五”综合交通规划、综合交通模型二期开发、世博会交通保障方案、新一轮交通发展白皮书编制等提供重要数据支撑。2014年开展第五次交通综合调查工作,调查内容包含交通设施普查及资料收集、人员出行调查、车辆使用调查、系统运行情况调查、信息数据挖掘等5大项24小项,调查成果对支持城市总体规划、“十三五”综合交通规划等规划和决策支持提供重要的支撑。

图1 北京市和上海市历年交通综合调查概况Fig.1 Overview of transportation comprehensive surveys in Beijing and Shanghai over the years

2.1.3 广州市

1984年,广州市开展第一次交通调查,主要调查居民出行和车流量,利用调查数据构建城市交通模型,并在1998年和2003年开展了万户居民出行调查对交通模型进行修正。2005年,开展了第二次交通调查,调查成果从不同侧面反映居民出行需求,为研究交通演化规律,科学制定交通发展战略、政策、技术法规提供重要的支撑。在调查数据及结论的支撑下,“十一五”期间形成了丰富的交通规划研究成果,包括《广州市综合交通发展战略(2010—2020年)》《广州市综合交通体系规划(2011—2020年)》《广州市轨道交通线网规划(2040年)》《2010年广州亚运交通发展战略规划》等,对广州市交通发展做出巨大的贡献,为促进广州市社会经济的快速发展起到至关重要的作用。2017年9月,广州市开展第三次交通综合调查工作,包含人员出行调查、交通系统运行状况调查、信息数据挖掘三大板块。

2.2 演变特点

1)调查范围逐步扩大。

随着城镇化进程不断发展,居民的时空分布特征随着城市空间拓展而发生变化,这就要求调查范围逐步扩大,以全面了解居民的交通特征和出行需求。北京市调查范围从中心区到中心区+重点地区,再到全市直至京津冀区域,2014年第五次交通综合调查的范围扩大至京津冀城市群,覆盖北京市市域范围,重点范围为六环路以内,针对重点新城和边缘集团、重点镇。上海市调查范围从中心区到中心区+重点地区,再到全市,2014年第五次交通综合调查的范围扩大至全市。广州市调查范围从原八区建成区345 km2到市区(除增城和从化的10 个区)3 719 km2,再到全市范围7 434 km2,2017年第三次交通综合调查范围为全市范围(见图2)。

2)调查内容逐渐增多。

北京、上海、广州3 个城市分别经历了从最初的居民出行调查、查核线车流量调查逐渐发展到各种人员调查、各种交通方式调查、系统运行调查以及社会经济、就业岗位、土地利用的普查等。3 个城市的调查项目数量分别实现从2项到17项、从6项到24项、从2项到15项的变化[11-12]。

3)调查抽样率呈现逐步下降趋势。

调查抽样率北京市从第一次4.5%缩小至第五次0.8%,上海市从第一次2.0%缩小至第五次0.9%,广州市从第一次3%缩小至第三次1.8%(见表2)。

4)新技术、新方法特别是交通大数据的使用。

图2 广州市三次交通综合调查范围变化Fig.2 Scope of the three transportation comprehensive surveys in Guangzhou

北京市在第五次交通综合调查中利用GPS数据对居民出行及车辆出行调查进行校核,利用视频检测数据校核道路流量调查,利用IC 卡数据挖掘和校核公共交通出行客流调查等。上海市在第五次交通综合调查中利用综合交通信息平台数据分析干路拥堵时空分布,利用遥感技术分析交通用地,利用手机信息校核居民出行特征,利用车辆牌照识别数据挖掘车辆OD,利用IC卡数据分析公共交通客流特征,利用GPS数据挖掘车辆出行特征等。广州市在第三次交通综合调查中,利用智能化终端设备取代纸质问卷,采用视频拍摄方式取代人工调查,利用车牌识别数据挖掘交通特征,利用IC 卡数据挖掘公共交通出行特征和换乘特征,利用GPS数据挖掘出租汽车及货运车辆营运特征,利用互联网位置数据挖掘重要枢纽客流特征、典型建筑交通吸引特征、城市交通可达性,利用手机通信大数据挖掘职住分布、城际出行及轨道交通换乘特征等。

表2 北京、上海、广州居民出行调查抽样率演变Tab.2 Evolution of sample rates of resident travel surveys in Beijing,Shanghai and Guangzhou

图3 广州市第三次交通综合调查框架Fig.3 Framework of the third transportation comprehensive survey in Guangzhou

3 广州市第三次交通综合调查框架和特点

3.1 调查框架

广州市2017年交通综合调查包含人员出行调查、交通系统运行状况调查、信息数据挖掘3 大板块15 小项:1)人员出行调查,包含居民出行、流动人口出行、枢纽问询3项调查;2)交通系统运行调查,目的是为调查提供抽样母体并对人员出行调查提供校核,包含人口就业、土地利用以及道路流量、轨道交通出行、公共汽(电)车出行等6 项调查;3)信息数据挖掘,包含对公路交通信息、道路卡口车牌识别数据、公共交通IC卡数据、营运车辆GPS数据、互联网位置数据及手机通信数据等6 方面的数据挖掘。本次调查采用大数据挖掘和传统交通调查并行模式(见图3),目的是充分利用现有信息化资源,提高调查数据的广度、精度及效率[13]。

3.2 调查特点

1)强有力的调查组织框架。

本次调查范围广、规模大、专业性强、需提供协助的部门多,因此调查工作采用市交通工作领导小组统筹、多个职能部门协助、专业机构提供技术支撑的组织形式,在市交通工作领导小组框架内,组建了市-区-街(镇)三级调查办公室。其中,市调查办公室设在市交通委员会,成员单位包括市交通委员会、公安局、民政局、统计局、教育局、旅游局、国土规划委员会以及各区政府,主要负责总体统筹工作,并委托第三方机构开展调查方案设计、调查培训等工作;区调查办公室设在各区政府,主要负责配合指导本区各街(镇)调查办公室工作;街(镇)调查办公室设在各区街(镇),主要负责组建调查队伍,并配合第三方机构开展具体的调查工作等。

2)充分利用相关部门既有统计资料。

通过相关部门固有的调查机制、日益完善的统计报表制度、手段多样的信息采集技术形成系统的统计资料,有助于降低调查的人力、物力和财力成本。本轮调查充分协调采用相关部门既有统计资料,包括:市统计局人口普查、经济普查以及1%人口抽样调查数据,市教育局就学统计数据,市旅游局旅游人口统计数据,市公安局机动车登记数据,广州地铁集团地铁运营统计数据以及市交通委员会公共交通运营统计数据等。

3)调查方案考虑不同数据关联。

在调查方案设计阶段考虑了不同数据之间的关联,并通过调查内容设计强化数据之间的联系,实现各个板块之间相互补充、校核,方便后续综合校核扩样工作(见图4)。

4)采用新技术替代传统人工调查,降低人工调查难度、提高调查效率。

人员出行信息采集采用智能化终端PDA设备取代纸质问卷,采用最新的地理信息数据库作为数据采集基础,系统在出行信息采集过程中实现了地址经纬度准确定位、自动逻辑纠错、数据及时上传、数据采集进度查看以及指标校核等功能,极大提高了调查效率、数据可靠性及后期数据的应用广度。车流量和载客率调查采用外业视频拍摄+内业软件计数及人工抽检的方式取代大规模人工外业调查,降低了人工调查实施难度,提高了安全性。轨道交通乘客出行调查在人工问询的基础上,高峰期采用微信二维码开展调查。公共汽(电)车典型线路客流调查采用车载视频监控数据对人工调查结果进行校核。

5)实施单位多专业联合以及多数据综合校核确保质量。

①在完善的上层组织架构下,实现调查工作多专业联合。规划研究单位和统计研究单位作为上一轮交通综合调查组织实施单位,具有组织居民出行调查的经验,且后者凭借每年的专项统计调查与基层已形成良好的沟通机制;交通研究单位承担交通综合调查的前期研究工作,在公共交通、道路交通等特征调查方面具备丰富经验;第三方调查公司在居民出行的调查实施方面积累了大量的实践经验。四家单位各尽其能,发挥各自特长和优势,最大限度地保证了调查工作圆满完成。②交通大数据挖掘采用交通与信息技术跨界合作,包括交通研究单位、规划研究单位、腾讯、联通、交通数据中心等多专业联合,充分利用统计数据、大数据与人工抽样调查数据相互补充和校核,实现大数据充分挖掘,并与运营商和互联网企业实现较好的契合。例如针对手机数据运营商和互联网企业提供的样本数据,咨询单位和运营商联合完成算法设计、测试工作,然后利用运营商和互联网企业的服务器运算资源进行数据挖掘并输出统计级的分析结果。既实现运营商和互联网大数据信息不向外提供,又完成了科研机构要求的分析结果,并且利用大型企业的运算资源提高了整体计算效率。

4 大数据在广州市交通综合调查中的作用

4.1 挖掘特殊指标

大数据的重点并不在大,而在于其数据质量和数据价值含量。数据质量是基石,依托较好的质量挖掘有用的数据才能发挥大数据的分析和决策作用。本次分析分别基于手机信令、互联网位置、道路卡口车牌识别、高速公路流水、GPS等数据资源,挖掘传统抽样调查无法获取的特殊指标(见表3)。

4.2 实现多源数据相互补充与校核

多源数据相互补充与校核主要分为5 个步骤(见图5):1)通过传统抽样调查得到样本OD,结合职业、车辆拥有、年龄结构、人口规模等因素,组合扩样得到分方式出行OD 分布;2)利用手机信令数据和互联网位置数据进行扩样(主要利用联通用户比例、不同年龄段手机用户使用率、人口普查年龄结构以及一人多机等属性数据),获取全方式OD 矩阵;3)以组合扩样的交通结构拆分总体OD 矩阵,得到各方式的基础OD 矩阵;4)获取各方式OD 矩阵后,利用IC 卡数据、AFC 数据、GPS 数据分别校正公共汽(电)车、地铁、出租汽车OD 矩阵分布(还将其作为公共交通OD 分布的约束条件进行修正),并利用交通量和载客率调查结果、卡口数据、高速公路收费数据进行OD 反推,校正小汽车出行OD;5)利用GPS 调查和手机信令出行频次校正沉默需求和出行时间分布。

图4 广州市第三次交通综合调查传统调查与大数据挖掘之间的关系Fig.4 Relationship between the traditional sampling survey and big data exploration in the third transportation comprehensive survey in Guangzhou

针对手机信令数据模糊(由于部分区域基站分散)的特点,采用基站序列嵌入活动基站序列标签、空间核聚类、折返识别以及正向传播与反向反馈相结合的驻点参数优化技术,提高了手机信令数据应用于出行活动分析的可行性,并利用手机用户的实际出行数据对结果进行检验。结果表明,通过相关技术和算法融合,使得出行频次的分析精度在95%以上。

4.2.1 重构出行频次分布

传统抽样调查中居民出行率存在沉默需求,例如2002年和2011年香港居民出行调查的沉默需求分别为32%和36%[14]、2014年北京居民出行调查的沉默需求约35%[15]。本次调查借助两种方法来校核沉默需求:1)利用连续6 个月的手机信令数据进行职住和驻点的分析以及敏感性测试,在此基础上判断出行驻点次数,重构出行频次分布;2)借助互联网企业(腾讯)定制开发APP,定时(每2 min 采集一个轨迹点)采集居民的出行轨迹信息(从被调查的居民中抽选超过3 000名作为信息采集对象),利用驻点判断以及敏感性测试确定出行频次分布。通过综合分析可知,利用GPS 调查志愿者和利用手机信令数据分析的出行频次分布基本一致,与传统抽样调查有较大差别(见图6),对比分析得出广州市2017年居民出行调查的沉默需求为28.5%。

4.2.2 分解和校正不同出行目的的出行时间分布

样本居民出行调查数据存在漏报、错报等问题,可以利用GPS调查和手机信令出行频次分布对沉默出行进行校正,从而修正出行总量,但是具体出行特征仍然无法完全校核。因此,传统抽样调查存在以下问题:1)由于非通勤出行与通勤出行的时间差异性,非通勤出行漏报导致扩样的出行时间分布不够精确,扩大了高峰出行规模,降低了平峰出行规模;2)非通勤出行涉及多种出行目的,例如公务业务、探亲访友、生活购物、文娱等,非通勤出行的漏报直接导致出行目的扩样存在不均衡。通过综合分析可知,利用手机信令数据分析的出行时间分布(包含出发时间分布与到达时间分布)与传统入户调查样本数据的出行时间分布有较大差异,特别是在早晚高峰期间(见图7)。结合AFC,IC卡和GPS等统计数据的客流时间分布分析,利用手机信令数据校核出行时间分布更可靠、更合理。

图5 大数据在广州市交通综合调查中的综合校核作用Fig.5 The role of big data in comprehensive verification in Guangzhou's transportation comprehensive survey

图6 基于不同数据源的出行频次分布对比Fig.6 Distribution of travel frequency based on different data sources

图7 样本调查和基于手机信令的出行时间分布差异Fig.7 Differences in the data of travel time distribution between sampling survey and cellular signaling-based method

5 结语

传统抽样调查与大数据技术的共同目标都是最大可能地还原并揭示城市交通特征。传统抽样调查往往依据样本数据分析建立模型和修正模型,表现为因果关系,更加注重未来;而大数据分析是通过更大样本的连续数据进行相关性分析和敏感性测试,再建立模型测试分析结果,大数据分析技术在证据链不足条件下可能形成模糊但全面、因而正确的判断,表现为关联关系,更加注重现状。大数据分析技术的出现并非否定了传统抽样调查(如交通调查、意愿调查)的必要性以及传统的理论和方法,规划设计人员需要思考和研究如何利用各种数据的优势弥补不足,将大数据技术融入交通系统分析体系中提炼信息特征,实现各种大数据资源与传统抽样调查的样本数据的有机融合。在此之前,必须更加注重大数据质量、算法以及数据之间融合,更应该重视大数据应用方法和理论体系的构建。数据质量是基石,数据算法是核心,数据融合是创新,理论体系的构建才是根本。本文在总结北京、上海、广州历年交通综合调查演变的基础上,梳理传统抽样调查与大数据挖掘分析的关系和差别。基于广州市交通综合调查的框架和特点,重点分析大数据在广州市第三次交通综合调查中的作用。随着新技术快速发展,未来服务供给模式将从原有的增加供给服务向按需服务或者需求响应服务,甚至出行即服务模式转变,大数据将在城市治理和交通管理中发挥更重要的作用。

猜你喜欢
信令广州市数据挖掘
麓湖春天观景
广州市岭南耐火材料有限公司
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
广州市一元文化有限公司
广州市中淲环保科技有限公司
SLS字段在七号信令中的运用
移动信令在交通大数据分析中的应用探索
基于信令分析的TD-LTE无线网络应用研究
LTE网络信令采集数据的分析及探讨