数据挖掘技术在轨道交通AFC系统中的应用

2015-10-31 00:49石庄彬陆文学
都市快轨交通 2015年1期
关键词:票务客流数据挖掘

石庄彬 陆文学 张 宁

(1. 东南大学ITS研究中心 南京 210018; 2. 苏州轨道交通集团公司 苏州 215006)



数据挖掘技术在轨道交通AFC系统中的应用

石庄彬1陆文学2张宁1

(1. 东南大学ITS研究中心南京210018; 2. 苏州轨道交通集团公司苏州215006)

为改善城市轨道交通运营管理水平,提升轨道交通带来的企业经济效益和社会效益,主要探讨将数据挖掘技术应用于轨道交通领域的潜力及其价值。首先,分析目前AFC系统对于数据利用的不足;其次,总结数据挖掘的任务类型、处理过程以及数据挖掘过程中常用的方法,阐述数据挖掘的基本原理;最终,从运营管理的统计和预测两方面需求的角度,深入探讨数据挖掘技术在轨道交通客流、票务、收益、设备等管理内容中的应用前景,并通过实例论证实际运用过程中的可行性。

轨道交通;数据挖掘; 运营管理;统计;预测;客流; 票卡

在这个信息爆炸的时代,数据挖掘在许多行业中正逐渐上升为一个研究热点。数据挖掘技术,是针对当今数据丰富而知识贫乏这一现象,在数据库管理系统基础上发展起来的一门新技术。通过不断地与统计学、机器学习、模式识别、数据库技术、计算机技术等学科交叉融合,大大推动了数据挖掘技术的发展和繁荣,使得数据挖掘用于大数据的事务管理、信息提取和数据分析。这里的大数据不仅指数据储存空间巨大,还涉及数据的多样性、复杂性等特征[1-2]。

随着轨道交通客运量迅速增加,轨道交通网络日趋形成,对轨道交通运营管理的智能化、自动化、信息全面化的要求越来越高,而传统的数据库管理系统面对海量数据时处理效率低下,难以完成城市轨道交通运营管理对于知识信息日益增长的业务需求[3]。目前,国内各大城市轨道交通对于自动售检票系统(automatic fare collection system,AFC)数据的处理比较粗糙,大多局限于对原始数据的简单统计,深层次分析不足,我国城市轨道发展阶段还处于初始期,对于轨道交通运行机制和管理方案了解还不太成熟;同时,AFC系统开发商主要注重于系统的集成,缺乏对用户需求的深入理解,各地对于轨道交通的管理需求也不一样,最终导致运营管理者通过现有清分中心(AFC clearing center,ACC)数据处理结果,只能对整个轨道交通系统的运行状态有个粗略的认识,难以达到对细节的监视,无法对线网的运行状况进行实时估计和分析,不能满足轨道交通网络化运营和提高轨道交通系统服务质量的要求。

因此,针对城市轨道交通网络化运营的特点,结合数据挖掘技术和计算机处理技术,深度挖掘城市轨道自动售检票系统数据中的潜在有用的信息,将成为轨道交通运营管理未来的发展和研究方向。它可以帮助运营管理人员从单调繁复的劳动中解脱出来,高速、有效、全面地处理大量的数据,发现轨道交通运行潜在的本质和规律,帮助企业全面细致地监视轨道交通系统的运行状态,实现智能化和自动化的辅助决策,为运营企业带来巨大的信息价值和社会、经济效益,为城市未来的轨道交通发展规划、建设和运营提供有利的指导。

1 数据挖掘技术概述

数据挖掘的任务是从大量的数据中发现用户需要的知识,主要包括广义知识、关联知识、分类知识、预测型知识、偏差型知识。从高层次来说,数据挖掘任务的目标一般可以分为两类:描述和预测。前者指刻画数据的一般特性;后者基于当前数据进行推算,实现对将来的情况推演[4]。数据挖掘的功能主要有概念描述、关联分析、聚类分析、分类分析、孤立点分析、演变分析。

1.1数据挖掘的过程

数据挖掘通常被当作是知识发现的一个同义词,而随着研究者对知识发现认识的加深,逐渐形成数据挖掘的一种狭义概念,即认为数据挖掘是知识发现流程中负责寻找知识的核心环节。知识发现流程是一个交互式、循环反复的整体过程,除了数据挖掘还包括很多处理阶段,知识发现流程一般包括3个主要阶段:数据准备、数据挖掘、结果的解释和评价。其中数据预处理又细分为数据清洗、数据推测、数据转换、数据精简等步骤[5]。

1.2数据挖掘的方法

数据挖掘的核心是数据挖掘过程中使用的技术和方法,主要来自于机器学习、人工智能、统计学等相关学科和技术领域,数据挖掘从一个新的角度将这些领域与数据库技术相结合,可以发现繁杂的数据中隐藏的有用信息。一般来说,数据挖掘技术采用的方法大致有以下几类[6-7]:统计方法、基于信息论的决策树方法、基于集论的方法(模糊集和粗糙集)、基于仿生学的方法(神经网络方法和遗传算法)。除了这几类主要的方法外,还有一些其他的方法也常常被应用于数据挖掘过程。例如:支持向量机、范例推理、公式发现、可视化等。

2 数据挖掘技术在AFC系统中的应用

城市轨道交通AFC系统所涉及的数据主要包括票卡交易类数据、票卡信息数据、收益类数据、设备状态数据、审计类数据等[8]。AFC数据信息是支撑轨道交通企业运营管理的重要基础,同时也是企业最宝贵的财富。轨道交通企业需要从这些繁杂的数据中获取信息和知识,以满足轨道交通的运营、票务、收益、维修等管理要求,其中获取信息和知识的过程正是基于数据挖掘技术。

根据数据挖掘技术的知识类型和任务目标,将数据挖掘技术应用于AFC系统,主要可实现两大功能:数据统计和信息预测分析。二者在运营管理中的应用范围方面有所差异,数据统计可以反映城市轨道交通本质的规律,能够指导企业制订科学的管理方针,如收费策略、运行图编制、客运组织方案、线路规划、车站布局设计等;信息预测分析是通过合适的方法和指标,使管理者能实时地了解轨道交通运行状态信息并进行评估和预测,为指挥决策提供合理的依据。

2.1数据统计

AFC系统收集的原始数据不仅规模庞大且格式种类具有复杂多样性,一般的原始数据对用户而言是难以理解的,用户也很难直接从原始数据中读取有用信息。事实上,绝大部分数据都是不重要的,有些信息只具有临时的价值,数据统计就是提取出对轨道交通企业有用的那部分信息。数据统计可以实现对轨道交通全线网的客流、票务、收益、设备等,数据的收集、存储、统计、分析、数据服务,通过数据图表、综合报告、乘客出行行为模拟等多种途径,将管理者所关心的知识以高度概括且易于理解的形式展现出来,AFC系统中的数据统计一般包括以下几方面内容。

2.1.1客运量统计

通过对乘客进/出站闸机的交易记录数据进行统计分析,能够反映轨道交通客流的特征和规律,帮助实现轨道交通的行车组织优化、客运组织优化、票务组织优化、设施布局优化等,科学指导轨道交通交通规划和运营管理。轨道交通专用通信网络能支持大容量数据的快速传输,在这个条件下轨道交通AFC数据中心能够实时地统计客流流量,识别当前的客流模式(如异常客流、高峰客流),以此作为判断依据,实施应急预案,降低对轨道交通系统平稳运行的冲击。根据分析的角度不同,一般将城市轨道交通客流流量分为站点客流、断面客流、站间OD(origin-destination)客流3类。

站点客流常用的统计量有进站量、出站量、换乘量、客运量等。可以从时间维度(分、时,日,周、月、年等)和空间维度(车站、线路、线网)两个层面来统计分析客流的流量、流向等特征。例如,从时间维度统计交易数据,可以分析全日进站客流的分布规律,典型日客流分布类型可归纳为单向峰型、双向峰型、全峰型、突峰型、无峰型等5类[9]。图1为某市两个车站进站客流的日分布图,其中图1(a)显示该车站周边用地功能比较单一,客流具有明显的潮汐现象;图1(b)显示该车站位于综合功能用地区域,呈现成对的早晚高峰。进站客流日分布的统计结果是客运组织人员安排调派的实施基础,也可以作为模版对新规划线路沿线的客流模式进行匹配估计。

图1 车站日客流分布[10]

断面客流指线路上任意区间中某断面位置在统计时段内通过的乘客数量,在数量上等于在该统计时段内通过的所有列车的载客量之和。断面客流能够准确地反映在某个时间段内线路对开行列车数量的实际需求。站间OD客流指在某一时间片段内,以乘客进站的站点作为起点,以乘客出站的站点作为终点,起终点间的乘客交通出行量分布。站间OD分布与沿线区段空间分布结果可以很好地反映出轨道沿线各站点及各区段人口出行的特性。在轨道交通线网比较简单时,断面客流和站间OD客流的统计计算比较容易,但当线路形成网络化后,往往会存在二义性路径,此时单纯依靠统计已不能得到预期的结果,还需要先进行线网换乘客流的路径选择分析,关于这一点将在后面进行说明。

2.1.2乘客特征统计

乘客信息包括乘客持票种类(学生票、优惠票等)、换乘次数、乘距、乘车站数、乘车时间、换乘方式(站点)等内容。这些信息可以全面反映网络客流的个人属性以及出行路径、出行距离、旅行时间、换乘效率等乘客出行特征,是运输企业优化运输组织方案、优化清分模型、优化线网结构、提升运输效率和服务水平的关键因素。相比于客运量统计,乘客特征统计是从微观上挖掘轨道交通客流的潜在规律,分析乘客行为的原理,可以帮助提升轨道交通的服务质量,满足当下社会愈来愈高的人性化要求。

一个有效的例子就是轨道交通管理者会根据不同客流类型(如乘距分布、通勤乘客比例、游客数量等)的客流量统计结果(见图2),分析客流的偏好分布。可以结合聚类分析的方法合理区分出不同的乘客群体,总结概括每一类乘客群体的出行模式,针对不同的乘客群体制定相应的个性化服务(如通勤月票、旅游计次票等),以增强轨道交通对乘客的吸引力。更进一步,可以利用现代商品营销中的关联规则,发现乘客各种特征属性之间隐蔽的联系,深入研究乘客的出行行为,这是常识分析和数据库逻辑操作不能获得的知识,也许会给交通研究者带来出乎预料的结果。

图2 某市轨道交通客流乘距分布

2.1.3清算信息统计

清算信息统计是对轨道交通运营企业的财务收益情况进行统计,包含对账类和结算类两大类,结算类信息又可细分为售票类、消费类、服务类、申诉及调整类等。清算信息能够反映企业的利润盈亏,帮助轨道交通运营管理者了解企业的运行状态,为企业制订方案措施提供参考意见和评估标准。

对账指清结算中心ACC与线路中心和一卡通公司的日常对账,核查缺失、错误、异常数据并将结果进行汇总。在具体的工作中,对于缺失的数据一般通过使用相似的数据序列推测补齐数据,而对于错误、异常数据可以通过孤立点分析,查找数据中的噪声,分析原因以改进系统性能。结算信息指轨道交通企业各种资金收入渠道的汇总统计,是企业经济效益的直接体现。将结算信息与轨道交通运营环境的改变(如票价变更、大小交路变更等)进行关联分析,能以量化的形式评价这种改变对企业效益的影响程度。

2.1.4票务信息统计

票务信息包括票卡流动、票卡使用次数、票卡流失、库存类、调配类、密钥、票务综合类等信息内容。票务信息反映了轨道交通网络上各级管理中心库存状态的变化和对票卡的需求,是轨道交通票务管理实施的基础。

票卡的统计信息还能用于对AFC服务设施的分析。例如,统计不同类型票卡的客流量可以获得在轨道交通出行中乘客选择回收类票卡、非回收类票卡的数量和使用比例,轨道交通企业可以根据各种票卡的利用率信息判断回收类票卡、售票机、充值窗口的数量是否满足需求。

2.1.5设备状况信息统计

设备状况信息是对设备上传的工作状态日志进行分析统计,主要内容包括设备故障信息和设备完好率。对于设备故障信息的统计一般从可靠度方面着手,通常是通过设备故障记录得到设备的故障率、平均无故障工作时间、平均故障修复时间等指标。城市轨道交通企业依据这些指标可以优化设备管理、合理配置维修人员以及为新添设备选择厂家、型号提供参考意见。可以在设备管理中心为每一台设备分别建立工作档案,更精确地监视设备的工作状态,例如通过统计每次维修之间的无故障工作时间,观察设备处于使用寿命周期的哪个阶段,若一台设备的无故障工作时间衰减得很快,则应该考虑更换新设备。

2.2信息预测分析

相比单线运营模式,网络化运营在客流与车流两方面都更加复杂,配置协调的难度将大大增加。单纯的数据统计只是从更高的层次反映轨道交通系统过去和当前的运营状态,方便地铁公司进行信息搜索、阅读,并不能提供其他更多的消息。而现代交通要实现智能化、自动化的目标,对信息的全面性、实时性、动态性、预测准确性的要求较高,因此需要针对轨道交通网络化运营特点,运用数据挖掘技术对AFC原始数据和统计信息进行深度挖掘,为城市轨道交通运营管理提供决策支持,以达到降低运营成本、提高城市轨道交通服务水平的目的。一般可以从以下几方面进行更深度的预测分析。

2.2.1客流预测分析

客流预测是根据AFC数据库数据、客流统计数据、乘客特征数据和通过客流调查等得到的客流影响因素信息,比较选择适当的预测方法对客流进行预测,发掘客流的内在规律性,做出有价值的发展趋势分析,并对预测结果进行分析评价,最终为运营评估、应急处置以及其他信息系统提供支持,为运营管理部门和政府决策部门日常运输组织提供决策参考。

轨道交通客流预测的具体内容有很多,从预测的时间长度上来讲有短时预测、短期预测和长期预测。短时预测(15min以内)能够为轨道交通企业提供比较实时的客流变化信息,帮助企业准确把握客流变化规律;短期预测还有日、周、季节流量变化预测,能够帮助企业准确编制运输计划;长期预测一般是对轨道交通线路或者线网,未来以年为计量单位的客流量进行预测,为城市轨道交通线网和城市发展的规划提供决策支持。另外,从预测客流的形式可分为站点客流预测、断面客流预测和站间OD客流预测,从预测方法的输入数据实时性可将流量预测分为静态预测和动态预测,从客流的规律性可分为常态客流预测和非常态客流预测,而按照预测方法的不同则可分为线性预测、非线性预测和组合预测,需要从预测的目标出发选择合适的输入数据模式、预测方法,从而得到预期的结果。

以进站客流的短时预测为例,阐述客流预测数据挖掘应用。一种简单方法是运用分类分析的原理,按照是否为节假日、一周内的第几天、是否下雨等特征进行分类,确定分类界限,然后选取足够的历史数据样本进行训练,通过有效性检验后就可对未来的短时客流进行预测。分类的方法操作简单、便于理解,同时也具有一定的预测准确度,但在轨道交通发展成熟之前,客流量随时间会有增长的趋势并伴随不确定性,因此可以运用时间序列法(例如SARIMA模型)进行预测,这种方法是从时间角度对客流的特性进行分析,在按设定的时间间隔统计历史数据的基础上,建立SARIMA模型发现预测值与历史数据的线性关系来进行预测。为了得到更优的预测结果,还可根据SARIMA模型提取历史数据中与预测值相关的特征,再运用支持向量机(SVM)方法预测,以提高预测精度(见图3)。

图3 SARIMA与SARIMA+OLSVM两种模型的进站客流短时预测[10]

在客流预测的基础上,还可以做更多的挖掘工作,例如分析客流不确定性有助于提高轨道交通客流预测的可靠性和可信度,以及对高峰客流持续时间进行预测可以实现优化列车行车计划、提高运营服务质量等方面的效果。

2.2.2线网客流分布估计

轨道交通采用的无缝换乘方式方便了出行者的换乘,同时也增加了精确分析乘客出行路径的难度。线网客流分布估计依托列车运行数据、AFC系统的客流数据和客流调查相关数据等,模拟乘客出行路径选择行为,实现对换乘客流线网时空分布规律的描述。

发达的轨道交通线网可能具有多个运营主体,为公平、合理地保障合作运营模式下各运营商的利益,就要采用合理的票务清分规则,而票务清分的核心内容是较为准确地估计线网上客流的分布。轨道交通票务清分的挖掘可以分为两个主要部分内容,确定网络上OD对间可选路径和建立客流出行路径选择概率模型[11]。前者一般是基于图论的原理,选择OD对间最短的数条路径作为备选有效路径,后者多是综合路径长度、行程时间、换乘次数等因素建立路阻函数,在此基础上建立数学模型,模拟乘客的选择行为,得到各路径的选择概率,建模的方法不一而足,一般采用的有概率选择模型、Logit模型、博弈论模型等。最终,可以从线网上客流的分布规律中提取出线网客流清分比例表,据此实现票务收益的合理清分,根据线网客流分布还可以实时推算复杂线网的断面客流和进行站间OD矩阵的动态预测。

2.2.3票务管理支持

票务管理支持是在票务统计信息之上进行综合分析和预测,从而科学地管理票卡,主要包括各类票卡使用量预测、回收率票卡流失预测、票卡跟踪信息分析等。与客流预测类似,票卡的预测也可以基于历史票务统计数据使用时间序列模型进行预测,或者与其他的方法相结合以提高预测的精度(见图4)。准确的预测结果能让票卡库存、调配、采购的数量更加符合轨道交通企业运营的需求,合理地节省企业的开支。票卡跟踪信息分析是对票卡的流通、交易、充值等信息进行挖掘分析,及时提醒销毁无效票卡,以及跟踪异常使用票卡等,保证票卡的安全性。

图4 回收类/非回收类票卡比例预测

3 结语

数据挖掘从20世纪90年代正式被提出,到现在不过短短20多年的历史,如今正方兴未艾,其巨大的应用价值及潜力吸引了众多研究者和管理者的关注。在大力建设智慧交通潮流的影响下,城市轨道交通近些年也开始将数据挖掘技术引入到运营管理中来,以提高轨道交通的管理水平和智能化程度。

本文从整体上简要阐述数据挖掘的原理,包括数据挖掘的任务、数据挖掘处理的过程以及一些数据挖掘技术常用到的方法。在此基础上,从统计分析和信息预测分析两个层面探讨了数据挖掘技术在城市轨道交通中的应用途径,并通过列举实例说明了数据挖掘在轨道交通中应用的可行性,旨在为轨道交通运营企业提供参考。

[1] Han J, Kamber M.Data mining:concepts and techniques[M].2nd ed.San Francisco C.A:Morgan Kaufmann,2006.

[2] 刘君强.海量数据挖掘技术研究[D].杭州:浙江大学,2003.

[3] 董焰,单连龙.中国城市轨道交通未来十年发展趋势及政策导向[J].城市轨道交通研究,2004,7(3):6-9.

[4] 夏幼明,解敏,周雯.数据挖掘方法分析与评价[J]. 云南师范大学学报,2003,23(2):8-16.

[5] 何彬彬,方涛,郭达. 不确定性空间数据挖掘算法模型[J].中国矿业大学学报,2007,36(1):121-125.

[6] 王爱平,王占凤,陶嗣干,等.数据挖掘中常用关联规则挖掘算法[J] .计算机技术与发展,2010,20(4):105-108.

[7] 谭立云,高学东,武森.数据挖掘方法与应用[J]. 华北科技学院学报,2004,1(2):52-55.

[8] 姚国华,陈莹,张宁.城市轨道交通AFC系统总体业务规划[J].都市快轨交通,2011,24(4):61-64.

[9] 陈莹.城市轨道交通运行状况评估研究[D].南京:东南大学,2011.

[10] 王雪梅.城市轨道交通常态与非常态短时客流预测[D].南京:东南大学,2013.

[11] 戴洁.基于博弈论及离散概率选择的轨道交通清分算法研究[D].南京:东南大学,2013.

(编辑:郝京红)

Application of Data Mining for Urban Rail Transit Automatic Fare Collection

Shi Zhuangbin1Lu Wenxue2Zhang Ning2

(1. ITS Institute of Ministry of Education, Southeast University, Nanjing 210018; 2. Suzhou Railway Co., Ltd., Suzhou Jiangsu 215006)

In order to improve the operation and management level of urban rail transit and to bring economic benefits and social benefits of rail transit enterprises, this article mainly discusses the potential and the value of applying data mining in rail transit automatic fare collection. This paper firstly analyzes the lack of data utilization in current AFC system. Secondly, it roughly introduces the basic principles of data mining through the analysis of the categories, processes and common methods of data mining. Finally, from the perspective of the demands in both statistics and forecasting in operational management, the prospect of applying data mining technology in passenger flow, ticketing, revenue, equipment, etc. of urban rail transit was discussed in depth and its feasibility is verified through of practical application cases.

rail transit; data mining; operations management; statistical; forecasting of passenger flow; ticket

10.3969/j.issn.1672-6073.2015.01.007

2014-04-02

2014-06-03

石庄彬,男,硕士研究生,研究方向为轨道交通工程,shizhuangbin@gmail.com

苏州市科技计划项目(ZXJ0801)

U29-39;U293.22

A

1672-6073(2015)01-0023-05

猜你喜欢
票务客流数据挖掘
浅谈城市轨道交通车站票务运作风险管控
客流增多
地铁多元支付与票务安全融合发展研究
文旅部出台国内首个演出票务领域行业标准
探讨人工智能与数据挖掘发展趋势
民航票务企业所需人才现状分析
基于并行计算的大数据挖掘在电网中的应用
基于自学习补偿的室内定位及在客流分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
人工免疫算法在电梯客流时段划分的应用