李沁鲜
(昆明轨道交通运营有限公司,云南 昆明 650000)
随着中国城市轨道交通建设的迅速发展,各城市轨道交通网络日趋形成,轨道交通企业形成多个轨道交通生产系统,例如列车自动控制系统(ATC)、电力监控系统(SCADA)、自动售检票系统(AFC)、设备监控系统(BAS)等。AFC系统负责收集轨道交通票务相关数据,实现自动售检票票务处理、设备监控、客流收益清分、分类统计汇总报表功能。随着轨道交通运营年限的增长和运营线路的增加,AFC系统积累了大量运营数据,这部分数据具有分析潜力和价值,急需新技术进行深度挖掘分析。
目前轨道交通企业建立的AFC系统缺乏海量票务交易数据、设备状态记录和维护日志等进一步的挖掘、发现、分析和利用,主要存在以下几个问题:①现行AFC系统仅能实现基础报表生成和数据的增、删、改、查功能,无法实现大量复杂查询的需求;②现有的系统无法实现基础数据分析和处理,该部分功能需要人工介入分析及处理;③现有系统查询数据为实时发生数据,无法对数据进行预测;④现有系统独立运行,无法实现运营数据一体化整合功能。
为解决AFC系统目前存在问题,进一步完善城市轨道交通AFC系统的有效性和协调性,提高城市轨道交通网络化运营管理的水平,需要探索数据仓库技术和数据挖掘技术的综合应用,形成一套有效的管理决策体系,从而提升数据资源利用率,为轨道交通企业的管理决策提供有效支持。在城市轨道交通AFC系统中应用数据仓库和数据挖掘技术是国内外高度关注的应用技术,是中国轨道交通AFC行业内重点研究和探索的方向。数据仓库和数据挖掘技术二者均以数据库技术为基础,但支持决策分析的方式不同,因此可考虑将二者结合起来,综合运用数据仓库的宏观数据分析和数据挖掘知识,形成一套新的综合决策体系。
数据仓库技术是数据库领域的分支,是一个面向主题的、集成的、相对稳定的反映历史变化的数据集合,可用于支持管理决策。数据仓库将数据库中的数据按决策需求进行重新组织,数据仓库中数据按照多维立方体排列,支持旋转、切片和切块、下钻和上翻的操作,可为用户提供以下信息:近期基本数据的查询(单项查询或组合查询),各类综合数据查询,各类预测数据查询。美国NCR数据仓库公司将数据仓库的发展总结为5个阶段:①报表,发生了什么;②分析,为什么会发生;③预测,将来要发生什么;④实时决策,正在发生什么,动态数据库;⑤事件触发的自动决策,希望发生什么,实现自动化决策[1]。
相对传统数据库系统,数据仓库是面向主题的,每个主题对应相关的宏观分析;进入数据仓库的数据是稳定的,通过对传统数据库的数据进行加工与集成后方可入数据仓库,同时数据仓库包含大量历史数据,能够进行深入的综合分析。正是由于数据仓库技术相对传统操作型数据处理技术的这些优势,因此可在AFC系统平台下构建主题数据库,以实现从海量的历史票务数据中进行主题分析,为提升城市轨道交通运营企业决策管理水平提供有力的支持。建立AFC系统主题数据库需要将数据经过ETL(Extraction Transform Load)过程,即对数据进行抽取、转换和装载。在此过程中需注意2个关键作业点:①数据的获取。数据获取需充分考虑业务需求,选用和设计合适的数据抽取和转换工具进行数据抽取。②数据仓库用户查询和分析。数据仓库查询结果分为业务报表和动态查询,需运用位索引技术,确保数据查询的效率。
数据挖掘是指利用专门算法从数据中发现隐含的、先前未知的并有潜在价值的信息的特定步骤,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,实现正确的决策[2]。
数据挖掘首先要明确挖掘的任务和目的,同时结合数据的特点和用户的需求,选择合适的挖掘算法,实时数据挖掘,完成数据挖掘任务。数据挖掘有6项任务,即关联分析、时序模式、聚类、分类、偏差检测、预测。数据挖掘的技术分类包含归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类,可运用的方法包含决策树方法、神经网络方法、覆盖正例排斥反例方法、粗糙集方法、概念树方法、遗传算法、公式发现、统计分析方法等[3]。数据挖掘的质量有2个主要影响因素:①挖掘的数据的质量和数据量,当数据质量较好且数据量足够大时,数据挖掘结果较好;②数据挖掘选用方法的适用性和有效性,当所选方法能够适用于基础数据时,数据挖掘结果较好。
目前AFC系统的数据主要包括票务交易数据、审计数据、设备状态记录、维护日志等。针对轨道交通AFC系统数据特征,在建立AFC主题数据库的基础上,考虑数据挖掘的特点,综合运用数据仓库技术和数据挖掘技术,将二者结合起来,从不同维度进行数据分析,最大程度地提高轨道交通运营管理能力。
数据仓库与数据挖掘是近年来发展的新技术,数据仓库由数据库演变而来,是根据用户需求存放的支持决策分析数据的场所;数据挖掘从人工智能的机器学习演变而来,是从数据库中挖掘信息的过程。二者是2项不同的技术,但其共同之处在于二者均是在数据库的基础上发展起来的,都是决策支持新技术。鉴于数据仓库与数据挖掘的特点,可在AFC系统中运用数据仓库和数据挖掘技术,二者联合运用形成综合决策支持系统。数据仓库负责对数据进行综合、预测和多维数据分析,是数据驱动的辅助决策方式,数据挖掘是从数据库中挖掘知识,是知识驱动的辅助决策方式。AFC系统中的数据涵盖公司运营经营情况,是公司运营管理决策的重要依据,公司管理人员需要从数据中获取关键信息,以合理安排运营组织、客流吸引、票卡发行及管理等关键业务,城市轨道交通AFC系统中,数据仓库和数据挖掘技术的综合应用可分为以下2个步骤。
建立AFC主题数据库。AFC主题数据库是指新建一个数据库,将历史数据迁移至数据库中,提升AFC正线系统的运行效率。数据库搭建完成后,需通过数据仓库技术进行主题划分,建立主题数据库。主题数据库需从企业综合管理需求角度及数据库建立需求角度出发,一方面要满足企业在运营决策过程中的数据需求,另一方面需考虑数据库数据的稳定性和有效性。因此可将AFC主题数据库按需求分为初级功能、中级功能、高级功能。初级功能对应综合报表统计,按照周期性和需求部门进行分类,并开放数据查询接口,设置数据查询权限,能够实现各部门综合类报表的精准统计需求;中级功能对应数据指标统计分析,数据指标统计以AFC系统生成初级数据为基础,结合《城市轨道交通运营绩效指标体系(MOPES)》中收益及客流指标,从收益指标和客运量指标2方面提出需求;高级功能对应数据专项主题分析,把AFC数据划分成一些可以管理的单位,主要针对企业特殊业务需求及决策分析需求设置,包含客运量、收益预测主题和用户分级主题[4]。
在主题数据库建立完成后,应用数据挖掘技术。将数据仓库和数据挖掘结合,集成到一个系统中,提升系统的决策支持能力。此决策支持系统以数据驱动方式提供决策支持,数据仓库中的综合信息需要用到统计模型的计算来得到,预测信息需要利用预测模型的计算来得到;数据挖掘中应用各类方法技术模型,这类模型的输入是数据,输出的是知识。数据仓库和数据挖掘结合后,极大提高辅助决策能力,可应用于实际决策问题,此决策系统以数据为驱动,对象为数据仓库中的海量数据,通过数据库的综合信息和预测信息,联合数据挖掘所获取的知识,共同为实际决策问题辅助决策。AFC系统中数据仓库和数据挖掘技术的综合应用思路如图1所示。
图1 AFC系统中数据仓库和数据挖掘技术的综合应用思路
为提升轨道交通票种多样性,针对轨道交通中的差旅客客流(主要为旅游或办事等外来旅游、商务客流),轨道交通可推出电子日票满足差旅客出行需求。电子日票票价定价方案确定后,需综合运用数据仓库和数据挖掘技术,预测日票发行收益。日票收益预测首先通过主题数据库的乘客分级,查询出异地差旅客流出行情况,再计算出各使用次数下的优惠金额,在此基础上运用数据挖掘技术,选择一元线性关系呈现转化率与优惠金额之间关系,最终推出日票发售收益。
3.2.1 日票定价方案
日票的定价须充分考虑异地旅游乘客短期使用次数、平均票价情况等因素。目前昆明轨道交通1日票电子票定价13元(电子日票无卡成本)。
3.2.2 主题数据库中现有异地差旅客流数据分析
在主题数据库中选择乘客分级主题,查询异地差旅客流,主要选取现有互联网支付异地用户数据(注册信息归属地不属于昆明市),使用次数较多(3次及以上)的乘客。互联网支付异地用户单日乘车3次及以上的乘客日均6 611人,平均票价3.56元,日均乘车次数为3.26次。
3.2.3 运用数据挖掘进行日票收益预测
当乘客当日总票价高于日票发行票价时,乘客会选择使用日票出行,故需计算出各使用次数下的优惠金额,当日使用次数为3次时,日票优惠金额为-2.05,即日票票价高于实际出行票价。乘客单日使用次数4次及以上人员,使用日票均有优惠,单日使用次数越高,日票优惠金额越大,转化率越高。日票收益预测如表1所示。
表1 日票收益预测表
在主题数据库中查询当日出行次数3次的乘客,满足3次出行的平均票价高于日票平均票价(日票平均票价=日票票价/出行次数)4.33元条件,该部分乘客占日均人数的13.5%,优惠金额0.22元。参考需求价格弹性理论,所谓需求价格弹性,即在一定时期内一种商品的价格变化1%时所引起的该商品需求量变化的百分比。价格上涨时,需求量下降;价格下降时(优惠金额大),需求量上升。即日票转化率与优惠金额呈现正比关系,优惠金额越高,用户选择日票的概率越大。
在该理论基础上,运用数据挖掘技术方法,选择一元线性关系呈现转化率与优惠金额之间关系,即转化率y=a(系数)×X(优惠金额)。假定当优惠金额大于8.14元时,全部乘客愿意选择日票,求得a=0.01228,即转化率y=0.122 8×日票优惠金额,可计算出转化率。
因此日票每日收益=∑日均人数×转换率×日票价格(13元/张)=2 477元。
本文主要介绍了数据仓库基础知识及在AFC系统中的运用,建立AFC主题数据库并进行分级,并对数据挖掘技术的概念及方法进行探讨,最终通过综合运用数据仓库和数据挖掘,形成综合决策支持系统;最后在轨道交通日票收益预测过程中运用此综合决策系统,提升轨道交通运营管理信息化和智能化水平。数据仓库技术及数据挖掘技术的结合,让数据使用效率得到有效提升,2项技术可以相互补充,能提高轨道交通企业的辅助决策能力。但此系统包含较多关键技术,数据仓库中的结构选择与数据查询和提取的效率息息相关;数据仓库的管理系统更加复杂;数据仓库中的数据综合计算,综合数据的方法和计算对辅助决策效果产生直接影响;数据挖掘方法较多,各方法适用情况不一致,需要进一步研究针对决策内容选取恰当的数据挖掘方法,并探索更多的数据挖掘方法,进行各类方法综合应用,提升数据挖掘结果的辅助决策效果,进而提升数据的辅助决策效果,这将是今后研究的方向。