铁路新一代客票系统大数据应用创新研究

2019-05-23 08:47朱建生
铁路计算机应用 2019年4期
关键词:客票客流客运

朱建生

(中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)

近年来,我国高度重视大数据研究和应用,从国家层面制定了一系列宏观发展战略、规划和政策。2015年8月发布的《促进大数据发展行动纲要》[1]明确指出,坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。我国铁路也建立了一系列客运相关信息系统,包括新一代客票系统、旅客服务系统、客运管理信息系统、客运延伸服务系统和客运清算、营销等系统,为铁路旅客运输服务质量的提升奠定了良好的技术基础,也为铁路客运大数据平台建设提供了大量客票销售、旅客乘车、运输清算等业务数据和日志数据,成为构建铁路客运大数据平台的重要数据支撑[2]。

中国铁道科学研究院集团有限公司客票团队从2012年开始进行大数据的应用技术研究,主要包括以下几方面:

(1)大数据平台技术积累。包括数据的采集、存储、处理、共享、可视化及数据安全等。

(2)大数据技术人才储备。通过大数据专项技术培训、技术论坛、产品交流会等多种形式,进行大数据技术人才的培养与储备。

(3)客运业务运营及运营业务需求梳理。对既有系统的业务数据进行归类、建立模型、总结经验。

(4)技术与应用结合实践。对大数据技术和产品进行比较分析和测试,搭建大数据实验平台,并在部分业务系统中开展试点,进行系列大数据应用创新。

本文通过研究铁路大数据关键技术,实现了票额智能预分、铁路旅客画像和客运运营支撑等重点大数据应用创新,对铁路客运创新发展具有借鉴意义。

1 新一代客票系统及客运大数据平台

为满足铁路新一代客票系统大数据应用需求,在系统建设和优化过程中,引入了多种大数据技术进行支撑,铁路客运大数据平台应运而生。

1.1 铁路新一代客票系统简介

铁路新一代客票系统应用于中国铁路总公司、18个铁路局集团公司及所有客运车站和旅客列车,是我国铁路运输服务核心支撑平台和国家关键信息基础设施。系统提供了12306互联网售票系统(简称:12306)网站/手机APP、车站/代售点窗口、自动售票机、电话订票等丰富的售票渠道,支持现金、银行卡、网银以及第三方支付等多种支付方式,提供互联网订餐、动车组自助选座、接续换乘、铁路畅行会员等延伸服务功能。系统以其灵活的售票组织策略,形成了涵盖售前预分票额、售中预警与调整、售后评估反馈的售票组织动态优化技术,有效支撑了铁路运输计划、客运组织、调度指挥、资源配置的精准化管理。在运营过程中积累了大量的系统运行、业务运营数据,如客票交易、席位、订票等,通过对数据的整合、分析,可为管理部门提供决策支持,为运营部门业务开展提供支撑,为旅客用户提供更加个性化的、更好的社会化服务,充分发掘和利用这些数据资产,将为铁路产生巨大的价值。

1.2 铁路客运大数据平台

随着铁路客运业务的不断发展,业务数据呈爆炸式增长,数据的高效处理和精准分析对存储资源和处理性能提出了更高要求。传统数据仓库所采用的SM P架构主机、共享存储的扩展非常困难,且扩容代价高昂,使得系统中的计算资源、存储空间逐渐成为瓶颈,系统数据处理和功能扩展受到限制。铁路客运大数据平台采用基于大数据的体系架构和数据分析技术,对营销系统和既有铁路客运信息系统数据接口进行重构和优化,充分发挥分布式系统的优点,实现了系统的灵活扩展,在提供扩展性更好的存储能力同时,计算能力也得到大幅的提升。

铁路客运大数据平台管理着全部客票交易、席位、订票等相关业务和日志数据,提供了丰富的分析主题,并支持数据集市应用,其架构如图1所示[1]。

(1)外部系统层:包括为客运大数据平台提供相关数据的外部铁路客运信息系统。

(2)数据层:从外部铁路客运信息系统获取相关数据,并对数据进行清洗、整理,形成内部数据。

(3)存储层:包括客运大数据平台数据计算资源、存储资源以及用于支撑平台运行的各类网络资源和系统管理资源。

(4)分析层:部署各类分析服务,用于提供分类、统计、聚合等分析操作的数据服务。

(5)展示访问层:部署各类展示服务,展示类型包括图、表以及地理信息系统(GIS)服务等。

(6)应用层:结合各类业务特征,定制、构建和发布具体的应用以满足用户需求。

2 关键技术

铁路新一代客票系统在建设过程中引入了一系列关键技术,目前,应用广泛的包括分布式数据存储和计算框架、实时流式计算分析和大数据可视化技术。

2.1 分布式数据存储和计算框架

(1)分布式存储。铁路新一代客票系统广泛采用了计算存储融合技术,使用通用X86服务器,构建分布式存储系统,有效解决传统共享存储系统所带来的扩展性差和可用性不足等问题,提供高可靠、高性能、高可扩展、高性价比的一体化存储解决方案。

(2)分布式数据库。铁路客运大数据平台采用MPP + Shared Nothing[3]架构的分布式并行数据库集群系统来完善现有数据仓库结构。分布式数据库集群具备高性能、高可用、高扩展特性,可以为营销系统提供高性价比的存储、计算平台,为数据仓库系统、商务智能(BI)系统和辅助决策系统提供支撑。

(3)分布式计算框架。常规的单机计算模式无法支撑大数据计算的任务量,必须以分布式计算框架将计算任务分解为单机可以承受的计算任务,充分利用大数据分布式计算的特点,发挥分布式文件系统和分布式数据库的优势[4],同时对计算过程中各种问题和异常进行控制,常用的分布式计算框架包括Hadoop、Storm、Spark等[5]。这些框架不仅为12306提供了高可用性服务,也为营销系统的数据收集、数据存储、数据处理和数据查询提供高效的计算资源,为实时数据处理提供保障。

2.2 实时流式计算分析

利用大数据中的流式计算组件,如storm、spark stream ing等基于内存的计算框架[6-7]实现(准)实时数据更新和统计,解决目前对统计实时性要求较高而计算资源不足以支持的现状,实现在小时、分钟甚至是秒级别完成大量数据的计算过程[8]。

2.3 大数据可视化技术

数据展现,通过可视化技术使数据形象化,从而激发人的形象思维。采用大数据可视化技术,针对不同业务特点采用不同的方式进行,有助于找出数据中隐藏的规律,从而为运营管理、业务决策等提供依据[9]。采用的可视化图像类型主要包括折线(面积)图、柱状(条形)图、散点(气泡)图、K线图、饼(圆环)图、雷达(面积)图、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图和混搭等。另外,使用动态的图形和图像结果,用于实时预警、流程监控和趋势对比分析等业务场景。

3 铁路新一代客票系统大数据应用创新

铁路新一代客票系统在建设和运营过程中,围绕票额预分、铁路旅客画像和可视化分析等业务场景开展了深入研究。

图1 铁路客运大数据平台架构

3.1 票额智能预分

由于铁路运力资源分配受限较多、停站方案复杂、铁路票额始发集中管理,导致旅客需求与运能的匹配情况不易掌握,因此,要求新一代客票系统自预售之日起,保证始发长途票额分配合理,兼顾沿途需求,保障中间站的旅客发送,充分提高中间站组织客流的积极性,达到票额管理合理化、科学化、趟车效益增加的目的[10]。票额智能预分是以最大程度有效利用运能、满足旅客出行需求为目标而构建的客运票额优化组织与管理的创新管理模式,其基本思路是在铁路有限运力条件下,以历史数据为基础,以列车运行图为约束,按列车席别,对起终点间(OD)客流进行需求预测,生成列车席位预分方案,并根据客流波动的规律对票额进行实时调整,其流程如图2所示。票额智能预分对各铁路客运企业运输组织实现挖潜提效、精细化管理起到了关键作用。

图2 票额智能预分流程

3.1.1 OD客流预测

来自铁路新一代客票系统的多个渠道的售票历史数据通过传输、复制等数据同步技术进入到铁路总公司营销系统,形成所需分析的数据源,通过ETL装载进入铁路客运大数据平台,在营销系统的客流预测子系统中进行预测[11]。由于票额预分所需的OD客流预测目标需要精细化到每趟车的OD客流,而铁路旅客上下车客流受多种因素影响,尤其是对于客流量较小的车站随机性很强,属于大尺度空间下的小样本预测难题。客流预测子系统采用长期客流预测、短期客流预测以及车票预售过程中的动态预测相结合的方法,结合同比、环比、节假日规律性波动以及当前预售情况,较好地解决了该预测难题。目前,平峰期每天预测约12万多个区间,高峰期可达13万多个区间。

3.1.2 预分方案生成与执行

客流预测子系统产生的预测数据进入票额预分执行子系统,票额预分执行子系统形成预分方案,下发到各铁路局集团公司(简称:铁路局)。预分方案通过票额预分执行子系统作用于席位库,对生成的初始票额进行预分,各铁路局通过票额预分优化子系统对预分效果进行实时反馈,形成优化方案,供铁路局客运决策者进行调整,实现智能调整。

3.1.3 实时动态调整

为适应动车组列车的公交化开行和售票组织策略的动态调整,进一步提高订票记录和可售能力获取的实时性,铁路新一代客票系统采用内存数据库技术研究了可售能力的敏捷获取方法,以实现对票额预分情况的动态调整。基于12306余票查询集群定义余票批量调用W ebService 接口,设置逻辑上的余票快照应用服务器,在监控车次定义表中定义需要监控的车次,包括所有的购票区间及席别,应用服务器每隔一段时间向查询接口发出一次所有定义表中已定义车次的采样请求,由于车次较多,采用并发任务执行。监控车次定义表由工作流定时更新,不断新增新开的车次,取消已经停开的车次,并将车次加入预先设置好的并行分组,采样结果存入大数据分析平台。在铁路局级客票系统设置席位库触发器,将订票信息实时采集到本地,结合初始预分席位生成席位存量,席位存量存入大数据分析平台,以供其他系统分析使用。

智能票额预分实施以来,列车效益得到了较好的提升,其中,京沪高铁和武广高铁全线发送量分别提升了2%和0.3%,收入分别提升10.4%和4.8%,客座率分别提升7.9%和10.6%。

3.2 铁路旅客用户画像

用户画像即通过对汇聚的海量用户数据执行不同的数据维度分析,进行用户信息标签化,形成每个用户的特征标签集合,对外提供基于用户特征标签的数据服务的过程。铁路旅客用户画像系统是利用铁路旅客出行和交易信息,推导出用户的人口属性、行为偏好等语义标签,为深度利用这些信息、提供更好的出现服务提供数据基础。

3.2.1 用户画像系统构建

铁路旅客用户画像系统架构如图3所示。利用Hadoop、Hive、Elastic Search、Hbase等大数据框架及组件对旅客的购票行为、支付行为等进行深入分析;分布式文件系统(HDFS)用于存储业务数据与用户标签属性数据; Hive用于统计分析用户标签属性;Elastic Search用于快速搜索用户标签数据。采用SpringMVC、M yBatis、Bootstrap、echart等架构开发系统管理界面,系统元数据统一存放在PostgreSQL数据库中。

图3 铁路旅客用户画像系统架构

3.2.2 用户画像系统应用

基于目前铁路客运数据现状,铁路旅客用户画像系统可完成下述几个方面的应用:通过对旅客所购车票信息的分析,可得到旅客成分结构、产品选择行为、购票行为、旅行行为等方面信息。

(1)旅客群体分析

旅客群体分析是指旅客成分结构,主要包括性别比例、旅客区域(城市)比例、各年龄段比例、各票种的比例,可用于区分购票人群和推算消费偏好。

(2)旅客购票行为分析

产品选择行为包括旅客常选择的列车类型、铺别和席别、票价区间、乘车里程分析、列车开点到点、列车担当企业等偏好,用于指导运输企业设计客运产品。

交易行为分析包括购票渠道、是否需要互联网换票、取票、自助售票习惯、支付方式、预售规律、通票、联程、往返票分析、退票时间规律、改签时间规律、改签分类分析等,用于指导运输企业制定铁路销售策略。

(3)旅客出行行为分析

按旅客出行目的分析:通过设计合理的模型进行评判,将出行目的分为旅游、商务、公务、探亲、民工、学生、通勤职工等;按旅客出行频度分析:按出行次数对旅客进行分群分析,得到潜在的常旅客用户;按旅客出行范围分析:按行政区划进行出行范围分析,如省内客流、省间客流;按旅客出行行程分析:按旅客出行行程进行分析,由聚类模型分析得到旅客行程的合理划分。

(4)精准营销

通过对旅客群体、购票和出行行为的分析,可以发现需要重点关注的旅客,从而进行产品推荐或者个性化服务,提升旅客出行体验。铁路旅客用户画像系统,为旅客建立了人口属性、出行行为、交易行为等多维度的标签,通过对多维度标签的筛选、聚类,找出符合要求的特定人群,然后在推荐平台为人群制定对应的营销策略,并利用广告平台实现对用户群体的精准营销[12]。基于铁路旅客用户画像数据的推荐系统利用Elastic search 组合和聚合搜索能力,提供快速的标签筛选能力,在此基础上利用机器学习算法—基于用户的协同过滤算法,根据用户的偏好实现用户聚类,即将相似度较高的用户分为一个群体,在用户访问时进行信息的推送,从而实现产品的精准推荐。

铁路旅客用户画像系统的建立填补了铁路客运信息化的一项空白,通过对铁路用户的行为数据、交易数据等信息进行采集、加工和分析,形成用户精准画像数据,支撑精准广告投放和精准服务推荐,为用户提供更加个性化、更好的社会化服务,有利于铁路部门提升客户服务能力、提高信息资源收益和核心竞争力。

3.3 铁路客运运营支撑

近年来,借助大数据和人工智能技术提升辅助决策的水平,强化了相关业务数据的实时统计和展现,同时,借助各种销售渠道不断丰富客流调查的范围和调查内容,同步优化和完善了客流预测功能,加强票额预警监控,分析售票组织策略,调整票额分配建议,测算趟车经济效益,为铁路运输组织、运力调配、客流分析、开行方案制定、运行图优化等提供了有力的支撑。

3.3.1 客流分析与预测

客流分析是以客票交易数据、运能利用数据为主要数据源,按日期、列车、方向、区域(省、局、段、站)、列车等级、席别、票种、渠道等不同类别对售票存根、席位库数据进行加工处理,为铁路总公司、铁路局、站段(含客运段)三级用户提供对客票发售、客流情况、票额利用以及各渠道销售情况等进行统计和分析的结果。

客流预测是以交易数据、客流调查数据、购票请求数据、客流影响因素等为依据,采用数据挖掘中的相关技术,如分类与预测方法、聚类方法、时间序列方法等,对未来不同时间范围内(如年度、预售期内、特定节假日等)、不同粒度(如全路、指定铁路局、指定车站、指定车次、指定OD等)的客流变化趋势、不同客流特点(既有线、高铁、城际等)进行预测,为产品设计与调整、收益管理等各项营销决策任务提供依据。系统可实现总量预测、假日预测、客流成分与趋势预测、专项预测。在研究过程中,建立了增长率模型、四阶段法模型等适用于铁路客流情况分析的预测模型,实现了对未来客流量的高精度预测[13]。

3.3.2 开行方案制定

铁路新一代客票系统以客流分析和预测的结果为依据,结合对历史数据的分析和专家经验,为铁路总公司、各铁路局进行开行方案的辅助制定。

(1)图定开行方案辅助编制

针对图定列车开行方案,在对既有列车客流分析及预测的基础上,为新增列车提供决策依据和模拟评估,对既有列车开行周期、运行区间、径路、停站、编组、运行时段等提出调整建议,为建立基于收益评估的客运列车退出机制提供数据支撑。根据既有线、高铁和城际等不同类型列车,提供适合其各自特点的辅助编制流程[14]。

(2)临客开行方案辅助编制

为满足春运、暑运、节假日临时旅客列车开行方案编制的业务需要,结合运能配置与客流预测结果,对临客的开行时间、等级、编组等提出建议。

3.3.3 运行图优化

短期运力调整建议。在现行开行方案的基础上,针对近期的客流特征和票额预售情况,提出短期内运力调整的建议,如加挂、甩车、换挂、卧代座、动车重联及减编等,适应客流需求。

使用数据可视化技术将客票数据赋予表现力,使客运企业决策者能够直观感受到运营中存在的问题[15]。基于旅客发送量、席位利用等指标对当前运行图进行铁路客流数据的可视化,了解客票系统的宏观运行情况,可直接反映运能和客流匹配的程度,为运行图优化提供重要依据。

4 结束语

铁路新一代客票系统建设和运营,积累了大量的系统运行、业务运营等数据,融合采集、存储、处理、共享、可视化及数据安全的大数据技术。在铁路数据服务平台的基础上,构建铁路客运大数据平台,实现了票额智能预分、铁路旅客画像、客运运营支撑等大数据应用创新。未来,将继续围绕“客运提质”计划,持续优化数据处理、挖掘、增值等环节的模型、算法,构建铁路客运大数据产业链,支撑铁路客运的创新发展,可在如下几个方面进行进一步研究:

(1)基于铁路客运大数据平台,扩展大数据在铁路客运业务的应用范围,重点围绕运输能力和运输组织优化,市场监测,收益管理,精准营销,售票组织监控、预警、调整以及风险防控等应用领域开展研究,加快铁路客运数据内在价值的转化,使其成为铁路客运发展的生产力。

(2)积极开展大数据在铁路客运延伸领域的应用,实现接送站、餐饮、旅游、租车、酒店等客运延伸服务产品的智能推荐和精准服务,创新产品服务设计以满足旅客不同层次的需要,并提供聚合信息服务,发展出行新业态产品,提升铁路旅客出行体验。

(3)构建交通大数据业务生态圈,推动行业互连互通及数据共享,构建无缝化的旅客联运体系,推进各运输方式间的联程联运和智能协同调度,优化运输资源配置,为公众提供更加优质、便捷和高效的智慧出行服务。

猜你喜欢
客票客流客运
客流增多
城市轨道交通节假日期间大客流行车组织思考与实践
基于系统动力学的城市轨道交通车站客流控制仿真与优化
百花齐放的“定制客运”,能否拯救道路客运市场?
航空公司客票直销的现状与分析
提高客运驾驶人安全意识
航空公司客票直销的现状与分析
台湾客运业:高铁躲过破产危机?
基于自学习补偿的室内定位及在客流分析中的应用
基于大数据的客票超售策略