俞诚成,吕红霞
(西南交通大学,四川 成都 611756)
近年来,随着我国社会经济的快速发展,人们的出行需求呈现出“差异化”“多元化”的特点。铁路作为主要交通方式之一,亟需适应日益多元的市场化服务需求[1],这也对铁路客运营销提出了更高要求。大数据的运用为铁路客运营销研究方面的技术创新创造了可能。航空运输营销对旅客标签系统的应用较为成熟,铁路客运营销对旅客个性化的出行需求及行为特征分析存在不够精确的问题。铁路客运产品不能满足旅客“差异化”的需求将在极大程度上导致铁路高价值旅客的流失。因此,亟需构建一个大数据铁路旅客画像系统,帮助铁路客运实现从传统营销策略到以旅客价值为依据的企业效益最大化和旅客服务质量最优化的共赢策略的转变[2]。
国内外专家针对铁路旅客画像系统的研究及应用展开了一定工作。郝晓培[2]利用分布式计算框架Spark等关键技术,研究了铁路客运用户画像系统用户标签计算的相关算法;张军锋[3]基于大数据提出了铁路旅客画像系统架构设计;朱建生[4]利用大数据可视化技术研究了客运大数据平台在票额预分方面的应用。目前,关于客运营销策略方面的研究不够精确、全面,而大数据铁路旅客画像系统可以较好地避免这一问题。本文基于一种适用于时间序列数据的动态密度聚类算法,实现用户标签的生命周期设计,基于此完成铁路旅客画像系统对旅客群体特征的分析并探讨其在日常、节假日客运营销策略制定上的作用。
铁路旅客画像系统是对以铁路为出行方式的既有旅客和潜在旅客进行数据建模,以不同的数据维度对旅客进行刻画。通过对旅客的静态人口属性、动态行为偏好等主要信息进行建模分析,抽象出易于理解的语义标签并形成一个用户的信息全貌。传统的旅客标签体系见图1。
图1 传统旅客画像系统标签体系
铁路大数据广泛存在于以12306互联网购票系统、客票系统、动车组管理系统、车站信息管理系统、运输调度系统为代表的结构化大数据系统中。此外,随着各类智能设备在铁路运维中的推广和普及,非结构化数据也在大量产生[5]。在数据获取层可采用系统日志采集和网络爬虫框架结合的方法,并通过结构化存储模式对数据进行存储。对已选择铁路出行的旅客,必然可以获取其静态社会属性数据和自然属性数据,如证件号、性别、年龄、籍贯等。在动态数据分析工作中,需以旅客出行信息为主并结合访问轨迹、交易轨迹等信息,多维度地刻画旅客画像。动态数据涵盖了出行行为(旅客出行次数、列车类型、乘车区间、乘车时间、候车时长、乘车席位等级等)、交易行为(支付方式偏好、退改签情况等、消费习惯、潜在消费)等多个方面。
建立旅客画像系统的目标是帮助铁路客运部门更清晰地了解旅客群体,并做到根据客运需求合理设计客运产品,精准且高效地制定客运营销策略。基于铁路客运业务现状,旅客画像系统数据处理层采用Hadoop架构,采用分布式数据处理方式,具有低成本高效性的特点。由于涉及大量非结构化数据,需对客运大数据进行清洗,形成有效数据后再进行相关性分析、聚类分析等。铁路旅客画像系统的数据获取及分析层架构见图2。
图2 铁路旅客画像系统数据获取层及分析层架构
铁路旅客动态数据具有更新频率快、时空差异性明显的特点。基于少数样本用户特征分类的标签设计体系不再适用于当前铁路旅客画像系统[6]。引入适用于时间序列数据的动态密度聚类方法[7],可以为铁路旅客标签增加时间维度的属性,实现用户标签体系的自更新,以较低的历史成本高效满足在每一时间步上进行动态聚类的需求。算法通过识别本阶段与前阶段相比新增的旅客数据集和属性产生变化的数据集,通过动态聚类原则实现每一阶段各旅客数据集的类、属性的更新,以i、i+1时刻为例:φi、φi+1为该时刻旅客属性数据集;δi+1、γi+1为新增旅客集、属性变化旅客集;displace、index分别为标签属性与所属类别;P为旅客属性数据集内包含的旅客样本容量,见图3。
图3 旅客属性时间序列数据的动态密度聚类算法
传统意义上的用户画像系统所分配的标签不具备时间维度。而从数据特征来看,铁路客运大数据在时间维度上具有良好的趋势延续性、周期波动性和一定程度上的不稳定性。因此基于时间序列分析的动态密度聚类方法可以更好地赋予旅客属性标签以时间维度,见图4。
图4 旅客属性标签时间维度变更示意图
表1为某阶段内旅客乘车属性的相关描述,对于阶段前ti时段根据Q型聚类求得该旅客出行特征符合旅游客流。经过表1阶段内元素属性位移,在阶段后ti+1时段,根据动态密度聚类该旅客从属于学生客流。而该样本其它标签元素属性并未发生明显偏移,因此将对应标签时间维度延长至阶段后,得到各样本标签时间维度上的变更情况,见表2。
表1 某阶段旅客乘车属性描述
表2 旅客属性标签时间维度变更
此外,该算法在数据更新角度可以表示为:对于某一时间步内新产生的铁路旅客,根据聚类规则,实现初始标签的建立,如表2样本2所示;对于产生新的动态记录的既有旅客,在更新该旅客的动态数据基础上,根据聚类规则,实现旅客画像标签的更新,如表2样本1和样本n所示;对于时间步内未更新数据记录的旅客,根据其聚类是否改变决定其旅客画像标签的更新。
用户画像系统可以帮助企业管理者区分不同的客户群体,分析不同群体间的需求偏好差异和行为特征差异,并对不同客户群体制定更有针对性的营销策略。受限于客运产品具有不可贮藏性,铁路客运具有社会公益性等一系列行业性质特点,铁路客运目前无法将运能与客运需求完全结合,灵活调节客运产品定价以适应市场实际需要。此外铁路客运部门的业务偏向于如何管理生产,而并未有效地对旅客运输市场的各类信息进行总结、承担营销任务[8]。而基层客运管理部门尚不具备全面开展客运市场调研的能力,因此在指定客运产品方面显得力不从心。结合铁路客运部门业务现状,铁路旅客画像系统可以在以下几个方面对接并提供业务上的帮助。
铁路旅客在自然属性、社会属性等标签的数据形成铁路旅客画像数据库,支撑铁路旅客群体分析。从维度构建上,铁路旅客群体分析主要包括产品服务供需维、旅客群体心理维和行为特征时空维,不同维度的数据来源和分析方向不同:(1)产品服务供需维:用户出行需求分析、用户忠诚度分析、热门客运产品分析等,可对客运服务与客运产品的需求进行预测;(2)旅客群体心理维:通过交易行为、出行行为、浏览访问行为对用户行为、用户属性作分群分析,并通过属性标签对旅客群体心理进行分析,提高客运服务的工作质量;(3)形为特征时空维则根据旅客办理各类客运业务的时间、地点和渠道及各因素的相关性等时空特征进行群体聚类及分析。铁路旅客群体分析的若干维度均需以铁路旅客画像提供的海量数据为支撑。同时也可以以既有信息系统为基础,通过交叉运用上述若干维度的数据,实现大数据技术在铁路旅客运输领域内的应用部署[9]。
当下,铁路旅客运输所面临的矛盾已从运输供给不足转向运输供给与市场需求不适应,即对客流方向性、时段性的预测精确度不足。而大数据铁路旅客画像系统通过严谨地搜集和分析既有旅客和潜在旅客的各项数据及行为轨迹,可使铁路客运营销进一步接近真实的客运市场需求。基于画像系统,分析淡季和旺季的客运需求,及时调整运力资源配置,做到运力资源配置与运输组织需求相适应,在保障运输需求的基础上降低运营成本,提高列车开行的质量。对于具体的客流需求预测,通过分析车票预售情况并提取画像系统中相关标签样本进行分析,将更准确地掌握旅客需求动态。如周末自南京至芜湖间交互的旅游流和学生流较之前阶段有大幅增加。而现实也较好地印证了这一推论,通过提报扩能建议方案,分别于周五、周日21:00新增动车,该列车累计发送旅客近万人,客座率高达90.3%。
神经网络等模型具有良好的自适应性和非线性处理能力,以标签取值为输入层,通过误差反向传播不断训练网络以完成对当日既有需求的预测。并通过制定聚类规则和筛选规则,搜索画像系统中与该群体具有相似行为特征的用户作为潜在需求,完成对该类出行需求的预测。此外,在候补票的售票上,可根据该列车旅客的退改事实标签对售票数量进行动态优化,提高候补购票的兑现成功率。对于路网整体,以画像系统的属性变化记录数据为基础,分别从具体车次、具体起讫车站、具体线路、具体区域等多个层面分别利用大数据铁路旅客画像系统完成对客流需求的预测以及对售票策略、席位共复用和列车开行方案的动态优化设计。
清明、端午、五一、十一、中秋等客流高峰节假日的客流具有增长幅度大、周期短、极明显的方向性[10]。因此需基于大数据旅客画像系统,以与平日列车开行方案相似度最大、运营总成本最小为原则,对节假日列车开行方案进行优化设计研究。从画像系统中提取出时间步属性为往年假期及近期平日的旅客用户,并提取其起讫点等维度进行聚类,具体分析客流构成、预测客流需求,分别从列车起讫点、列车走行路径、列车停站方案、列车编组类型、列车开行频率5个方面完成对节假日客运产品的设计及运输工作的组织。同时针对暑运等“季节性”客流需求,从旅客画像系统中提取社会属性标签维度中职业属性为学生的用户及客流特征为旅游客流的类别,基于其过去出行记录维度的数据及阶段内天气特征,完成对当年暑运旅游流、学生流的预测。以大数据铁路旅客画像系统为基础,结合一系列较为成熟的预测方法,完善对节假日客运产品的设计优化,积极提高客运产品供给与市场真实需求的契合度。
目前各站段的精准营销策略以客流专题调查为基础,结合与地方政府沟通对接,依托大数据手段制定,具备一定的技术先进性和方法科学性,但精确性、系统性及主动权方面仍存在不足。建立以大数据技术为依托的铁路旅客画像系统以精益营销管理,夯实客运营销基础必要且迫切。从自然属性、社会属性、事实、模型及业务5个方面构建旅客的标签数据,通过对标签进行筛选和聚类,选定具有共性需求的旅客群体,针对性的进行营销设计。主动掌握客运市场潜在需求,积极开发适需产品,动态优化运能,积极提报重联、临客开行等扩能申请。并利用12306、微博、微信公众号等平台积极推进新增运能的营销宣传。
利用具备聚合搜索能力的Elastic search进行营销设计,以其提供的快速筛选能力实现标签快速筛选聚合,在此基础上,利用余弦相似度量化旅客相似值,并通过基于时间序列分析的动态密度聚类方法,将相似度高的旅客聚类整合为一个群体。
旅客A与旅客B在时刻i的余弦相似度为
Ssim(xA,xB)为两用户在动态聚类时间段T内的相似度,Ssim(xA,xB)为
旅游专列具有定时、定点、定线等特点,因其“一线多游”的优势得到了越来越多游客的喜爱。2019年某省共计开行新疆、东北等8列旅游专列,共计营收1 110.6万,在把握潜在市场需求,制定精准营销策略方面仍有不足。表3为画像系统中拥有该类旅游专列记录的样本标签信息。
表3 旅游专列部分旅客属性标签指标信息
表4 某省出发旅游列车画像系统用户标签特征
根据上文所提到的用户标签相似度计算方法结合k最近邻算法,并从画像系统中以整群抽样的方式抽取出一万个样本搜索潜在需求,最后得到具备潜在需求的样本标签,见表4。
春运临时旅客列车具有开行时间短、往返客流不均衡、社会效益大等特点,尤其是2020年开行的一系列“复工专列”。多地在统筹疫情防控的前提下,积极推动复工专列的开行,自2月16日至3月18日浙江省共计开行151列由贵阳、昆明、成都、阜阳等地“复工专列”,累计接回149 724人次。目前的返程需求需自下而上进行申报,中间环节多,耗费时间长,需求信息获取较为被动。通过旅客画像系统主动挖掘需求,实现精准营销,将在一定程度上缓解类似矛盾。
本文结合大数据相关技术,对铁路旅客画像系统的架构、业务模式、应用环境作了相关探讨。大数据铁路旅客画像系统的研究对实现精准客运营销,提升旅客服务质量、增加客运运输效率有着一定程度上的促进作用。通过细化运输需求分类,实现潜在需求识别,真正做到“按需开车”,提高列车开行效率,降低日常运营成本,为特定时期国民经济发展的需要提供坚实的运输保障,有助于解决旅客日益增长的个性化出行需求与铁路客运供给不平衡不充分的矛盾。我国电力[11]、通信[12]行业对用户画像系统的研究起步较早,且在行业内均处于垄断地位,与铁路运输行业特征较为相似,可为铁路旅客画像系统的建设提供借鉴意义。此外,由于铁路运输生产具有跨业务、跨部门、体系庞大、设备众多的自身特点,需要分阶段展开画像系统的研究和应用。在未来系统的研究和应用过程中,需要多部门的协调配合,因此更需要国铁集团层面进行顶层设计,强化对铁路大数据技术开发方面的组织和管理。