张安忠,许心越,叶红霞
(1.北京交通大学 轨道交通控制与安全国家重点实验室,北京 100044;2.广州地铁集团有限公司国家工程研究中心,广东 广州 510330)
随着城市轨道交通线网的拓展与延伸,网络通达性增强,城市轨道交通从一种“可选项”逐步发展成为了市民出行的“必选项”,出行即服务的理念日益深入,因此乘客对服务的需求和要求也越来越高[1]。用户画像正是通过建模抽象出易于理解、具有代表性和意义的用户标签,通过这些标签来构建一个用户的信息集合,为用户的个性化服务提供支撑。在城市轨道交通系统中,乘客信息可以通过自动售检票(Automatic Fare Collection,AFC)、地铁APP和土地等数据分析,将其转化为乘客的出行标签,建立城市轨道交通乘客画像,能够深入理解乘客的需求,从而设计并提出更适合乘客的服务产品,提升乘客的出行体验。
国内外学者针对用户画像以及与交通领域相关的旅客画像展开了一定的研究[2-5]。张军锋[6]进行了铁路旅客用户画像系统设计与应用研究,为客户推荐服务、精准广告投放、客运辅助决策等业务提供数据支持,罗情平等[7]研究了基于大数据的青岛地铁乘客画像,能够更为灵活高效地实现客流分析的功能。Li等[8-9]提出一种混合时空神经网络来研究乘客出行的空间和时间特征,推断乘客的年龄和居住区域,许心越等[10]提出一种数据驱动的乘客出行目的识别方法,融合AFC 和兴趣点(Point of Interest,POI)数据,使用基于密度的聚类算法识别乘客出行目的。但是,以上研究缺乏多维度考虑乘客画像指标的构建,乘客画像的应用还处于探索阶段。
从用户画像的发展历程来看,用户信息的获取和使用在企业挖掘用户需求、提升服务水平、创造更高收益等方面具有重要的价值和意义。对于快速发展的城市轨道交通而言,乘客画像的发展空间和应用价值是巨大的[6-10]。而在乘客画像研究中,融合哪些数据,构建怎样的指标体系、如何将乘客画像的成果充分地运用到运营生产实践中,将是乘客画像研究的主要方向。
对于乘客个体而言,需要轨道交通管理者提供反映其偏好的全出行链诱导服务。在乘客进站前,乘客需要获知与其出行目的相关的出发时间、出发车站、目的车站以及出行偏好的路径及限流等信息,以及多种交通方式衔接的出行方案;在出行过程中,乘客需要获知列车各车厢的拥挤程度、可切换的路线以及和乘客年龄段等相匹配的娱乐和广告信息;在乘客出站后,乘客需要获知站点周边的多种交通方式接驳以及站点周边的购物、娱乐等商家信息。
对于轨道交通管理者而言,掌握乘客的个人出行特征,可以更加精准满足乘客需求的变化,精准优化列车交路、停站、运行间隔,通过增加列车上线、临时调整列车折返点等方式,将运力及时精准投放至拥挤区段;同时可优化车站的人员和设施设备配置,例如,当通勤者为站内主要出行乘客时,路径规划及导航相关的设备设施可在非必要时进行删减,引导及售票人员可以进行缩减[11];结合乘客属性及车站周边的商业布置,有针对性设置站内广告,以提高经济效益。
乘客画像已成为城市轨道交通提升运营管理和服务水平所不可或缺的因素,然而现有的群体性服务模式不能满足运营管理者和乘客的上述需求[1],不利于乘客的出行体验,也限制了轨道交通的服务提升。因此,亟需构建轨道交通乘客画像,有效关联、融合、引入地铁相关的多源数据,帮助运营管理者了解乘客的出行特征和服务偏好,为打造集“互动式”行车组织、“协同式”客运组织、“主动式”乘客服务的智慧运输服务管理体系提供数据支撑,进而实现轨道交通的“出行即服务”。
借鉴其他行业的用户画像体系,通过挖掘APP注册数据、AFC数据和车站POI数据,构建乘客画像指标体系如图1 所示。一级指标包括身份信息、业务信息和衍生信息。身份信息包括自然属性和社会属性,自然属性包括乘客的APP ID、性别、年龄,社会属性包括乘客的职业,根据性别、年龄和职业可在线上推送信息时确定推送消息的适合人群;业务信息包括出行基础信息和出行统计信息,出行基础信息包括乘客的进、出站时间和进、出站站点,出行统计信息包括平均出行时长、日均出行次数、出行时间分布、出行OD 分布等三级指标,描述了乘客基本的出行特征和规律,为衍生信息中指标的获取提供支撑,同时也可用于乘客出行偏好的提取;衍生信息包括活跃属性和功能属性,活跃属性包括出行活跃度和出行相关性,出行活跃度可为乘客画像的更新提供依据,功能属性包括乘客的出行需求类型、居住区域和工作区域,出行需求类型即刻画乘客是通勤类乘客、旅游乘客还是生活类乘客,以方便为不同类型的乘客规划不同的出行方案。
图1 乘客画像指标体系Fig.1 Passenger portrait index system
乘客画像中指标的获取需要明确的规则。对于乘客身份信息中的APP ID 可通过APP 注册数据获得,性别、年龄和职业的推算方法还处于探索阶段[8-9],不做深入研究,业务信息可通过AFC 数据统计分析获得,其他关键性的指标通过以下方法进行推算。
获取乘客的出行需求类型本质上就是对乘客分类的过程,对发现乘客的相似行为和出行规律具有重要意义[12]。选取的乘客分类指标应能从多个方面反应乘客的出行行为特征和规律,因此分别从出行强度、时间维度和空间维度3 个方面选取乘客画像指标体系中的总出行次数、首次出行时间和平均出行时长作为车站内乘客聚类的指标,聚类算法选择K-means算法,并采用手肘法确定最佳K值。
乘客居住区域所处的车站站点一般是乘客首次出行的起始站点或者最后一次出行的目的站点,因此某车站作为乘客的居住区域站点的概率为该站点作为乘客首次出行的起始站点和最后一次出行的目的站点次数占乘客在该站总进出站次数的比例。假设乘客i的某一次出行l的进出站站点分别为(l),(l);进出站时间分别(l),(l),在工作日以12:00 作为分界点,休息日以16:00 作为分界点,统计乘客在相应时间段的进出站点次数。车站e作为乘客i居住区域站点的概率计算方法如下。
式中:p(i,e)代表车站e作为乘客i居住区域车站站点的概率;Ni代表乘客i历史出行的总次数。
函数φ,γ的定义如下。
最终选取概率最大的车站作为乘客的居住区域站点。如果存在多个车站概率相等且最大,则选取车站附近住宅类POI数量最大的车站作为居住区域站点。
乘客工作区域所处的车站站点一般是工作日内乘客12:00 前作为目的车站和12:00 后作为起始车站,故车站e作为乘客i工作区域站点的概率计算方法如下。
式中:q(i,e)代表车站e作为乘客i工作区域车站站点的概率。
最终选取概率最大的车站作为乘客的工作区域站点。如果存在多个车站概率相等且最大,则选取车站附近工作类POI数量最大的车站作为工作区域站点。
(1)AFC数据。使用北京市城市轨道交通某年6月份的AFC数据作为基础数据,共有17 189万条出行记录,其中AFC数据包含5个字段,分别为卡号、进站时间、出站时间、进站站点和出站站点。
(2)POI 数据。通过高德开放平台提供的搜索POI 功能,获取与AFC 数据同时期的各站点附近500 m 范围内的POI 数据,类别包括住宅类(酒店、住宅区等)、工作类(建筑、医药等公司)、娱乐类(电影院、电玩城等)、教育类(学校、博物馆等)、购物类(购物中心、商场等)和交通类(火车站、公交站等)[10]。
2.2.1 出行需求类型
以西直门站进站乘客为研究对象,选取6 月6日至8 日共3 个工作日的AFC 数据作为基础数据,累计进站人次197 328 次,分析车站内工作日乘客的出行行为特征。将乘客分为5 类,各类的聚类中心点如表1所示。
表1 聚类中心点Tab.1 Cluster center point
详细聚类结果分析如下。
(1)第一类乘客所占比例为21.2%,3 d内出行次数为1.75,是5 类中出行次数最多的一类,首次出行时间为08:22,平均出行时间为27.7 min,出行距离不是很远,符合早高峰的时间段,可以认为该类乘客为标准的早高峰时期的通勤乘客[12]。
(2)第二类乘客所占比例为10.2%,3 d内出行次数为1.34,出行距离较远,占比较少,可视为外出旅游或者长途出行的乘客,结合POI数据,车站附近公交站及火车站较多,尤其有北京北站,方便乘客出行旅游。
(3)第三类乘客所占比例为34.5%,3 d内出行次数为1.69,仅次于第一类乘客,出行距离相比其它类适中,符合晚高峰的时间段,可以认为该类乘客为标准的晚高峰时期的通勤乘客,同时该类乘客是5 类乘客中占比最高的一类,说明西直门站晚高峰进站人数多,结合POI数据,车站附近有较多的办公区,说明该解释是合理的。
(4)第四类、第五类乘客所占比例分别为17.2%,17.1%,总出行次数较少,出行距离相比其他类适中,出行时间较晚,可视为生活类乘客,结合POI数据,该站附近有很多购物、餐饮的商家,可以认为该类出行是乘客消费之后回家的出行。
综上所述,按照不同类型乘客的出行需求,最终将乘客分为通勤乘客、旅游乘客和生活类乘客。
2.2.2 工作、居住区域
从AFC 数据中挑选1 名乘客来推算其居住区域 站点和工作区域站点, 一卡通ID 为“1000751122201746”。
根据其出行记录信息以及居住区域站点计算规则,得到亮马桥站作为乘客的工作区域站点。亮马桥站进出站客流分布如图2 所示,亮马桥站的客流在工作日和周末均有明显的早晚高峰特性[14]。同时,分析该站的POI 数据,亮马桥站POI 数据如表2 所示,其附近有较多的工作、购物和娱乐性质的场所,为该站附近提供了较多的工作岗位。所以车站的客流主要来源于车站附近工作区的通勤客流。通过上述分析说明工作区域站点计算的结果具有合理性。
表2 亮马桥站POI类型及比例 %Tab.2 POI type and proportion of Liangmaqiao Station
图2 亮马桥站进出站客流分布Fig.2 Distribution of entrance and exit passenger flows at Liangmaqiao Station
根据工作区域站点计算规则,得到天通苑站作为该乘客的居住区域站点。根据分析天通苑站的客流特性在工作日和周末为明显的早晚双峰型。这是因为这部分客流主要来源于车站附近居民区的通勤客流,早高峰时段进站去上班,晚高峰时段回到家。通过上述分析说明居住区域站点计算的结果具有合理性。
准确预测车站的客流需求对城市轨道交通的运营至关重要。以往的研究主要是从宏观层面出发,用前几个时段的客流量预测后一时段的客流量,然而,这种方法基本上忽略了乘客个体的出行行为规律。例如,对于通勤乘客早上在地铁站下车上班,那么很可能会在晚上同一个车站上车回家。因此,基于乘客早晚通勤的出行行为引入返程客流的概念进行客流预测[15-16],相较于未建立乘客画像,可通过乘客画像中的出行需求类型、居住区域和工作区域判断某乘客是否为某一车站的返程乘客,进而统计车站的返程客流。
将第j周星期v的时段t内在s站的返程客流定义为乘客在某时间段到达s站,完成活动后并在时段t从s站返程的人数,记为(t)。为了预测第j周星期v的t+ 1 时段s站的客流量y(t+ 1),将车站在t+ 1时段内的返程客流r(t+ 1)作为一个新的变量加入到时间序列预测模型中,从而在预测的过程中兼顾乘客的出行行为规律。假设存在概率分布(ta,tb)描述了星期v乘客在ta时段到达s站并在tb时段从s站出发返程的条件概率,同时假设(ta,tb)呈周期分布,且周期为一周,所以可以通过选取s站内共W周的历史出站和返程客流数据,利用均值来估算星期v各个时段对应的(ta,tb),计算公式如下。
定义普通的季节性自回归移动平均(S-ARIMA)模型为M0 模型,依据估算出(t+ 1),并加入到M0 中,将该模型定义为M1 模型[17]。S-ARIMA模型通常用ARIMA(p,d,q)(P,D,Q)[Ω]表示,其中p,d,q分别代表自回归、差分和移动平均的系数;P,D,Q为季节部分的自回归、差分和移动平均系数;Ω是季节的周期数。
对于一个时间序列y1,y2,...,yt,ARIMA(p,d,q)(P,D,Q)[Ω]模型为
式中:et为遵循白噪声的误差项,且服从均值为0方差为σ2的正态分布。
其中,B满足如下公式。
式中:∂代表∂时段。
ϕ、Φ、θ和Θ函数的计算公式如下。
式中:ϕi,Φi,θi和Θi为待求的系数。
当把返程客流量r1,r2,...,rt作为协变量时,进站客流量yt与返程客流量rt有以下关系。
式中:β为回归系数;r1,r2,...,rt是由(t)中星期v、站点s已知时,时段取1,2, ···,t所得;ηt服从ARIMA(p,d,q)(P,D,Q)[Ω]模型,代表总的进站客流中除去返程客流之外的客流量。根据车站 历 史 的yt和rt,计 算 出β和ηt,根 据ηt服 从ARIMA模型以及公式⑺计算得到ηt+1和rt+1,带入yt+1=βrt+1+ηt+1中,预测得到t+ 1 时段的进站客流量。
以天通苑站6月6—8日3个工作日的AFC数据为基础,验证上述方法。天通苑站进站客流与返程客流如图3 所示,可以看出,在早高峰时间段返程客流所占的比例均在50%以上。因此,将返程客流作为一个附加变量来提高车站进站客流的预测精度非常有必要。通过乘客画像中的出行需求类型、居住区域和工作区域判断乘客是否为该车站的返程乘客,然后根据乘客画像中的出行基础信息包含的进出站时间可以统计ta时段从s站下车并在tb时段从s站上车的乘客数量,根据公式⑸计算出(ta,tb),返程概率示意图如图4 所示。可以发现其分布主要表现为家庭活动,出站客流一般在晚上达到高峰,返程客流集中在第二天早上,表现出很强的通勤客流的规律性。依据公式⑹估算出同一星期内天通苑站的进站返程客流,返程客流估算值与实际进站客流对比图如图5 所示。可以看出,估算的返程客流(t)与(t)非常匹配。值得注意的是,(t)占总进站客流的很大一部分,它可以正确描述(t)中前后出行的因果关系和长期依赖性。
图3 天通苑站进站客流与返程客流Fig.3 Entrance passenger flow and return passenger flow at Tiantongyuan Station
图4 返程概率示意图Fig.4 Return probability
图5 返程客流估算值与实际进站客流对比图Fig.5 Comparison between estimated return passenger flow and actual entrance passenger flow
将返程客流量作为协变量添加至M0 模型中,模型参数选择为(2,0,1)(1,1,0)[72],模型预测结果对比如表3 所示,可以发现,添加新变量后训练集的RMSE 减少9.87,测试集RMSE 减少9.02,训练集的SMAPE 减少0.64%,测试集的SMAPE减少0.16%,预测的效果更加准确。
表3 模型预测结果对比Tab.3 Comparison of model prediction results
基于AFC 数据挖掘乘客的出行规律建立乘客画像指标体系,给出相关指标的计算方法并对结果进行分析,结果表明,乘客的分类与乘客实际的出行特性较为符合,同时计算得到的居住区域和工作区域站点与车站内的客流特性和车站附近的土地属性也较为符合。其次,在乘客画像的应用层面,探讨了乘客画像中相关指标辅助精准化客流预测的应用效果。结果表明乘客画像能够提高相应的客流预测精度,对提升乘客的出行体验和车站的运营管理水平在一定程度上有着促进作用,未来还可以进一步深化乘客画像在城市轨道交通运营管理中的应用。