基于ETC数据的轿车通勤/旅游群体划分方法研究

2024-09-26 00:00:00李俊异朱奇张雷
交通科技与管理 2024年17期

摘要 为应对ETC行业从发展阶段向运营阶段转变的需求,精准挖掘潜在客户的价值,文章采用关联分析和聚类分析等数据分析方法,基于ETC用户基础数据,对用户群体进行了多方面的特征及阈值分析,并构建了轿车通勤群体和轿车旅游群体的划分方法流程体系。研究结果表明,所采用的分析方法能够准确挖掘轿车通勤和旅游群体的潜力和价值,为ETC企业的业务拓展提供理论支持,同时也为其他行业的精细化运营提供了参考。文章对轿车通勤群体和轿车旅游群体进行了详细分析,验证了划分方法的有效性,为提高ETC企业的市场竞争力和客户满意度提供了理论依据,有助于该行业的可持续发展。

关键词 ETC数据;轿车通勤群体;轿车旅游群体;群体划分方法

中图分类号 U293 文献标识码 A 文章编号 2096-8949(2024)17-0028-05

0 引言

随着数字和信息技术的飞速发展,大数据技术在众多领域中成为研究热点,其中包括智慧交通[1]。ETC是全球最大的电子收费系统之一,拥有丰富的车辆行驶信息。在国外,ETC技术已非常成熟,如美国的E-Zpass、葡萄牙的ViaVarde和意大利的Telepass等。在亚洲,日本政府从2000年开始推广ETC系统,在名古屋和大阪等地建立了首批收费站[2]。自二十世纪进入我国以来,ETC系统逐步融入我国高速交通系统,近年来得到了广泛应用,提高了高速公路收费效率,降低了收费难度。我国ETC联网系统已成为全球里程最长、站点最多、客户规模和交易增长最快的高速公路智能化收费系统。目前,ETC已进入后期阶段,全国各地均在积极推广应用。截至2018年年底,全国联网收费站达9 322个,覆盖率达98.9%等[3]。截至2021年,ETC已发行用户1.23亿,总数达2.04亿。交通运输部也在2021年2月发布通知,重庆等27个城市将作为ETC智慧停车城市建设试点城市。重庆将率先进行“ETC+车生活服务”主题试点。截至2022年年底,全市民用车辆拥有量890.52万辆,民用轿车拥有量289.70万辆,民用轿车占民用车辆的32.53%,由此可见轿车出行在人们出行方式中的占比非常高。而轿车通勤和旅游群体是现代社会两个重要的交通出行类别,它们的行驶特征和消费行为不同,对出行方式的依赖程度也有所差异。而随着ETC系统的不断发展和普及,更多的ETC用户信息被积累并储存,为轿车通勤和旅游群体的划分提供了新的研究途径和空间。制定合理、准确的划分方法,对ETC业务的拓展和市场份额的提升具有重要意义。

国内外许多学者基于大量的ETC数据开展了一系列的研究。Klodzinski J等[4]通过建立模型对高速公路的通行效率进行了评价;王旭[5]用模糊综合评价分析ETC全国联网数据对高速公路运营产生的影响;马春平[6]针对ETC运营数据与大数据相结合的商业模式进行了调研与分析,通过大量研究表明了基于ETC数据开展高速公路ETC业务的可行性,同时对比于其他数据,ETC的数据覆盖面更加广泛,能够全面地反映全国高速轿车的运营水平。在用户出行特征方面,针对轨迹数据的分割技术和车辆行为分析,Sini Guo等[7]提出了一种高效的数据值算法;Zun Wang等[8]使用GPS数据中瞬时速度分布的变化系数衡量行程时间的可靠性,并提出了旅行时间可靠性与道路密度的模型;国内学者董宏辉等[9]则利用GPS数据开发了两种转换点的识别方法,并将其应用于四种识别算法中,结果表明采用SVM能够取得最好的结果;徐海玲等[10]提出了用户自然属性、用户行为特征和用户需求偏好的用户标签体系;杨双亮[11]提出了原始数据层、事实数据层、特征偏好层以及模型预测层的用户画像模型。

该文旨在基于ETC用户基础数据,通过大数据技术和数据分析方法,探究轿车通勤和旅游群体的划分方法,并深入揭示不同群体的特征和需求,为ETC业务拓展和智慧出行建设提供理论支持。通过关联分析和聚类分析等数据分析方法,该文将精确地揭示ETC潜在客户的市场空间,为推进ETC业务的管理和实践提供重要的实用价值。

1 轿车群体划分方法

通过对重庆高速ETC系统数据库中多源异构的数据类型、格式和质量的梳理,包括对收费站过车数据、用户数据、车辆信息、交易数据、门架数据、用户操作日志、会员数据等进行了详细说明。接着进行数据清洗处理,主要用于检查数据的一致性,处理无效值和缺失值,替换、修改或删除不合格数据,方便后续数据关联和整个数据的挖掘过程,将对后续关键特征分析产生重要影响。该文采用关联规则,结合业务实战需要对现阶段接入的多源异构数据表进行定制化数据的关联融合处理,构建轿车通勤群体的数据关联表。

ETC数据关联处理是决定ETC企业是否成功的重要因素之一。通过关联规则对不同信息的数据表进行关联,可以发现不同数据表之间的关系。数据关联主要是通过这种方法实现。ETC企业所接入的各种数据,包括ETC通行数据、结算中心数据、移动支付数据、用户信息和车架数据、站名编码映射表等多源异构数据表,需要通过定制化数据的关联融合处理进行数据关联。这些数据不仅可以帮助企业挖掘出不同用户群体的特征和需求,还为ETC企业推送定制化服务信息,以提升用户服务水平,为提高市场竞争力和客户满意度打好基础。

定制化数据关联表主要包括轿车群体数据关联表、客车群体数据关联表、货车群体数据关联表和消费数据关联表。这些数据关联表包含了ETC企业业务所需的关键特征,可以帮助企业深入了解用户的需求和偏好。ETC企业可以利用这些数据关联表将ETC用户与其对应的车辆关联在一起,为每个用户提供有针对性的产品和服务。

1.1 轿车通勤群体划分方法

1.1.1 群体刻画指标

经过数据清洗、关联,在数据关联汇总表的基础上,提取轿车通勤群体识别指标,针对各指标制定分类标准,并以3个月的数据作为识别模型样本容量开展群体的识别与分类工作。

考虑通勤行为的特点,梳理出轿车通勤群体的刻画指标,主要包括:车辆类型识别号、用户类型识别号、月出行频次、通行时间、入口/出口站名(OD分布)。

(1)车辆类型识别号

车辆类型识别号对应关联汇总表中的“veh_cust_class”字段,该字段仅包含数字1与数字2。数字1表示该车为客车,而数字2表示该车为非客车。

(2)用户类型识别号

用户类型识别号对应关联汇总表中的“usertype”字段,该字段仅包含数字1与数字2。数字1表示为个人用户,而数字2表示为单位用户。

(3)月出行频次

月出行频次是指车辆单月内在高速路网上的通行天数。该次研究统计所有车辆的月出行频次,即先利用“platenum”和“entime”获取车辆每天出现的次数,然后通过“entime”对“platenum”计次,最终得到车辆的月出现频次。其中“platenum”表示车辆车牌,“entime”表示车辆进入高速路网的时刻,并基于车辆的月出行频次对通勤群体进行初步筛选。

(4)通行时间

该次研究将筛选通行时间在工作日的早晚高峰(早上6:30~9:00,晚上17:00~19:30)时段的车辆,且车辆在非工作日无此规律。

(5)入口/出口站名(OD分布)

通勤群体在工作日车辆入口/出口站名相对固定。该次研究将对车辆入口/出口站名进行重复性统计。

统计结果显示,符合条件的车辆月出行天数主要集中在12~25次之间,轿车在通勤日的出行频次占比如图1所示:

通常情况下,一个月有30 d,其中工作日约为22 d,因此通勤者一个月内至少会出行22 d。但不能排除一些特殊情况的存在,因此需要确定通勤行为中出行天数的阈值,并通过样本验证和检测进行确定。

从1个月的早晚高峰均出现车辆月出行次数统计图中可以发现,出行天数大多集中在12~25次之间,对每一天数选取20辆车作为实验样本,通过对比起点、终点的重复情况,判断其中具体通勤行为车辆的占比,最后得到如图2所示的车辆出行占比统计图,图中天数为16 d时有一个显著的断层现象(分界点),从而可以以此作为判断通勤车辆出行的特征条件之一,即月早晚高峰均出现天数应大于等于16 d。

1.1.2 群体指标标准构建

经过数据清洗和关联,并结合前期基础信息采集得到的通勤标签性质的收费站点,在数据关联汇总表的基础上,依据轿车通勤群体分类指标,对大量ETC过车数据进行了分类筛选,并为所需指标制定了分类标准,具体内容见表1所示。

基于前面梳理的轿车通勤群体分类指标,分别对车辆类型识别号、用户类型识别号、月出行频次、通行时间、OD分布等5个指标制定标准,轿车通勤群体分类标准如表1所示:

1.1.3 群体辨识结果

根据重庆市9月份的数据,依照轿车通勤群体用户的分类指标及划分方法,共识别出9月份高速ETC轿车通勤车辆的个体数为2 020辆,通行数据共计70 455条。

1.2 轿车旅游群体划分方法

1.2.1 群体刻画指标

基于轿车车辆的特征(刻画指标)对轿车群体进一步细化,同时考虑旅游行为的特点,梳理出轿车旅游群体刻画指标,主要包括以下内容:(1)车辆品牌:非客车品牌、非货运品牌;(2)用户类型:个人;(3)车辆类型:客车;(4)通行时间:主要在周末或节假日时段;(5)入口/出口站名(OD分布):主要为带有旅游景点标签的站名;(6)通行频次:历史上通过单个旅游标签站点的频次低;(7)历史上在周末、节假日期间通过多个旅游标签站点、带有旅游标签的收费站。划分流程如图3所示,统计到重庆市内收费站共331个,其中划分为带有旅游标签的收费站共计63个。

1.2.2 群体指标标准构建

对经过数据清洗和关联的收费站点进行了进一步分析,结合前期基础信息采集得出了旅游标签性质。在此基础上,提取了轿车旅游群体的识别指标,并为每个指标制定了分类标准。最终,运用这些指标对大量ETC过车数据进行分类筛选,具体分类标准如表2所示:

(1)群体分类标准

面对梳理的轿车旅游群体分类指标,分别对车辆类型识别号、用户类型识别号、是否通过旅游标签站点、通行时间、通行频次等5个指标制定标准,通过对以上5个指标进行轿车旅游群体识别,得出旅游群体,具体识别步骤如图4所示:

1.2.3 群体划分结果

以重庆市10月份的数据作为识别模型的样本容量,开展群体识别与分类工作,按照轿车旅游群体划分指标及标准进行筛选,依照分类指标及其对应标准,识别出10月份高速ETC轿车旅游车辆的个体数为224 833辆。

2 轿车群体验证

2.1 轿车通勤群体验证

基于前期所做的大量数据分析处理工作,对轿车ETC用户进行了群体划分,并对群体相应特征进行了分析。为保障群体划分的准确性以及特征分析的有效性,需对划分的用户群体进行验证。

随机挑选该群体车辆,分析其通行规律,判断是否属于轿车通勤群体。以渝C7E**2为例,对其通行频次以及OD分布进行统计,如表3所示:

通过对其通行特征规律的观察分析以及对其OD分布的探究,所选车辆符合轿车通勤群体分类依据,其通行特征充分体现了轿车通勤群体的运行规律。基于此,断定所选车辆归属轿车通勤群体,渝C7E**2的OD分布如图5所示。

2.2 轿车旅途群体验证

基于前期所做的大量数据分析处理工作,对轿车ETC用户进行了群体划分,并对群体相应特征进行了分析。为保障群体划分的准确性以及特征分析的有效性,需对划分的用户群体进行验证。随机挑选该群体车辆,分析其通行规律,判断是否属于轿车旅游群体。以渝GDG**7为例,对其通行频次以及OD分布进行统计,如表4所示:

通过对其通行特征规律的观察分析以及对其OD分布的探究,所选车辆符合轿车旅游群体分类依据,其通行特征充分体现轿车旅游群体的运行规律。基于此,断定所选车辆归属轿车旅游群体,渝GDG**7的 OD分布如图6所示。

3 总结

基于ETC用户基础数据,通过关联分析、聚类分析等数据分析方法,针对ETC用户群体出行方式、消费行为等多特征及阈值进行轿车通勤用户画像的指标体系构建,该方法已经群体验证,证实了该方法的准确性和有效性。基于ETC数据的轿车通勤群体和轿车旅游群体的划分方法,有助于ETC运营业务的延伸和拓展,为其提供理论支撑。

参考文献

[1]曹景扬.ETC用户精准画像系统的研究与设计[D].长春:长春工业大学,2019.

[2]严钰.高速公路收费站车辆尾气排放预测模型研究[D].南京:东南大学,2018.

[3]夏陆然,高薪.ETC联网运营与典型区域社会经济关系初探——以“一带一路”重点区域京津冀和长三角为例[J].中国交通信息化,2019(12):42-44.

[4] Klodzinski J, AI-Deek H M.New Methodology for Ddfining Level of Service at Toll Plazes[J]. Journal of Transportation Engineering, 2002(2): 173-181.

[5]王旭.高速公路电子不停车收费系统效益评价及营销推广[D].广州:华南理工大学,2016.

[6]马春平.基于全国联网ETC运营数据的应用研究[D].北京:北京邮电大学,2018:10-45.

[7]Sini Guo, Xiang Li, Wai-Ki Ching, etal.GPS trajectory data segmentation based on probabilistic logic[J]. International Journal of Approximate Reasoning, 2018(12): 227-247.

[8]Zun Wang, Anne Goodchild, Edward McCormack. A methodology for forecasting freeway travel time reliability using GPS data[J]. Transportation Research Procedia, 2017: 842-852.

[9]董宏辉,孙晓亮,贾利民,等.多模态的交通流量预测模型[J].吉林大学学报(工学版),2011(3):645-649.

[10]徐海玲,张海涛,魏明珠,等.社交媒体用户画像的构建及资源聚合模型研究[J].图书情报工作,2019(9):109-115.

[11]杨双亮.用户画像在内容推送的研究与应用[D].北京:北京工业大学,2017:8-9.