覃力更 赵子慧
摘要:针对相关人员反映目前收费系统超额弹窗比例不合理的情况,文章通过对广西高速公路收费数据进行研究,分析了实际收费额大于最短路径收费额的收费记录,并得到一个相应合理的超额弹窗阈值,使相关工作人员能够及时准确地获取异常信息,解决现有收费超额比例弹窗阈值不合理的问题。
关键词:高速公路;超费;阈值
In view of the fact that the relevant personnel reflect the unreasonable proportion in overcharge popup window of current toll system,this article studies the toll data of Guangxi expressway,analyzes the charging records when actual charging amount is greater than the shortest path charging amount,and obtains a corresponding reasonable overcharge popup window threshold value,which enables relevant staff to obtain abnormal information in a timely and accurate manner,and solves the problem of unreasonable existing overcharge popup window threshold value.
Expressway;Overcharge;Threshold value
0 引言
目前,广西高速公路收费方式有按照车载重量收费、按照最小路径收费、按照实际行驶路径收费等,客车的收费额并不完全等于最短路径收费额。目前,当超额比例>50%时,现有收费系统将识别该条记录为异常记录。据相关部门工作人员反映,目前的弹窗阈值设置不合理,导致某些异常情况未能及时捕获。本文针对收费金额大于最小路径收费额的车辆进行分析,对高速公路收费超额比例的异常阈值进行探究,研究50%的阈值设置是否符合广西高速公路的实际情况;并根据历史数据寻找一个相对合适的异常弹窗阈值,设置合理的弹窗提醒,准确、及时地捕获异常情况,使得异常信息能够及时呈现,并尽可能少地遗漏异常信息。
1 理论知识概述
1.1 算法简介
2 数据描述
本文采用2017年1月至2018年6月MTC(人工收费)客车收费数据、最短路径费用数据两大数据源进行分析。
3 数据预处理
3.1 剔除测试数据和无效数据
2017年1月至2018年6月共有150 623 707条原始记录,其中包含测试数据和无效数据38 935条,占原始记录的0.025 8%。为保证分析有效性,将这部分数据剔除。
3.2 超额记录数据提取
经过上一节的数据处理,共有150 584 772条有效记录,对这部分数据进行过滤,筛选出1 159 984条实际收费额大于最短路径收费额的数据,占有效记录的0.770 3%。
3.3 改善数据分布
数据显示,用户超额比例的值分布在0.066 7~76 700之间,极差为76 699.33,偏度系数为366.06。为了减小偏态,对数据进行log transformation,转换后数据偏度系数减小为0.74,调整前后的分布图如图1所示,经过转换后的数据偏态得以纠正。
4 数据分析过程和结论
4.1 超额记录数据描述统计分析
4.1.1 车型分析
根据车型进行划分,得到超额记录中的车型统计表如表1所示,其中1型车占比最大,为97.80%,2型车占比0.38%,3型车占比0.28%,4型车占比1.54%。
4.1.2 异常记录分析
在所有有效超额记录中,共有183 377条异常记录,占比15.95%。对其中异常原因进行分析,得到表2。统计发现超费的车辆大部分为“不一致”记录,占不正常记录的89.77%。
4.1.3 支付方式分析
对所有有效超额记录的支付方式数量统计如表3所示,大部分车主选择现金的方式进行支付,占比95.77%,还有部分车主选择了储值卡、记帐卡以及移动支付的方式进行支付。
4.1.4 行驶路径分析
对超额记录的车辆行驶路径进行统计,结果显示安吉东站至宜州西站、柳州东站至桂东站、桂东站至柳州东站3条行驶路径的车辆数均>10 000,占比分别为0.97%,0.93%,0.90%,表4为超额记录中行驶车辆数最多的10条记录。
4.2 超额弹窗提醒阈值分析和探索
按照原标准,超额比例>50%时进行弹窗提示。据统计,按原标准共有27 627条记录的超额比例>50%,占比2.381 7%。
为了更合理地将异常超额记录进行弹窗提醒,本文运用K-sigma模型进行异常检测,根据3σ准则,数值分布超过(μ-3σ,μ+3σ)的数据属于异常数据,应该将这部分异常数据予以弹窗提醒,其中μ为数据均值,σ为数据标准差。根据广西高速公路实际需要,选取>μ+3σ的区间进行弹窗提醒。经过计算,当超额比例>126.746 6%时,应该对相关工作人员进行弹窗提醒,共有9 738条记录属于异常数据,占比0.839 5%。设置该阈值进行弹窗提醒,能够让相关工作人员更准确地捕获异常情况。
根据车型对数据进行划分,得出不同车型的超额比例分布图如图2所示,由图2可以看出不同车型的数据分布不相同,因此考虑根据不同车型建立K-sigma模型获取相应的异常阈值。
经过计算,不同车型的异常阈值如表5所示,对收费软件根据不同车型设置不同阈值,能够更准确地捕获异常情况。
5 结语
经过以上数据分析可知,实际收费额超过最小路径费用的客车大部分为1型车辆,大部分车主都选择现金支付的方式支付通行费,少部分车主选择储值卡、记帐卡、移动支付的方式进行通行费的支付。在异常记录中,大部分车辆存在“不一致”的情况。超额记录没有太集中于某个路径,每个路径的超额车辆比率占比均未超过1%。
通过对车辆超额比率异常值的检测和阈值的探索可知,不同车型的超额比例分布各不相同,因此根据不同车型设置不同的阈值能够更准确地捕获异常情况。经计算,1型车的异常阈值设置为125.962 3%;2型车的异常阈值设置为419.974 4%;3型车的异常阈值设置为142.865 7%;4型车的异常阈值设置为82.637 2%,比原来的50%异常阈值更为合理。
参考文献:
[1]张 敏,袁 辉.拉依达(PauTa)准则与异常值剔除[J].郑州工业大学学报,1997(1):84-88.
[2]倪賢卿,梁华卓,冯健鋆,等.ATM机交易状态异常检测分析[J].现代工业经济和信息化,2018,8(15):133-136.