刘玉喆,保丽霞,吴金友,祁 坤,苗烨麒,刘 辉
[1.上海市城市建设设计研究总院(集团)有限公司,上海 200125; 2.上海市地下空间设计研究总院有限公司,上海 200125;3. 上海国际汽车城(集团)有限公司,上海 201805; 4. 吉林大学,吉林 长春 130012]
高速公路的建设促进了各地区的经济联系,有效拉动内需,对中国经济的发展起着关键作用,其中高速公路收费是提高高速公路效益的必要手段。但随着驾驶里程的增加,高速公路产生的费用也会增加。因此部分驾驶员怀着侥幸心理运用各种手段逃缴通行费。典型的逃费行为包括:(1)交换卡逃费,主要存在于固定线路客车、集团货运车队和私人车队。通过交换通行卡或前端车辆,达到少交过路费的目的;(2)冲击收费道,通常是指后车紧随前面车辆,达到逃避收费的目的;(3)干扰和逃避重量逃费,该方式是逃费的主要方式。此外还存在反转货物、更换主轴箱、吊挂等逃避重量的方式;(4)伪造专用车辆逃费,是指利用政府对某些车辆减免税的政策,如使用假卡、假证件、伪装商品等逃避过路费。这种现象不仅扰乱了交通运输运营的秩序,甚至对驾驶员的生命财产造成严重的威胁,不利于高速公路的长期平稳发展。
为此,不少学者针对高速公路逃费检测问题进行深入研究。高速公路收费数据具有数据量大且复杂度高的特点。薛璞[1]建立了基于大数据及数据挖掘技术收费逃费检测模型。李松江等[2]提出了IGA-IBP算法实现了高速公路的逃费预测,通过优化遗传算法中的变异算子来减少误差以及提高收敛速度。邹嵩涵[3]首先基于密度峰值的特征选择算法对高速公路数据集进行降维,然后通过K-Means算法自适应确定DBSCAN聚类算法的参数,提高了逃费检测的效率。Zhao等[4]采用基于负荷权重的高斯混合模型(Gaussian mixture model,GMM)的聚类方法来识别运输车辆的逃费行为。该方法借助不同行驶循环的载荷分布存在的显著差异,对不同行驶循环中的载荷重量进行测试,以此确定某一行驶循环中载荷近似为高斯混合分布(Gaussian mixture distribution,GMD)。然后,通过GMM对某一行驶循环中历史车辆的载荷进行聚类。借助于期望最大化(Expectationmaximization,EM)算法用于计算GMM的参数。最后,根据高斯分布的3σ准则,科学地得出合理的装车间隔,区分运输车辆逃费行为。康振等[5]采取贝叶斯分析的方法对历史数据中通行行为指标进行筛选,并结合最大熵模型确定指标权重,完成对车辆逃费的预测与检测。
郑再超等[6]对解决逃费现象的理论对策和技术手段进行了总结,并指出研究人员可进一步改进算法水平,提高数据预测的精确度。这是由于高速公路逃费行为比正常驾驶行为少得多,是典型的数据不平衡分类问题,导致目前对逃费检测精度不够高。近年来,对抗性训练,尤其是生成式对抗网络[7](Generative Adversarial Nets,简称GAN),在类间不平衡的异常检测中占据着越来越重要的地位。GAN最初由Goodfellow等人提出,被视为一种无监督机器学习算法,在图像识别、异常检测等领域均取得了显著的应用效果。为此,该文尝试使用GAN来提高逃费检测的精度。
随着中国经济与技术的进步,高速公路的收费模式逐渐由全封闭式进口收费/出口验票的人工收费方式,转变为ETC联网及不停车收费方式。虽然高速公路收费方式在不断变化与改进,但对应的逃费方式也在不断变化。由早期的两车倒(换)卡、卸车头甩挂、计重货车“垫磅”等方式,转变为更集体化、隐蔽化的方式。例如入口车牌卡号不符、出入口车型车种不符、通行时间过长或过短、短程重载或长程空载、通行时间重叠、车重降低、车型变更、假冒特殊车辆等。
在原始的逃费数据集中包含多个属性,但并不是所有属性均对逃费检测模型有促进作用。相反地,过多的属性会产生“维度灾难”与过拟合的问题。因此需要合理选择合适的特征,不仅能加快模型的训练速度,还能获得更高的准确度。为此该文基于典型高速公路逃费类型选择合适的数据属性,具体如表1所示。
表1 所选择的特征属性
如图1所示为该文所提出的基于GAN的高速公路逃费检测模型的网络架构,该模型由两个部分组成:生成器与判别器。
图1 网络架构
由于该模型中采用了编码-解码-编码的网络结构,因此该文的损失函数包含三部分:欺诈损失、表面损失以及潜在损失。
欺诈损失的目的是诱导判别器将生成器产生的数据误识别为正常样本,定位如下:
表面损失用来测量真实样本与生成样本之间的距离,即:
对于判别器,该文采用Salimans[9]等人提出的特征匹配损失进行对抗学习,以降低GAN训练的不稳定性。
此外,该文使用Adam优化器来更新等式(7)与(8)。
实验数据采用河北省2018年收费系统中记录的全省高速公路所产生的流水数据。车辆每次进入和驶出收费站都会在相应的入口记录表和出口记录表中留下一条记录,每条记录记录了车辆、收费站、交易和系统操作等信息。依据实例的完整度共筛选出960 000条数据,并划分为80%作为训练集,20%作为测试集。
数据分类预测模型算法较多,为了验证预测结果的性能,选取了决策树(Decision Tree,DT)、人工神经网络(Artificial Neural Network,ANN)、支持向量机(Support Vector Machine,SVM)、孤立森林(Isolation Forest,IF)与该文所提出的GAN 模型进行比较。对比结果如表2所示,可以看出,该文提出的GAN模型的性能最佳。
表2 对比结果
高速公路联网收费系统的建设,使高速公路运营管理变得更加科学高效。然而,车辆逃费手段多种多样,不仅导致高速公路通行费收入的极大损失,更影响交通安全。该文所提出的基于GAN的逃费检测算法主要包含两大模块:生成器与鉴别器,利用生成器生成期望的正常行为并使用鉴别器区分正常与异常行为。实验结果表明,该文所提出的算法具有更高的准确度。将此算法应用于高速公路收费管理运营系统中,可有效提升稽查自动化与智能化水平。