决策树优化选择下城市交通出行特征研究

2024-09-12 00:00:00李文
现代电子技术 2024年5期
关键词:城市交通决策树交通

摘" 要: 文中对基于决策树优化选择下城市交通出行特征进行研究,通过研究城市交通出行方式,缓解城市交通出行压力。基于决策树算法基本理论,构建决策树模型,选取城市交通出行特征作为分类依据,运用C4.5决策树算法对城市交通出行数据进行分类,根据分类后各个不同特征叶子节点对上层子节点的总占比进行城市交通出行特征优化选择分析,并在“Occam′s razor”的基础上,利用重新引入法提出优化方法,解决C4.5决策树算法存在的过度拟合问题,提升城市交通出行方式分析效果。实验结果表明,该方法可有效分析城市交通现有出行特征,指导城市交通规划,依据该方法的分析结果对早高峰线路进行优化后,有效减少了长距离拥堵路段,同时避免了严重阻塞路段的产生。

关键词: 城市交通; 出行特征; 决策树; 优化选择; 特征分类; C4.5决策树算法; 奥卡姆剃刀理论; 过度拟合

中图分类号: TN911.1⁃34; U491" " " " " " " " 文献标识码: A" " " " " " " " " " " " 文章编号: 1004⁃373X(2024)05⁃0182⁃05

Research on urban traffic travel characteristics

based on decision tree optimization selection

LI Wen1, 2

(1. Hope College of Southwest Jiaotong University, Chengdu 610400, China;

2. Chengdu Transportation + Tourism Big Data Application Technology Research Base, Chengdu 610400, China)

Abstract: A study on urban transportation travel characteristics based on decision tree optimization selection is carried out. This study alleviates urban transportation travel pressure by studying urban transportation travel modes. On the basis of the basic theory of the decision tree algorithm, a decision tree model is constructed, and urban traffic travel characteristics are selected as the classification basis. The C4.5 decision tree algorithm is used to classify urban traffic travel data, and the urban traffic travel characteristics are optimized and selected according to the total proportion of each leaf node with different characteristics to the upper sub node after classification. On the basis of ″Occam′s razor″, the reintroduction method is used to propose optimization methods to solve the overfitting problem of C4.5 decision tree algorithm and improve the analysis effect of urban transportation modes. The experimental results show that the method can effectively analyze the existing travel characteristics of urban traffic and guide urban transportation planning. After optimizing the morning peak line according to the analysis results of this method, it can effectively reduce the long⁃distance congested roads and avoid the generation of serious congested roads.

Keywords: urban transportation; travel characteristic; decision tree; optimization selection; characteristic classification; C4.5 decision tree algorithm; Occam′s razor theory; overfitting

0" 引" 言

交通出行调查是了解城市交通状况、获取人流、车流及货流日常出行特征和规律的基础调查之一[1],该调查通过收集数据和分析结果,为城市交通规划和优化提供了重要的参考依据。同时,交通出行调查也是掌握交通供给和需求之间关系的基本手段之一[2]。交通出行方式的选择是出行调查中的重要一环[3]。不同交通出行方式对于满足居民的日常出行需求及交通结构的合理性改变起着举足轻重的作用。例如,在城市交通拥堵的情况下,广泛推广公共交通可以有效地缓解交通压力[4⁃5]。因此,了解居民的出行方式选择及其行为特征,有助于制定出更加科学的城市交通规划和管理政策。

当前,我国主要的大城市都已经对我国的交通状况进行了调研,并对调研结果进行了一些分析和研究。文献[6]以西宁市为例,基于大样本居民出行调研数据,构建支持向量机(SVM)与二元逻辑(BL)两种方法,实现对不同城市交通出行方式的预测。文献[7]采用CFSFDP和BP神经网络相结合的方法,对交通特性进行个性化选择,构建交通特性群识别模型,通过对私家车、出租车中存在的特征组进行分析,识别出其不同的交通方式,从而完成对交通特性组的识别并对其进行评估和分析。但上述两种方法中均存在实验样本数据不够多的问题,这样会使分析结果存在一定的误差性。

为优化选择城市交通出行方式,本文运用C4.5决策树算法对不同特征的城市交通出行方式进行研究,并运用奥卡姆剃刀理论(Occam′s razor)优化C4.5决策树算法存在的过度拟合问题。

1" 城市交通出行特征的决策树优化选择研究

1.1" 决策树城市交通出行特征选取

建立决策树是一个自上而下的递归过程,决策树根节点是取一个城市交通出行特征,将其视为所有训练特征与该根节点有关联的一类标号。对根节点的特征进行测试,并对其进行切割,由此可以得到与其相对应的各种子集,之后将这一类子集看作是拥有新特征的非叶节点,对其进行测试并将其分割,得到新的特征子集[8]。如此反复,直到没有新的叶子节点出现时,就可以获得完整的决策树。

在决策树算法中,城市交通出行数据类别特征的选取是一个非常重要的环节。在这种新的分类算法中,根据信息增益的大小和信息熵值的大小,选取一个分类的城市交通出行特征作为分类的依据。

信息增加准则包括三个重要的概念:信息熵、期望熵、信息增加。信息熵或者期望熵是指每个采样集合所具备的纯净程度。假设在城市交通出行集合[Q]中包括[q]个城市交通出行数据采样,类别标记城市交通出行特性[A],包括[a]个不同的取值,将采样集合[Q]分为[a]个不同的类别[Aii=0,1,2,…,a];在每一种类别中的样品数目被指示为[q],因而城市交通出行集合[Q]被分成预期信息的[a]种不同种类:

[EQ=-i=1apilog2 pi] (1)

在所述样本集合中,不同种类特征的可能性为:

[pi=qiq] (2)

信息是用二进制来编码的,而编码的长短是用熵中二进制比特的数目来衡量的,因此使用了一个具有2个基点的对数函数。

每个城市交通出行特征都有一定的信息量,即根据特征对城市交通出行数据采样结果进行划分,从而使其对熵值的期望有所下降。在[Q]的城市交通出行样本集中,可以将多个不同的城市交通出行特征分开,假定[T]的特征含有不同的值,那么相应的一组数字被记录为[ValuesT],[Qb]是[Q]的一组特征的[T]值为[t]的一组数据,其表示为:

[Qt=q∈QTq=t] (3)

在[T]的不同分枝节点上,这类节点样本集合[Qt]的类别熵值可以用[EQt]表示。相对应于特征[T]的预期熵为:

[EQ,T=-t∈ValuesTQtEQtQ] (4)

式中:[EQt]代表状态[Q]在特定时间[t]下的期望值,并对整个时间段内的每一个状态进行加权平均以得到[EQ,T]的值。

从城市交通出行特征[T]中可以得到其信息量为:

[GainQ,T=EQ-EQ,T] (5)

当[GainQ,T]的数值较大时,对[T]的类别所能给出的资讯也较多。

采集到不同类别的城市交通出行数据特征后,需要对不同类别的城市交通出行数据进行相应分类。

1.2" 决策树城市交通出行特征分类算法

将城市交通出行数据抽样集合[Q]分为[q]个抽样子集合,用[Q1,Q2,…,Qq]表示。划分的原则是以离散城市交通出行特征[T]的[m]个不同的取值为基础,因此,在采样集[Q]中,使用离散城市交通出行特征[T]进行划分得到的信息增益率为:

[GRQ,T=log2QiQGainQ,T-i=1qQiQ] (6)

决策树分类方法的中心思想就是把城市交通出行特征为连续值的值域分割成一个离散的区间集[9⁃10]。C4.5算法既可以对离散特征进行有效的分类,又可以对连续类型的特征进行有效的分类,具体步骤如下所示:

1) 根据连续城市交通出行特征[T]的不同取值,对样品集中[Q]的样品进行了数值计算,并根据从小到大的快速排序方法对城市交通出行数据样品集中[Q]的城市交通出行数据进行排序,其中城市交通出行数据样品集中[T]被每个不同的取值划分为[s]个子集[Q1,Q2,…,Qs]。

2) 2个相邻取值的平均值按照一定的顺序进行分割,该平均值被当作是分割点,城市交通出行数据样本集被分割点分割成两个子集,两个子集的范围以平均值为界限,一个子集全小于平均值,另外一个子集则全大于平均值,一共含有[s-1]个分割点,分别对每一个分割点对应的信息增益进行计算。

3) 在此基础上,以连续型城市交通出行特征[T]对城市交通出行数据集[Q]信息增益率的划分为基础,从各种取值中找到一个值作为城市交通出行特征[T]的分裂值,所找到的这个值一定要非常接近局部阈值,却又不能超出局部阈值。

4) 反复进行以上操作,最终得出在该城市交通出行特征集中每个特征所对应的信息增益率,将其取值最高的特征作为测试特征,并将该城市交通出行数据样本集划分为几个城市交通出行数据样本子集。

5) 对所得到的城市交通出行数据样本子集根据以上划分方法进行划分,直至无法进行进一步划分。C4.5决策树形算法[11⁃12]不仅对连续类型的特征有很强的适应能力,而且对缺失类型的特征也有很好的处理能力,可以产生更多的分枝。

C4.5算法分类流程如图1所示。

对各个不同城市交通出行特征节点分类后,分析各个不同特征叶子节点对上层子节点的总占比,通过分析总占比,针对不同情况进行不同优化选择。但C4.5方法在提高判别准确率的同时,也存在着“拟合过度”的问题。为此,本文提出一种新的“Occam′s razor”方法,以提高其在数据处理中的准确率,从而避免了决策树在处理城市交通出行数据时存在的过度拟合问题。

1.3" 解决C4.5算法过度拟合问题

为了克服C4.5在求解过程中易出现的过拟合现象[13],本文在“Occam′s razor”的基础上,利用重新引入的方法,提出了一种新的优化方法。该算法的优化思路是:根据奥卡姆剃刀理论,当两个模型的推广精度完全一致时,将其推广到一个更简单的模型中。

假设由城市交通出行数据组建的训练集[Q]存在[V]种记录和[h]种类别。用此训练集形成的决策树存在[t]个叶子节点,叶子节点的集合设为[U1,U2,…,Ut],第[k]个叶子节点中的类分别设为[Uk1,Uk2,…,Ukh],设[Ck]为第[k]个节点中类的总数,对应第[k]个节点中各个类的数量表示为[Uki1≤i≤h],[maxUki] [1≤i≤h]设为[Uki]中最大的值,那么泛化误差公式可表示为:

[e=k=1ti=1sCk-maxUkiV] (7)

从奥卡姆剃刀理论可以看出,在泛化误差相等的情况下,采用更简单的数学模型更为合适。因而,在不过度追求精度的前提下,可采用再代入估计法进行估算。下面详细说明了再代入估计法的具体方法。

决策树每进行一次分裂,就会进行一次训练误差(训练误差是指训练集的误差,计算公式见式(7))的计算,将训练误差看成是一种通用误差,当通用误差小于某一特定值[ϑ]时,就会停止决策树的成长。[ϑ]因资料集合的差异而异,须以真实的需要为基础进行反复的实验才能决定。

2" 实验分析

本文数据是以某市城市交通出行调查的数据为基础,对其进行研究,主要研究的是在主城区及周边辐射区影响范围内的常、暂住人口及流动人口的交通出行状况。常住人口和流动人口是以家庭为单位抽取的,在主城区的样本比例是5%,周边地区的样本比例为3%。根据4%的样本统计,农民工人数占总人数的4%。问卷采用的是以家庭为单位进行的家庭问卷,问卷包括个人情况、家庭情况和旅行情况。通过对所收集到的资料进行归类,得到了1 000份可供使用的资料,所涉及到的运输形式大致可以分为:步行、非机动车、公交和私人机动车等,部分输入变量定义如表1所示。

该决策树模型以对不同交通方式的选择为因变量,由于影响交通方式的选择因素很多,本文主要考虑出行者的个人属性及家庭属性信息,选取出行时间、出行目的、出行日期(工作日、节假日)、出行者的年龄、性别、职业、是否有公交卡、是否用公共自行车、家庭规模、儿童数、是否有购车意愿作为自变量。

以该市采集资料为实验样本,运用本文方法对该市交通出行特征进行分析,对该市交通出行方式做出优化分析选择,选取出行方式与职业作为实验自变量,具体实验模型设置如表2所示。

运用本文方法对该市交通出行方式按表2中的因变量与自变量构建决策树,具体实验结果如图2所示。

由图2可看出,运用本文方法构建的决策树中,在“出行方式”模式中是根据私人机动车拥有量的数量而分割的,可以看到,在拥有私人机动车的数量为零时,居民主要会选择以步行及公共交通方式进行出行,而在这之中,选择公交出行的比例约为64%。当私人机动车拥有量超过零时,居民们就会以私人机动车和公交出行为主,在这两种交通方式之中,选择汽车出行平均占到了50%左右,而选择公共交通出行平均占到了31%。同时,公务员、工人多选择以私人机动车与公共交通作为主要出行方式;农民和学生多以公共交通与步行作为主要出行方式。研究结果表明,从结合本文方法构建的决策树可看出,对于未拥有私人机动车的人员来说,大部分会选择公共交通这种出行方式;对于具有私人机动车的家庭来说,其私人机动车并不是唯一的交通工具,选择公共交通工具的比例也很高,同时各个职业选择公共交通方式出行的占比均较大。运用本文方法可有效分析出城市交通出行特征,指导城市进行交通规划,可通过适当增加公共交通出行工具,确保满足该市出行需求。

实验以该市某区交通线路图作为实验对象,以早高峰期为实验时间,以原有早高峰交通拥堵情况作为实验对比对象,运用本文方法得出的分析结果对交通出行方式进行相应调整,测试运用本文方法后交通拥堵优化情况,具体实验如图3所示。

由图3可看出,优化前该区早高峰有5条长距离拥堵路段与4条严重阻塞路段,结合本文方法进行优化后,可看出拥堵路段距离明显缩短,同时减少了2处严重阻塞路段,说明运用本文方法对交通出行进行优化选择后,该区早高峰路段严重阻塞情况明显得到改善,同时避免了大段汽车拥堵的情况。

3" 结" 论

本文利用C4.5决策树算法对城市交通出行做出优化选择,并以奥卡姆剃刀理论为基础,在减少决策树计算复杂性的同时,还可以克服过拟合问题。在大数据环境下,如何实现决策树的并行性,提高其分类精度,将成为未来进一步深入研究的热点。

参考文献

[1] 崔叙,喻冰洁,杨林川,等.城市轨道交通出行的时空特征及影响因素非线性机制:基于梯度提升决策树的成都实证[J].经济地理,2021,41(7):61⁃72.

[2] 欧冬秀,张馨尹,赵源,等.基于梯度提升决策树级联分类方法的城市轨道交通列车突发事件延误时间预测[J].城市轨道交通研究,2022,25(10):65⁃70.

[3] 孙晓黎,朱才华,李美妮,等.时间序列聚类下的城市轨道交通客流预测研究[J].铁道运输与经济,2023,45(3):149⁃157.

[4] 唐亮,李飞.基于决策树的车联网安全态势预测模型研究[J].计算机科学,2021,48(z1):514⁃517.

[5] 王超发,王文隆,蔡鑫.基于新老司机道路选择行为的交通流均衡研究[J].运筹与管理,2021,30(6):12⁃18.

[6] 彭辉,王剑坡,张娜.基于SVM的高原川道型城市通勤者出行方式选择研究[J].重庆交通大学学报(自然科学版),2021,40(11):18⁃23.

[7] 蔡晓禹,吕亮,杜蕊.基于组合模型的车辆出行特征模式划分[J].公路交通科技,2021,38(6):129⁃140.

[8] 段力伟,冉松民,陈瑞雪,等.基于梯度提升决策树的城市轨道交通网络运营态势综合评估方法[J].城市轨道交通研究,2022,25(8):32⁃35.

[9] 王磊,刘雨,刘志中,等.基于属性离散和特征度量的决策树构建算法[J].河南理工大学学报(自然科学版),2021,40(3):127⁃133.

[10] 郑贞,邹俊颖.基于混沌关联维与决策树的运动数据分类研究[J].计算机仿真,2022,39(10):327⁃330.

[11] 宋汶秦,王海亮,赵春娟,等.基于改进C4.5算法的退役动力电池等级筛选研究[J].电源技术,2022,46(11):1318⁃1321.

[12] 吴涛,王占海,陈奇,等.基于C4.5决策树的航空器机翼积冰风险监测仿真[J].计算机仿真,2023,40(7):44⁃48.

[13] 谢鑫,张贤勇,王旋晔,等.变精度邻域等价粒的邻域决策树构造算法[J].计算机应用,2022,42(2):382⁃388.

猜你喜欢
城市交通决策树交通
新形势下我国城市交通发展战略思考
繁忙的交通
童话世界(2020年32期)2020-12-25 02:59:14
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
小小交通劝导员
上海城市交通大数据研究与实践
上海公路(2018年1期)2018-06-26 08:37:40
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
契合城市交通需求 推进单轨交通发展
基于GIS的城市交通流模拟与决策分析
河南科技(2014年19期)2014-02-27 14:15:46