基于ID3算法的决策机场出租车去留问题

2020-06-22 13:11吴美玲金迪徐楚臻何颖俞
科技创新与应用 2020年18期
关键词:主成分分析

吴美玲 金迪 徐楚臻 何颖俞

摘  要:文章基于各城市机场与出租车的实际情况,对机场等级、机场吞吐量等因素进行主成分分析,通过综合评价模型预测司机去留,结合ID3算法建立决策出租车去留模型,分析不同情况下司机的选择策略。结果表明,发现该模型训练集和检验集的风险估算值分别为0.143和0.121,正确率分别为85.70%和87.90%,风险较小,分类正确率较高。

关键词:主成分分析;ID3算法;决策出租车去留模型

中图法分类号:O29         文献标志码:A         文章编号:2095-2945(2020)18-0127-03

Abstract: Based on the actual situation of airports and taxis in each city, this paper analyzes the factors such as airport level and airport throughput, forecasts the driver's leaving and staying through the comprehensive evaluation model, establishes the decision-making taxi leaving and staying model with ID3 algorithm, and analyzes the driver's choice strategy in different situations. According to the results, it is found that the risk estimates of the training set and the test set are 0.143 and 0.121, respectively, and the accuracy is 85.70% and 87.90%, respectively. The risk is small and the classification accuracy is high.

Keywords: principal component analysis; ID3 algorithm; decision-making taxi leaving and staying model

乘客下飛机后去往市区,在合适的时机,乘搭出租车无疑是优选。而国内多数机场的车道都是将送客与接客通道分开。这样送客到机场的出租车司机将会面临两个选择:前往机场蓄车池排队等待载客、放弃机场载客直接空载返回市区拉客。对此,笔者作为数学与应用数学、应用统计学专业、物联网工程的学生,基于计算方法、数据分析、数学模型等课程的理论,为了减轻机场的人流量负担,并保障司机的利益最大化的情况,以各城市的机场与出租车的实际情况为例,对决策出租车的去留选择进行了研究。

1 基于ID3算法的决策出租车去留模型

根据机场等级[1]、机场吞吐量[2]、机场所在城市的出租车万人拥有量[3]来选定所要研究的城市及其机场。其次,将影响出租车司机选择的相关因素分为机场乘客数量的变化以及出租车司机的收益两大类,层次划分为:当日属性、天气情况[4]、日旅客吞吐量;接客时间段、机场到达市区的距离、里程利用率[5]。基于以上信息量,分析影响出租车司机决策的最佳因子。

1.1 信息分类

将影响司机选择决策的7个影响因素进行编号,分别为当日属性X1、天气情况X2、日旅客吞吐量X3、接客时间段X4、机场到市区的距离X5、里程利用率X6和机场等级X7,并将这7个影响因素作为训练集:

D={X1,X2,X3,X4,X5,X6,X7}

其中,当日属性为X1={A1,A2},分别表示节假日、工作日;天气情况为X2={B1,B2,B3},分别表示晴天、阴天和雨天;日旅客吞吐量为X3={C1,C2,C3,C4},分别表示[50,70)、[30,50)、[20,30)和[1,20)(万/人次);接客时间段为X4={D1,D2},分别表示早间{5:00-23:00}和晚间{23:00-5:00};机场到市区的距离为X5={E1,E2,E3},分别表示[45,70)、[35,45)和[25,35)(公里);里程利用率为X6={F1,F2,F3},分别表示[80%,90%)、[70%,80%)和[60%,70%);机场等级为X7={G1,G2,G3,G4},分别表示I、II、III和IV级。

1.2 基于主成分分析的综合评价模型

将收集的数据集通过软件实现,标准化后分析提取了四个主成分因子(当日属性、天气情况[4]、日旅客吞吐量、接客时间段),数据处理得到每个影响因素在各主成分因子中所占的比重,结合每个主成分因子的贡献率,得到基于7个影响因素的出租车司机选择决策评价模型:

基于评价模型,根据Z/*100%的综合得分,给出在不同情况下司机的选择方案,部分数据详见表1:

1.3 决策树模型[6]

基于上述结果,结合ID3算法,将每个分类进行信息处理,并构建一个含有上述7个影响因素的训练集,编程实现不同属性下的信息熵和信息增益值[7],生成一个关于出租车司机选择策略的决策树,具体见图1。

由图1可知,机场等级是划分司机决策最主要的因素,最次要的是里程利用率。机场等级不同,对应的旅客吞吐量就不同,机场到市区的距离也不尽相同,但里程利用率一般在同一城市内都相对固定且相差不大,因此对司机的影响相对较小。同时,节假日和好的天气也会增加旅客乘飞机的概率,而旅客吞吐量和接客时间段以及里程长短也会影响司机的收益。

2 模型检验

以“南京禄口国际机场”为例,搜集数据对决策出租车去留模型用生长法进行检验,用75%的样本数据作为训练样本,用25%的样本数据作为检验样本。

2.1 合理度分析

通过SPSS分析,得到风险检验表和分类检验表(表2和表3):

由表2可知,训练集中风险估算值为0.143,表明其中会存在14个左右的个案会被错误归类,模型检验集中风险估算为0.121,表明其中会存在4个左右的个案被错误分类,因此生成的决策树存在一定的风險,但风险较小。

由表3可知,训练集中总体的正确百分比为85.70%,模型检验集中总体的正确百分比为87.90%,同时每个观察值的正确百分比都超过了80%,即生成的决策树的分类正确率较高。

综上所述,生成的决策树的分类正确率较高,同时风险较小,说明模型合理性较高。

2.2 相关度分析

由SPSS实现,得到最终模型摘要见表4。

由表4可知,在规定了机场的条件下,对出租车司机选择影响较大的因素从高到低分别为:天气情况、是否节假日、接客时间段、机场到市区的距离、日旅客吞吐量和里程利用率,与决策树各个节点的排序基本类似,影响较大的都为天气情况和是否节假日,影响一般的都为接客时间段、机场到市区的距离和日旅客吞吐量,影响较小的都为里程利用率。

3 结束语

本文采用的基于ID3算法的决策树模型,考察到计算量相对较小,易于处理数据,但容易引起过度拟合,从而导致抽样数据不足以有效地代表实际待求问题。再进一步作模型优化,可以改用CART算法,采用剪枝手段,提前停止树的增长或者对已经生成的树干按照一定的规则进行后剪枝。同时该模型除了在本文中应用于机场出租车司机决策方案的确定,还可适用于预测市场商品的销售情况、数据挖掘等情景。

参考文献:

[1]https://baike.so.com/doc/4114578-4313773.html#4114578-4313773-2[EB/OL].

[2]https://wiki.mbalib.com/wiki/Airport_passenger_throughput[EB/OL].

[3]https://baike.so.com/doc/25554755-26597454.html[EB/OL].

[4]http://www.360doc.com/content/14/0330/09/2283188_364852531.shtml[EB/OL].

[5]https://baike.baidu.com/item/%E9%87%8C%E7%A8%8B%E5%88%A9%E7%94%A8%E7%8E%87/18611617[EB/OL].

[6]张琳,陈燕,李桃迎,等.决策树分类算法研究[J].计算机工程,2011,37(13):66-67+70.

[7]许允之.基于随机森林算法的徐州雾霾回归预测模型[A].《环境工程》编委会、工业建筑杂志社有限公司.《环境工程》2019年全国学术年会论文集[C].《环境工程》编委会、工业建筑杂志社有限公司:《环境工程》编辑部,2019:175-179+185.

猜你喜欢
主成分分析
Categorizing Compiler Error Messages with Principal Component Analysis
关于AI上市公司发展水平评价
大学生创业自我效能感结构研究
塔里木河流域水资源承载力变化及其驱动力分析
我国上市商业银行信贷资产证券化效应实证研究
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
农村劳动力转移影响因素与转移数量的动态关系研究