周 顺 陈大伟 史立凯(.东南大学交通学院,江苏南京 0098;.南京市城市与交通规划设计研究院有限责任公司,江苏南京 0008)
基于k-均值聚类方法的宁沪高速收费站聚类分析研究★
周顺1陈大伟1史立凯2
(1.东南大学交通学院,江苏南京210098;2.南京市城市与交通规划设计研究院有限责任公司,江苏南京210008)
摘要:基于宁沪高速公路收费站ETC及MTC OD月报表,选取ETC站点出发流量、到达流量、方向不均衡系数等10个单因子,运用主成分分析法,得到FAC1_1,FAC1_2两个主因子,并采用k-均值聚类方法将160个高速公路收费站点聚为9类,为实际运营中站点的分类管理提供科学依据。
关键词:高速公路,收费站,聚类分析,主成分分析
★:“中央高校基本科研业务费专项资金资助”和“江苏省普通高校研究生科研创新计划资助项目”(项目编号:SJLX_0092)资助
在当今这个信息爆炸的大数据时代,怎样从大量的历史数据中发现有用的知识逐渐成为人们日益关心的问题。为了使历史数据变成一种有用的资源,需要借助一系列外部手段或技术对历史数据进行处理和分析。另一方面,高速公路收费站点的运营及人员调度是整个高速公路公司运营环节中的重要一环,做好站点的运营不仅能够提升节点运营效率还能够较好地解决系统问题。因此本文借助聚类分析方法在对各站点指标值统计的基础上对站点进行聚类,为实际运营中站点的分类管理提供科学依据。
本次数据挖掘基于宁沪高速公路有限公司2013年1月~4月收费站刷卡收费OD矩阵数据,构建Hadoop数据挖掘平台,选取聚类分析影响因素,在完成主因子分析的基础上,应用k-均值方法完成收费站的聚类分析,进而为实际运营中站点的分类管理提供科学依据[1,2]。
1.1主成分分析
主成分分析主要是用较少的不相关新变量或指标替代较多的相关联变量或指标用的方法,并且新变量为原有变量的线性组合。所选取的新变量被称为主成分,选取的原则是尽可能保留原有变量中所包含的信息。从统计学的角度分析,一个变量所含有的信息可用其方差来表征。方差越大,所包含的信息量越大[3]。
1.2收费站聚类分析[4,5]
本次聚类分析采用k-均值聚类方法,该方法以各类样本的中心代表该类进行不断迭代,其对超球形分布的数据有较好的聚类效果,具体计算过程如下所示:
假设聚类的样本集为X ={x1,…,xi,…,xl}且xi∈Rd,其中,l为样本个数,d为样本维度。k-均值聚类方法首先从样本集中随机选择k个样本作为初始聚类中心C ={c1,…,cj,…,ck}(k为聚类个数参数),然后计算每个样本xi∈X到聚类中心cj∈C距离d(xi,cj),样本xi∈X到中心cj∈C的距离d(xi,cj)的计算方法为:
根据每个样本到聚类中心的距离将样本分到与之最近类中,并计算更新后每个类的中心C。不妨假设第j类的样本集合为Xj={xj1,…,xjnj},其中nj为该类样本规模,新的中心cj为:
通过式(2)得到类心,根据式(1)计算每个样本xi(i =1,…,l)到每个更新后的聚类中心cj{j = 1,…,k}的距离并重新判断样本归属,如此循环迭代,直到更新后的类中心与更新前的类中心一致时停止。
沪宁高速公路收费站的聚类需要综合考虑多方面影响因素,本次聚类主要基于2013年1月~4月收费站ETC及MTC OD月报表进行,选取ETC站点出发流量(FlowETC+),ETC站点到达流量(FlowETC-),ETC站点方向不均衡系数(DiETC),ETC站点客流发散均匀系数(EmETC),ETC站点客流集中均匀系数(FOETC)及MTC站点出发流量(FlowMTC+),MTC站点到达流量(FlowMTC-),MTC站点方向不均衡系数(DiMTC),MTC站点客流发散均匀系数(EmMTC),MTC站点客流集中均匀系数(FOMTC)等10项指标,指标定义表如表1所示。
表1 聚类指标定义表
图1 主成分分析碎石图
在对各站点对应各月份指标值集计化、归一化并剔除异常值处理后进行主因子分析得到两个主因子,主因子分析结果如图1,表2,表3所示。
表2 主成分分析结果表
表3 主成分分析指标表
借助k-均值聚类算法基于主成分分析所得到的主成分指标值,针对剔除异常站点的160个沪宁高速收费站进行聚类分析,经过10次聚类迭代后,总共得到9类站点,聚类结果表如表4所示。
表4 站点聚类结果表
本文基于宁沪高速公路2013年1月~4月收费站ETC及MTC OD月报表,选取ETC站点出发流量、ETC站点到达流量、ETC站点方向不均衡系数等10个单因子,接着运用主成分分析法得到FAC1_1,FAC1_2两个主因子,最后运用k-均值聚类方法将160个高速公路收费站点聚为9类,用以现状收费站点运营策略的优化及调整,能够满足现状需要,有较高实用价值。然而本文也存在两点不足:1)尚未运用其他聚类分析方法对本次聚类进行验证和校核;2)影响聚类分析的因素尚未考虑完全,此两点均有待研究和补充。
参考文献:
[1]王光宏,蒋平.数据挖掘综述[J].同济大学学报,2004,32 (2):3-5.
[2]MECHMED,KANTARDZEC. Data Mining concepts,models,method sandalgorithms[M]. American:IEEEPress,2002.
[3]毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2007:5-10.
[4]钟足峰.联网收费系统数据分析与挖掘的理论与实现[D].长沙:长沙理工大学,2007.
[5]苏成.数据挖掘中不可忽视的环节——数据预处理[J].应用技术,2006(4):64-66.
Cluster analysis method for Ning-Hu highway toll station based on k-clustering★
Zhou shun1Chen Dawei1Shi Likai2
(1. School of Transportation Southeast University,Nanjing 210098,China;2. Nanjing Institute of City & Transport Planning Co.,Ltd,Nanjing 210008,China)
Abstract:This paper based on ETC and MTC OD statements of Ning-Hu highway toll station,principal component analysis method it selects more than 10 single factors of ETC station,such as starting flow,arrival flow,direction won-equilibrium coeffcient and so on. Then this paper used the principal component analysis method to get FAC1_1 and FAC1_2. k-means clustering method was used to get the 9 clustering from 160 highway,toll stations. Research findings can provide scientific basis for the actual operation.
Key words:highway,toll stations,clustering analysis,the principal component analysis
中图分类号:U412. 366
文献标识码:A
文章编号:1009-6825(2016)09-0130-03
收稿日期:2016-01-20
作者简介:周顺(1992-),男,在读硕士