基于K-均值聚类算法的西安市汽车行驶工况合成技术研究*

2015-09-04 05:08蔡锷李阳阳李春明谭晓伟刘东民
汽车技术 2015年8期
关键词:原始数据特征参数降维

蔡锷 李阳阳 李春明 谭晓伟 刘东民

(长安大学)

1 前言

汽车尾气是城市空气的重要污染源之一,而不同交通条件下的汽车行驶工况将直接影响尾气排放。目前,通过对汽车全行驶过程的各运动学片段进行分析,构建一个典型的合成行驶工况并在试验环境中模拟该工况,是国内外进行尾气排放测试研究的热点之一[1~4]。近年来,西安市机动车数量快速增加,汽车尾气污染已成为突出的环境问题之一,因此研究市区行驶工况对控制汽车排放污染和制定相关政策具有重要意义[5,6]。

本文借助高精度GPS车速仪采集车辆的短行程样本,并从多参数评价角度出发对短行程样本进行特征提取,获取了表征其特性的高维特征值向量。同时,采用核主分量分析(KPCA)实现高维特征向量降维,在消除高维特征值之间冗余量的同时,提取了高维特征值之间的非线性联系。最后采用基于K-均值的聚类算法对降维后的特征向量进行了分析,获得了代表市区不同聚类行驶工况的样本,并且按照离聚类中心最近的原则选择各聚类的典型样本合成为西安市汽车行驶工况。

2 原始数据采集

采用英国Race Technology公司生产的型号为DL1 PRO的GPS车速记录仪(图1)进行原始数据采集。GPS车速记录仪内置三轴加速度传感器,GPS刷新率达20 Hz,通过内置存储卡可对车辆的行驶速度、加速度、位置信息及模拟量、开关量等多种参数进行实时测量和存储。由于该设备直接内置加速度传感器,可以通过加速度值对测量数据进行插补,防止了试验车辆在城市中因建筑物密集导致GPS信号丢失而引起的数据缺失,保证了采集的原始数据的完整性。为使采集的数据能真实有效地反映西安市道路行驶工况,根据西安城区的分布特点,利用4辆私家车按照各自正常目的地、紧跟行驶车流的方式进行原始数据采集。车辆的行驶范围涵盖三环内城区的主要干线道路,时间为早7点至晚8点,采集天数为60天,采样时间间隔为0.1 s,总行驶里程约为5000 km。

3 汽车行驶工况合成

3.1 短行程特征提取

首先采用短行程法对GPS车速仪原始采集数据进行片段划分。当车辆速度低于0.5 km/h时,将其定义为车辆怠速状态,车辆从怠速结束至下一个怠速结束所行驶的距离为1个短行程[7]。将所采集的一段原始车速曲线按照短行程定义进行划分,共包含7个短行程,如图2所示。为对短行程数据进行全面评价,从时间、速度和加速度3个方面对所划分的短行程原始数据进行特征提取,提取的特征参数如表1所列,所得高维特征向量将作为短行程样本聚类分析的原始数据集。

3.2 基于KPCA的特征参数降维

为全面分析行驶工况数据的分布特点,需要采用尽可能多的特征参数去表征,在获取全面信息的同时,由于各特征参数之间存在一定的冗余性,如果直接采用高维特征向量进行聚类分析,不仅算法的运算量较大,而且特征的冗余量会导致无法抓住行驶工况的本质信息。因此需要对原始高维特征向量进行降维,在降低运算量的同时消除特征向量之间的冗余性。短行程提取的时间、行驶距离、速度和加速度等特征值之间明显存在非线性关系,因此采用KPCA对原始特征集进行降维。KPCA是一种非线性降维方法,通过核函数将原始数据从数据空间变换到特征空间,然后在特征空间利用PCA算法进行线性降维。

表1 汽车行驶工况特征参数

KPCA的求解步骤[10,11]为:首先通过非线性映射函数φ(x)实现样本xk∈Rm(k=1,2,…,N)从样本空间到特征空间的非线性映射,并得到如下协方差矩阵:

得到如下特征值计算式:

式中,R为样本集合;m为样本特征数目;N为样本数目;λi是C的一个非零特征值;ui是对应的特征向量。

通过引入核矩阵K∈RN×N,=,式(1)可转换为如下特征值计算式:

k(xi,xj)是核函数,本文采用的是高斯核函数:

式中,σ为核函数宽度,将其设置为1。

式(3)的特征值λ1,λ2,…,λd(λ1,>λ2,…,>λd)和对应特征向量ξ1,ξ2,…,ξd保留前k(k<d)个主成分,则yk=(ξ1,ξ2,…,ξk)Tx为降维后数据。

将所采集的行驶工况原始数据进行短行程划分,共获得734个短行程,每个短行程按照表1进行特征值提取,在对高维特征集数据归一化的基础上对其进行KP⁃CA降维。由于前5维主成分贡献量为89.6%,根据主成分贡献率大于85%的原则[11],决定保留前5个主成分,并将其作为聚类分析特征集。

3.3 K-均值聚类方法

车辆的设计和开发不能只满足一种工况,需针对不同交通状况的多种水平层次的工况来设计[1]。根据提取的行驶工况特征,车辆的行驶工况可划分为多个类,不同类之间的样本行驶工况特征差异明显,而同类样本的行驶工况特征类似。样本进行分类后,再从不同类中选取具有代表性的典型样本,最后构成合成行驶工况。显然,行驶工况分析是一个典型的无监督聚类问题,在事先不确定样本类别的前提下,对行驶工况样本聚类的精确程度将直接影响后续的工况合成。

将K-均值聚类算法用于降维后的短行程工况特征参数聚类。K-均值聚类算法是一种基于样本间相似性度量的间接聚类方法,目标是最小化所有样本与之相应的聚类中心之间的距离平方和,属于非监督学习方法。此算法以k为参数,将n个对象分为k个聚类,使类内样本具有较高的相似度,而类间样本的相似度较低。

K-均值聚类算法流程[12]如下:

a.从原数据集S={x1,x2,…,xn}中随机选取k个输入初始聚类中心z1,z2,…,zk;

b.根据每个聚类中所有样本点的均值计算样本集中每个样本点与这些均值的距离,并根据最小距离重新对样本进行划分;

c.重新计算每个聚类的均值;

d. 循环执行步骤b和c,直到每个聚类不再发生变化为止。

图3为降维后的前3维短行程特征散点图,采用K-均值聚类法对所有样本进行了聚类分析,不同聚类的样本采用不同颜色表示,每个聚类的中心也被标识。由图3可看出,短行程特征样本被有效分为3个聚类。此外,分别计算了第1主成分和表1中每个工况特征参数的相关系数,发现行驶距离L、行驶时间T、怠速比例Tidl、平均行驶速度Vmean、最高行驶加速度Amax等5个特征参数的相关系数超过0.8,表明这些特征参数值与第1主成分值紧密相关,因此可以通过分别计算相同聚类样本的特征平均值,对短行程聚类结果进行分析。

不同聚类的样本特征平均值如表2所列,由表2可知,不同聚类的样本代表不同的短行程工况,各样本特征平均值差异明显。其中聚类1样本的行驶距离和行驶时间最短,怠速比例最高,相应的平均行驶速度和最大加速度最小,表明聚类1样本为典型的城市拥堵行驶工况样本;而聚类3样本特性相反,其行驶距离和行驶时间最长,怠速比例最低,相应的平均行驶速度和最大加速度最大,样本3应为典型的城市道路通畅行驶工况样本;聚类2样本的特性介于聚类样本1和聚类3样本之间,其代表的是介于拥堵与通畅之间的城市道路综合行驶工况样本。

表2 不同聚类的样本特征平均值

3.4 行驶工况合成

根据短行程特征聚类结果,计算聚类1、2和聚类3的样本数占总样本数的比例,分别为12.53%、22.39%和65.08%。分别从不同聚类样本中选取相应数量且离聚类中心最近的短行程样本构成各自的合成行驶工况,选择的短行程数量由该聚类样本数占总样本数的百分比和最终合成行驶工况持续时间所决定。合成的拥堵行驶工况、综合行驶工况和畅通行驶工况的时间-速度曲线如图4所示。将此3种典型合成行驶工况依次首尾相接,最后合成持续时间为1166 s、平均速度为21.51 km/h、距离为6.9 km的西安市城区合成行驶工况,如图5所示。

4 合成行驶工况比较分析

计算了西安市合成行驶工况的6个特征参数,并与国外主要行驶工况标准进行了对比,结果如表3所列。

表3 西安市合成行驶工况与国外主要行驶工况标准的特征值比较

由表3可知,西安市合成行驶工况的怠速比例Tidl与其它标准相比较低,最接近于欧洲标准;平均行驶速度Vmean低于其它工况标准,与日本标准相当;最高行驶加速度Amax和平均行驶加速度Amean均高于其它工况标准,与纽约市区标准最接近。总体上评价,西安市工况更接近于日本J10-15标准,但加速度要大很多。

5 结束语

本文借助先进的测试仪器采集了西安市区的汽车行驶工况原始数据。采用短行程法,结合基于KPCA的非线性降维算法和基于K-均值的聚类算法合成了平均速度21.51 km/h、持续时间1166 s、距离6.9 km的西安市城区合成行驶工况。将该工况与其它工况标准对比表明,西安市城区汽车行驶合成工况接近于日本J10-15标准,但具有较大的加速度数值。

1 Zhang Xiao,Zhao DuiJia,Shen JunMin.A Synthesis of Methodologies and Practices for Developing Driving Cycles.Energy Procedia,2012(16):1868 ~1873.

2 Sanghpriya H.Kamble,Tom V.Mathew,G.K.Sharma.De⁃velopment of real-world driving cycle:Case study of Pune,India.Transportation Research Part D 14(2009):132~140.

3 Sze-Hwee Ho,Yiik-Diew Wong,Victor Wei-Chung Chang.Developing Singapore Driving Cycle for passenger cars to es⁃timate fuel consumption and vehicular emissions.Atmo⁃spheric Environment 97(2014):353~362.

4 郑与波,石琴,王世龄.合肥市汽车行驶工况的研究.汽车技术,2010(10):34~39.

5 马洪龙,丁建勋,王桂龙,等.小波变换在道路行驶工况构建中的应用.汽车工程学报,2014(1):56~60.

6 董恩源,颜文胜,申江卫,等.聚类分析法在城市公交行驶工况开发中的应用.昆明理工大学学报(自然科学版),2013(5):41~45.

7 刘希玲,丁焰,我国城市汽车行驶工况调查研究,环境科学研究,2000,1(13):23~28.

8 Sebastian Mika,Bernhard Schölkopf,Alex J Smola,Klaus-Robert Müller,Matthias Scholz,Gunnar Rätsch,Kernel PCA and de-noising in feature spaces,Advances in Neural Information Processing Systems 11(1999):536 ~542.

9 Fangjun Kuang,Weihong Xu,Siyang Zhang.A novel hy⁃brid KPCA and SVM with GA model for intrusion detection.Applied Soft Computing,2014,5(18):178~184.

10 Leonard Kaufman,Peter J.Rousseeuw,finding groups in data:An introduction to cluster analysis,Wiley(1990).

猜你喜欢
原始数据特征参数降维
混动成为降维打击的实力 东风风神皓极
基于视频图像序列的船用雷达目标检测和目标特征参数提取
基于数据降维与聚类的车联网数据分析应用
受特定变化趋势限制的传感器数据处理方法研究
大气腐蚀数据降维最优维度研究
降维打击
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
说话人识别特征参数MFCC的提取与分析
民用飞机预测与健康管理技术与系统特征参数研究
对物理实验测量仪器读数的思考