■远静 远志伟(天津财经大学)
若先进行数据预处理再提取运动学片段,过大的数据量会导致数据处理复杂,逻辑混乱,对于运动学片段的提取也不够准确。对于运动学片段的定义是怠速状态开始至下一个怠速状态开始之间的车速区间,因此前面怠速的状态易被归为不合理的数据被剔除,不利于运动学片段的提取。于是,我们先将整个数据集拆分成n 个运动学片段,将每一组非零数据的后一个零数据视为下一个运动学片段的开始。划分后,每个数据唯一的属于某一片段。结合题目中给出的5 个条件,筛选出符合条件的运动学片段并计算该片段的各个属性。采用先提取运动学片段后筛选的方法极大的简化了程序的运行步骤,程序逻辑清晰明了。
行驶工况是指汽车在行驶过程中所体现的运动特征的变化,一般选取车速作为代表性指标对行驶过程进行刻画。根据题目给出的指标并查阅相关资料,我们筛选出9 个代表性行驶参数。
1.构建步骤
初始数据预处理后,综合考虑选取9 个特征指标来表示短运动片段的特征,通过分层聚类分析将筛选后的数据分为若干类,每一类中选取运动片段的具体步骤如下:
假设分为i 类,每类中有j个运动片段,记nij为第i 类中第j个运动片段,nij的特征值参数向量为第i 类的特征值参数向量为
(2)计算第i 类中的运动时间与筛选后运动片段总时间的比值a,得到在第i类所分配的时间区间为[a1200,a1300]
(3)按照距离排列的大小,结合分配的时间区间,选取每类中距离尽可能小且时间合适的若干短运动片段。
(4)第i 类中初步选出的一些短运动片段组合,得到新的特征值参数向量计 算和的相关系数,通过相关系数检验每一类中选取的短运动片段的有效性,若相关系数较低则进行运动片段选取的调整[1]。
(5)将每一类中选出的短运动片段汇总,初步构建该车的行驶工况。
2.分层聚类步骤和结果
我们采用改进的分层聚类分析方法将晒选后的1743 个运动学片段进行聚类分析,首先计算样本之间的距离,每次将距离最近的点合并到同一个类。再计算类与类之间的距离,将距离最近的类合并为一个大类。重复合并,直到合成一个大类。因此,我们选取了一个阀值,将样本分归为合适的类别[1]。普通的聚类往往以平均数作为特征参数进行聚类,而考虑到每个类别的运动时长占总时长的权重不同,可能会导致选取的片段不能很好的代表每个类别。因此,我们以每个运动片段的时间占比为权重的加权平均数来替代传统的算术平均数进行聚类。通过hclust 函数将处理后的数据分为5 类。
通过上述步骤,挑选出13 条具有代表性的短运动片段,时长1228s,符合题目要求在1200 到1300 之间,这些片段涵盖了5 个类的特征。构建了初始的汽车行驶工况图。
3.行驶工况的参数对比
由表1 可知,构建的行驶汽车工况与整体的行驶特征在偏差上很小,筛选出的指标的偏差都较小,满足了有效性的要求,具有代表性。
通过计算整体特征参数和代表性工况特征参数的相关系数来判断代表工况的有效性。经计算,两者的相关系数为0.9976,近似完全相关,有较高的代表性。
上述计算过程中出现的均值采用以每个运动片段的时间占比为权重的加权平均数。
为了让选出来的运动片段的代表性更有说服力,我们又分别计算整体汽车运动和代表行驶工况的速度分布以及加速度分布[1]。
表1 行驶工况的参数对比表
为了进一步提高构建的合理性,也根据我国交通状况的特点,考虑到汽车在运行过程中会受到路面的干扰,进而引起速度的变化。为了使此变化的随机性更加小,我们采用小波变换的方法对其进行处理改进通过小波重构得到最终得汽车行驶工况如下图1:
图1 汽车行驶工况图
由下表可看出,各项指标的误差仅有0.01%,虽然其他数据有一定的偏差,但也均不过20%。以上结果表明进行小波变换后的数据具有一定的代表性,能够代表此车在此时间短的行驶工况。
表2 压缩重构后数据与初始数据特征参数比较
本文通过构建汽车行驶工况代表城市交通状况,发现在1228s 中,超高速行驶的汽车仅占310s 约为1/4。因此,在燃油消耗方面可适按照中速行驶的汽车配置燃料。减少对低速和高速行驶的汽车的油料配置。了解汽车行驶工况更有利于城市资源的合理配置,优化经济结构,使经济增长稳中求进。