基于K-均值聚类和支持向量机的电动汽车行驶工况研究

2021-05-20 02:30:32赵炜华李郁菡

重庆交通大学学报(自然科学版) 2021年5期

余曼,赵炜华,吴玲,李郁菡

(西安航空学院车辆工程学院，陕西西安 710077)

0 引言

行驶工况是一个国家或地区气候环境、道路交通特征、机动车保有量等因素的综合反映，是车辆能耗和排放测试标准的主要基准，是引导和制约汽车行业发展的关键因素之一[1]。近年来，我国车辆能耗和排放测试标准一直沿用NEDC工况，随着我国汽车保有量急剧增长及城市道路交通环境的不断变化，NEDC工况越来越难以反映我国车辆实际运行情况。能源与交通创新中心和新能源汽车国家大数据联盟的最新调查结果显示，传统内燃机车实际行驶油耗与工况测试油耗差异接近30%，纯电动汽车差异约为35%，且呈现逐年上升趋势[2]。此外，NEDC工况也无法评价新能源汽车循环外技术节能效果。因此，真实有效的行驶工况，对于整车能耗和排放评估、动力系统参数匹配、能量管理以及技术路线选择有重要意义。

国内外学者和机构对行驶工况的构建做了大量研究。从地域和车辆因素考虑，全世界多地区建立了区域工况，如都柏林[3]、天津[4]、合肥[5]等，研究对象包括混合车型，验证了不同地区、不同车辆行驶工况特征的差异性及构建针对性工况的必要性；在工况构建方法研究方面，现有工况构建方法可分为基于聚类的短行程法和马尔科夫方法。曹骞等[6]将汽车行驶视为一个“无后效性”的马尔科夫过程构建工况，以体现行驶过程的随机性，但存在计算量较大和不可重复性问题；王国林等[7]基于短行程的方法，采用主成分分析和K-均值聚类算法，得到了更多学者的关注和应用s。

当前研究多采用混合车型原始数据，有必要针对电动汽车构建针对性的工况，以更准确评估电动汽车在能耗、续航等方面性能。同时，目前研究的短行程法中，多采用非监督学习方法进行数据解析。然而，K-均值聚类或模糊聚类的非监督学习方法多采用“贪心策略”，对数据异常值敏感且易陷入局部最优，直接影响到拟合工况的精度。为了弥补以往研究的不足，笔者以国内典型大中型城市——西安市为例，选择纯电动汽车为研究对象，提出一种K-均值聚类和支持向量机相结合的半监督模型，构建真实行驶工况。

1 城市道路行驶工况数据

1.1 试验路线

西安市路网总长度约2 562 km，具有“回字形布局、棋盘状分布”等特点，具体分布情况如图1，不同等级道路特征如表1。

表1 西安市不同等级道路特征

图1 西安市路网结构

1.1.1 试验路线样本容量

(1)

设样本均值的最大绝对误差Δ如式(2)：

(2)

式中：a为显著性水平，设为0.1。

对式(2)两边平方，并移项得式(3)：

(3)

1.1.2 试验路线分配

层次分析法(AHP)是一种解决多目标决策问题的辅助分析方法。通过将复杂问题的多个影响因素划分为不同层级，使之具有条理化，并在此基础上进行规划、决策和评价[8]。AHP在解决复杂决策问题时，主要分为3步：① 对系统中各要素进行分析，并对重要性进行评价；② 判断所选要素与某一准则的相对权重；③ 按照总权重大小对各个层级进行排序。

在城市道路中，由于距离远近、实时路况、经济程度等因素影响，即使是同一个起点和终点，也可能会产生多种行车路线。可见，确定试验路线中不同等级道路比例，是一个多目标决策问题。笔者将确定最佳出行方式作为最终目标，以快速出行和便捷出行作为备选措施，将不同道路类型作为待选方案，基于AHP方法，建立驾驶人最佳出行方式模型，如图2。最终求得试验路线中，不同等级道路长度及分配比例如表2。

图2 驾驶人最佳出行方式模型

表2 试验路线分配

1.1.3 试验路线

根据试验路线样本容量，并结合西安市道路分布情况，设计的试验路线如图3，具体路线信息如表3。可以看出，试验路线包括了西安市中心商业区，主要住宅区和重要工业区，基本能够反映西安市居民日常出行情况。

图3 试验路线

表3 试验路线信息

1.2 试验方案

试验方案设计主要包括试验时间、试验设备以及驾驶员的选取。根据西安市城市道路交通流量，同时考虑到西安市居民的出行习惯，试验采用时间设计为07:30～09:30、12:30～15:00、17:00～20:00，连续一周每天按设计时间和路线完成试验，包含了城市交通流量的主要高峰期、一般平峰期和正常低峰期，保证各种交通状况都能被全面适量的采集，尽可能在较短时间内获得较为普遍的结果。

根据行驶工况构建需求，选择GPS、OBD、陀螺仪、行车记录仪、12V铅酸蓄电池和电源逆变器等试验设备。此外，驾驶员是数据采集试验的一个重要因素，不同职业、性别、年龄的驾驶员的驾驶风格存在差异，对试验数据影响显著。因此，选择西安市2名经验丰富、熟悉路况的出租车司机作为驾驶员，模拟不同电动汽车驾驶员的驾驶行为，结合车载测量法和车辆追踪试验法完成试验。

2 行驶工况数据解析

2.1 行驶单元

行驶单元指车辆由一个怠速开始到下一个怠速开始之间的运动历程[9]，如图4。车辆在城市道路行驶时，由于受到实时路况影响，驾驶员需要频繁加速或制动车辆。为了便于量化分析，根据公式(4)将车辆运动划分为加速、减速、匀速和怠速4种状态。

图4 行驶单元划分

(4)

2.2 特征描述

行驶单元划分后，为尽可能全面描述车辆的运动信息，最大程度利用数据价值，笔者从时间、速度、加速度3个方面选取了14个参数对每个单元特征进行描述，如表4。

表4 描述行驶单元特征参数

2.3 基于主成分分析的特征提取

主成分分析(PCA)是一种考察多变量间相关性的特征提取方法。基本思想是根据已有特征，通过正交变换得到一个抽象程度更高、互不相关的特征集合，并最大程度保留原始特征信息。由于描述行驶单元的特征参数有很多，其中部分为冗余特征，利用PCA对特征参数进行降维，既可以避免维数灾难，又方便问题的分析和处理[10]。

设行驶单元特征参数矩阵X0如式(5)：

(5)

式中：xpn为第p个单元的第n个特征。为了消除量纲影响，利用公式(6)对X0进行标准化：

(6)

然后求X0的相关矩阵R=XXT，并求其特征值l1,l2…,ln(l1≥l2≥…≥ln)和对应的特征向量[ci1,ci2,…,cin]T(i=1,2,…,n)，得到特征向量矩阵，如式(7)：

(7)

则特征参数x1,x2,…,xn经正交变换后的各主分量y1,y2,…,yn可表示为式(8)：

(8)

式中：y1,y2,…,yn分别称为第1、2、…、n个主成分。

主成分方差贡献率P和累积贡献率CP的计算方式如式(9)、(10)：

(9)

(10)

PCA得到的各主成分表达式如式(11)：

特征参数PCA结果如表5。由表5可知，从第1到第14主成分，各主成分方差依次递减，表明其所包含的信息量也逐渐减少。前4个主成分方差均大于1，且累积贡献率达到90.49%，基本包含了原始特征的所有信息。因此，为了简化问题，计算前4个主成分得分，将其作为行驶单元新的综合评价指标，如表6。

表5 PCA结果

表6 主成分得分

(11)

2.4 半监督分类模型

分类问题按照训练样本的有无，分为监督学习和非监督学习两种。K-均值聚类属于非监督学习方法，可以对未知样本进行聚类；支持向量机属于监督学习方法，需要训练样本来建立分类模型。这两种算法各有利弊，相互补充[11]。为了充分发挥这两种算法的优势，笔者将K-均值聚类算法和支持向量机相结合，建立了行驶单元的半监督分类模型。基本思想为：利用K-均值聚类算法，从所有行驶单元中筛选出信息最为丰富的样本，作为支持向量机模型的训练集，模型经过“学习”后，对待测样本进行预测。

2.4.1 支持向量机理论

支持向量机(SVM)是一种解决二分类问题的监督学习方法[12]。基本思想是通过构造一个分类超平面作为决策曲面，使不同类数据的差异最大化。由于SVM具有理论完善、鲁棒性好等诸多优点，得到了广泛应用。

设大小为l的集合{(xi,yi),i=1,2,…,l}由两类构成。若xi属于第一类，记yi=1；若xi属于第二类，则记yi=-1。若能找到如图5的分类超平面wx+b=0，将集合内的数据正确分为两类，则表示该集合线性可分。

图5 分类超平面

即满足：

(11)

式中：w=(w1;w2;…;wd)为法向量；b为位移项。则集合中任一点xi到超平面的距离为：

(12)

由图5可知，距离超平面最近的几个样本使式(11)等号成立，称之为“支持向量”。

异类支持向量间距离γ如式(13)：

(13)

为寻找最优分类超平面，使不同类别样本尽可能分离开，在满足公式(11)的条件下使得γ最大，如式(14)：

(14)

式(14)可等价写为式(15)：

(15)

该问题可通过求解拉格朗日函数鞍点得到：

(16)

式中：ai>0,i=1,2,…,l，为拉格朗日系数。

按照拉格朗日理论可以将公式(16)转化为对偶问题，如式(17)：

(17)

(18)

式中：xr和xs为支持向量。

最终得到的最优分类函数如式(19)：

(19)

SVM最初是为二分类问题设计的，而通常城市道路行驶单元的种类一般多于两类，无法直接进行划分。笔者基于MATLAB软件，通过组合多个二分类器的方法，建立了行驶单元的多分类模型。具体过程包括：训练样本筛选、参数寻优、模型训练和分类预测。

2.4.2 训练样本筛选

由于SVM属于监督学习方法，分类前需要选取合适的训练样本(训练集)。考虑到行驶单元数量众多，为了提高分类准确率和效率，笔者利用K-均值聚类算法进行训练集的筛选。K-均值算法通过计算每个样本与各个聚类中心间距离，按照距离最近原则进行样本标记，具体流程如图6[13]。

图6 K-Means聚类流程

采用欧几里得距离描述样本间的差异，如式(20)：

(20)

式中：p是特征数目；xik和xjk为样本i和j的k-th特征。

在K-均值聚类算法中，类别数K对聚类结果的准确性有着重要影响[14]，但通常K的准确值最初是未知的。如果K大于真值，则将在多个类中错误地划分同一类数据，这将导致聚类结果的边界模糊。反之，将不同类别的数据合并到同一类中，将导致集群的紧凑性降低[15]。因此，通常使用聚类稳定性来确定K值[16]。基本思想是：如果对相同的样本数据进行重复聚类，则合适的K值应该产生相同或相近的聚类结果，即稳定性被视为K值是否合适的指标。根据聚类稳定性测试结果，最终确定将所有的行驶单元聚为3类。

由于K-均值属于硬聚类算法，仅依据距离进行数据划分。当多个聚类中心间的距离差异不大时，聚类效果欠佳。另外，K-均值聚类算法的收敛条件是不断迭代直至聚类中心不再发生变化，这可能导致在类内数据已经十分接近，但未充分考虑类间距离，只保证了局部最优，未能实现全局最优。由此可见，虽然利用K-均值算法便可获得行驶单元大致的分类信息，但效果并不十分理想，这将直接影响到各类行驶工况的特征以及综合行驶工况的曲线构成。

考虑到SVM较K-均值算法在解决高维模式识别方面的显著优势，笔者从K-均值聚类结果中，筛选若干代表性单元作为SVM的训练集，然后利用训练好的SVM模型对剩余单元进行精确划分。代表性单元选取遵循2点原则：① 选取合适数量的训练集，避免模型的欠学习和过学习；② 选取的单元距同类中心的距离应尽可能近、距异类中心距离应尽可能远。

依照上述原则，筛选出74个行驶单元作为训练集，剩余部分作为测试集。

2.4.3 参数寻优

因训练集数量正常，特征参数相对较少。为使算法更好地适应训练集，选择径向基函(RBF)作为模型的核函数，如式(21)：

K(x,xi)=exp(-gamma‖xi-x‖2)

(21)

式中：xi为支持向量；x为待测样本；‖xi-x‖2为范数距离；gamma为核函数参数g。

为了更好地提升分类器的性能，分类前需要调整SVM模型的惩罚参数c和核函数参数g。参数c决定错分样本的处罚程度，参数g决定高维空间中数据的分布情况[17]。在K折交叉验证思想下，利用网格搜索算法寻找最佳参数，具体步骤如下[18]：

1)确定参数c和g的取值范围和计算步长；

2)将训练集均分为S份，选择S-1份进行模型训练；余下的一份用于评估分类效果。循环进行S次，由此得到S个分类准确率，将其均值作为此组c和g下最终的分类准确率；

3)选择分类准确率最高的那组c和g作为SVM模型的最佳参数；

4)如果具有最高准确率的参数不唯一时，由于较大的c值会降低SVM模型的泛化能力，所以选择c值最小的那组c和g作为最佳参数。

参数寻优3D视图如图7，x、y轴分别表示参数c、g取对数后的值，z轴表示取每组c和g后对应的分类准确率。最终获得的最佳参数c=0.25，g=2.297 4，训练集的分类准确率达到了100%。

图7 参数寻优

2.4.4 模型训练与分类预测

利用筛选得到训练集和最佳参数对SVM模型进行训练，然后对剩余的行驶单元进行分类预测。选取行驶单元主要的平均特征来衡量分类准确率，SVM的分类结果如表7。可以看出，三类之间区别明显，分类效果良好。

表7 SVM分类结果

3 城市道路行驶工况

3.1 工况构建

行驶工况是通过组合各类中最具有代表性行驶单元，直至满足预先设定的时间长度而构建。行驶工况的构建过程分为：工况总运行时间确定、各类行驶单元时长分配以及代表性单元选取与组合。

通常国际标准工况和国内外典型城市代表性工况的运行时间在600～1 800 s。参考北京[19]、香港[20]、新加坡[21]等城市工况，笔者设定西安工况总运行时间为1 200 s。然后根据每类行驶单元运行时间，占所有行驶单元总运行时间比例，确定每类单元在拟合成工况中的时间比例[22]，如式(22)：

(22)

式中：Ti为拟合成工况中第i类行驶单元的时间比例；n为第i类行驶单元的数目；l为类别数。

计算得到3类行驶单元在拟合成行驶工况中的时长(比例)分别为170 s(14.2%)、589 s(49.1%)、441 s(36.7%)。选择每个行驶单元与该类平均特征的相关系数作为筛选指标，选取相关系数大的作为备选单元，如式(23)：

(23)

按照各类时长和相关系数分别从3类中选取3个、5个、3个行驶单元，将其首尾连接，构建了西安市3种交通环境下的典型行驶工况。根据每种行驶工况的特征，将它们分别定义为拥堵、一般和畅通行驶工况，最后将3种行驶工况组合在一起，构建了西安市综合行驶工况(西安工况)，如图8。

图8 行驶工况

3.2 工况验证

行驶工况验证标准是能够以少量数据反映原始试验数据的综合结果。笔者选择3个平均特征、2个波动特征和4个状态特征共9个参数作为工况有效性的评价指标。所构建的西安工况与原始试验数据的对比结果如表8。根据式(24)～(26)，计算了西安工况与原始试验数据特征参数的相对误差(RE)、平均相对误差值(MRE)和均方根误差值(RMSE)。同时，比较了二者的速度-加速度联合概率分布，如图9。

表8 西安工况与原始试验数据对比

图9 速度-加速度联合概率分布

(24)

(25)

(26)

式中：ac和at分别是行驶工况和原始试验数据的特征参数；n为特征参数个数；M和N分别是速度和加速度点划分的网格数；xij和yij分别是第ij个网格对应的概率值。

计算结果表明，西安工况与原始试验数据特征参数的相对误差基本小于5%，平均相对误差仅为2.66%，均方根误差值为1.7%。且两者速度-加速度联合概率分布矩阵(SAPD)接近一致，表明西安工况与实际道路行驶的试验数据非常接近。因此，构建行驶工况可较为准确的反映西安市车辆的真实行驶特征。

此外，为了研究西安工况与国际标准工况[23]的差异性，笔者将西安工况与6个国际标准工况进行对比。不同行驶工况曲线对比如图10，特征参数对比结果如表9。可以看出，西安工况与国际标准行驶工况的差异明显。西安工况具体特征表现为：平均车速较低，平均加/减速度较大，加减速比例高、匀怠速比例低。总的来说，西安工况表现出更激进的变化特征。

图10 不同行驶工况曲线对比

表9 西安工况与国际标准工况对比

西安工况特征的可以从车辆性能和道路交通因素两方面进行解释：

1)车辆性能方面，西安工况基于电动汽车，而其他国际标准行驶工况均基于传统燃油车。电动汽车与燃油车在动力系统的差异导致了车辆行驶特征的不同，主要表现为：① 电机的低速恒扭矩特性可实现车辆在起步瞬间即输出最大扭矩，而燃油车的动力输出需要结合换挡控制或液力变矩器控制，发动机从怠速到最大扭矩的响应时间更长。因此，电动汽车起步加速度更大，起步时间更短；② 电机响应迅速、运行平稳，加速踏板的微小变化将导致车速的显著变化，这是燃油车无法实现的；③ 电动汽车再生制动系统的控制策略较为激进，在确保制动安全的前提下尽可能多使用再生制动以获得较高的能量利用率，从而导致车辆变现出更加剧烈的加减速特征。相比之下，燃油车在制动时车辆处于滑行状态，制动过程相对平稳。

2)道路交通因素方面，西安工况反映了西安市车辆的行驶特征，其他国际标准工况是某一国家或地区道路交通特征的综合表现。目前，西安市机动车保有量和城市人口数量急剧增加，城市规模和交通基础设施建设不能满足城市发展的要求，交通拥堵工况占比较大，导致车辆行驶过程的频繁急加速和急减速。

4 结语

1)以国内典型大中型城市——西安市为例，通过道路试验获得了大量汽车行驶数据。通过试验数据解析法，利用K-均值与 SVM半监督分类模型，构建了西安市的代表性汽车行驶工况。笔者所构建的工况与原始试验数据特征参数的相对误差基本小于5%，平均相对误差仅为2.66%。

2)西安工况具有平均车速低、平均加/减速度大、加减速比例高、匀怠速比例低等特点，与国际标准工况差异明显。这是因为汽车行驶工况受特定地域的道路交通条件影响，也由于车辆动力系统差异，电动汽车工况比传统燃油汽车工况特征表现更为激进。