郑国峰,林 鑫,张承伟,肖 攀,张学东
(1.中国汽车工程研究院股份有限公司, 重庆 401122;2.重庆交通大学 机电与车辆工程学院, 重庆 400074)
汽车驾驶过程中的典型行驶工况对整车的耐久性能有着显著影响。在整车耐久性规范制定或修订时,用户典型工况的比例,直接决定规范能否反应用户实际驾驶情况,典型工况的识别显得尤为重要。在传统的整车耐久规范开发与修订中,典型行驶工况往往通过整车GPS信号获取,但GPS所包含的典型道路的信息,严重依赖于图商的后台数据,在缺乏相关数据库的前提下,对整车典型行驶工况的识别显得较为困难。但随着人工智能算法的出现,基于用户车联网数据的典型行驶工况识别方法逐渐得到关注。
基于人工智能算法的整车典型行驶工况识别方法,国内外相关学者做了相关的研究,较为典型的有:詹森等[1-2]提出了基于聚类算法的工况识别方法,以优化整车能量管理策略。林歆悠等[3]采用学习向量量化(LVQ)神经网络模型对典型行驶工况进行在线识别,结合动态规划算法,制定了基于工况识别的控制策略。田毅等[4]基于模糊神经网络模型对典型行驶工况进行识别,结合模糊控制策略和遗传算法改善了混合动力汽车的燃油经济性和排放性。罗婷等[5]分别采用模糊C均值聚类、概率神经网络、LVQ神经网络和BP神经网络的工况识别方法进行了典型行驶工况分类,为能量管理策略提供了基础。Langari等[6]在设计混动汽车能源管理系统时,植入了基于LVQ神经网络模型的驾驶工况在线识别算法。以上研究均采用人工智能算法进行典型行驶工况识别,助力新能源汽车能量管理,实现整车能量优化,对于商用车耐久性规范开发时的典型行驶工况识别,鲜有文献报道。此外文献报道的智能算法主要以速度和加速度作为输出,进行模型的训练,但在实际情况中,典型行驶工况除与速度相关外,还与用户的驾驶习惯密切相关,在进行模型训练时需要考虑,以提高模型训练的精度[7]。
针对商用车耐久性规范开发或修订的问题,提出基于主成分分析-学习向量量化(PCA-LVQ)神经网络的典型工况识别算法。基于用户车联网数据,首先对速度、刹车频次、驾驶时间等多维度特征参数进行主成分分析(PCA),实现输入信息降维处理,避免冗余信息带来的识别误差。其次将降维后的信息输入到LVQ神经网络模型中进行训练,并将模型用于用户典型驾驶工况的识别,分别对模型识别的影响因素进行了研究。结果表明:基于PCA-LVQ神经网络的典型驾驶工况识别方法能够有效地进行工况识别,工况识别的精度与运动学片段长度相关,还受训练样本量和识别量的影响,但不受工况顺序影响。
通过用户的驾驶数据,可反映典型驾驶工况的类型,但需要经过预处理后才能用于典型驾驶工况的识别,见图1。用户实车采集的数据记为Xi(tj),其中i=1,2,…,N为采集通道的数量,j表示单个通道采集数据的总量。
图1 典型驾驶工况识别的用户数据预处理示意图
由于实车数据采集通道较多,并且通道之间存在相关性,为了能够准确地提取工况信息,首先采用PCA法,对多维通道数据进行降维处理,再将降维后的数据按照等距离原则,将通道数据分块为M个块工况,计算每个通道下块工况的特征参数。以特征参数作为训练参数,构建PCA-LVQ典型驾驶工况识别模型,用于工况识别。
PCA基本思想是使用正交变换将一组可能相关的变量转换为一组线性不相关的独立变量。通过正交变换,采用较少的独立变量指标来最大程度地反映原多个指标才能表达的信息,实现数据压缩的目的。其基本步骤如下:
1) 对输入矩阵进行标准化,使其均值为0,标准差为1,得到标准化矩阵。
2) 计算标准化矩阵的相关系数矩阵。
3) 计算相关系数矩阵的特征值,将矩阵的特征值按降序排列,并求出每个特征值对应的特征向量。
4) 计算主成分贡献率和累计贡献率。其中第一个主成分的贡献率最大,表明第一主成分的独立性最强,综合表达原始变量的能力最好。
为了能够更好地识别典型驾驶工况,取累积贡献率达到90%以上的特征值,从而识别出众多变量中的主成分。
对于复杂非线性问题的分类识别问题,LVQ神经网络表现出优异而准确的模式识别性能,因而得到广泛应用。算法通过寻找输入与输出数据之间的某种密切关系,实现特征提取和统计分类,见图2。
图2 LVQ网络结构
LVQ主要由输入层、竞争层和输出层3层神经元组成。输入层将信息依次完全传递到竞争层,而竞争层部分传递到输出层。竞争层将对输入信息进行分类,输出层将竞争层传递过来的分类信息转换为用户所定义的期望类别。
LVQ神经网络是一种结合了竞争学习规则和有教师学习规则的算法,其对网络的训练需要一组有教师信号的样本。利用训练样本集对网络进行训练,训练完毕后再进行模式的识别。当某个有待识别的模式输入到网络时,与输入模式距离最近的竞争层神经元将被激活,竞争神经元状态为1,而其他神经元的连接权值均为0。被激活的竞争神经元将会使输出层神经元的权值为1,而其他未被激活的竞争神经元将会使输出层神经元的权值为0[8-9]。
商用车车联网数据量丰富,通过PCA算法将丰富的数据信息进行降维处理,提取典型驾驶工况识别的主要通道信息,并输入到LVQ中进行典型驾驶工况模式识别,算法的主要步骤如下:
2) 将每个通道的特征参数组成矩阵形式,并作为算法输入。输入数据维度为i×k的矩阵,表示为X=(xnp)i×k(n=1,2,…,i;p=1,2,…,k),其中i为通道数量,k为变量指标的数量。
3) 对输入矩阵X=(xnp)i×k进行标准化,使其均值为0,标准差为1,得到标准化矩阵Y=(ynp)i×k,标准化矩阵中的每个元素为:
ynp=(xnp-minxp)/(maxxp-minxp)
(1)
4) 标准化矩阵Yi×k的相关系数矩阵R的求解。相关系数矩阵的每个元素rnp的值为:
(2)
5) 相关系数矩阵R的特征值求解。将矩阵R的特征值λ按降序排列,并求出每个特征值对应的特征向量。
6) 计算输入矩阵主成分贡献率和累计贡献率:
(3)
其中有q个主成分,则累计贡献率可表达为:
(4)
取累积贡献率达到90%以上的特征值,采用λm(m≤i)表示对应的m个主成分对应的特征值,从而将众多变量中的主成分识别出来。
7) 将PCA后的矩阵X=(x1p,x2p,…,xqp)作为LVQ的输入层数据。并初始化输入层与竞争层之间的权值ωab(其中下表a表示输入层的编号,b表示竞争层的编号),给定训练时的初始学习率η0(η0>0)和训练的目标次数t′。
8) 计算竞争层神经元与输入向量的距离:
(5)
9) 选择与输入向量距离最小的竞争层神经元。若‖ndist‖c最小,记与之连接的线性输出神经元的类标签为dc。
10) 记训练样本对应的类标签为de,若dc=de,则用如下方法调整权值:
ωab_new=ωab_old+η(x-ωab_old)
(6)
否则,按如下方式进行权值更新:
ωab_new=ωab_old-η(x-ωab_old)
(7)
11) 更新网络学习速率:
(8)
12) 当满足t 13) 经过以上训练得到PCA-LVQ工况识别模型。将待识别的工况数据按照训练时的格式进行输入,进行工况识别。 14) 由于工况识别受样本量等因素的影响,PCA-LVQ模型需根据实际情况进行算法修正。 以商用物流车为研究对象进行用户典型驾驶工况的识别。商用物流车用户驾驶,其中高速、国道2种典型工况占目标里程95%以上,是影响整车耐久性的关键因素。用户目标里程下高速、国道工况的占比输入,将对整车耐久性规范开发精度产生重要影响。 基于商用车车联网大数据平台,随机抽取某一定时间段内某用户的驾驶数据。这些数据包含:驾驶累计总里程、刹车信号、踏板信号、整车速度、油耗等27个信号数据,以及由GPS传感器同步输出的经、纬度和海拔等信号数据。 用户驾驶路线起点为河南省新乡市,沿G4高速经湖北、湖南到达广州,从广州出发经贵州到达四川成都,在成都沿318国道和京藏高速到达拉萨市,全程8 636 km。以其中200 km的高速工况驾驶数据为例,整车速度、油门和刹车踏板信号随里程的变化见图3。 图3 整车速度、油门和刹车踏板信号随里程的变化 图3中整车速度为0~100 km/h变化的信号,相应油门踏板信号在0~100%变化,刹车踏板为0、1信号。基于整车速度信号,还可计算其加减速信息,以及在每个运动片段内的最大/最小速度信息。 2.2.1用户数据的PCA 以实车采集高速和国道工况下的信号,作为神经网络工况识别模型的训练样本,其中高速工况下里程为1 380 km,国道工况下里程为745 km。 文献多数选择平均速度、最大速度/加速度/减速度、匀速/加速/减速时间比等与速度相关的参数维度作为训练参数[10]。对于训练参数的维度,并非越多越好。训练参数的维度越多越容易造成信息的冗余,导致所训练的模型对某些维度参数出现识别误差。 考虑到整车在不同典型驾驶工况下,相同驾驶里程内的驾驶时间、刹车频次、油门踏板百分比、整车速度、油耗等均有所不同,这里不仅采用速度相关的参数(平均速度Vm、最大速度Vmax、最小速度Vmin、最大加速度Amax)进行训练,还将采用刹车频次Fb、油门踏板累计频次Fp、相同距离内的驾驶时间t、发动机最大/最小转速RPMmax/RPMmin、相同距离内的油耗E、以及整车z向加速度信号Az等作为训练参数[11-12]。 基于PCA-LVQ典型驾驶工况识别模型,首先对以上11个维度的输入信息进行降维处理。得到的主成分及贡献率如表1所示。 表1 各主成分贡献率及累计贡献率 根据表1,前6个主成分特征值的贡献率达到90%以上,能够独立地代表所输入的11个维度的变量信息,因此选取前6个主成分进行分析。 此外,为了能够判断6个主成分所代表的维度信息,将6个主成分下每个维度的相关系数矩阵元素进行总结,如表2所示。 表2 主成分相关系数矩阵元素 根据表2相关系数的情况,可以判断:第一主成分主要反映平均速度和最大速度;第二主成分主要反映刹车频次;第三主成分主要反映相同距离内的驾驶时间;第四主成分主要反映整车z向加速度信息;第五主成分主要反映发动机最大转速;第六主成分主要反映最大加速度。 根据主成分与特征参数的相关性可以判断,能够反映典型工况的主要维度包含:平均速度Vm、最大速度Vmax、最大加速度Amax、相同距离内的驾驶时间t、发动机最大转速RPMmax、油门踏板累计频次Fp、以及整车z向加速度信号Az。 2.2.2典型工况识别 设置LVQ神经网络工况识别模型的学习率为0.02,系统误差阈值为0.01。按照1.3节的样本学习算法对典型工况识别模型进行训练,当工况识别模型的系统误差下降到0.01以下,认为完成识别工况模型的训练,可以运用到实际工况的识别中。 (9) 以实车采集高速工况下250 km和国道工况下170 km的数据作为工况识别对象,输入到2.2节的PCA-LVQ工况识别模型中。定义工况识别的精度: (10) 其中:Ca(l)为第l个有待识别块工况的实际对应的典型道路工况,Cr(l)为LVQ神经网络工况识别模型所识别出的第l个块工况对应的典型道路工况,L为块工况的总数量。 2.3.1PCA-LVQ与LVQ工况识别结果对比 PCA-LVQ工况识别算法是在LVQ神经网络工况识别的基础上,为了避免由于信息冗余带来的识别误差,增加了PCA算法,对输入信息实现降维处理。为了对比改进算法的优势,利用相同的信息分别对PCA-LVQ与LVQ工况识别算法进行训练,并利用相同的输入信号进行典型工况的识别。 考虑到训练的块工况长度对识别结果的影响,分别采用不同长度的块工况对PCA-LVQ和LVQ工况识别模型进行训练。 根据图4(a)和(b),可得到如下结论: 图4 不同算法下工况识别结果随块工况长度变化情况 1) 基于PCA-LVQ模型得到的工况识别精度比LVQ模型显著提高。主要在于PCA-LVQ通过降维,消除了工况识别输入的冗余信息,使得工况的识别精度有所提高。 2) 块工况长度对识别精度有显著影响。随着块工况长度的增加,高速和国道工况下的识别精度均呈现先增高后减小的趋势。说明在进行驾驶工况识别时,所划分的运动学片段长度,对典型驾驶工况识别的精度有显著影响。 3) 有一个最优的块工况长度,使得识别精度最高。对比PCA-LVQ模型的识别结果,块工况长度为5 km时高速工况识别精度最高,块工况长度为6 km时国道工况识别精度最高,分别为97.96%和100.00%。 4) 与国道工况相比,高速工况识别精度更为稳定。与国道工况相比,高速工况的驾驶环境较好,其驾驶数据更为稳定,采用不同块工况长度划分后,识别得到的工况精度也更加稳定。国道工况由于驾驶环境较差,驾驶员操作频繁,识别得到的工况精度有一定的浮动。 2.3.2PCA-LVQ误识别分析 以块工况长度5 km为例,基于PCA-LVQ工况识别算法得到的识别结果见图5。其中高速工况用标签“1”表示,国道工况用标签“2”表示。 图5 块工况长度5 km的工况识别结果 根据图5,序号为1~49的块工况为高速工况,序号为50~83的块工况为国道工况。在高速工况下,训练的模型将1号块工况误识别为国道工况;在国道工况下,训练的模型将68号块工况误识别为高速工况。 为了判断工况误识别的原因,绘制部分参数的分布,并判断误识别块工况的相应参数(驾驶平均速度、刹车频次、油门踏板百分比)在分布图中的位置情况,将误识别工况的相关参数在图中标记,具体见图6。 根据图6可知,整体分布来看:高速工况的最高车速较大,最大加速度较小,油门踏板的平均行程较高;而国道工况最高车速较小,最大加速度较高,油门踏板的平均行程较低。 将误识别工况标记在图6中,其中红色粗点为1号误识别工况,黑色粗点为68号误识别工况。图6标记的误识别工况表明:1号块工况的最大速度偏低,最高加速度较大,油门踏板平均行程较小,这是该工况被误识别的主要原因;而68号块工况的最大速度虽较低,但最高加速度较小,油门踏板平均行程较高,导致该工况被误识别为高速工况。 图6 误识别工况的参数标记 误识别的核心原因在于:高速和国道工况各特征参数的分布有较多交叉区域,通过某个或某几个特征参数较难实现工况的准确识别,但过多的特征参数信息输入又将导致信息冗余,造成识别误差。因此所提出的PCA法能够有效解决以上问题。 2.3.3典型工况顺序对工况识别精度的影响 由于商用物流车的实际运行工况中,高速与国道工况是交叉进行的,为了分析工况顺序对识别精度的影响,将图5所示的典型工况的顺序进行调整,以验证算法对工况顺序的鲁棒性。 将序号为50~83的国道工况前置,序号为1~49的高速工况后置,识别结果如图7(a)所示;将国道工况和高速工况分段混合,识别结果如图7(b)所示。 图7 不同工况顺序下的模型识别结果 根据图7可知,基于PCA-LVQ模型的高速工况和国道工况的识别精度没有发生变化,并且误识别的工况与图5所示工况保持相同。结果表明:2种工况相互混合交叉,基于PCA-LVQ典型驾驶工况识别模型的精度不变,不因顺序的不同而发生变化。 2.3.4模型训练样本量对工况识别精度的影响 根据神经网络模型训练的性质可知,网络训练的样本量越大,所得到的模型越精确,识别出的工况结果则越准确。以识别量与训练样本量之比为横坐标,不同驾驶工况识别精度的变化情况见图8。 图8 不同驾驶工况识别精度的变化情况 根据图8,2种典型工况下,随着识别样本量的增加,典型驾驶工况识别的精度呈现下降趋势,在识别样本量与训练样本量比值为1附近趋于平稳,保持在79%左右。主要原因在于:随着识别样本量的增加,识别的误差逐渐累计,当识别样本量与训练样本量比值大于1后,累计误差趋于平稳。因此要求识别的效果越好,需要提供大量的训练样本量,但在实际工程中,训练样本量不可能无限大,反而是识别的样本量要求较多。结果表明:在模型训练样本与典型工况识别样本量相当时,典型工况的识别精度保持在79%左右,能够有效地对典型工况进行识别。 1) 所提出的典型驾驶工况识别方法和流程,普适于各类车型耐久规范开发中的典型工况识别,但模型训练的输入信号等有所差异。 2) 基于PCA-LVQ典型驾驶工况识别模型,识别结果精度与用户试车数据的块工况划分的长度相关。最优的块工况长度为一个运动学片段的长度,具体需要根据实测数据进行分析判断。 3) 典型驾驶工况识别精度还受训练样本量和识别量的影响,当识别样本量与训练样本量相当后,累计误差趋于平稳。可以对算法进行修正,将识别的正确工况作为训练集输入到模型中,可进一步提高算法精度。 4) 将不同工况相互混合交叉,基于PCA-LVQ典型驾驶工况识别模型的识别精度,以及误识别的工况块不变,可见模型不受工况顺序影响。2 工况识别与验证
2.1 数据采集与预处理
2.2 工况识别
2.3 识别结果与分析
3 结论