基于改进Fisher判别的起步工况驾驶风格研究

2020-04-26 09:30金辉吕明
北京理工大学学报 2020年3期
关键词:正确率聚类驾驶员

金辉, 吕明

(北京理工大学 机械与车辆学院,北京 100081)

驾驶风格研究是智能驾驶辅助的热点问题. 较早时,美国福特公司的Lu等[1]提出一种驾驶员建议系统,该系统根据车辆状态与极限操纵条件将驾驶员划分为了四种类型. 除了对于驾驶风格本身的研究,不少学者也就如何高效准确识别进行了诸多尝试. 宋威龙等[2]研究了基于模糊逻辑的驾驶员激进程度判别模型,并推断出驾驶员的驾驶类型;Yi等[3]通过多项式回归混合聚类和Akaike准则应用于个体驾驶员性格和驾驶轨迹研究;郝景贤等[4]利用K-Means聚类分析驾驶风格并验证了聚类结果.

本文主要研究的驾驶风格未来可应用于自动变速系统等智能车辆纵向控制系统,故主要考虑纵向动力学特性,所研究的工况是在车辆的日常行驶过程中占比高的起步工况,将实验收集到的大量数据利用主成分分析法(principal component analysis, PCA)筛选出能够较好反映驾驶风格的特征参数,采用聚类算法对降维后数据进行分析,在分析结果基础上建立基于Fisher判别的驾驶员格识别方法,对比经典和改进Fisher判别的识别效果,验证改进的Fisher判别有效性和准确性.

1 数据采集与分析

1.1 试验数据的采集

对驾驶风格进行分析和研究须采集大量驾驶数据,主要采集自搭建好的驾驶模拟器. 为充分反映驾驶员不同的驾驶风格,实验内容是模拟驾驶员在没有其他车辆干扰时使从静止状态在直线道路上自由起步,如将纵向车速0~20 km/h界定为起步工况,通过驾驶模拟器采集到了不同驾驶员的234组实验数据样本,经过处理后,每组数据样本包括最高车速、平均车速、车速标准差等9个可用于表征驾驶风格的参数[5].

1.2 试验数据的分析

现对全部9个特征参数都进行降维处理,以期能够降低数据关系的复杂程度,筛选出最能反映驾驶风格特征的几个关键参数. 目前比较成熟的降维算法有遗传算法(genetic algorithm,GA)、t-SNE算法和PCA等,综合考虑计算效率和计算量,本文采用PCA来进行降维处理,原理是由于众多原始变量之间存在内在联系关系,通过对原始变量相关矩阵研究,线性组合形成几个新的成分.

在PCA计算中一般满足n

(1)

式中λi为第i个成分对应的特征根.

表1 方差贡献率和累计贡献率Tab.1 Total and cumulative variance explained

现在可使用一个综合评价值F来评价每个主成分Yi和每个标准化后的原始数据xj对原始数据的影响大小情况[6],综合评价指标F的计算如式(2)所示,可知xj的系数Lj的绝对值大小反映了xj对综合评价指标F的影响大小.

(2)

式中Lj为在综合评价指数F中第j个向量分量xj的系数.

F与xj关系式中系数Lj绝对值最大的3个表征参数分别是加速踏板行程变化率标准差、加速踏板行程变化率平均值和加速踏板最大行程,其系数绝对值依次是0.133 88、0.162 86和0.145 86,故选用这3个参数来表征该工况下驾驶员的驾驶风格特征.

2 驾驶员风格参数的聚类分析

2.1 聚类类别数的确定

使用高斯混合分布模型算法(Gaussian mixture mode, GMM)来进行聚类分析时,需要提前确定聚类中心数,通常采用计算数据聚类的Silhouette值来进行聚类效果评价. 数据集样本个体的轮廓系数Si计算如式(3)所示,对于整个数据集的某次聚类而言其轮廓系数Sk如式(4)所示.

(3)

(4)

式中:ai为簇内不相似度;bi为簇间不相似度;n为样本个数;k为聚类中心数.

由式(3)可知Si的取值应介于-1~1之间,当Si的取值越接近1则表示对该样本的分类越合理,在设定了聚类中心数后计算Sk值,结果如表2所示.

表2 聚类中心数目的Sk值Tab.2 Sk value of number of cluster centers

表2中在聚类有效性分析时,选择最佳聚类中心数目的方法是Sk值越大,聚类效果越好. 如果单从数学的角度考虑,聚类中心数为2时最合适,但若考虑到实际人们对于实物的分类习惯,选择更符合人们认知规律的3个聚类中心作为本文后续研究的基础. 根据文献[7]及考虑本文研究的实际问题,将驾驶风格分为保守型、一般型和激进型三种类型.

2.2 GMM算法聚类分析

在从原始数据筛选得出的三个表征参数后,需要使用一定的算法来对数据集进行聚类处理以优化计算效率和效果,常见的聚类算法有基于密度的聚类算法(density-based spatial clustering of applications with noise,DBSCAN)、K-Means算法和GMM算法等. 同样在考虑计算效率和实际计算效果后,本文选用GMM算法来进行聚类分析,GMM模型是由多个高斯分布线性组合叠加而成,能给出每个样本的类别隶属概率,这种聚类模型更适用于驾驶风格这类界限较模糊的软聚类问题.

GMM算法模型常使用基于隐变量学习的最大期望算法(expectation-maximization algorithm,EM)来求解. 如图1所示是将采集到234组数据使用EM算法计算求解GMM模型的结果.

可见样本数据基本被分成了三类且每一类中都存在聚类中心,其详细聚类结果如表3所示,共得到了三个类群,第一个类群包含95组样本,第二个类群包含78组样本,第三个类群包含61组样本,从第一类群到第三类群,聚类中心的三个参数都在增大,考虑三个参数的实际物理意义,即代表驾驶员在驾驶时油门的平均行程和最大行程都在增加,油门行程的波动也在增加,这说明驾驶员对动力性的需求显然在增加,故可认为三个类群依次代表的驾驶风格为保守型、一般型和激进型,使用GMM算法获得的聚类中心和聚类参数范围是用于起步工况下驾驶风格识别研究的基础.

表3 GMM算法聚类中心及聚类范围Tab.3 Clustering center and range with GMM algorithms

3 基于改进Fisher判别的驾驶风格识别

驾驶风格识别属于模式判别问题,一般常用的模式判别方法分为无监督学习判别方法和有监督学习判别方法,无监督学习判别方法对原始数据要求较低,但通常准确性不好. 本文选择属于有监督学习判别方法的Fisher判别,它是一种高效简便易用的降维判别方法,对样本总体分布没有特定要求,具有良好的实时运算性能和合适的精确度,更加适合车载识别的需求.

3.1 经典Fisher判别

经典Fisher判别是将多维空间中的数据点在低维空间上投影,以使得投影后不同类数据之间尽可能远离(类间离差度A尽量大),同时又让同类数据之间尽可能接近(类内离差度E尽量小). Fisher判别就是寻找这个最佳投影方向以完成优化,判别目标函数J的表达式如式(10)所示,通过求判别目标函数J的最大值即可求解出最佳投影方向向量u,在求解过程中可知J和u是矩阵A、E的广义特征根及对应的特征向量.

(5)

在求出u后可以构造判别函数,判别函数如式(6)所示.

yl(x)=ux′,

(6)

式中:yl(x)为判别函数得分;x为总体样本数据矩阵.

判别分类的准则是假设把总体分成m类,若某一个样本z要属于第n类(n

由于Fisher判别是有监督学习判别算法,故在样本数据中按照统计学要求按8:2比例构造训练集和测试集,同时每组数据是随机编号的,聚类分成三类后每组数据也具有随机性,因此可选取每一类数据的前80%作为训练集,其余的20%作为测试集. Fisher判别函数的参数生成通过使用训练集的学习训练获得,测试集不参与这些参数的生成训练过程,最后将获得的判别函数用于对测试集中数据所属类别的识别,识别结果如表4所示.

表4 经典Fisher测试集识别结果Tab.4 Recognition results of classical Fisher test sets

由表4可知,若以GMM聚类分析获得的结果作为参考结果,经典Fisher判别在三种驾驶风格类型的测试集中正确识别了38组样本数据,总体正确率达到了80.9%,超过了80%的识别正确率说明经典Fisher判别的有效性.

3.2 改进Fisher判别

经典Fisher的识别正确率虽然已超过80%,但还有提升空间,现考虑改进Fisher判别来进一步提高识别正确率,改进的判别方法还是基于原判别函数,但引入了一个权重因子p,将目标函数从分式型变成了差式型,从而构造出差值最大化模型,其计算式如式(7)所示.

J2=pu′Au-(1-p)u′Eu=

u′[p(A+E)-E]u.

(7)

式中p为权重因子.

由前文可知u的解就是矩阵p(A+E)-E的最大特征根所对应的特征向量,当权重因子分别取0或1时表示所有待分类的个体全部被归为同一类或各自形成独立的小类,故该因子用于衡量个体在总体中的所占的比重大小,能够通过调整p方便地产生多种互异的结果,在不同p取值下通过求判别目标函数J2的最大值.

调节p的取值可获得多个判别函数,用回带后的识别正确率来衡量权重因子p的取值是否合适. 为确定权重因子p的最佳取值或取值范围,需在0~1之间试取,本文选择0.1作为权重因子p试取步长,用测试集检验所得到的不同判别函数,获得的权重因子p取值与测试集识别正确率的关系如图2所示.

由图2可得,在获得的权重因子p取值中,当p∈[0.1,0.3] 时,测试集的识别正确率为85.4%;当p∈[0.4,0.9]时,测试集识别正确率上升至87.2%,此时具有最好的识别正确率,具体判别结果如表5所示,可得使用改进的Fisher判别在计算量并无较大变化,但对数据样本的识别正确率提升了6.3%.

表5 改进Fisher测试集识别结果Tab.5 Recognition results of modified Fisher test set

综上所述,对于本文所研究的工况,即便使用经典Fisher判别也可获得80%以上的测试集识别正确率,在引入权重因子p并进行合适取值后,使得识别正确率得到进一步提升,可认为改进的Fisher判别对于所研究工况的驾驶风格具有较好的识别效果.

4 结束语

本文通过实验收集到的数据针对在起步工况下驾驶员的驾驶风格进行了研究,利用PCA来筛选简化表征参数,运用GMM算法进行聚类分析,获得了从保守型风格到激进型风格的三种聚类结果;最后建立了Fisher判别的识别模型,比较了运用经典和改进的Fisher判别的效果,改进的Fisher判别识别正确率可达到85%以上. 由此可以构建一套易用且有效准确的驾驶风格识别方法,并可将识别到的结果运用到车辆的自动变速系统、电动助力转向系统和自适应主动悬架系统的控制中,以实现更加符合驾驶员要求的个性化响应并可作为制定人和车辆协同控制策略的基础.

猜你喜欢
正确率聚类驾驶员
一种傅里叶域海量数据高速谱聚类方法
基于高速公路的驾驶员换道意图识别
个性化护理干预对提高住院患者留取痰标本正确率的影响
基于眼动的驾驶员危险认知
驾驶员安全带识别方法综述
课程设置对大学生近视认知的影响
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
基于matlab的纯电动客车驾驶员行为分析
生意