基于特征选择加权支持向量机的运动模式识别

2019-01-12 02:19
传感器世界 2018年9期
关键词:模式识别特征向量时域

北京信息科技大学高动态导航技术北京市重点实验室,北京 100101

一、引言

人体运动模式识别是指对人体多种运动状态的感知过程,主要通过对传感器数据的分析,实现运动模式的识别[1]。在行人导航航位推算系统中,准确的运动模式认知,有助于准确获得行为轨迹,可应用于老弱病残等群体日常看护、行人导航、消防救援等领域[2]。

FederiaInderst等人[3]通过腰部穿戴IMU单元测量惯性数据,提取标准差、幅值范围和最值作为分类特征,采用两级分类方式,实现分类正确率为87.56%。Thomas Moder等人[4]提取行人运动的最大值、均值、标准差、均方差、四分位差和频率为分类特征,采用决策树进行运动分类与识别,识别率为89%。NatthaponPannurat等人[5]提取多种时域数据作为分类特征,对八种分类算法进行评估,SVM分类方法对运动模式识别率为91%。

但以往方法,均存在选取的特征向量信息重叠的情况,没有解决特征冗余的问题。基于这些研究,本文基于Relief-F算法对IMU提取的特征向量进行权重估计,根据Relief-F算法构造一个特征元素权重向量,增大不同类特征向量的差异性,作为输入进行支持向量机分类计算,识别站立、走、跑、跳、跌倒、上楼、下楼7种运动状态,提高了人体运动模式识别分类的精度和效率。

二、系统介绍

1、数据采集和处理

本文采用法国SBG Systems公司的MEMS惯性测量单元Ellipse-N进行测试,模块安装在测试人员腰部,如图1所示,依照右手笛卡尔坐标系,传感器的x轴与地面垂直,y轴与地面平行,z轴指向人体运动前进方向。

对传感器原始数据预处理以提取运动传感器的时域特征,采用3阶巴特沃斯低通滤波,截止频率fc=5Hz,如图2所示。可以看出,数据经过预处理后,消除了噪声,保留了加速度信号的特征,信号更加平滑,系统的分类准确度明显提高。

2、特征提取

特征提取对于多运动模式识别的精度有很大的影响。惯性测量单元Ellipse-N采集三轴加速度信号和三轴角速度信号,其中每轴数据都可以提取出不同的特征量。因为时域特征的提取计算复杂度低、耗时短[6],所以本文选取适用于实时性要求较高的系统的多种时域特征。用n来表示一个时间窗口的大小,即窗口内数据的行数,用i来表示第i行数据。

取三轴合加速度A为特征提取与分类的初始数据,ax、ay、az分别为加速度计的三轴数据。在确保精度的同时,要减少计算复杂性。合加速度公式为:

特征向量β由多个时域特征元素βi(i∈{1, 2, 3, 4,5, 6})构成,特征向量公式为:

式中,β1—方差;

β2—四分位间距;

β3—峰值;

β4—加速度均值;

β5—过均值点个数;

β6—幅值。

(1)方差

设x1,x2,…,xn是角速度传感器数据x的一个样本,特征元素方差β1公式如下式所示:

图3为多种模式下方差的分布。图中定义每50个数据点划分为一个窗口,模拟实时情况下的数据处理。

(2)四分位间距

取特征元素β2为四分位间距,把加速度计x轴的数据ax从小到大排列为ax1,ax2,...axn,并均分为四份,处于三个分割点位置的数值即为四分位数(Quartile)。第三个四分位数和第一个四分位数的差值即为四分位间距(InterQuartile Range,IQR),计算公式为:

式中:IQR—四分位间距;

Q1—第一个四分位数;

Q3—第三个四分位数。

四分位间距的分布情况如图4所示。

(3)均值

特征元素加速度均值β3,分布情况如图5所示,计算公式如下:

(4)最大值

特征元素加速度最大值β4,可反应加速度信号在一个周期内的变化强度,峰值绝对值越大,说明运动幅度越大,可用来区分运动和静止的状态模式。最大值的分布情况如图6所示,计算公式如下。

其中,A—特征元素幅值。

(5)过均值点个数

特征元素过均值点个数β4,计算公式为:

(6)幅值

特征元素幅值β6,定义为最大值和最小值之差,计算公式为:

三、算法描述[10]

1、Relief-F算法

Relief-F(Relevant Features)是Relief算法的扩展,由Kononenko[7]于1994年在Kira工作的基础上提出的一种处理多类别特征选择算法。这是一种过滤式特征选择方法,也叫特征权重算法,根据各个特征和类别的相关性赋予不同的权重,权重值小于某个阈值的特征将被剔除,仅能处理两类别数据。

设D={X1,X2,...,Xm}(i=1, 2…m)是待进行分类的对象全体,Xi为其中任意一个样本,xi=[xi1,xi2,…,xin]T(p=1, 2…n)表示Xi的n个特征值,λi=[ai1,ai2,…,ain]T(p=1, 2…n)表示Xi各维特征值的权值。从D中随机选择样本Xi以后,从和Xi同类的样本中寻找k个最近邻样本H={H1,H2,...,Hk}(j=1, 2…k) (特征值hj=[hj1,hj2,…,hn]Tp=1,2…n),称为Near Hit,从和Xi不同类的样本中寻找k个最近邻样本M={M1,M2,...,Mk}(j=1,2…k) (特征值mj=[mj1,mj2,…,mn]Tp=1,2…n),称为Near Misses。

设diff_hiti是n×1的矩阵,表示Xi和H在每个特征上的差异:

其中,max(xi) 、min(xi)—特征值中最大值和最小值。

设diff_missi是n×1的矩阵,表示Xi和M在每个特征上的差异:

其中,P(L)—待分类类别的概率,是第L类的样本数与数据集中样本的总数之比。

此过程重复m次进行迭代,权重值由下式更新:

由此,得到特征集中每一个特征的权重值向量λm。

2、SVM分类方法

支持向量机(Support Vector Machine,SVM)通过构造一个分类函数或分类器,把数据库中的数据项非线性映射到一个高维特征空间中,从而进行线性分类,然后在新特征空间中构造最优分类面,形成样本分类,可用于预测未知数据[8]。SVM算法简单,鲁棒性好,在过拟合、运算速度和分类精度等方面都比传统的分类算法具有明显的优势。

考虑线性可分的分类问题,设训练样本集合为:

其中,每一个xi对应一个数据向量;yi是xi对应的类标签;d为空间维数。

设d维空间中线性判别函数的一般形式为:

其中,w—法向量;

b—偏移量,超平面与原点的距离;

(w*,b*) —最优解。

根据SVM的基本思想,如果超平面分类线性函数f(x)=sign(w*x+b*)可以将训练样本准确的区别开,并且使分类间隔最大即离超平面最近的距离其实是最远的,则这个超平面是最优超平面[9],其解(w*,b*)为最优解。

对于线性不可分的线性支持向量机的学习问题,变成如下凸二次规划问题:

其中,ξi—松弛变量;

C—惩罚参数,C〉0。

设问题(14)的解为(w*,b*),于是可以得到最优分离超平面w*x+b*=0及分类决策函数f(x)=sign(w*x+b*)。

对于非线性可分的运动模式分类问题要引入核函数,将训练样本映射到高维空间,问题可转变为线性可分。核函数的加入将分类模型转变为下列公式:

其中,K(xi,x)—核函数。

则式(14)中的优化问题变成如下形式:

3、基于Relief-F的SVM运动模式分类算法

对于非线性可分的运动模式分类问题要引入核函数,把特征权向量和核函数二者结合起来,可以得到特征加权核函数,然后再应用到非线性SVM中,为得到较佳的实验效果,选择高斯核函数作为高斯径向基函数分类器的核函数。

(1)收集原始样本数据集D:

(2)根据Relief- F算法分别计算每个特征向量的权值(m=30,迭代30次),得出下式[7]:

剔除特征属性权重值最小的β5,从上述权重值可以看出,方差、均值、四分位间距等都是分类主要的影响因素,增大其权重值(按照踢出的权重值取平均,加在各个权值里),由此构造新的特征权重向量:

(3)选取高斯核函数K(x,xc):

其中,xc—核函数中心;

σ—核函数的宽度参数,控制函数的径向作用范围。

选取适当的参数C,构造并求解最优化问题:

其中,α—拉格朗日乘子。

(4)选择α*的一个正分量计算:

由此构造决策函数:

四、实验结果与分析

为了验证本文所提出方法的有效性,设计了测试实验。实验人数30(男性20名,女性10名),按要求完成站立、走、跑、跳、跌倒、上楼、下楼7种运动模式。在实验过程对测试人员的行为不作任何约束,跌倒实验在4m×1m×0.2m的海绵垫子上完成。

本文进行两组对比实验,分别采用多时域特征向量和基于Relief-F特征加权的多时域特征向量作为SVM运动模式识别的数据。数据分别在系统平台上实验验证,以分类准确度(一种运动模式被分类器判定为其所属类别的几率)作为评判标准。实验结果如表1~表4所示。

表1、表2为第一组实验数据,实验采用多时域特征向量作为SVM运动模式识别的数据。其中表1为7种运动模式的分类准确度。可以看出,由于与其它几种动作的区分度较大,站立的准确度达到100%;而坐、跳和跌倒、上楼和下楼区分度较小,准确度较低。表2列出了7种运动模式的混淆情况,跳、跌倒之间易错误识别,上楼、下楼易误识别为走。

表3和表4列出了第二组实验的结果,实验采用基于Relief-F特征加权的多时域特征向量作为SVM运动模式识别的数据。对于较难区分的上楼和下楼,识别精度提高了5%,跌倒的识别精度提高了7%。

由此可以看出,采用本文提出的方法在训练时间上好于传统的SVM分类器。采用相同服务器进行测试,传统SVM训练平均时间为3s,而本文平均为1.5s,仅为传统方法耗时的1/2,显示出其时间上的优势。

表1 第一组实验7种运动模式的分类准确度

表2 第一组实验 7种运动模式的混淆矩阵

表3 第二组实验7种运动模式的分类准确度

表4 第二组实验中7种运动模式的混淆矩阵

五、结束语

基于对Relief-F特征加权SVM的人体运动模式识别算法的详细阐述,对多种运动状态样本集进行了分类。实验结果表明,这种方法在分类准确率上优于传统的SVM分类器,具有计算准确度高、高效、简单的特点。

猜你喜欢
模式识别特征向量时域
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
基于时域信号的三电平逆变器复合故障诊断
一类特殊矩阵特征向量的求法
山区钢桁梁斜拉桥施工期抖振时域分析
UPLC-MS/MS法结合模式识别同时测定芪参益气滴丸中11种成分
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
第四届亚洲模式识别会议
基于极大似然准则与滚动时域估计的自适应UKF算法
基于时域逆滤波的宽带脉冲声生成技术