动态数据流环境下的自适应性行为识别算法设计

2017-06-22 14:05钱丽萍李鹏欢
传感技术学报 2017年6期
关键词:数据流识别率增量

钱丽萍,李鹏欢,黄 亮*

(1.浙江工业大学信息工程学院,杭州 310023;2.浙江工业大学计算机科学与技术学院,杭州 310023)



动态数据流环境下的自适应性行为识别算法设计

钱丽萍1,李鹏欢2,黄 亮1*

(1.浙江工业大学信息工程学院,杭州 310023;2.浙江工业大学计算机科学与技术学院,杭州 310023)

传统的行为识别系统大多是建立在一个静态模型上,对样本特征值有非常强的依赖性,而对个别用户的行为习惯缺乏灵活适应性。基于三轴加速度计设计了一种在动态数据流环境下能够对用户行为进行增量学习的自适应性行为识别算法,该算法提出了一种新的提取加速度特征的方法,通过将三轴加速度计采集到的合成加速度数据集合看做物质,来提取物质的物理特征并训练这些物理特征用于投票分类,然后再通过增量学习来更新样本特征值,使其逐渐趋向于用户的行为习惯,从而达到更高的识别率。实验结果表明,该算法具有很高的识别率和对用户很好的适应性。

无线传感器网络;行为识别;特征提取;增量学习

近年来,随着物联网技术和信息科学技术的飞速发展,人体的行为识别得到人们越来越多的重视,它是改善人们生活的一项重要技术,具有非常广泛的应用前景。例如将其用于智慧医疗、老人或病人的监护系统中、智能家居等中可以实时的获取用户的行为数据,从而可以快速而准确的判断出当前用户的活动状态。目前,人体行为识别的研究主要分为两个方向:一个是基于视觉的,另一个是基于传感器的[1-2]。相比基于计算机视觉的行为识别,基于加速度传感器的行为识别具有精度高、成本低、便于携带、不受活动场景和时间限制、易于获取运动数据、能耗低等优点,这些独特优势让人们意识到加速度传感器在人体行为识别中的广泛应用前景,并成为人体行为识别领域中的研究热点。

行为识别系统中,从加速度数据的采集到识别算法选择与运用,每个模块都具有不同的特点,因而基于加速度传感器的行为识别表现出了多样化的研究趋势。传统的基于加速度传感器的行为识别系统设计大致为:①样本采集(走路、跑步、上楼、下楼等);②提取传统的数据特征如均值、方差、标准差、熵、傅里叶变换、相关系数等[3-4];③训练分类器,常见的分类器有决策树(Decision Tree)[5]、支持向量机SVM(Support Vector Machine)[6]、贝叶斯(Naïve Bayes)、人工神经网络ANN(Artificial Neural Network)[7]、K近邻KNN(K-Nearest Neighbor)[8]、隐马尔科夫模型HMM(Hidden Markov Models)[9]等,包括单分类器或混合分类器[10-13]。

传统的行为识别方法能够有效识别人体行为,文献[14]通过基于匹配追踪算法(MP)的Gabor原子变换,从时间和三维空间动作特征针对老龄人异常行为进行了时频分析研究,可以很好的提高异常行为检测胡识别率和算法鲁棒性。文献[15]提出了两种新的加速度数据特征,即计算加速度矢量与重力方向夹角的小波能量和提取加速度数据重排后的关键点连线斜率,有效提高了识别率,但是其只依赖于所采集到的行为样本,而没有考虑到对个别用户的灵活适应性和动态改进,比如不同的人有不同的行为特点,一个人的走路行为可能对应于另一个人的跑步行为[16]。所以设计一个既能适应普通大众又能对用户行为进行增量学习进而可以动态改进的行为识别系统非常重要。文献[17]提出了一种集成SVM和聚类方法来更新系统模型的算法,但是这种系统模型并没有在一个动态数据流环境下进行验证。设计一个能够在动态数据流环境下进行行为识别的系统所面临的挑战更大,因为数据流的产生过程中很可能会发生概念漂移,这将会使训练好的系统模型与实际数据相偏离。

图2 走路各轴加速度与合成加速度数据

为了解决这个问题,本文设计了一套能够在数据流环境下自动更新以适应实时数据流的DIL-AR(Dynamic Incremental Learning for Activity Recognition)算法。该算法提出了了一种新的提取加速度数据特征的方法,将三轴加速度计采集到的三维加速度数据集合看做物质,从而提取物质的物理特征包括分子量、范德华力、密度和引力。通过训练特征值,将其作为对实时数据进行投票分类的依据。同时,我们设计了一种增量学习方法来动态更新样本特征值,使训练样本逐步趋向于用户的行为习惯从而更加提高对用户行为的识别率。实验结果表明,该方法较传统的行为识别方法具有更高的识别率和更好的用户适应性。

1 DIL-AR算法设计

本文设计了一套能根据三轴加速度计产生的数据来准确识别人体行为的DIL-AR算法。该算法主要由数据的实时处理与物理特征提取、投票分类和增量学习组成。该系统的算法模块如图1所示。

图1 系统算法模块图

1.1 特征提取

为了建立一个鲁棒性和灵活性较好的行为识别系统,特征值的选取非常关键。图2为走路的x、y、z三轴分别的加速度值与合成后的三维加速度值,从图中可以看出,合成后的三维加速度值类似于物理学中的分子,而整体则像是一个物体,故本文将三维加速度点看做分子,数据集合看做物质,计算其物理属性做为特征值。我们首先采用卡尔曼滤波器对加速度数据进行滤波,去掉一些异常数据,然后通过分离行为样本(走路、跑步、骑车、上楼、下楼)的每个动作周期,得出平均每个所识别行为的一个完整动作所需的加速度数据个数,分别记录以作为后期滑动窗口的大小。

我们将一个完整动作,如走一步产生的一组数据集合看做一个物质,假设其数据集合分别为a1(x1,y1,z1)、a2(x2,y2,z2)、a3(x3,y3,z3)、…、an(xn,yn,zn),其中x、y、z分别表示三轴加速度值,n表示每组数据所包含的数据个数,然后提取以下物理特征:

①分子量Mr,不同行为的一个完整动作周期产生的加速度数据个数与大小是不同的,也就是说其一组数据集的大小与位置是不同的,我们将此特性用于区别不同行为,故定义分子量计算公式为:

Mr=xa+2ya+3za

(1)

式中:(xa,ya,za)为重心,且

(2)

②范德华力U,范德华力即分子间作用力,本是存在于分子间的一种吸引力,本文中与相邻数据点间的距离有关,因为每个行为的数据间间距不同,范德华力可以反映出该行为数据内部的关联性,用于区分其他行为。本文定义范德华力的计算公式为:

(3)

式中:A、B为常量且

(4)

(5)

③密度ρ,密度是物质的特性之一,不同物质的密度一般是不同的,而不同的行为其加速度点的分布情况也是有差异的,本文中密度代表了行为加速度数据点分布的聚散程度,定义如下:

ρ=M/V

(6)

式中:M=Mr×n,表示物质(一个动作周期产生的数据集合)的质量;V表示物质的体积,我们选择数据集合的最小外接长方体作为物质的体积,分别取X、Y、Z轴的最值作为长方体的顶点,设minx,miny,minz,maxx,maxy,maxz分别为X、Y、Z轴的最小值和最大值。则体积

V=(maxx-minx)(maxy-miny)(maxz-minz)

(7)

④引力F,宇宙中每两个物体间都存在一种作用力,即引力。同样的,两组行为数据集间的相关联程度也可以用两者间的引力表示,相同的行为其一个动作周期产生的数据集将比较相近,即引力较大。根据牛顿万有引力可知,两物体间引力的大小与物体的质量成正比而与物体间距离的平方成反比。故引力F的定义如下:

(8)

式中:G为常量,Mx为训练样本的数据质量(训练过程将在后面详细介绍),M为所识别数据的质量,r为两物质重心间的距离。

可以看出,我们提取的特征不仅能表现出每组数据的整体性能,而且非常容易计算和进行学习更新。

1.2 分类算法

将每个周期的特征值提取出来之后,就可以进行样本训练了。我们选择上述各特征值的平均值及引力作为投票依据,因引力与物质的重心和距离都有关,本文认为引力的判决力度相对较小,而其他3种特征值均值的判决力度相同。我们以走路训练为例进行说明,其他动作训练过程相同。设有k组样本周期,样本特征值训练过程如下:

(9)

图3 动态滑动窗口模型

样本训练完成之后就可以进入识别阶段了,因为数据流是动态持续的,在此我们设计了一个动态滑动窗口来处理实时数据流,如图3所示,它能够针对不同行为动作调整窗口大小。相比于传统的固定长度、采用50%的重叠率的滑动窗口[17],此方法能更灵活有效的处理实时数据流,达到更高的识别效率。

我们将训练样本所得的每个行为动作一个周期的加速度数据个数从大到小排列好,如排列结果为d(下楼)、u(上楼)、c(骑车)、r(跑步)、w(走路),则我们先将滑动窗口大小设定为d,当满足x2+y2+z2=g2时,动态滑动窗口开始运行,然后求取窗口内数据集合的上述物理特征,再与所训练样本的3个特征平均值的相对误差及引力大小作比较,其中相对误差δ的计算公式为(以分子量为例):

(10)

每个特征平均值将票投给相对误差较小的一类行为,引力则将票投给引力较大的一类。比较结果包含的情况如表1所示(以下楼为例):

表1 投票结果

(11)

当判断结果为第5种情况时,虽然可以判定,但是确定性相对较小,此时我们设计了增量学习方法来对训练样本进行更新,使样本逐渐趋向于该用户的行为特征,从而提高判决准确率。增量学习的具体方法将在2.3中做具体介绍。

如果最后投票结果为下楼动作,则可以判定为下楼动作,下楼步数加1,滑动窗口直接移至下一窗口,如果此时投票结果为其他动作如跑步,则此次投票无效,将滑动窗口向数据流方向缩小为u继续进行投票,如果此次最终投票结果为上楼则可以判定为上楼,上楼步数加1,如果投票结果为上楼之外的其他动作则此次投票无效,再以同样的方法变动滑动窗口的大小,直至可以判断出结果,若都无法判断出结果,则将滑动窗口向数据流反方向移动w/4个窗口大小再次重复上述投票,直至可以判断出结果。若移动一个周期之后仍无法判断则判定为其他动作。然后继续投票判断。

1.3 增量学习

为了提高对佩戴此电子设备的用户行为识别的准确率,我们设计了增量学习的方法。当投票结果为第5种情况时,确定性相对较小,此时我们开始实施增量学习。每个行为的训练样本为k个周期,每次进行增量学习为1个行为周期,设进行增量学习的实时数据重心为(x,y,z),则重心(xa,ya,za)的更新方法如下:

(12)

每进行一次增量学习,则每个行为训练样本特征值的数据重心就更新一次,随之的各物理特征也进行更新,之后的行为识别判断也将依据新的物理特征按照2.2中方法来进行投票。这样训练样本特征值将逐步趋向于佩戴此电子设备的用户的行为特征,从而使得判决结果准确率越来越高。

2 实验设计与结果分析

2.1 实验设置

本文采用MATLAB来进行仿真实验。我们招募了8名志愿者(4名男生,4名女生)将加速度采集模块佩戴在腰部来进行样本采集,完成走路、跑步、骑车、上楼、下楼这5种动作,每个动作各做1 000次,为了验证该系统的泛化能力,我们不对志愿者的行为做任何约束,每名志愿者均按照自己的行为习惯来完成各个动作。传感器的采样频率设置为100 Hz,按照上述方法进行特征提取和样本训练。之后又招募了4名志愿者来对系统进行测试,4名志愿者随机做出这5种动作,总共进行6次实验,每次实验0.5 h,期间不限制每种动作的次数和时间。

2.2 增量学习的有效性

为了验证增量学习过程有效性,我们将志愿者每小时的测试结果进行对比,其测试结果如图4所示。

由图4可知,该行为识别系统的识别率整体呈上升趋势,且走路、跑步、上楼、下楼、骑车的识别率分别提高了8.46%、9.96%、7.25%、7.66%、8.28%,这说明增量学习过程可以对整个行为识别系统产生积极作用。随着行为动作的次数增加,不断触发增量学习部分,而更新后的样本特征值不断趋向佩戴此设备用户的行为特征,从而提高设备的适应性,使识别准确率不断提高。

图4 增量学习后的识别率

2.3 动态滑动窗口的有效性

为了验证动态滑动窗口的有效性,我们将本文所设计方法中的动态滑动窗口部分改为固定值的滑动窗口进行对比,其中固定的滑动窗口选择常见的窗长512,相邻窗有256个数据重复,即重叠率为50%[18],实验结果如图5所示。

图5 不同滑动窗口的识别率

由图5可知,采用动态滑动窗口的识别率要优于固定窗口的识别率,并且识别率的提高速度更快,这是因为动态滑动窗口相比于固定滑动窗口更为灵活,可以针对不同的行为调整窗口的大小,从而更能有效的处理实时数据流,达到更高的识别率。

2.4 特征值及分类算法有效性

为了验证本文所提算法的有效性,我们将DIL-AR与其他传统静态分类器进行了对比实验,我们采用文献[19]中的决策树(DT)和神经网络(ANN)分类器及其第2组特征值(均值、方差、标准差、两轴相关性、能量、熵),分别将其与DIL-AR算法进行MATLAB仿真实验,同时为了验证本文所提取的特征值的有效性,我们将本文提出的特征值分别用上述决策树(our DT)和神经网络(our ANN)分类器进行分类,实验结果如图6所示。

由图6可知,同样的分类方法,采用本文特征值提取方法的识别率要高于其他特征值提取方法的识别率,这表明本文所提出的特征值的提取方法更为有效。

图6 各分类算法的识别率

还可以看出,本文所提方法的识别率普遍优于DT和ANN,而其中跑步的识别率相对较低,其原因在于跑步的数据点较为分散,会与其他数据点重合。而骑车的数据点则非常容易与其他数据点分辨出来,故其识别率最高。此外由于概念漂移的存在,DT和ANN分类的识别率将会随数据来源的变化而有所下降,而DIL-AR算法利用了增量学习过程,可以以较小的代价使分类器能够适应概念漂移,提高识别率。并且传统的分类器需要多次迭代,DIL-AR算法所需特征值较少,迭代次数也较少。

3 结束语

行为识别是普适计算中的一个重要方面,尤其是在处理非静止的数据流的时候。本文设计了一个能够自动适应用户行为习惯的行为识别系统,该系统提出的DIL-AR算法能够自动从实时数据流中进行增量学习,从而适应概念漂移,不断提高对该用户的行为识别率。在一个动态的数据流环境下,传统的重叠窗口方法处理数据流将会极大增加计算成本,而DIL-AR算法提出的动态滑动窗口能够以较低的成本选出更有效的特征值。仿真实验结果表明本文设计的行为识别系统能够有效识别用户行为,但系统的初始识别率还有提升空间,所以接下来我们将继续改进数据处理与增量学习过程,进一步提高系统性能。

[1] Ermes M,Pärkka J,Mantyjarvi J,et al. Detection of Daily Activities and Sports with Wearable Sensors in Controlled and Uncontrolled Conditions.[J]. IEEE Transactions on Information Technology in Biomedicine,2008,12(1):20-26.

[2] Heinz E A,Kunze K S,Gruber M,et al. Using Wearable Sensors for Real-Time Recognition Tasks in Games of Martial Arts—An Initial Experiment[C]//IEEE Symposium on Computational Intelligence and Games. 2006:98-102.

[3] 徐川龙,顾勤龙,姚明海. 一种基于三维加速度传感器的人体行为识别方法[J]. 计算机系统应用,2013,22(6):132-135.

[4] 薛洋. 基于单个加速度传感器的人体运动模式识别[D]. 华南理工大学,2011.

[5] Ghasemzadeh H,Jafari R. Physical Movement Monitoring Using Body Sensor Networks:A Phonological Approach to Construct Spatial Decision Trees[J]. IEEE Transactions on Industrial Informatics,2011,7(1):66-77.

[6] Zhen-Yu H E,Jin L W. Activity Recognition from Acceleration Data Using AR Model Representation and SVM[C]//International Conference on Machine Learning and Cybernetics. 2008:2245-2250.

[7] Ruch N,Joss F,Jimmy G,et al. Neural Network Versus Activity-Specific Prediction Equations for Energy Expenditure Estimation in Children.[J]. Journal of Applied Physiology,2013,115(9):1229-1236.

[8] Paul P,George T. An Effective Approach for Human Activity Recognition on Smartphone[C]//IEEE International Conference on Engineering and Technology. IEEE,2015.

[9] Li D,Biem A,Subrahmonia J. HMM Topology Optimization for Handwriting Recognition[J]. American Journal of Physiology,2001,3(4 Pt 1):C856-64.

[10] Kumawat P,Khatri A,Nagaria B. Comparative Analysis of Offline Handwriting Recognition Using Invariant Moments with HMM and Combined SVM-HMM Classifier[C]//International Conference on Communication Systems and Network Technologies. IEEE,2013:140-143.

[11] Kumawat P,Khatri A,Nagaria B. Offline Handwriting Recognition Using Invariant Moments and Curve Let Transform with Combined SVM-HMM Classifier[M]. 2013.

[12] Zanchettin C,Bezerra B L D,Azevedo W W. A KNN-SVM Hybrid Model for Cursive Handwriting Recognition[C]//The 2012 International Joint Conference on Neural Networks(IJCNN),Brisbane,QLD,2012:1-8.

[13] Umakanthan S,Denman S,Fookes C,et al. Activity Recognition Using Binary Tree SVM[C]//Statistical Signal Processing. IEEE,2014:248-251.

[14] 罗坚,唐琎,毛芳,等. 基于云计算的可穿戴式老龄人异常行为检测系研究[J]. 传感技术学报,2015,28(8):1108-1114.

[15] 卢先领,王洪斌,王莹莹,等. 加速度数据特征在人体行为识别中的应用研究[J]. 计算机工程,2014,40(5):178-182.

[16] Abdallah Z S,Gaber M M,Srinivasan B,et al. Adaptive Mobile Activity Recognition System with Evolving Data Streams[J]. Neurocomputing,2014,150(PA):304-317.

[17] Viet V Q,Thang H M,Choi D. Personalization in Mobile Activity Recognition System Using-Medoids Clustering Algorithm[J]. International Journal of Distributed Sensor Networks,2013,2013(9):797-800.

[18] 宋浩然,廖文帅,赵一鸣. 基于加速度传感器ADXL330的高精度计步器[J]. 传感技术学报,2006,19(4):1005-1008.

[19] Chernbumroong S,Atkins A S,Yu H. Activity Classification Using a Single Wrist-Worn Accelerometer[C]//Software,Knowledge Information,Industrial Management and Applications(SKIMA),2011 5th International Conference on. IEEE,2011:1-6.

An Adaptive Algorithm for Activity Recognition with Evolving Data Streams

QIAN Liping1,LI Penghuan2,HUANG Liang1*

(1.College of Information Engineering,Zhejiang University of Technology,Hangzhou 310023,China;2.College of Computer Science and Technology,Zhejiang University of Technology,Hangzhou 310023,China)

The static model used in traditional activity recognition systems greatly relies on the prior knowledge,being lack of flexibility and adaptability to suit a particular user. We design an adaptive activity recognition algorithm based on triaxial accelerometer,which refines the learning model with evolving data streams. We propose a novel method for feature extraction. By taking the resultant acceleration dataset as materials,we extract their physical properties for voting classification. Furthermore,we refine the sample values by incremental learning,such that the sample values can gradually adapt to the user’s activity habit and achieve a higher recognition rate. The experiment results show that our proposed algorithm owns a high recognition rate and a good adaptability to users.

wireless sensor networks;activity recognition;feature extraction;incremental learning

钱丽萍(1981-),女,浙江工业大学副教授,博士,主要研究方向为无线网络(包括物联网、无线传感网络)资源优化分配理论与算法、绿色中继通信、车联网通信、认知无线电网络、智能电网,lpqian@zjut.edu.cn;

李鹏欢(1994-),女,浙江工业大学在读硕士研究生,主要研究方向为无线网络与通信,phuanli@163.com;

黄 亮(1987-),男,博士,浙江工业大学讲师,主要研究方向为无线网络、绿色通信等,lianghuang@zjut.edu.cn。

项目来源:国家自然科学基金项目(61379122,61502428);浙江省自然科学基金项目(LR16F010003,LQ15F010003)

2016-11-28 修改日期:2017-01-23

TN92

A

1004-1699(2017)06-0909-07

C:6150P

10.3969/j.issn.1004-1699.2017.06.018

猜你喜欢
数据流识别率增量
提质和增量之间的“辩证”
汽车维修数据流基础(上)
汽车维修数据流基础(下)
基于类图像处理与向量化的大数据脚本攻击智能检测
“价增量减”型应用题点拨
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
基于均衡增量近邻查询的位置隐私保护方法
高速公路机电日常维护中车牌识别率分析系统的应用
基于数据流聚类的多目标跟踪算法