石俊豪,左德承,张 展,潘道华
(哈尔滨工业大学 计算机科学与技术学院,哈尔滨 150001)
作为泛在计算中的一个主要研究领域,人体活动识别在很多重要领域中得到了应用, 如医疗、教育、娱乐等[1-3]。而随着微电机系统的快速发展,传感模块的集成度越来越高,如美国ADI公司研发的ADXL05传感模块,其尺寸仅9.4*19 mm。高集成度的智能传感模块,促进了普适环境下人体活动识别应用的不断进步和完善。尤其以智能手机等为代表的便携可穿戴传感设备,不断智能化、普及化,基于传感器的活动识别,已经成为许多智能场景下更好的方式。
1991年,施乐(Xerox)公司的PARC实验室研究员Mark Weiser首次提出泛在计算(Ubiquitous Computing)的概念[4]。迄今为止,泛在计算领域已经有近30年的发展。基于传感器的人体活动识别作为其中重要的子领域也在此期间有了长足的进步。1998年,乔治亚理工大学学者D.Abowd等人开发了Cyberguide系统,用于向用户提供诸如新闻推送、天气预报等服务[5]。进入21世纪后,基于传感器的活动识别技术有了飞速发展,如Mantyla V.M等利用ADXL202传感模块进行手势识别[6],其系统流程与现在的活动识别系统,以及很多其它领域的模式识别类问题非常相似。时至今日,基于传感器的活动识别技术已经日趋成熟,研究者们对其研究也更加深入和细化。如:南京大学的Wang等人设计了CHMMs模型,用来解决在智能家居环境下多用户活动识别的问题[7];比尔肯特大学的Kerem Altun等,对不同分类算法在活动识别问题上的效果进行比较[8];Adil Mehmood Khan等通过加速度计数据和人工神经网络(ANN)算法,对日常活动进行分类[9];Michael B Del Rosario等在智能手机上实现不同分类算法,比较不同模型的性能[10]。
目前,基于传感器的活动识别均遵循相似的系统流程,如图1所示。
图1 人体活动识别流程
基于传感器的人体活动识别系统的数据采集仰仗于各类传感器和传感设备。从广义定义上,传感器是指对可以模拟物理量变化,并能迅速感应且转换为以便传送和处理的电量变化的器件。如速度、温度、声、光、气体等物理量均有相应的传感器。在针对人体活动识别的问题时,由于人们主要以捕捉运动状态,采取运动过程数据为主,因此主要以加速度计数据为主。作为活动识别中最常用的传感器,加速度计可以测量被测目标的运动加速度值。目前多数加速度计输出三维的加速度数据,代表了被测物体在空间中3个轴向的加速度值。除此之外,陀螺仪和地磁计也经常在识别系统中使用。陀螺仪也属于一种动作类传感器,其测量的是被测目标绕轴旋转的角速度,与加速度计类似,陀螺仪的输出值也是三维的。地磁计测量的是空间磁场强度,通过地磁计数据,可以得到被测目标相对于地球坐标系的朝向。地磁计的测量数据可以辅助加速度计和陀螺仪对被测目标的态势进行估计。目前市面上很多MEMS传感模块将这3类传感器集成为九轴运动传感器。典型的如Invensense公司的MPU系列芯片[11]。
除此之外,很多其它种类的传感模块也被引入到研究当中,以提供更便捷、更精确的识别服务。例如:使用GPS定位模块帮助判断用户当前位置,是否在室内/室外[12];引入气压计来判断用户当前所处的海拔高度,对于涉及到电梯、上下楼等活动的场景有很大作用[13]等。在医疗、运动等领域也有很多应用使用体征类传感器,检测用户体征参数。典型的如心率传感器,用以实时采集用户的心跳数据;体温传感器,用以监测用户体温数据。随着科学技术的发展,越来越多新类型的传感器和智能设备进入到了学者们的视野当中。如Guan等利用热释电红外传感器对人体活动进行监测[14];Thirupugalsamy等通过人体在室内对wifi信号的影响来进行活动识别[15]。
经过传感设备采集到的数据,通常需要经过一些预处理步骤。由于数据在收集过程中可能会因为传输环境、人为误操等原因而出现丢失或错误。在获得数据之后应该做一些必要的检查和修复。在数据的纠错补全方面,文献[16]中对无线环境下的数据传输异常提出了解决方案。由于活动数据本身在采集过程受到各种噪声的影响,需要进行滤波降噪的处理。常用的滤波器有卡尔曼滤波器[17]、巴特沃斯滤波器[18]等等。由于收集到的数据大多以数据流形式存在,因此所收集到的时序数据通常要进行切片。在此过程中最常使用的是滑动窗口算法,该算法将一个固定长度的窗口作为“模具”,让窗口沿着时间序列对数据进行切分。滑动窗口的长度是一个至关重要的参数,其决定了切分的数据块大小是否合理。一些活动识别研究的主要内容也是基于对窗口大小的探讨。如文献[19]中提出了一种动态可变的滑动窗口算法(如图2所示),对不同复杂程度的活动数据进行切分。
图2 滑动窗口算法
完成切分后,采集的数据流被切分成多个活动数据片段,形成数据集。
特征(Feature)在模式识别中是一种抽象的数据描述方式,将一组数据提取特征,既可以缩小数据规模,以便对数据中所蕴藏的重要信息有明确的掌握。特征提取通常需要一个领域的专业知识,针对人体活动识别方向,目前主要的特征可以分为两类:一是时域特征,此类特征几乎是所有模式识别系统都会涉及到的。最常用的包括:均值、方差、标准差、最值、百分位数等等。二是频域特征,计算频域特征需要先对原数据进行时频域转换,如傅里叶变换(FFT),然后提取其中相应的特征。比较常见的特征有傅里叶系数、频域熵等。文献[20]中对这两类特征进行了对比,发现时域特征对于分类效果的作用更大,效果更好。经过特征提取之后,各个数据片段形成了特征向量组成的特征集。表1给出了常用的统计特征及计算方式。
表1 常用统计特征
分类模型是识别系统的核心,其作用是根据之前得到的特征向量,将对应的活动数据归类为某种活动。模型训练和测试的目的,是通过对模型的多次迭代,不断调整模型本身的参数,进而使模型对当前的应用场景更具有针对性,增加其分类的能力。
传统的机器学习方法是基于传感器的人体活动识别研究中最常用的方法。相对于新兴的深度学习分类模型而言,这些算法通常计算量小、实现简单,较适合于普适计算环境。
(1)决策树(Decision tree,DT):决策树是一种非常常见的分类算法[21],具有概念简单、分类规则易于理解的优点。直观地说,DT是一组具有分类条件的多分支树。计算模型复杂度低、效率高。但是,DT模型容易过度拟合,其比较适合针对离散型特征的分类问题。目前比较常用的CART(分类和回归树)模型优化了这种情况。CART采用基于最小距离的基尼指数估计函数,非常灵活,允许部分错分样本[22]。
(2)支持向量机(Support vector machine,SVM):1995年,贝尔实验室的Vaonik等人[23]正式发表论文,提出了SVM算法在分类任务中的优越性能。其所改进的软边距非线性SVM算法,在手写字符识别问题上可称是SVM相关研究的标志性成果。最初SVM主要面向的是二分类问题,其算法思想是在数据的样本空间中,寻找能将两类区分开的且与两类具有最大间隔的最优超平面。图3显示了超平面与间隔的关系,居于虚线中间的实线为最优超平面。SVM是一种优秀的分类器,在许多类似的研究中得到了使用或改进。Fullerton 等[24]利用SVM在实际生活场景下实现对传感器数据的分类,并取得良好的效果。
图3 超平面及间距示意
(3)朴素贝叶斯分类器(Naïve Bayes):朴素贝叶斯模型的识别方式不同于大多数分类方法,其侧重于寻找联合分布P(X,Y)的表达式,P(X,Y)的公式如下:
P(X,Y)=P(Y|X)*P(X)
(3)
其中,X为特征,Y为活动标签。
朴素贝叶斯模型用于小规模数据集,易于实现[25]。但是,其假设不同特征之间是相互独立的,因此具有高耦合特性的数据在朴素贝叶斯分类器上的性能不是很好。
(4)K近邻(K-Nearest Neighbor):K近邻算法是一种基本的分类与回归算法。在基本实现上,使用的是多数表决的惰性学习过程,核心就是使用一种距离度量,统计距离目标点最近的K个节点中数目最多的标签并将其赋予目标点。文献[26]中使用传感器信息,对爬楼梯等动作进行识别,将K近邻和其它算法进行比较,K近邻分类器得到了最好的识别效果。但是这种方法对于K值的选取比较苛刻,容易受到样本数据中孤立点的影响,因此分类结果不稳定。
近年来,深度学习(Deep Learning, DL)算法备受关注。其在图像处理、自然语言处理、数据挖掘等许多领域都有优异的研究成果。随着DL算法的进一步发展,相关模型也被应用到基于传感器的人体活动识别的研究中。目前常用的深度学习分类算法主要为卷积神经网络(Convolutional Neural Network, CNN)以及长短期记忆网络(Long Short-Term Memory, LSTM)。CNN可以提取深层的数据特征,并且可以自动提取数据特征,降低了活动识别的专业领域知识的需求,简化了步骤,通常能获得相较上述分类器更高的准确率。文献[27]中使用CNN对多通道时间序列数据进行了分类。实验结果表明,其准确率高于对照组中其它机器学习分类器。LSTM源于循环神经网络,不同的是通过门控制手段使得整个网络具有长期记忆和短期记忆,解决了梯度消失问题。而由于人体活动通常具有时序上的规律性,LSTM对具有上下文活动信息的识别场景更有优势。文献[28]中结合温湿度传感数据,使用LSTM对13种人体活动进行识别,为糖尿病早期诊断提供了有力参考。
需要注意,尽管DL算法相较于机器学习算法有更高的识别准确率,但仍然有其自身的缺陷。首先,DL算法的优势仰赖于大量数据的训练,但质量高、数量多的数据集很难搜集;此外DL算法大多结构复杂、计算复杂,不利于一些实时性要求高的识别场景,并且能耗较高,在许多电量有限的设备中并不适合部署。
在经过训练和测试之后,整个系统需要部署在具体物理设备中。依照总体架构设计的不同,一些对个人的监测,会将整个系统部署在同一设备中。如:智能手机、智能手环等。由于人体活动识别需要长期监测,因此必须考虑系统的节能性。文献[29]中针对GPS的使用设计了专门算法,使其仅在地理位置发生变化时才开启GPS传感模块,使得整个活动识别的能耗得到有效降低。识别一些低强度活动通常需要较少的数据量即可,因此应该有适当的传感器采样频率机制,自适应地控制传感器采样频率以降低设备能耗。如文献[30]中提出了“压缩”的概念,其实质是控制数据采集模块的采样频率,文中还通过穷举方式找到最优的采样频率和分类性能的组合。在一些多传感器系统中,多个传感器同时工作会让整个系统处于高能耗状态,而实际上某些同类型传感器节点互为冗余,适当让一些节点进行休眠可以延长整个系统的生命周期,降低能耗。如文献[31]中为不同活动设置了多个传感器配置,通过对过往活动的总结,来预测下一个窗口的活动,同时按照算法开启最优的传感器设置,提高了活动识别准确率的同时节约了系统的能耗。
随着扩大的数据量和多样化的服务应用,越来越多应用选择服务器-客户端的模式来设计整个系统。时至今日更多的HAR系统选择边缘计算架构的部署模式。Salman等[32]在其工作中,对边缘计算的设计模式做了全面的总结,Li等[33]针对物联网环境下的深度学习算法设计了基于边缘计算的系统架构。
本文以人体活动识别流程为主线,梳理了各类关键技术与相关工作。尽管目前基于传感器的人体活动识别技术相关研究都能取得不错的效果,但在实际场景中仍然面临许多更为复杂的场景所带来的的新问题。如:系统对传感设备偏移的鲁棒性不足、训练深度学习分类模型数据量过少、均衡设备能耗和服务质量之间的矛盾等。这些问题还需要在未来工作中进行更深入的研究。