基于Dirichlet多项式混合模型的复杂人体行为识别

2021-02-25 08:52苏春芳傅立成李梃颖简易纬
计算机应用与软件 2021年2期
关键词:日常行为聚类语义

苏春芳 傅立成 李梃颖 简易纬

1(江阴职业技术学院 江苏 江阴 214405)2(台湾大学 台湾 台北 10617)

0 引 言

随着人民生活水平的提高和医疗技术的高度发展,人的寿命得到了延长,同时也加剧了人口老龄化的步伐。中国国家统计局的统计数据显示,在未来的一段时间内,老年人口比重将持续上升,人口老龄化程度将继续加深。2018年末60岁及以上人口为24 949万人,占总人口的17.9%,与2017年末数据相比,比重上升了0.6个百分点;65岁及以上人口为16 658万人,所占比例为11.9%,比重上升0.5个百分点[1]。随之而来的问题是如何给予老人合理、健康的照顾,因此在非临床环境下具有行为辨识功能的辅助照顾系统成为当前研究的热点。近年来主流的行为辩识技术主要分为两大类,一类是基于图像的行为识别技术,文献[2]应用深度学习算法对图像数据进行学习,建立一种基于深度学习算法的行为识别模型,该模型能够识别12类行为,准确率达到81.8% ;文献[3]通过提取视频流的时空轨迹特征,提出一种分层的、用于识别复杂行为动作的模型。另一类是基于机器视觉的行为识别技术,它虽然可以对日常行为进行识别,但是为了保护使用者的隐私,一种非侵入式的、基于传感器的行为识别技术应运而生。随着IoT(Internet of Things)技术的进步,很容易收集到来自传感器的日常行为数据,通过对来自可穿戴式设备的数据的分析,文献[4]能够对日常家务劳动中的行为进行识别,文献[5]成功地对室内、室外9种日常行为进行识别。鉴于对使用者隐私的保护,基于可穿戴式设备的行为识别技术越来越受到人们的欢迎。目前采集的传感器数据主要包括加速度、角速度等,表征的是身体特定部位(如腰、手腕、 脚踝、髋部)的运动特征,通过对这些数据进行特征抽取,对日常行为进行特征描述,进而达到对日常行为的识别。在上述研究中,一个不可忽视的问题是样本集的质量,需关注样本集能否准确地对日常生活中的行为动作进行描述。正是由于样本集对复杂的日常行为的描述不够充分,目前大部分的研究多集中在对简单的日常行为(如坐、跑、走、躺)进行识别。对于复杂的日常行为的识别,文献[6]通过将走路、打开药瓶、打开水杯3种日常行为分解为抬起胳膊、手掌向上、走路等7个简单的动作,进而将对复杂日常行为识别的问题转化为对7种简单日常行为的识别,没有考虑到复杂日常行为自身的特性。相比于简单的日常行为,复杂行为是由一系列的简单行为组成的集合,会持续一定的时间,实际生活中绝大多数日常行为是复杂日常行为,因此对复杂行为动作的识别更能满足日常照顾护理领域的需要,具有更广泛的应用前景。对复杂行为的表征需要考虑到上下文之间的关系以及动作单元发生的时序性,目前对日常生活中较为复杂的日常行为的检测存在准确率较低的问题。

对复杂行为识别的研究主要分为两类:一类是不区分简单行为动作和复杂行为动作,使用同样的检测模型[7];另一类认为复杂行为是由一系列简单动作构成的,其中文献[8]将复杂行为分解为若干简单的日常行为,但是需要人为地对简单行为动作进行类别标注。由于复杂的行为是一个动态变化的过程,即便是同一种行为在不同的地点、时间发生,动作序列也存在差异性,人为标注可能会忽略一些重要的、未知的动作单元。为了克服人工标注简单行为类别的弊端,文献[9]使用聚类算法对原始数据(加速度数据)进行聚类,但是由于使用的是一种有监督的聚类算法,需要事先指定聚类的个数。在实际生活中,由于复杂行为中包含的简单行为动作的数量是事先未知的,k值的设定将影响聚类的效率。文献[10-11]使用无监督的聚类算法,发现复杂行为的动作单元,然后将复杂的行为表征为一系列由简单运动单元组成的集合,从而实现对复杂行为识别, 但是其忽略了动作单元,即高层语义特征在时域上的表现,进而影响行为识别的效率。高层语义特征即主题序列具有隐含的价值,文献[12]将高层语义特征应用到人体行为识别中,文献[13]通过挖掘具有时序特征的主题序列,成功建立临床路径模型。

考虑到上述因素,本文提出一种基于无监督的狄利克雷(Dirichlet)多项式混合模型的高层语义特征抽取方法,融合时序特征,对复杂行为进行高层语义描述、表征,构建高层语义特征数据集。在提取高层语义特征基础上,应用滑动时间窗,建立文档-词矩阵(DTM),构建日常行为的文本集,从而提高对复杂行为的识别率,提高行为模型的泛化能力。

1 问题描述

从运动学角度来看,人们的日常行为都是由一系列有规律的身体的运动组成。为了检测身体的运动,通常情况下在身体的特定部位(如腰部、腕部、脚踝、胳膊等部分)固定传感器,通过分析传感器数据来检测日常行为。鉴于居家日常行为的特点,本研究采用微软公司生产的Band2智能手环,其内置了丰富的传感器,通过在试验者右手手腕部位佩戴手环,这些来自传感器的原始数据直接反映了手腕运动的特征。

描述手腕运动的加速度、方向角的属性属于低层特征,对应于文档-主题模型中的“字”,是描述人体行为的最小单元;“字”的有序组合被称为 “词”,是对日常行为的高层语义描述。基于原始数据,抽取低层特征,在此基础上提取高层动作语义特征是本研究的核心工作。

基于主题的行为识别的困难在于描述人体行为的“字”存在不确定性,不仅数量不确定,而且“字”本身随着时间、地点的不同也存在差异。由于个体差异,即使同一个人在不同的时间、不同的情景下执行同一个动作,“字”也存在一定的差异。假定一种日常行为总能用一系统反映手腕动作的“字”表示,如“扫地”可以表示为一系列手臂前、后有序运动的“字”的集合,记为T扫地={W1,W2,…,Wi},其中i是“字”的数量,这里不仅i动态可变,Wi也会因人而异,存在差异性。

在之前的工作中提出了基于异构多传感器信息融合的人体行为识别的方法[10-11],在研究中发现时序特征对行为识别准确率有一定的影响,如果忽略时序特征将会导致无法对相似的行为进行准确的识别。本文提出一种基于时间序列的日常行为表征方法,增加了对日常行为的高层动作语义描述,从而提高了系统对复杂行为的识别准确率和泛化能力。

2 预备知识

2.1 基本定义

本文涉及的相关概念定义,定义如下:

定义1运动元(movement syllable)。指某个时间点(以秒为单位)的手腕的运动,包括手部运动的加速度、方位角,是运动中的最小单元,对应于文档中音节的概念。

定义2基本特征。指在某一固定时间段内(以分钟为单位)抽取手部动作的特征,描述的是一个时间片内(time slice)手部的运动特征,对应于文本主题模型中字的概念。

定义3高层语义特征(meaningful feature)。具有一定语义含义、可切分的简单的手臂动作,如手臂抬起、放下、翻转等,对应于文本主题模型中的词的概念。

狄利克雷过程混合模型(Dirichlet Process Mixture Model,DPMM)是一种非参数贝叶斯聚类方法,不需要人为事先指定聚类的数量,可以根据数据集的实际情况自主进行聚类,从中发现隐含的主题[14-15],本文相关的符号定义如表1所示。

表1 相关符号注解

2.2 狄利克雷过程混合模型

通常情况下在对样本集进行聚类分析时,需要事先设定聚类的个数k,而k的取值将直接影响聚类的结果,如果事先设定的k不合理,将大大影响聚类的结果。在现实世界中,往往k是未知的,例如在行为分析中,我们无法事先得知一个行为动作由什么样的手腕动作组成,进而不能对一个日常行为进行准确的语义描述。将一种日常行为Di表征为一系统具有语义特征的语义动作Ti的困难在于Ti具有一定的不确定性,Ti的数量也是未知的,即便是同一个人多次重复同一个的动作Di,其表征序列也是不尽相同的。由于DPMM会根据数据集动态地进行聚类,用于发现新的未知的类,故本文将DPMM应用到行为识别中,动态地对行为动作进行聚类,发现潜在的语义动作[16]。

假定样本集中的数据都是由一个参数为θ的分布产生,聚类的目的是把θi相同的样本归为同一类,将整个样本集划分为具有一定语义特性的K个类。θi是从一个参数为a、H的狄利克雷过程产生,θi是Θ参数空间的一个元素,用来表征一个潜在的观测值xi所属的类别。每一个观测值xi, 都对应一个θi,同一类中的样本具有同样的参数分布θi。

假设{a1,a2,…,ak}是Θ区域上的一个任意的划分,G在每个区域内的测度都服从一个参数为a和H的狄利克雷分布,性质如式(1)所示,其概率密度如式(2)所示。

G(a1),G(a2),…,G(ak)~DIR(aH(a1),aH(a1),…,aH(ak))

(1)

p(p1,p2,…,pk|a1,a2,…,ak)=

(2)

式中:Γ(·)为gamma函数。

G~DP(α,H)θi~Gxi~F(x|θi)

(3)

(4)

DPMM在实际应用中,主要有狄利克雷多元正态混合模型和狄利克雷多项式混合模型两种模型,狄利克雷多元正态混合模型主要用于对高斯数据进行聚类分析。而狄利克雷多项式混合模型主要用于对分档的聚类分析[17],该模型的层次结构相对复杂,文档中主题T服从一个参数为φ的离散多布式分布,记为Muti(φ),而φ又服从一个参数为α的狄利克雷分布;主题中的单词的分布是一个参数为θZi的离散的多项式分类,而θZi又服从一个参数为β的狄利克雷分布,公式如式(5)所示,图模型如图1所示。

图1 狄利克雷多项式混合模型图模型

φ~Drichlet(α)Ti=1,2,…,n~Muti(φ)θk=1,2,…,l~Dirichlet(β)xi=1,2,…,n,j=1,2,…,di~Muti(θTi)

(5)

行为识别集可视为由若干未知的日常行为组成,而每一种日常行为又是由一系列手部动作组成,因此日常行为数据集可以看到文本研究领域的文本集。在这些日常行为中又包含一些具体的语义行为,文本研究中的每一个主题又是由一系列运动元组成,可以看作是词的概念。本文将狄利克雷多项式混合模型(The Dirichlet-Multinomial Mixture Model)应用在行为识别中,通过式(6)计算后验概率,得到模型的参数φ、T、θ、X。

(6)

3 方案流程与算法实现

3.1 行为特征提取

采集Band2传感器数据并抽取特征,生成原始数据特征集,记作X={X1,X2,…,Xn},即文本集,其中文本Xi由m个属性构成,对应文本模型中的词,而具有一定语义含义的动作就是文本模型中的主题T,该模型的构造过程主要包括文本-主题分布和主题-词汇分布两种分布,具体的生成过程如下所述:

1) 假设主题的概率分布服从一个参数为α的狄利克雷的先验分布φ~DIR(α)。

2) 依据主题的先验分布,生成语义主题T-行为的分布Ti=1,2,…,n~Multi(φ)。

3) 假设单词的分布服从一个参数为β的狄利克雷的先验分布θ~DIR(β)。

4) 依据θ生成单词-主题的分布xi = 1,2,…,n,j = 1,2,…,m~Multi(θTi),其中m对应单词数量,是行为数据集中文本的长度。

狄利克雷多项式混合模型的先验是主题-文档服从参数为α的狄利克雷的先验分布,单词-主题分布则服从参数β的狄利克雷的先验分布。在该模式构造的过程中,采用Collapsed 吉布斯采样的方法来评估主题T的后验概率的概率分布,主题在t时刻的概率分布依赖于t-1时刻的x-i主题的概率分布[18],公式如下:

(7)

样本集X的构造方法如文献[10]所述,主要分为3个步骤:

(1) 微软Band2手环内置加速度、陀螺仪传感器,对手腕动作进行采样,数据集记为V={axt,ayt,azt,gxt,gyt,gzt}。

(2) 基于原始数据集V,借鉴航空领域对飞机姿态的描述,抽取方位角特征翻滚(Roll)、俯仰(Pitch)、偏摆(Yaw),记为O={Rt,Pt,Yt}。

(3) 样本数据集X={x1,x2,…,xn}是由一系列行为动作构成的文本集。基于步骤(1)、步骤(2)的处理结果,由式(8)-式(12)抽取行为动作的“字”序列,记为{μx,σx,μy,σy,μz,σz,μp,σp,μr,σr,μy,σy,μSVM},进而构建行为动作文本集。

循环执行步骤(1)-步骤(3),直到所有的原始数据集处理结束,行为动作文本集X构造完毕。

(8)

(9)

(10)

(11)

(12)

3.2 动作语义主题聚类

对行为动作文本集进行聚类分析,把具有相同分布的文本聚为一类,宏观上表现为具有一定的语义含义的行为动作,采用文献[11]中的框架建立语义动作聚类模型,在已知动作-语义行为主题的先验概率分布的前提下,使用 Collapsed吉布斯采样来学习、推测狄利克雷多项式混合模型中的参数θ、φ。

算法1基于吉布斯采样的DMM算法

输入:行为训练样本集D,迭代次数I。

输出:主题分布超参数φ;特征单词分布超参数θ。

2. for文档Xi∈{X1,X2,…,Xn} do;

3. 随机初始化文档Xi∈Ti;

4.Tx←T;

5.mT←mT+1 andnt=nt+Nx;

6. for 单词Xij∈Xido

8. for 迭代次数i∈[1,I] do

9. for 文档Xi∈{X1,X2,…,Xn} do

10. 从Txi中去掉文档Xi,重新计算T=Txi;

11.mTxi(mTxi-1;

12.nxi=nxi+Nxi;

13. for 单词Xij∈Xido

15. 由式(6)采样T,替换Txi

Ti←T~P(Ti=k|T-i,x1:n,α,β);

16.mT←mT+1 andnt=nt+Nx;

17. for 单词Xij∈Xido

4 实验设计与分析

4.1 实验环境配置

鉴于人体运动的行为习惯,本文在实验志愿者右手配置微软Band2手环,采集三轴加速度和方向角数据,构建行为数据集。设定采集频率为30 Hz, 采样周期为35分钟,对于每种日常行为采样时间为5分钟,包含7种日常行为,共收集7 840×60个有效样本。然后按照3.1节行为特征提取的方法对有效样本进行处理,抽取特征,进而构建日常行为文本集X,包含7 840个文档,每篇文档中包含若干个特征单词,有效样本集描述如表2所示。

表2 实验数据集

4.2 高层语义动作聚类

基于狄利克雷多项式混合模型,依据各文本的低层特征,对样本集进行无监督的聚类分析,将样本聚合为m类,其中每个主题Ti都具有一定的语义含义,宏观上可视为一个特定的动作,微观上表现为一系列具有相似的三轴加速度和姿态角特征的文本,如手腕倾斜一定角度、低速上抬等语义动作,簇标号记为ti,ti∈[1,m],m是聚类后簇的数量。每种日常行为都可以表征为一系列的语义动作,由于日常行为的不同,语义簇的数量也各不相关,如图2所示。

图2 日常行为-语义簇数量对应关系

每一个语义簇都对应语义动作字典中一个具有某种具体含义的动作,语义簇数量反映的是在从事一个日常行为的过程中手腕动作变化的程度,通常情况下日常行为越复杂,其包含的手腕动作就越多样化,图2中“睡觉”相对于更为复杂的“洗漱”、“吃饭”等日常行为,语义簇数量就少得多。另外语义簇数量也会因人而异,即使从事同一种日常行为,语义簇数量也会呈现差异性,以上原因都会导致语义字典的差异性,具有一定的不确定性,因此会降低日常行为分析模型的泛化性,给行为分析增加了难度。

为此,本文对聚类后的结果进行归一化处理,在此基础上把一个复杂的日常行为表征为语义动作ti组成的行为序列。基于时间片si,对样本集进行分割,对于切分好的样本,基于滑动窗口模式,对样本进行语义动作表征,构造样本集的高层语义动作数据集,Witj是动作语义特征,具有一定的语义含义,Witj∈[1,m]。图3描述的是7种复杂日常行为在30分钟内语义动作的变化趋势,也就是手腕动作的变化趋势,在睡觉中,人的手腕的动作几乎不变,呈现一条直线;读书行为动作中,手腕的动作变化幅度不大,变化较为平缓,语义特征mti∈[1,50];在清扫中,手腕的语义动作变化增强,mti∈[100,130];洗漱、吃饭动作的变化最大,语义簇mti∈[100,500]。

图3 行为-语义表征

4.3 行为识别分析

假设一个复杂的行为要持续一定的时长,那么对于复杂日常行为一定可以表示为一系列语义动作的有序组合,对应文本集中的一个文本。基于4.2节聚类结果,采用滑动时间窗模式,本文滑动窗口长度设置为5(大约为5分钟),重叠率60%,重新构建日常行为高层语义样本集。

本系统对4名志愿者分别采集行走、看书、运动等7种日常行为数据,并按照第3节中所述的方法构建复杂行为的样本集,应用动态贝叶斯网络对样本集进行分类,分类结果如表3-表6所示。

表3 志愿者1分类结果

表4 志愿者2分类结果

表5 志愿者3分类结果

表6 志愿者4分类结果

表中符号集{a,b,c,d,e,f,g}表示日常行为,分别代表a:行走;b:读书;c:清扫; d:睡觉;e:锻炼;f:吃饭;g:洗漱。

为了评估行为识别模型的效率,分别计算模型的准确率(Precision)和召回率(Recall),如式(13)、式(14)所示,其中:TP是真阳性 (True Positive);TN是假阳性(True Negative);FP是假阳性(False Positive);FN是假阴性(False Negative)。对4名志愿者的日常行为分别进行在线测试,准确率和召回率结果分别如表7、表8所示。

表7 行为识别模型准确率

表8 行为识别模型召回率

(13)

(14)

人们从事日常活动,都有各自喜欢的动作模型,从传感器的角度,客观反映为不同的语义簇,例如每个人都有自己喜欢的睡觉姿势,这些姿势在一个时间片内呈现一定的规律,大部分数据被分到这一主类中,但是也有少量数据具有不同的运动模型,与其他类的特征相似,就被标注为其他的类别。如果一种日常行为分类标签大于1,这就意味着人们在从事该种日常行为时,有多种动作模型,意味着该种日常行为是一种复合式的行为,由多种子行为组合而成。如表3、表4、表5所示,“睡觉”行为全部被分到同一类中,意味着志愿者睡姿稳定,整个过程中保持着相似的姿态;而由于志愿者4在“睡觉”行为中夹杂着翻身、起身坐起等子动作,从表6的分类结果中可以看出该行为包含5种子行为,其中有67条数据记录与“读书”具有相似的运动模型,被分到“读书”类别中,对应“起身坐起”的子行为。

如表7、表8所示,“洗漱”、“吃饭”、“扫地”三种日常行为不仅包含多种子行为,而且动作的变化性较大,如:随着清扫位置的不同,“扫地”表现为不同的手部动作;“吃饭”会随着菜品在餐桌摆放位置不同而呈现不同的高层语义主题;变化最大的是“洗漱”,包含“洗脸”、“洗手”等多种差异性较大的子行为。上述差异性直观反映在信号向量幅度(Signal Vecor Magnitude,SVM)的变化,图4显示的是志愿者4的7种日常行为在2分钟内,信号向量幅度的变化量,其中变化量最大的是“洗漱”,变化幅度为246.73,最小的是“睡觉”,变化量为0.61。

图4 信号向量变化幅度

由于向量的这种变化,因此从某一个时间点,行为动作存在较大的差异性,甚至完全不同,一般情况下日常行为复杂性越大,信号向量变化幅度就越大,从而表现为子行为的多样性。但是从一个较长的时间周期来看,运动模型又具有一定的相似性,志愿者偏好的行为动作被分到主类中,而随机的、不常发生的动作被分到其他类中。通过对4个志愿者的分类结果进行分析,平均有93.3%的“扫地”行为、93.83% 的“吃饭”行为、86.83% 的“洗漱”行为被分到主类中。

5 结 语

由于日常行为特征的个体差异性,本文基于Dirichlet多项式混合模型,挖掘隐藏在复杂日常行为中的高层语义动作。首先基于文本挖掘的领域知识,挖掘日常行为的语义动作,构建语义动作词典;然后基于时间窗模式,构建复杂行为动作的高层语义动作文本集,融合高级语义特征与日常行为的时序特征,提高对复杂日常行为的表征;最后应用分类算法对日常行为进行分类,提高了对复杂行为动作检测的准确率。实验结果表明,本文方法能有效地发现未知的高层语义动作特征,准确地对复杂的日常行为进行描述,具有所生成的样本集小、行为识别率高的优点,不仅可以应用在辅导照顾领域,还可以用于临床环境下对某些疾病的辅助诊疗。

由于日常行为的执行周期存在动态可变性,本文对复杂行为的表征是基于固定时长的滑动时间窗模型;又由于复杂行为自身的多变性,使得本系统对个别行为(如“洗漱”)的识别率还较低。今后一方面将继续开展对日常行为分隔的研究,构建基于动态时间窗的行为分隔、识别模型,从而提高对复杂行为的识别率;另一方面针对语义动作词典的差异性,在提高本系统泛化性、构建多模式识别平台方面开展进一步的研究。

猜你喜欢
日常行为聚类语义
真实场景水下语义分割方法及数据集
一种傅里叶域海量数据高速谱聚类方法
日常行为干预模式在糖尿病患者护理中的应用研究
基于知识图谱的k-modes文本聚类研究
一种改进K-means聚类的近邻传播最大最小距离算法
基于模糊聚类和支持向量回归的成绩预测
校园文化对高职学生良好日常行为养成的影响与实施
农村幼儿日常行为习惯的培养
促进一年级学生好习惯养成的小妙招
汉语依凭介词的语义范畴