李 航,于家祥,殷守林,孙 可
(沈阳师范大学 软件学院,沈阳 110034)
人体行为识别技术一直是计算机视觉领域中被广泛研究的课题。在现有的方法中,描述对象特征值的方法大概分为4类:基于运动的方法,基于表征的方法,基于时空体积的方法和基于时空兴趣点的方法。行为识别方法主要基于机器学习技术,包括KNN、支持向量机(SVM)、Boosting分类、隐马尔可夫模型[1-2]。顾泽凌等[3]提出了一种用于行为表示的特征集,使用特征集建模行为作为基于示例的空间中从示例到行为图像的最小距离集。利用模糊逻辑对人体运动轨迹进行分析,以识别人体的行为,进行异常事件检测。董恩康等[4]使用离散HMM[5-6]识别3名受试者中6种不同网球击球的图像序列。张敬辕等[7]提出了一种基于HMM的模型特征集动作识别方法。然而,由于动态场景的复杂度和不确定性等复杂环境场景,如背景、遮挡、运动物体姿态和大小的变化,使得行为识别仍然是一个挑战性的问题。
本文通过用户的动作和手势来理解用户,从而为用户提供所需服务。在最大化的提高用户便捷的同时,对资源的消耗也大大降低。为了实现自动提取行为,有必要使用一些方法来自动识别用户行为,满足目标需求。提出了利用模糊算法从视频序列中识别人类行为的方法,并在此基础上提出了一个能有效识别输入图像序列中的基本行为类型的方法,如手写、行走和奔跑。这种算法能够检测人机交互中手势和动作,视频监控中的异常事件,分析智能空间中的重要事件等。该算法对现实问题中的不确定性具有很强的解决能力。算法中定义了模糊规则,目的是能够更好的识别特征。实现模糊算法的方法是创造一个模糊C均值(FCM)聚类方法。最终结果在Weizmann公共数据集[8]上进行了验证,实验结果达到了94.03%的平均识别准确率,其性能优于基于隐马尔可夫模型等传统方法及最新提出的方法。
现实环境下的行为识别具有挑战性,因为存在行为、动作及目标位置、方向和速度的不确定因素等,即使是代表相同动作类的不同主体的行为特征也具有多样性。同时,同一动作类别的多个实例对象的行为并不是唯一的。因此,行为特征主体间的差异很大,导致了行为识别的不确定性和模糊性。
传统方法结合了计算机视觉和模糊逻辑来识别提取视频中的动作行为。在这一领域,模糊逻辑已经成为识别人类行为和处理不确定性的有力工具。Chang等[9]提出了一种基于模糊规则的电子健康人类活动识别算法,该算法的准确率约为90%。屈娟等[10]提出了基于模糊逻辑的日常生活识别算法的人类活动,分析结果具有鲁棒性。在岳菊梅[11]的工作中,提出了一个交互的计算机图形学方法,其中包含了一组模糊逻辑分析工具和一个模糊推理模型。利用模糊逻辑方法来识别学生的行为,以评估在控制课程实验室的表现。这些方法大多利用复杂的特征重构来增加模糊逻辑的复杂性。该方法利用模糊逻辑和简化的特征模型,实现了对人的行为的特征表述,并在识别速度上取得了较好的效果。
图1为所提出算法的识别模型,分为3个步骤:1)在训练过程中,利用模糊逻辑方法检测并提取人体轮廓。然后,从提取的轮廓中,对模型的特征集进行计算,并对基于模糊逻辑的识别方法对输入特征向量来进行描述。然后通过聚类分析得到模糊系统输入的模糊隶属度函数。2)在测试阶段,首先对人体检测,然后跟踪人体提取轮廓图像,根据轮廓图像计算输入形状特征,并将其用于基于模糊识别系统的计算值。3)在提出的模糊系统中,每个隶属函数对应一个行为模型,每个输出度表示当前框架中的行为与知识库中训练的行为模型之间的可能性。然后,对当前帧中的行为分类,并通过选择具有高不可预测度的条件模型进行识别。
图1 提出的人体行为识别模型Fig.1 Proposed human action recognition model
为了获得轮廓分割,李莉等[12]提出了高斯混合模型(GMM)来提取前景图像。然而,简单地将GMM前景视为现实环境中的人体轮廓是不合理的,因为它需要考虑各种因素,包括光线条件、反射、阴影问题。为了解决这些问题,杨志勇等[13]提出了一种新型模糊逻辑算法。该方法能够在一定程度上处理上述不确定性;但是,由于分类错误,可能会导致提取的轮廓有差异。所以,本文提出的行为检测方法能够处理现实动态环境中存在的高不确定性问题,同时能有效地提取人体轮廓。通过使用提出的方法,行为识别的平均准确度提高到99.94%,平均错误分类率降低了5.71%。
本文提出的方法是基于运动速度和外观形状在内的多特征模型,具有低计算复杂度的高效特征集。提取的轮廓图像如图2所示,根据以重心{X(t),Y(t)}为中心的极坐标划分。
图2 提取的轮廓及切片表示图Fig.2 Expracted silhouette and slice representation diagram
假设正在处理第t帧,而第t帧的人体轮廓图像是由本文基于模糊逻辑算法提取的。利用模糊逻辑算法对人体行为进行分类,首先需将输入的多个偏振参量进行模糊化处理,把原始的输入数据以隶属度形式转化为模糊基,对于某一个确定的输入数据可以属于不同的模糊基,不同的模糊基中也对应着不同的隶属度,在模糊化的过程中最重要的环节则为隶属度函数的选取。通过大量的对比实验,隶属度函数可以取得人体行为中最佳的识别效果,其表达式为
(1)
图3 隶属度函数图Fig.3 Membership function graph
式中:X为输入变量;X1为T型隶属度函数的左起始点值;X2、X3分别为函数区间的左右拐点;X4为函数的右结束点。隶属度函数如图3所示。
(2)
在模糊系统中,测试项包括人体轮廓质心在水平方向上的运动速度(O1)和人体轮廓反转方向上的运动速度(O2)。基于此,可以描述人体轮廓的运动速度。头部轮廓的面积比(O3)是整个人体轮廓像素计数中头部轮廓像素计数的百分比,同样,右手轮廓的面积比(O4)、右腿轮廓的面积比(O5)、左手轮廓的面积比(O6)、左腿轮廓的面积比(O7)。通过使用上述变量,般的运动特性。此外,使用该7维特征集的复杂性低到足以构造计算效率高的模糊逻辑系统,从而获得合理的识别精度。这7维特征集都由4个模糊集表示,分别是非常低、低、中和高。模糊系统的输出是由高、低2个模糊集表示的行为可能性。通过FCM聚类得到如图4所示的模糊隶属度函数(MF)。假设,当测量{O1…O7}函数的时候,从轮廓图像上可以看出可能的行为特征(跑步、散步、原地跳跃、跳起、向前跳跃、横冲直撞、挥舞双手、跳跃、弯曲、举手)。测量和行为之间的映射是通过模糊规则实现的。在算法中规则大小为191。
可以有效地模拟一般目标的移动信息和一
每个行为类使用相同的模糊隶属度函数(MF)如图4所示。在函数中,使用乘积t-范数来表示AND逻辑连结和蕴涵运算。行为识别是通过选择具有最高识别强度的最佳候选行为类别作为识别的行为类型来完成的。然而,如果2个不同的候选行为类具有相同的输出度,则意味着这2个候选行为类具有显著的高行为相似性,并且在当前帧中无法有效地区分。将逻辑规则对输入数据所对应的的类型进行判断,该规则的逻辑语言描述为:
(3)
其中,j=1,2,…,10,Wij为第j类行为的识别度,MBfij(Xi)为特征参数Xi对应第j类粒子的隶属度值。
本文在Weizmann人类行为数据集[14]进行实验。仿真环境为:Windows 10,Intel Core i7-10750H,Nvidia GeForce,RAM 16GB、Matlab2017a。Weizmann动作数据集包括5 687帧和10种不同类型的行为类别:跑步、走路、双腿原地跳跃、向前跳跃、弯曲、旋转跳跃、侧向跳跃、举手等。此数据集中的视频序列是用固定摄像机在简单背景环境下拍摄的。但是,当行为类别的数量较大时,它提供了一个很好的实验环境来研究所提方法的识别精度。
图5 Weizmann数据集Fig.5 Weizmann dataset
在9个不同的人身上,每种行为类型分别拍摄一次或几次,总共产生93个视频序列。采用了交叉验证方法。在测试阶段,对提出的模型进行逐帧和逐视频识别评估。具体来说,逐帧识别是指对每一帧执行提出的识别算法,然后获得每一帧的识别结果,而逐帧识别是指对整个视频序列实现全局识别结果。
表1显示了使用基于模糊的方法对Weizmann上的行为类进行每帧识别的平均精度的混淆矩阵。可以看到,所提出的算法以较高的平均准确率正确地识别了大多数动作,包括了最具挑战性的行为类别之一——“原地跳”。其识别率为99.94%,24.35%的误分类率是由于行为的相似性造成的。
表1 Weizmann人体动作数据集每帧平均精度的混淆矩阵Table 1 Confusion matrix of average precision per frame in Weizmann human motion data set
表2显示,在Weizmann数据集上,所提出的算法优于其他最新方法。与基于特征融合、基于多视图、基于高阶注意力、基于非合作式的算法相比,本文提出的方法的平均每帧准确率分别提高了8.85%、4.96%、3.74%、1.4%。每个视频识别性能比这4种方法分别提高了12.0%、8.3%、2.43%和0.84%。因此,实验结果表明,本文基于模糊规则的行为识别具有较好的结果。
表2 Weizmann数据集上与传统非模糊方法的识别精度比较Table 2 Comparison of recognition accuracy with different methods
本文提出了一个高效的模糊逻辑算法用来识别人体行为。使用基于模糊逻辑规则,从输入的视频序列和提取的人体轮廓中提取轮廓图像。然后,根据提取的特征计算输入特征。最后,利用所提出的模糊识别方法,基于输入特征集对人的行为进行识别。在Weizmann人类行为数据集上进行了测试,与传统方法相比,本文提出的方法有效提高了识别效率。