基于融合不变性特征与混合核方法的体育视频动作识别

2022-03-22 12:08刘俊来
沈阳工业大学学报 2022年2期
关键词:高斯混合函数

刘俊来

(济宁学院 体育系, 山东 济宁 273100)

体育视频的动作识别属于多类别模式识别问题,主要面临两个方面的挑战[1-4]:一个是从各类体育视频中较为相似的体育动作中提取出有效的特征;另一个是构建机器学习模型完成对动作特征的分类.一般情况下,体育视频中提取到的动作特征有侧影以及轮廓两种主流形式[5],其中,侧影类动作特征维度高,并且具有大量的噪声,影响机器学习分类算法的应用.而轮廓类特征采用傅里叶变换获取,虽然能够清晰描绘具体的体育动作,但是使用受限、变化范围较大且维度较高,此类特征的分类效果不佳.

现阶段在体育动作识别研究中,基于机器学习的方法已成为主流算法.其中,粒子群优化神经网络[6]采用背景差法获取动作轮廓,并给出体育动作的分割结果.但是在对体育视频动作分析时,由于BP神经网络的权重太多,计算复杂度高,因此很难适应视频分析.高亮[7]采用高斯混合模型与支持向量机完成体育动作识别,然而,该方法使用的高斯混合模型的特征维度太高,不利于支持向量机的分类,因此体育动作识别的效果较差.

鉴于上述问题,本文提出了一种结合融合不变性特征与混合核方法的体育视频动作识别算法.该方法虽然采用高斯混合模型建模,但是针对建模后的高维特征,通过特征降维获取融合不变性特征;随后,针对融合不变性特征,采用一种混合核方法对该特征分类,识别体育视频动作;最后,在标准体育视频动作数据集上进行对比实验,分别从识别率和识别时间上验证本文算法的可行性与有效性.

1 视频动作识别算法

1.1 融合不变性特征

在对视频动作识别过程中,需通过体育动作的运动轨迹描述出相应的体育动作类型,然后通过光流法完成对运动轨迹的跟踪,从而完成视频动作的特征提取[8].由于提取到的体育运动动作特征在不同的视频中位置各不相同,因此需要针对视频序列构建全局高斯混合模型,分别描述体育运动过程中的时间、空间和运动边界信息.

在构建全局统计特征信息中,高斯混合模型应用广泛[9],假设X={x1,x2,…,xT}表示视频的有效运动动作序列,且服从独立分布,设符合参数集合λ={wi,ui,Mi},i=1,2,…,k,则k个高斯核函数组成的高斯混合模型可表示为

(1)

式中,wi,ui,Mi分别为高斯混合模型的混合权重、均值以及各个高斯核函数之间的协方差矩阵.第i个高斯核函数pi(xi)可被定义为

(2)

式中,d为特征维度.

根据贝叶斯公式可以完成各个高斯核函数在混合模型中的权重分配.在提取融合不变性特征时,假设视频序列X与其相应的参数集合λ之间的对数似然关系为

(3)

(4)

通过对多个视频帧组成的运动视频序列及对应的高斯混合函数的梯度计算,可以从视频每个动作中提取多维不变性特征.分别为30维的动作位置信息、480维的动作方向梯度信息、540维的动作光流信息以及960维的运动边界信息,并组成了一个大小为2 010维的体育运动动作不变性特征.

在随机投影特征降维中,针对每个测量矩阵,只需要计算出每列的非零个数,即可达到降维减小时间复杂度的目的,从而提取出稳定的融合不变性特征[10-11].

1.2 混合核方法

核方法也被称为支持向量机(SVM)法,是一种常用的分类与识别方法[12].在核方法中,通过求解线性分类面,将融合不变性特征极大分离开来,从而完成对体育视频运动动作的识别.假设通过高斯混合模型以及随机投影变换方法获得的融合不变性特征以及相应的体育运动动作标签为{αi,βi,i=1,2,3,…,n},则在特征集合与标签下,核方法旨在寻找一个最优的线性分类面ωα+b=0,使得该分类面能够将不同动作标签对应的融合不变性特征分离开来,从而完成对体育运动动作的识别.

在二维空间中要求支持向量到分类面权重的距离最大,则可转化为求解下述带限制条件的二次优化问题,即

s.t.βi(ωαi+b)≥1,i=1,2,…,n

(5)

在实际的体育动作识别中,不同类别的动作通常有一些相似之处,若将相似之处都以严格的支持向量作为区分,那么将会极大地影响识别准确率.因此,在支持向量基础之上,本文还引入了松弛变量,允许某些相似的融合不变性特征可以被错分到相邻类别中,这样虽然引入了少量错误,但是可以让最优分类面变得更宽,能够容纳更多样本分类[13].此外,针对多个类别的最优分类面通常不是线性可分的问题,本文还在支持向量基础上,引入核函数将原始线性不可分的特征空间投影到高维线性可分的空间中,在新的空间中求解最优分类面,然后再将最优分类面变换至原始特征空间中.

在传统核方法基础上,分别引入了松弛变量ξi以及核函数φx,将传统核方法的优化问题转化为

s.t.βi(ωφ(αi)+b)≥1-ξi,

ξi≥0,i=1,2,…,n

(6)

式中,C为惩罚系数,其大小由实际数据决定.通过求解转化后的优化问题,可以得出视频动作识别的最优分类面,即

(7)

式中,K(αi,αj)为核函数.通过核函数将原本线性不可分的融合不变性特征转换至线性可分的高维空间中,将能极大地解决相似动作的分类问题,提升动作识别的性能和鲁棒性.

实际使用中,核函数均采用试错的方法进行选择,效率低且没有任何理论依据.然而在常用的核函数中,线性函数偏向于局部支持向量分析,径向基函数则偏向于全局支持向量分析.在视频动作识别的融合不变性特征提取中,本文提出的方法既提取了全局的光流信息和动作边界信息,也提取了局部动作位置信息和动作方向梯度信息.因此,在本文的核方法分类与识别过程中,构建了一种混合核函数,该核函数包括局部线性核函数和全局径向基函数,从而使得混合核方法能够处理融合不变性特征[14].在混合核方法中,采用权重θ、γ来融合线性核函数与径向基函数,构建混合核函数为

Kmix=θKLINE+γKRBF

(8)

式中:KLINE为处理局部特征的线性核函数;KRBF为处理全局特征的径向基函数.在混合核方法中,采用遗传算法求解最优的权重θ*,γ*,在实际实验中,根据局部特征和全局特征的比例完成最终的视频动作识别结果.

1.3 体育动作识别流程

结合融合不变性特征与混合核方法的视频动作识别算法主要流程如图1所示.通过高斯混合模型从视频序列中提取出运动动作特征,并将多维特征融合为高维的不变性特征,然后采用随机投影算法降维,选择出最有利于动作识别的融合不变性特征,并计算局部特征与全局特征的比例,最后,通过计算获得的特征比例,结合遗传算法求解出最优的混合核方法权重,采用混合核方法完成对融合不变性特征的分类与识别,实现视频动作识别.

图1 体育视频动作识别流程

2 仿真实验与结果分析

2.1 仿真实验

为了验证所提算法的可行性与有效性,通过仿真对比实验完成算法对视频动作识别性能分析.在仿真实验中,选择了10位运动员,并让每位运动员演示各种简单的体育动作,一共获取了600个体育动作视频.每个动作视频中随机包含有1组固定的5个动作,由行走、跑步、弯腰、下蹲及坐下组成,被试者的视频动作序列如图2所示.

图2 实验中运动员演示的基本动作序列

在实验中,将其中400个动作视频划分为训练集,剩下的200个动作视频作为测试集.为了完成动作识别算法的横向对比,本文选择了主流体育视频动作识别算法粒子群优化BP神经网络(PSO-BPNN)[7]与高斯混合模型与支持向量机(GMM-SVM)[14]进行对比分析.PSO-BPNN算法为体育动作识别构建3层BP神经网络,在优化神经网络参数时,PSO算法的种群设置为40个,每个粒子维度为20,迭代1 000次;GMM-SVM算法为动作视频帧构建了5个高斯模型的混合建模,然后在SVM分类器中选择了径向基函数,惩罚参数和核函数参数分别为c=0.01,g=0.2.本文算法首先提取视频动作序列中的高维不变性特征,并通过降维算法降低不变性特征维度;随后,将降维后的不变性特征输入至混合核方法中进行训练、测试,在核函数分类器中惩罚参数依然设置为c=0.01.在混合核方法的权重选择上,经过遗传算法的优化,用于实验对比时的式(8)对应权重θ、γ的最优值分别为θ*=0.392,γ*=0.608.在3种对比算法中,都采用相同的数据训练模型以及相同的数据测试模型,测试模型采用5×5交叉验证法.实验采用统一环境,即8核2.75 Hz Intel CPU,搭配一块1080Ti GPU,实验算法均基于Python平台完成.实验分析指标采用视频动作识别率作为性能指标,某项动作平均识别时间作为效率指标.

2.2 实验结果分析

图3给出了体育视频动作平均识别率的对比结果.

图3 体育视频动作平均识别率对比

从图3中的结果可以看出:

1) 本文提出的融合不变性特征在表达上更为优秀,并且混合核方法的识别率高于传统的BPNN与SVM等机器学习方法,有效降低了误识率.混合核方法分别采用线性核函数以及径向基函数,获取了体育识别所需的局部动作区别和全局动作轮廓.

2) 与传统高斯混合模型相比,融合不变性特征融入了更多维度的特征,表达出了区分动作的关键特征.实际上,在体育动作识别的原始特征中,存在较多的重复特征和无用特征,这些特征将会对分类器产生负面影响.因此,本文在采用高斯混合模型构建融合不变性特征后,通过投影降维的方式,从融合不变性特征中提取区分不同动作的关键特征.通过这些特性完成分类,极大地提升了视频动作识别结果.

此外,表1给出了3种对比算法在走、跑、蹲、坐及弯腰等5种常见的体育动作中的平均识别时间.从表1的统计结果中可以看出,本文提出的融合不变性特征与混合核方法识别时间最短.虽然融合不变性特征计算了大量的高斯混合模型及其梯度特征,但是经过投影变换降维后,融合不变性特征维度极大降低了,因此在通过混合核方法分类时,时间复杂度较低.混合核方法的分类效率明显高于传统SVM与BPNN方法,可以完成实时在线的视频动作识别工作,满足实际的应用需求.

表1 三种识别算法平均识别时间对比

3 结 论

为了完成对体育视频动作识别,构建统一的体育运动标准,提升体育运动效率,本文提出了一种结合融合不变性特征与混合核方法的体育视频动作识别方法.该方法依靠高斯混合模型构建混合不变特征,并通过投影降维方法降低维度.降维后的融合不变性特征与混合核方法的配合效果更佳,在标准体育视频动作数据集上的对比实验结果表明,本文提出算法分别在动作识别的性能与效率上获得了显著提升.今后的主要工作是为更复杂的体育动作构建稳定的特征,并通过分类性能更好地完成模型动作识别,以构建真实场景可用的实时体育视频动作识别方法.

猜你喜欢
高斯混合函数
混合宅
二次函数
第3讲 “函数”复习精讲
二次函数
函数备考精讲
一起来学习“混合运算”
数学王子高斯
天才数学家——高斯
混合运算的方法要领
从自卑到自信 瑞恩·高斯林