多特征融合和最小二乘支持向量机的运动视频图像分类研究

2022-06-09 07:46孔祥魁樊翠红
南京理工大学学报 2022年2期
关键词:精度分类图像

孔祥魁,樊翠红

(长江大学 教育与体育学院,湖北 荆州 434023)

近年来,人们逐渐注重身体健康状态,而运动锻炼是提升身体健康状态的一种重要途径。为了更加科学、合理运动,出现了许多运动视频采集系统,与运动视频相关的信息急剧增加,如何对运动视频进行有效管理,方便人们从中检索出最合适的运动视频十分重要[1,2]。运动视频图像分类利用一些特征进行精准分类,在智能监控、视频分析等领域得到了成功应用。运动视频图像精准分类可以为人们检索、浏览运动视频提供良好的技术支撑,因此运动视频图像分类技术在运动管理领域具有广阔的发展前景[3,4]。

针对运动视频图像分类问题,国内一些专家和学者已经投入了大量的时间和精力进行了相关的探索和研究,取得了一些研究成果,出现了许多有效的运动视频图像分类方法[5]。目前最常用方法是提取运动视频图像特征,将特征输入机器学习算法中进行学习,建立运动视频分类器,根据分类器进行运动视频图像精准分类[6-8]。高效的特征提取、特征选择与分类方法是运动视频图像分类中的关键技术[9]。李彦枝等[10]提出了基于深度卷积神经网络的图像分类算法,利用深度卷积神经网络自组织、自学习能力,在全连接层引入隐含层,增加了学习图像特征和二值哈希的功能,构建了相应的图像分类模型。Yuan等[11]提出了基于轻量级方法的图像分类算法,从通道和空间两个方面重构特征图,将重构特征图与输入特征图融合得到增强特征图,提升了特征表征能力,提高了图像分类的精度。由于运动视频图像的类型多,变化十分复杂,当前运动视频图像分类方法还存在一些不足,如:如采用单一特征不能全面描述运动视频图像包含的信息,运动视频图像分类误差大,而且易受噪声干扰,运动视频图像分类结果不稳定[12,13]。

为了更好地利用运动视频图像特征,提高运动视频图像的分类效果,本文提出了多特征融合和最小二乘支持向量机的运动视频图像分类方法。该方法通过二值化分割运动视频图像,将目标从运动视频图像中提取出来;采用小波变换对运动视频图像进行去噪处理,并提取运动视频图像的多种特征;采用最小二乘支持向量机(Least squares support vector machines,LSSVM)[14,15]设计运动视频图像分类器,利用证据理论(Dempster shafer,DS)根据多特征的合成规则实现多个单一特征的运动视频图像分类结果融合,从而实现运动视频图像分类结果的判定。通过试验证明其运动视频图像分类效果。

1 运动视频图像分类方法设计

1.1 运动视频采集以及图像分割处理

采用电荷耦合器件摄像机采集运动视频,对运动视频进行分帧处理,得到多幅连续的运动视频图像,并对运动视频图像进行增强处理,提高运动视频图像清晰度,然后采用帧间差分法根据像素变化实现运动视频图像分割。帧间差分法的工作原理为:设定一个阈值,将运动视频图像帧像素值间的差分结果与阈值进行比较,如果像素大于阈值,表示这个像素点为前景中的像素点,反之,认为这个像素点为背景中的像素点。f k(x,y)表示第k帧图像,两帧运动视频图像帧差为D k(x,y),具体为

与阈值进行比较,得到运动视频图像的分割结果为

式中:T表示阈值,通常情况下,T>0.5,本文设置为T=0.75。

利用式(2)对获取的运动视频图像进行分割,将运动目标从背景图像中分割出来,便于后续图像特征提取。

1.2 运动视频图像特征提取

1.2.1 运动视频图像的极坐标变换

利用极坐标变换对运动视频图像进行矢量化处理,解决了非线性畸变等因素对运动视频图像特征提取造成干扰的问题。设图像变换的径向长度为r,旋转角度为θ。f(x,y)与f(r,θ):x=rsinθ,y=rcosθ分别表示二维运动视频图像和其极坐标表达形式,为控制极坐标转换导致的误差,设置图像质心作为坐标原点实现极坐标变换。

1.2.2 提取运动视频图像特征

(1)由于运动视频图像为二级图像,而小波变换直接处理比较困难,因此将运动视频图像从直角坐标中变换到极坐标中,即:利用Δθ=2π/N等分角度(N表示图像像素点的数量),积分处理角度为

式中:m表示小波变换的缩放因子。

(2)在径向区域(0≤r≤1)中,利用小波函数对Z q(r)进行变换,Z q(r)的小波变换具体为

式中:ψm,n(r)表示小波函数谐波阶次,n表示小波变换的平移因子。

(3)运动视频图像经过小波变换后,得到不同的分量,这些分量之间的差别主要表现在小波系数取值大小,噪声的小波系数相对较小。

(4)对有用分量的小波系数进行重构,将噪声对应的小波系数置为0,从而得到不含噪声的运动视频图像。

(5)从无噪的运动视频图像中分别提取颜色、纹理、形状、空间、亮度和轮廓特征。

1.2.3 选择识别特征

为保证特征具有较高优异性,使同类运动视频图像特征之间差别小,而异类运动视频图像中差别大,类间距最大的特征即运动视频图像所需要提取的特征。M表示训练样本集中样本类别,N j与x ij分别表示第j类样本数量以及第j类样本的第i个特征,样本集类别特征均值计算公式为

相同类别的全部像素点特征值相近,则第j类特征x的方差估值为

对于特征x,第j类和k类的间距计算公式为

通过上述过程选取类间距较大的多个运动视频图像特征,并根据这些特征进行运动视频图像分类。

1.3 DS-LSSVM的运动视频图像分类

1.3.1 DS理论

DS理论将证据体设置为信任函数,利用两个或多个信任函数融合的信任函数作为决策依据,由此实现运动视频图像分类决策。Θ表示检测框架,设存在符合m(∅)=0条件的函数m:2Θ→[0,1],且m(A)=1(A∈2Θ),此时m(A)与m(Θ)分别表示框架Θ内的基本概率指派、证据的不确定性,命题A在A≠Θ时的精确信任程度为m(A)。检测框架为Θ时,差异证据的基本概率指派为:m1,m2,…,mn,利用其正交和m=m1⊕m2⊕…⊕mn获取合成规则如下

1.3.2 单一特征的运动视频分类模型

设x i与y i分别表示样本输入和输出,训练集为(x i,y i),i=1,2,…,l,l表示训练样本的数量。高维空间内最小二乘支持向量机分类器的线性函数如下

式中:w与b分别表示权值向量以及偏置。

利用拉格朗日乘子α将式(9)转化为无约束对偶优化问题

式中:e表示高维空间维数。

依据KKT条件可将以上公式转化为

式中:y表示判决函数。

引入核函数将非线性问题转换至高维特征空间内实现问题求解。选取径向基核函数作为运动视频图像分类的核函数,可得LSSVM分类运动视频图像的决策函数如下

式中:η表示核宽度参数。

1.3.3 多特征的运动视频分类模型

运动视频图像存在多个特征,各特征之间相互独立,为此利用证据理论融合单一特征的运动视频图像分类结果,依据判决门限以及决策规划获取最优运动视频图像分类结果。多运动视频图像分类流程如下:

(1)提取能够描述运动视频图像类型的特征,将特征输入LSSVM中,利用LSSVM学习设计单一特征的分类器,根据分类器可以得到每一个特征的运动视频图像分类结果。

(2)建立证据体的基本概率指派,LSSVM输出作为证据体,可将其输出转化为

式中:AS、BS与h分别为后验概率以及分类器输出值。

利用最大似然法对后验概率进行求解,通过学习训练集单一特征的运动视频图像分类精度v,可得基本概率指派函数公式如下

(3)融合以及判决最终的运动视频图像分类结果。通过对运动视频图像分类的证据信度进行加权,得到证据联合信度,根据证据联合信度得到运动视频图像的最终分类结果,同时应该满足如下条件:

①门限ε1需要低于目标类与其它类间的信度差;

②门限ε2需要小于目标类与不确定性信度的指派值之差;

③门限ε3需要大于不确定信度指派值。

2 仿真试验

2.1 运动视频图像来源

为了测试本文提出的运动视频图像分类方法的性能,在公开的GOPRO[16]数据集上进行仿真试验,从数据集中选取包含足球、篮球、羽毛球、棒球、排球、网球、游泳、跑步、乒乓球、斯诺克等10种类型的运动视频构建数据集。为了测试两帧差分法对运动视频图像预处理的优越性,采用阈值法和轮廓波模型的图像分割方法进行对比测试;为了体现多特征的运动视频图像分类优越性,选择了单一特征进行运动视频图像分类对照试验,并且选择了当前经典运动视频图像分类方法进行运动视频图像分类整体对比试验,经典方法具体为:文献[10]的卷积神经网络和文献[11]的轻量级方法。采用相同的试验环境,具体为:Windows 10操作系统,4 Core i7 CPU,16GB RAM,采用VC++编程实现运动视频图像分类算法。

2.2 不同运动视频图像预处理方法的工作速度对比

采用两帧差分法、阈值法、轮廓波模型对运动视频图像进行分割,在不同迭代次数条件下,3种方法的收敛情况如图1所示。从图1试验结果可以看出,采用两帧差分法对运动视频图像进行分割,仅需60次左右的迭代次数即可实现收敛,收敛后趋于稳定,运动视频图像分割速度更快,而且运动视频图像分割效果更优;对比方法需迭代160~180次才趋于收敛,收敛速度明显低于本文方法,两帧差分法在较短时间内完成运动视频图像预处理,结果表明,本文选择两帧差分法对运动视频图像进行分割是合理的。

图1 不同运动视频图像分类方法收敛情况对比

2.3 与单特征的运动视频图像分类结果比较

分别设置分类运动视频图像判决门限为0.45、0.60以及0.20,统计单一特征、多特征融合的运动视频图像分类检测框架的信度值,对比结果如图2所示。从图2试验结果可以看出,多特征融合的分类运动视频图像信度值明显高于单一特征,这是因为单一特征只能描述运动视频图像类别的局部、片段信息,多特征融合可以全面体现运动视频图像的类别信息,有利于后续运动视频图像分类。

图2 单一特征和融合特征运动视频图像分类检测框架信度值对比

统计不同单一特征、多特征融合的运动视频图像分类精度,结果如图3所示。从图3试验结果可以看出,多特征融合的运动视频图像分类精度明显高于单一特征,这是因为采用DS证据理论对单一特征的运动视频图像分类结果进行了有效融合,可以更好地刻画运动视频图像类型的变化特点,明显提升了运动视频图像分类效果。

图3 单一特征和融合特征的运动视频图像分类精度对比

2.4 与经典方法的运动视频图像分类结果对比

对于每一类运动视频,随机选取20个运动视频构建成训练集,随机选择10个运动视频作为测试集。统计采用本文方法、卷积神经网络、轻量级方法的运动视频图像的分类精度以及分类时间,结果如图4和图5所示。对图4和图5的试验结果进行分析可知,本文方法的运动视频图像分类精度均高于96%;对于一幅运动视频图像,本文方法的平均分类时间低于20 ms。而卷积神经网络、轻量级方法的运动视频图像分类精度均低于90%,且一幅运动视频图像的平均分类时间均高于30 ms,对比结果表明,本文方法的运动视频图像分类精度、分类时间得到了明显的提升,这是因为本文方法采用多种特征对运动视频图像的类型进行识别,可以更加全面描述运动视频图像的信息,使运动视频图像的分类精度更高,而且通过引入最小二乘支持向量机加快了运动视频图像分类的训练速度,提高了运动视频图像分类效率,适合于大规模的运动视频图像分类研究,实际应用范围更加广泛。

图4 不同方法的运动视频图像分类精度对比

图5 不同方法的运动视频图像分类时间对比

2.5 运动视频图像分类方法的抗干扰能力对比

为了分析不同方法的抗噪声干扰能力,在运动视频图像中加入一定噪声,统计本文方法与卷积神经网络、轻量级方法的运动视频图像分类精度,结果如图6所示。

图6 噪声情况下的运动视频图像分类精度对比

从图6的试验结果可以看出,对于噪声运动视频图像,本文方法的运动视频图像分类精度仍然高于90%,远高于经典的运动视频图像分类方法,这说明本文方法受噪声影响较小,主要是因为本文方法利用证据信度和证据联合信度设立了分类门限,划定一定的范围避免了无关噪声的干扰,对比试验结果验证了本文方法可有效抵抗噪声干扰,具有较强的运动视频图像分类稳定性,而对比方法在有噪声条件下,运动视频图像分类精度下降幅度大,无法满足运动视频图像管理的要求。

3 结束语

为了获得更加理想的运动视频图像结果,本文提出了基于多特征融合和最小二乘支持向量机的运动视频图像分类方法。此方法首先提取运动视频图像的多种特征,然后采用DS证据融合单一特征的运动视频图像分类结果,解决当前运动视频图像分类方法存在的训练耗时长、分类精度低等问题,以提升运动视频图像分类精度和分类速度。试验结果表明,当有干扰因素存在时,本文方法仍具有较高的运动视频图像分类精度,且运动视频图像分类结果十分稳定性。在运动视频图像分类的实际应用中,最小二乘支持向量机的参数直接影响运动视频图像分类效果,而本文没有对参数优化问题进行研究,因此下一步将研究对最小二乘支持向量机的参数优化问题,以更好地适应环境变化,获得更加理想的运动视频图像分类效果。

猜你喜欢
精度分类图像
基于不同快速星历的GAMIT解算精度分析
数字化无模铸造五轴精密成形机精度检验项目分析与研究
摄像头连接器可提供360°视角图像
浅析p-V图像中的两个疑难问题
近似边界精度信息熵的属性约简
按需分类
教你一招:数的分类
说说分类那些事
给塑料分分类吧
名人语录的极简图像表达