马伟 高振怀
摘要:该文对相关概念进行分析,并分别阐述卷积神经网络与布谷鸟搜素算法在人体行为识别中的应用。以未剪切长视频为例,提出三维卷积与循环神经网络相结合的方式,根据识别结果可知,与前人研究相比,识别准确率有显著提升,说明该方案科学可行,人体行为检测变得更加实用高效。
关键词:卷积神经网络;布谷鸟搜索;人体行为
中图分类号:TP183 文献标识码:A
文章编号:1009-3044(2022)01-0090-02
在科技飞速发展下,高清视频监控产品陆续诞生,人体行为识别在军事安防、智能家居与智慧城市等领域得到广泛应用。在智能终端逐渐普及下,大量短视频产生,需要更加便利地检索、分类与审核,而视频主体便是人体行为,应采用卷积神经网络、布谷鸟搜索等方式,使人体行为得到准确快速地识别。
1相关概念分析
1.1人体行为识别
人体行为代表的是人类行为,主要是对环境或者其他物体产生的反应。在人体行为研究中可分为整体与部分两项内容。其中局部行为包括手势、面部表情等;而整体行为以行为、姿势和动作为主。因行为复杂程度不同,可将其分为手势、姿态、表情与交互行为等。从本质上看,人体行为识别主要对个人行为、群体行为以及人与外界环境间的行为进行理解和分析。在静态手势、表情识别与人体行为等方面较为成熟,取得一定成就。
1.2卷积神经网络
1)局部连接。受生物学影响,视觉皮层的神经元可接受局部信息。图像像素的空间关联与距离较近的像素有较强关联性,反之则较弱。对此,神经元单纯接收自己所负责的局部感受范围,无需感知全部像素,个别信息科由下一层信息融合起来,变为全面布局;
2)卷积原理。该原理主要体现在利用相同卷积核对整体图像进行处理,对个别特点与其他位置特征进行提取,使其他位置均能利用相同的学习特点。通过权值共享的方式,可使特征唯独、参数量等得到显著降低,神经网络时空复杂度也会随之下降。通过对图像结构特点进行分析,依靠深层特点可将图像本身含义体现出来,卷积定义为:对R上可积的函数[f(x)]与[g(x)]的卷积[h(x)]表示为:
[h(x)=f(τ)g(x-τ)dτ]
式中,[f(x)]在[g(x)]中卷積用[f(x)]·[g(x)]表示,在定义域内[f(x)]与[g(a-x)]乘积积分;[a]代表的是卷积函数自变量,也就是卷积所处位置。
3)多层卷积核。首个卷积层在运行后,卷积层内特征图像带有浅层特征,如线条轮廓、边缘信息等。在图像识别时要求采用深层特征,而浅层特点无法将图像语义充分体现出来。一种卷积核只可利用相同的特征图,要想取得更深层的特点,便要对多层卷积的特点全面提取,绘制带有众多信息的特征图。在图像识别方面,从初始阶段到利用像素勾勒的简单纹理曲线,最终形成图案,变成图像中的各个物体[1]。
1.3布谷鸟搜索算法
布谷鸟是具有代表性的巢寄生育雏行为的鸟类,一些布谷鸟自己不筑巢和产卵,而是偷偷将蛋产在其他鸟巢中,由宿主代为孵化与养育。在繁殖过程中,先要寻找育雏期与自己相近、卵颜色相似的宿主,再趁其外出时迅速将蛋产在宿主的巢中。为不被宿主察觉,在产卵之前还会将宿主原本巢中的一枚或者多枚蛋拿走,使巢内原本卵量不变。一旦寄生卵被发现,便会被宿主移走,寄生繁殖便失败。根据上述行为,布谷鸟搜索算法诞生,实现流程如下:一是对搜索空间、种群规模、迭代最大值等进行设置,对鸟巢位置初始化,将目标函数定义为[F(x)],其中X的取值范围为[x1]到[xn];二是对各个鸟巢位置目标函数值进行对比,获得最佳函数值;三是依靠莱维飞行对除最佳鸟巢外的剩余鸟巢位置进行优化,计算明确的目标函数值,将其与最佳函数值对比,如若良好,则记录最优值;四是当位置更新后,将随机数与Pa对比,如若[r]值大于Pa,便可随机更新鸟巢位置,否则巢位置不发生改变;五是在满足搜索精度要求情况下,输出最佳鸟巢位置[2]。
2布谷鸟搜索算法在人体行为识别中的应用
2.1算法原理
在布谷鸟繁殖行为的启发下,布谷鸟搜索算法诞生,该算法具有较强的智能性,先定义3种假设,一是每只布谷鸟只产下一颗蛋,并随机分布到鸟巢中;二是一些优质鸟巢会被保留给后代,质量较差的鸟巢会被更新;三是宿主识别鸟蛋的概念为[Pa∈[0,1]]。鸟巢寻找路径与位置变换操作公式如下:
[Xik+1=Xik+a⊕levy(λ)]
式中,[Xik]代表的是第[k]代鸟巢位置向量;[Xik+1]代表的是第[k+1]代鸟巢位置向量;[⊕]代表的是点与点间的运算;[Levy(λ)]代表的是鸟飞行路径;[a]代表的是调节因子。
在CS算法运行中,许多鸟巢利用随机更新形式,使鸟巢周围区域的关键信息得到充分利用,并采取选择性淘汰策略。在CS算法基础上,全局搜索能力增强,但局部搜索能力较弱,可利用淘汰策略进行计算,如下:
[Xki,newnest=Xki,pnest+c×(Xki,pnest-Xki)]
式中,[Xki,newnest]、[Xki,pnest]与[Xki,pnest]均为不同时段鸟巢位置。
2.2识别平台搭建
为探究CS-RVM行为识别模型的可行性,利用Win 8电脑、Matlab软件开展识别实验,随机选择10个人,要求他们演示各种行为,获得300个样本训练集与200个测试样集,每人做6种不同行为。在实验条件不变情况下,采用不同模型进行对照实验。一是利用布谷鸟算法对向量机核特征进行优化,参数设定为1.75,模型编号为1号;二是特征参数为64个,用布谷鸟算法进行向量机核参数优化,模型编号为2号;三是布谷鸟算法分别对特征与参数进行优化,且忽视二者间的联系,模型编号为3号[3]。
2.3人体行为识别
通过离散傅里叶变换特点,对人体行为特征进行提取,对其归一化处理后,再对相关向量函数参数[σ]的取值范围;起初鸟巢位置向量由人体行为与[σ]表示;采用以下公式对鸟巢位置的适应度进行计算,公式为:
[f=ω×precison+(1-ω)(i=1Nfi)-1]
式中,[fi]代表的是特征状态;[ω]代表的是权值。针对一些质量较低的鸟巢向量优化处理,由此形成新的鸟巢位置。在满足算法结束条件后,由最佳鸟巢向量可获得人体行为集合,在此基础上创建人体行为识别模型。在布谷鸟算法应用下,创建行为识别模型的运行流程如下:先是离散傅里叶变换,对行为特征进行提取后归一化处理,训练样本集合,将训练集简化后估计适应度,判断是否满足算法结束要求,若满足则创建行为识别模型;若未满足,则对个别质量较差的鸟巢位置更新处理,将鸟巢位置分为向量机核参数与特征子集,对前者估计适应度值,对后者简化训练集,然后判断是否满足算法结束要求,若满足,则创建行为识别模型,若不满足则重复上述操作,直至与算法结束条件相符。
2.4识别结果
针对上述三个模型分别开展10次方针实验,对平均值进行统计,获得以下识别结果。
1)与1号和2号相比,3号行为识别准确率更高,可有效降低行为识别错误率,意味着1号与2号单纯对行为识别影响因素进行分析,在识别准确性方面难以满足相关要求[4];
2)与3号相比,CS-RVM能够取得理想的行为识别结果,但二者间互为独立,没有深入分析与参数间的关系,无法确保二者均达到最佳状态,CS-RVM模型能够对二者间的关系充分考虑,使行为识别准确率得到极大提升。在应用期间,一些行为实时性要求较高,如智能监控等,要对人体各种行为模型的识别用时均值进行分析,以“走”“跑”“蹲”“坐”和“弯腰”为例,对四种模型的识别时间进行对比。1号模型中“走”识别用时为0.461s,“跑”识别时间0.410s,“蹲”识别用时0.425s,“坐”用时0.405s,“弯腰”用时0.421s;2号模型中“走”识别用时为0.421s,“跑”识别时间0.406s,“蹲”识别用时0.415s,“坐”用时0.403s,“弯腰”用时0.414s;3号模型中“走”识别用时为0.495s,“跑”识别时间0.484s,“蹲”识别用时0.436s,“坐”用时0.403s,“弯腰”用时0.425s;CS-RVM模型中“走”识别用时为0.359s,“跑”识别时间0.396s,“蹲”识别用时0.374s,“坐”用时0.375s,“弯腰”用时0.385s。
3卷积神经网络的人体行为识别实验分析
3.1数据采集
本文选择25人在4个场景中完成24类动作,共采集2395个样品,且尺度、衣着与光照存在不同变化,但背景相对静止,使用同一台相机拍摄,识别较为简单。食品已经按照行为发生时间剪切完毕,并对空间场景进行标注。在数据及中包括兩项目标,一个是行为识别,另一个是时序检测。在时序检测中共有20类动作没有剪切视频,采用片段形式标注,此类样本可用于创建测试时序行为的检验模型。在本文研究中,时序检测中的验证集当作训练数据,对未剪切的场视频进行性能测试。
3.2网络训练
为将本文构建的模型与其他模型对比,利用数据集的时序行为对子集进行实验检验,对该子集中的时序行为片段标注出来,带有200个验证视频与230个测试视频。根据相关规定,利用验证集进行数据训练,再利用5个交叉验证法对超参数进行优化。在Sports M数据集基础上预训练,对网络convl初始化操作后,对网络后续层展开训练,学习率设定为0.001。为提高网络训练效果,还要利用循环记忆模块对语义进行约束,使其严格遵循设计要求完成任务,对候选视频进行分离。在损失函数设计期间,可对不同模块的损失函数进行单独设计,并通过多模块间的加权系数获得损失函数,为网络端与端之间的训练提供科学方式。网络总体是对个人行为的检测,但损失函数中带有循环记忆P与C两个模块,依靠控制训练,可在不同阶段对损失函数比重进行明确,从而完成全部任务训练,由此达到语义约束目标。具体措施为:针对模块P,每实施5次批量梯度下降时,约束权值便可降低50%;对于模块C来说,每实施8.5K次批量下降,约束权值便降低50%。在性能评价方面,在人体行为检测方面,可采用mAP指标,利用计算帧与视频等级对时空性能进行检测。在应用中先对各个类别的平均准确率进行计算,再获得多个类别的平均数。AP是准确率、召回率曲线下的面积。P-R曲线可对准确率、召回率间的函数关系进行介绍,其中前者是指真正为正例的数据比例,后者为预测为正例的数据比例,P-R曲线关键是对P-R进行计算[5]。
3.4实验结果
网络通过训练在验证集中检验模型性能,针对没有剪切的视频,通过可视化检验结果可更加直观地理解模型性能。随机选出一段验证视频,根据检测结果可知,针对未剪切的长视频,其实际行为只有视频中的一小部分,且一段视频可能包含多种行为,但网络均可将其检测出来。根据可视化模型可知,通过卷积神经网络可使人体行为检验准确率显著提升,主要因网络结构设计准确,且接受过合理的训练与约束。同时,网络还输出诸多类型的准确率,根据本文算法可知“投篮”识别时长为0.195s,“跳远”识别时长为0.725s,“打台球”识别时长为0.047s,“跳水”识别时长为0.278s,“打高尔夫球”识别时长为0.185s。通过对不同类型准确率分析可知,人体行为检测的类型差别较为相似,个别行为的识别准确率良好,如跳远等,但个别行为识别有些困难,如打台球等。通过对视频数据的深入分析,很容易辨别算法的类型,类间差异相对较大,类内差异相对较小,但一些识别难度较大的类别则相反,这主要受行为的自身特点决定,应区别看待。
4 结论
综上所述,在网络飞速发展下,每日产生的视频量爆炸式增长,在视频审核与检验中,可采用卷积神经网络、布谷鸟搜索算法等方式进行人体行为识别,从而快速审核视频信息。将其应用到未剪辑长视频中,与以往技术相比,能够更加快速准确地识别行为,使动作识别更具实用性。同时,个别行为因训练样本较少,对识别精准度产生不良影响,主要因模型训练不充分所致,可通过增加训练样本等方式,使检测精度进一步提升。
参考文献:
[1] 刘波,易辉,薄翠梅,等.MCKD与改进的LSSVM在滚动轴承故障诊断中的应用[J].电子技术应用,2018,44(7):81-85.
[2] 贺海龙.基于卷积神经网络的人体行为识别研究[D].秦皇岛:燕山大学,2019.
[3] 薛路强.基于双流融合卷积神经网络的人体行为识别研究[D].合肥:安徽大学,2018.
[4] 于清,姜佩京,王耀国,等.基于卷积神经网络人体行为识别的院前急救措施研究[J].中华危重病急救医学,2020,32(11):1385-1387.
[5] 谌颃,孙道宗.基于CS优化深度学习卷积神经网络的目标检测算法[J].机床与液压,2020,48(6):187-192.
【通联编辑:唐一东】
收稿日期:2021-10-15
基金项目:宁夏大学新华学院科学研究基金项目(19XHKY04)
作者简介:马伟(1982—),男(回族),宁夏固原人,副教授,硕士,主要研究方向为计算机应用技术,计算机系统结构,人工智能。
3260500338278