郑士基 李观胜
摘 要:人体行为识别和分析是计算机视觉领域的研究热点,考虑到环境的复杂性和人体行為的多样性,行为识别在处理速度、识别准确率等方面还有很大的提升空间。近年来,深度学习技术的发展和在人工智能领域的成功应用,为人体行为识别提供了全新的解决方法。本文主要研究将深度学习中的卷积神经网络技术应用于人体行为识别,结合具体的教室应用场景,设计能够主动学习的智能化人体行为识别模型,对量化分析教室的学生的学习情况和教学情况具有重要的现实意义。
关键词:计算机视觉;行为识别;深度学习;卷积神经网络
中图分类号:TP391.41 文献标识码:A 文章编号:2096-4706(2019)07-0087-03
Abstract:Human behavior recognition and analysis is a research hotspot in the field of computer vision. Considering the complexity of the environment and the diversity of human behavior,there is still much room to improve the processing speed and recognition accuracy of human behavior recognition. In recent years,the development of in-depth learning technology and its successful application in the field of artificial intelligence have provided a new solution for human behavior recognition. This paper mainly studies the application of convolutional neural network technology in deep learning to human behavior recognition,and combines with specific classroom application scenarios,designs an intelligent human behavior recognition model that can actively learn,which has important practical significance for quantitative analysis of classroom students’learning and teaching situation.
Keywords:computer vision;behavior recognition;in-depth learning;convolutional neural network
0 引 言
人体行为识别是指通过人工智能、模式识别等方法,从视频、图像中提取与行为有关的有效特征信息,通过算法和分类器模型完成识别判定的过程。近年来,利用信息化技术智能地对实际场景中的人体行为进行识别已成为社会的新兴需求和研究热点。本文设计了一个应用于教室的人体行为识别模型,使用安装在教室的高清摄像机,捕获学生在课堂上的实时画面,研究利用深度学习中的卷积神经网络技术,智能地识别出学生在教室中的行为和动作,能够量化、有效地反映出学生在课堂上的学习状态,监控和评估课堂的教学情况,具有非常重要的现实意义。
1 行为识别的方法
人体行为识别的研究目前主要有两个方向:基于机器学习和基于深度学习。
机器学习需要人为地先设计好相关特征的充分表征行为,然后采用机器学习中的分类方法对图像显示的行为进行分类。机器学习所设计的特征可分为局部特征和全局特征。全局特征需先对人体进行前景背景分离,再对以人体为核心的关键区域进行整体描述。局部特征是一种更广泛使用的方法,它与全局特征不同的是无需进行前景背景分离,可以直接从图像相关的兴趣点中进行特征的采集。
深度学习技术近年来在图像识别、分类等方面取得了迅猛的发展,结合深度学习的研究和应用也越来越多。常用的深度学习模型有深度置信网络(DBN)、卷积神经网络(CNN)和循环神经网络(RNN)等。研究表明,基于深度神经网络的图像识别技术,具有卓越的非线性映射能力、自学习能力和并行处理能力,无须人为干预就可以对学习到的特征行为进行表征和分类。
通过以上的分析可以看到,在传统的基于机器学习的方法中,特征计算是由人工设计的,而在深度学习中,则是通过设计的模型和标签,让网络自适应地学习不同行为的特征。因此,相比于传统的机器学习识别方法,深度学习在人体行为识别方面明显具有更大的优势。
2 卷积神经网络
卷积神经网络是应用最为广泛的深度学习模型,它能够通过训练,自主地对输入特征进行全面有效的学习。与传统的神经网络相比,卷积神经网络利用了卷积算法的特性,通过稀疏连接、局部感受野、权值共享和池化等手段,极大地降低了网络结构的复杂度和运算量。目前,卷积神经网络在自然语言处理、气候预测、人工智能等领域都有广泛的应用。由于卷积神经网络能从大量数据中学习到不同层级的特征,因此其在人体行为识别领域必然也有着非常广阔的应用前景。经典的卷积神经网络模型主要由五部分组成:输入层、卷积层、池化层、全连接层和分类层,如图1所示。
2.1 卷积层
卷积层是卷积神经网络中最重要的组成部分,特征图输入到卷积层后会与卷积核进行卷积操作,卷积操作公式如下:
其中,是tanh函数,pj为局部感受野,是第l-1层的特征在第i个窗户上的值,是第l层上位置为(i,j)对应的卷积核的权重,是特征的偏置。
卷积层在进行卷积运算时,卷积核按照设置好的步长在整个输入特征上滑动,并同时与局部感受野相对应的部分相乘、求和进行卷积操作,一直重复到卷积核滑出输入特征为止。
2.2 池化层
池化层的作用主要是降低特征的维度和筛选掉冗余的特征,从而减少网络的运算量和提高网络的泛化能力。池化层通过池化窗口在输入特征上的滑动进行采样,根据采样方式的不同,可分为最大池化和均值池化两种方式。池化过程可表示公式如下:
其中,表示第l-1层输入特征中第i个窗口的值,是第l层第j个窗口的偏置,pool表示采样函数。
2.3 全连接层
卷积神经网络在卷积层和池化层之后,一般都会配置一个全连接层。全连接层的神经元与前一层的每一个神经元都相互连接,运算过程公式如下:
其中,f(ul)为激活函数,Wl是第l-1层至1层的权重,bl为第l层的偏置,xl-1是第l-1层的输出特征。
2.4 分类层
卷积神经网络模型对人体行为识别的效果在很大程度上取决于特征的选取以及分类层分类器的选择。一般情况下,如果拥有好的特征,即使选择简单的分类器,如支持向量机SVM(Support Vector Machine)等也能够获得不错的效果,但SVM在大规模的识别应用时,通常会受到时间和空间复杂度的约束,其识别分类的效率不高。本文采用Softmax作为分类器,Softmax适用于多分类的情况,它的表达函数如下:
函数的输出结果为1个k维的向量(各向量元素的和为1),用其来表示这k个估计的概率值。即对于给定的k维输入x向量,对每一个类别j计算出其概率p(y=i|x),达到估算输入x的每一种分类输出结果的概率值的目的。
3 行为识别模型
3.1 模型结构
本文所设计的人体行为识别模型主要由图像输入模块、图像处理模块、特征学习模块和行为识别模块四部分组成,如图2所示。
圖像输入模块负责图像的捕获和传输;图像处理模块负责图像的灰度化和压缩,将图片转换为卷积神经网络善于处理的灰度图,实现人体行为识别问题向图像识别问题的转化,利用图像中的纹理特征对人体行为进行判别。特征学习模块通过卷积神经网络对人体行为的特征进行提取和学习。行为识别模块则是使用卷积神经网络、Softmax算法等对输入图像的特征进行判别,从而识别分类出不同的人体行为。
3.2 教室人体行为分类
为了方便对教室中的人体行为进行识别、量化和统计,本文在参考了相关的文献资料和经过分析后,将教室中的人体行为分成了以下6种类别,如表1所示。
3.3 模型参数选择
模型参数的选择需考虑以下几方面的问题:卷积神经网络的层数,即网络的深度;每层网络神经元的数量;激活函数的选择;损失函数的确定。在具体的设计中,以先简单后复杂为原则,先从3层卷积神经网络开始,其中包含1个输入层、3个卷积层、3个池化层、1个全连接层和1个分类层,在这个基础上再根据实际的效果调整模型的深度和容量。
(1)卷积层参数。主要涉及到卷积核大小、个数和卷积步长。可采用5×5卷积核,步长设置为1,卷积核的个数设置为64。
(2)池化层参数。与卷积层相似,池化层可采用3×3的池化核,步长设置为1。
(3)其他参数设置。学习率的设定,一个理想的学习率能够使模型收敛得更快,可以从0.001开始,适当增大学习率可以加快模型的收敛速度。迭代次数一般在操作过程中进行设置,卷积神经网络在训练的过程中,小批次会表现得更好,可以从小开始逐渐增大迭代的次数。为了防止模型拟合过强,泛化能力不足,还需进行正则化的Dropout处理,该参数一般设置为0.5。
4 结 论
本文将目前最流行的深度卷积神经网络应用于人体行为识别模型,并与教室的实际应用场景相结合。提出了模型的设计结构、参数的选择与图像的分类方法,为教室人体行为识别研究提供了一种新的设计理念和思路。在接下来的工作中,主要的工作一是研究将本模型在实际应用中进行测试;二是研究如何在增加模型卷积神经网络层数的同时,减少模型训练和运算的时间,并进一步提高模型分类的精度和模型泛化的能力。
参考文献:
[1] 陆霖霖.基于改进ISA深度网络的人体行为识别研究与实现 [D].成都:电子科技大学,2016.
[2] BOUZOUANE A,BOUCHARD B,GIROU XS.Action Description Logic for Smart Ho me Agent Recognition [J].Journal of the American Society of Echocardiography Official Publication of the A merican Society of Echocardiography,2005,22(11):1269-74.
[3] 惠通.基于轨迹和卷积神经网络的人体行为识别方法 [D].西安:西安电子科技大学,2017.
[4] 余兴.基于深度学习的视频行为识别技术研究 [D].成都:电子科技大学,2018.
[5] 王明.基于卷积神经网络的网络入侵检测系统 [D].北京:北京邮电大学,2018.
[6] 孔令爽.基于深度学习和迁移学习的入侵检测研究 [D].济南:山东大学,2018.
作者简介:郑士基(1979-),男,汉族,广东江门人,高级工程师,学士,研究方向:计算机网络、物联网、人工智能。