张祖赫
摘 要 如今计算机能为人类做许多事情从而减少人类的体力劳动,同时提高工作效率。高中的寝室往往是学校纪律之手最难触及的地方,这当然需要学校调集大量人力去监管,耗时费力,甚至吃力不讨好。在计算机视觉领域,最基本也最经典的一个问题就是目标识别给出一张图像,用detector检测出图像中特定的object(如人脸)。检测算法的基本原理就是先通过训练集学习一个分类器,然后在测试图像中以不同scale的窗口滑动扫描整个图像,每次扫描做一下分类,判断一下当前的这个窗口是否为要检测的目标。
关键词 深度学习 卷积神经网络 目标检测 Faster R-CNN
中图分类号:G647 文献标识码:A 文章编号:1007-0745(2022)02-0109-03
1 研究意义
利用图像处理技术协助老师进行寝室管理,能在大大提高工作效率的同时改善相关问题。本文从寝室管理存在的问题出发,利用经典目标检测算法Faster R-CNN构建寝室纪律监管系统,智能识别寝室在上课期间是否有人逗留,或检测就寝时人是否到齐,从而解放老师的工作压力并提高工作效率,帮助老师做好寝室监管工作,同时,这也能提高同学们自觉遵守学校规章制度的意识,让校园多一分和谐与秩序。
2 神经网络
2.1 前馈神经网络
神经网络是一种受生物学启发,模仿人类大脑结构的智能网络。
前馈神经网络又称为多层感知机,是基于反向传播算法[1](BP算法)的一种常见神经网络,通常包含三个层次:输入层、中间层和输出层,每一层的输出是下一层的输入。其中,输入层与输出层的节点数根据任务而定,相对容易确定,而中间层则需要根据模型的表现进行不断调整。神经网络就如同一个复杂的函数,训练神经网络就是在学习其中参数的值。
在神经网络中,神经元是最简单的计算单元,其包含输入、计算以及输出。这些神经元相互连接构成神经网络,通过训练来修改它们的权值以获得一个从输入空间到输出空间的映射。图1为基本的神经元结构图,其中,xn为输入信号,wn为连接权值,θ表示一个阈值。
2.2 卷积神经网络
卷积神经网络[2](Convolutional Neural Network, CNN)是一类主要用来处理图像的前馈神经网络,其结构示意图如图2所示。卷积神经网络包含了输入层、卷积层、池化层、全连接层等,采用稀疏连接的方式连接不同层之间的神经元,且同一层中同一个通道都共享一个卷积核权重,这样既能减少计算量又能防止过拟合。
2.2.1 卷积层
卷积层是卷积神经网络中最重要的一层,其利用卷积核(也称过滤器)对图像进行卷积操作,从而生成一个跟原始图像对应的特征图。特征图的优点在于其能保存图像的显著特征同时减小图像的规模。
卷积层的计算方法如公式2.1所示。
conv=σ(img . W+b) (2.1)
其中,“σ”表示激活函数;“img”表示原始图像的像素矩阵;“.”为卷积操作;“W”为卷积核;“b”为偏置。
2.2.2 池化层
池化层存在于卷积层之后,其作用是压缩数据和参数的量,提取主要特征,避免过拟合。与此同时,还要保证特征不变性,去除特征不明显的信息。池化层降低了特征图的尺寸,能够减少计算量,防止过拟合,使得特征具有平移不变性。
常用的有最大值池化(Max pooling)和平均值池化(Average pooling)两种池化操作。(如图3所示)
3 目标检测算法
3.1 基于候选区域的目标检测算法
目前,常用的基于候选区域的目标检测算法有R-C NN、Fast R-CNN、Faster R-CNN等。基于候选区域的目标检测算法需要分两步,第一步是生成候选区域,第二步是对候选区域进行分类。R-CNN是从滑动窗口检测器改进而来的,滑动窗口检测器通过遍历的方法扫描整个图片,但这样的缺点就是窗口过多,导致模型过慢,R-CNN则通过选择性搜索(Selective Search)来获取候选区域以减少窗口数量,从而达到加快模型速度的目的。Fast R-CNN则利用卷积神经网络先提取图像的特征网络,再将生成候选区域的方法直接应用于特征图上以加快速度。Faster R-CNN相比Fast R-CNN则将外部候选区域生成方法改成了由网絡自己选择,从而突破生成候选区域计算慢的瓶颈。
3.2 Faster R-CNN
Faster R-CNN[3]是一种基于分类的目标检测算法,相比传统目标检测算法,其在精度上有着较明显的优势。该算法的思想是先通过区域生成网络生成若干候选区域,再进行分类判断。
3.2.1 特征提取网络
在Faster-RCNN中,一般采用预训练好的深度卷积神经网络作为特征提取网络。特征提取只需进行一次,之后,提取得到的特征图会被区域生成网络和分类网络所共享,这样可以避免重复计算,提高模型速度。
3.2.2 区域生成网络(RPN)
区域生成网络的引入,突破了外部候选区域生成方法计算慢的瓶颈。
区域生成网络用来生成候选区域,由两个子网络构成,其中,分类子网络用来判别矩形框(Anchor)是前景(目标)还是背景。边框回归子网络则用来修正矩形框以获得更精确的候选区域。
4 寢室纪律监管系统
本系统采用Faster R-CNN作为目标检测算法,其中,采用深度卷积神经网络作为特征提取网络。
4.1 寝室纪律监管系统特征提取网络
本系统使用VGG-16[4]作为特征提取网络。VGG-16的输入为图片,经过多次卷积计算和池化操作后得到原始图像的特征,最后通过全连接层进行分类任务。
而在我们的寝室纪律监管系统中,VGG-16只用于特征提取,不用进行分类任务,所以我们取最后一层卷积层的输出作为特征提取结果,即原始图像的特征图。
4.2 基于Faster R-CNN的寝室纪律监管系统
如图4所示,Faster R-CNN网络主要分为RPN和Fast R-CNN两部分。两者都有一部分来自预先训练好的模型,故先使用模型对RPN和Fast R-CNN分别进行初始化和训练,训练完成之后,固定其中一个网络进行交替训练[5]。最终得到一个基于Faster R-CNN的寝室纪律监管系统。
该系统利用校园内的监控设备对各个寝室进行实时监控,并将采集到的图像传入训练好的寝室纪律监管系统中进行处理,可智能识别出寝室是否有人逗留以及有多少人,从而对寝室纪律行为进行实时的监管。
5 总结与展望
Faster R-CNN,是一个全卷积网络,它的输入为特征图,输出为候选框ROI,将候选框选择、特征提取、分类、检测框回归都整合在了一个网络中,通过对图像生成候选区域,提取特征,判别特征类别并修正候选框位置。完全端到端,使得精度和速度大幅提升。本文使用经典目标检测算法Faster R-CNN构建寝室纪律监管系统,有效减少老师们的工作量并提高工作效率。该系统可推广到大部分学校,为老师提供方便。同时,也可应用到类似的环境中,用于安保工作,减少保安们的工作量。
参考文献:
[1] Rumelhart D E,Hinton G E,Williams R J.Learning Representations by Back Propagating Errors[J].Nature, 1986,323(6088):533-536.
[2] Kim Y.Convolutional Neural Networks for Sentence Classification[J].Eprint Arxiv,2014.
[3] Ren S,He K,Girshick R,et al.Faster R-CNN:Tow-ards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(06):1137-1149.
[4] Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer ence,2014.
[5] Girshick R.Fast R-CNN[J].Computer ence,2015.