基于多层神经网络的高校智能安保应用研究

2022-06-29 01:25李小丽

河北软件职业技术学院学报 2022年2期

李小丽

（泉州经贸学院，福建泉州 362000）

0 引言

目前，我国大部分高校均安装了高清摄像头，采用视频监控的方式实时监控校园的安全。视频监控系统也确实能起到一定的防护作用，但这种仅仅依靠摄像头录制视频，后台工作人员察看视频的方式并不能对校园安全进行实时有效监控。首先，因为监控点较多，同时多画面显示，人眼易分散；其次，工作人员的工作时长有限，即使采用换班的方式，24 小时轮班，多画面的人工观察也易出错，更常见的情形是校园发生安全事故后，再进行人工排查，通过对原始视频多次不断回放，来查找事故发生的时间与地点。这种事后排查的方式，效率很低。探索能自动进行视频监控，且能自动学习视频内容的人工智能技术，视频数据通过摄像头传输到后台，后台系统可自动对视频数据进行处理，如视频切割、图像帧读取、可疑行为识别、可疑人物跟踪等，这种自动化的视频监控，可有效解决高校安保工作中存在的隐患，对可能发生的安全事故、相关的可疑人员提前进行预警，及时处理突发事故，从而减少不必要的损失[1]。

如何利用人工智能技术[2]对海量视频、图片数据进行处理，减少人工工作量，提升智能化信息处理水平是高校安保工作中的一个重要课题。

1 视频数据处理

目前高校中所采用的摄像头，大多厂商会提供第三方接口函数，以利于二次开发，因此在本文中，摄像头部分不进行另外论述，主要通过摄像头提供的接口函数，加载并获取原始视频数据，对视频数据进行相应预处理，如视频分割[3-4]、视频标注等。为提高报警正确率，需要增加异常事件视频数据，再将分割后的视频样本处理成相应的视频帧，其具体流程如图1 所示。

图1 数据处理流程图

为进行后期应用学习训练，视频帧图像序列读取完后，需要对图像进行二值化阀值处理，再将处理后的图像转换为灰度图像。为了避免视频序列图像因自然震动、光照变化等原因产生噪声，可通过高斯低通滤波对图像进行滤波，最后得到二值化的图片帧数据。

完成图像序列的处理后，检测第一帧，从场景开始，利用背景分割器对图像序列场景中的人物进行识别，为每个行人建立起感兴趣区域（ROI）[5]，进而完成目标对象检测，并将图像序列中的检测对象切割成统一大小的图片，通过图像几何变换方法，将图像尺寸统一为224×224 像素。

整个视频数据处理的流程为：原始监控视频流解析；分析原始视频流成为更小的视频序列；提取视频序列每一帧；对所有图像帧进行图像预处理；目标检测，为每个行人建立ROI，生成统一图像尺寸；检测下一帧是否有进入场景的新行人。

原始图像处理流程如图2 所示，其中（a）为原图，（b）为二值化图像示例，（c）为ROI 区域示例，（d）为生成的224×224 像素图。视频数据集来源于KTH 数据集[5]，在这个数据库中，主要包括在4 个不同的场景下，25 个人，每人完成6 类动作产生的视频，样本总计为2391 个视频，该数据值发布于2004 年，是当时最大的人体动作数据库。有了该数据库作为实验数据集，在深度学习过程中，就可以将不同的算法在同一数据集中运行，从而客观公正地进行算法性能的评估。这个视频数据库样本中，包含的主要变化是尺度、衣着、光照，但每个视频的背景相对比较单一，相机的机位固定，这与高校实际监控摄像头所处的环境是一致的。因此文中使用该数据库进行相关实验。

图2 视频图像处理示例

2 深度学习

ResNet 模型在2015 年由何凯明提出，该模型简单实用，且广泛用于人工智能深度学习卷积神经网络CNN 中。获取了处理后的视频图像序列，即可搭建深度学习网络，在本文中，深度学习网络结构采用ResNet 模型建立卷积神经网络，网络深度为110 层，反向误差为1e-5，学习率分别设置为0.001、0.0001、0.000 01，激活函数采用Relu[5]函数，对处理后的图像数据序列集通过随机选取的方式，分为训练集与测试集，其中，训练样本集为60 000 张图像序列，测试样本集为10 000 张图像序列，先将训练集输入到ResNet 模型进行训练，然后通过SoftMax[5]层来获取最终分类结果，通过不断进行反向误差的传递进行残差学习，调整模型中的参数从而得到最优模型。具体学习流程如图3 所示。

图3 深度学习流程

3 实验结果

本文实验运行平台为windows 10，Python 开发工具为PyCharm 017.3.4（Community Edition），计算机视觉库为OpenCV 2.4.13.7，深度学习框架为Tensorflow 1.8.0。实验结果数据如图4 所示。由图4 可以看出，在200 次的迭代过程中，训练集的分类正确度最高可接近99.9%，测试集分类最高正确率达93.2%，在经过75 轮的迭代后，模型识别性能已趋于稳定。若对视频图像序列进行归一化处理后再进行模型训练，测试集分类正确率能达到96.4%。

图4 实验结果图

通过实验数据对比可以看出，采用ResNet[6]深度学习模型进行视频图像序列学习分类，准确率能稳定在93.2%～96.4%，因此，采用深度学习模型对视频图像进行学习，将学习模型用于高校智能安保工作是充分可行的。

4 结语

本文主要研究采用ResNet 多层神经网络深度学习算法对视频图像序列进行学习，通过训练将模型最优化，并应用到高校智能安保工作中。通过高清摄像头自动采集视频数据，在后端进行视频数据的自动解码、处理、分割等深度学习，对异常行为进行分析，对可能存在的危险自动进行预警与报警。从实验结果来看，其性能稳定，具有一定的鲁棒性与自适应性，能较好地实现整个高校智能安保工作24 小时无间断自动化学习，提升了高校安保工作的信息化水平。