基于深度学习的高空坠落危险行为识别方法

2024-12-31 00:00:00聂程叶翔方百里孙嘉兴张滔
现代信息科技 2024年10期
关键词:深度学习神经网络

摘" 要:以卷积神经网络为代表的深度学习算法可以更加精准有效地提取人体行为特征,因此将深度学习用于人体行为识别与预测成为研究热点。文章在经典HRnet网络结构的基础上通过改进L-Swish激活函数和引入Squeeze-and-Excitation模块,提出一种新型网络模型L-HRnet,用于判断施工人员高空作业时的行为动作是否存在危险性。在公开数据集HMDB51上进行行为分类与识别实验,结果表明,改进后网络结构L-HRnet的识别准确率明显优于HRnet,有效提升了高空作业人员的防护水平。

关键词:神经网络;深度学习;高空坠落;动作识别

中图分类号:TP391.4" " 文献标识码:A" 文章编号:2096-4706(2024)10-0017-04

A Method for Identifying High-altitude Falling Hazard Behavior Based on Deep Learning

NIE Cheng, YE Xiang, FANG Baili, SUN Jiaxing, ZHANG Tao

(Guangzhou Power Supply Bureau of Guangdong Power Grid Co., Ltd., Guangzhou" 510180, China)

Abstract: Deep Learning algorithms represented by Convolutional Neural Networks can extract human behavior features more accurately and effectively, applying Deep Learning to human behavior recognition and prediction has become a research hotspot. On the basis of the classic HRnet network structure, this paper proposes a new network model L-HRnet by improving the L-Swish activation function and introducing the Squeeze-and-Excitation module, which is used to determine whether the behavioral actions of construction worker during high-altitude operations are dangerous. Behavioral classification and recognition experiments are conducted on the public dataset HMDB51, and the results show that the improved network structure L-HRnet had significantly better recognition accuracy than HRnet, effectively improving the protection level of high-altitude workers.

Keywords: neural network; Deep Learning; high-altitude falling; action recognition

0" 引" 言

近年来,随着我国经济的不断发展,电力、建筑等基础行业也迎来快速发展的新阶段,但是高空作业安全事故发生率也是一路上扬。研究表明,高空作业时安全事故的发生主要取决于两大因素:一是主观因素[1-3],表现为工作人员的危险作业行为,比如疲劳作业、施工动作不规范、不佩戴安全带等;二是客观因素,取决于施工环境存在安全隐患,如脚手架杆松动、安全绳脱落等。

现有高空坠落的防范措施主要有坠落事件发生后的物理防护措施,比如:佩戴安全绳,使用脚手架、安全网、挡脚板等[4]。这些措施只能在危险发生后给予作业人员一定程度的保护,在危险预防方面无法发挥作用。为此,本文提出一种基于深度学习的高空作业人员动作识别方法,用于在判断出作业人员存在危险动作时发出预警信号,预防危险的发生。本文方法作为高空作业人员安全防护措施的一种补充手段,一定程度上提高了工作人员的安全系数。

随着深度学习的兴起,神经网络[5]在特征提取、模式识别等方面表现出良好的性能。利用神经网络对人员行为特征进行检测已被证实具有较高的可行性。人体行为检测模型在2015年之前主要通过回归方法[6]得到骨骼关键点坐标,但实验效果不够理想。主要原因有两点:一是人体行为具有多变灵活性,二是回归模型的迁移性较差,难以应用于未被训练过的人体行为数据识别。因此,目前普遍采用的过渡处理方法是将人体行为识别看作检测问题,从而获得人体行为检测热点图。2016年,Wei等人提出一种用于人体姿势估计的深度学习模型—CPM [7],该模型的核心思想是通过多层次的CNN架构逐步细化姿势估计,每一层都专注于预测一组关键关节点的位置。通过在多个尺度上对图像进行处理,捕捉不同尺度下的姿势信息,从而提高预测准确性。虽然CPM模型能有效解决遮挡问题,但却为了降低计算复杂度而损失了图片精度,高分辨率特征有所弱化。为了解决图片分辨率低的问题,Sun等人[8]提出一种高分辨率网络—HRnet,该网络能够在数据流通的整个网络链路中保持高分辨率,极大地提高了图像识别的准确度,但同时也带来了参数量增大、运行速度降低的问题。

为了解决上述问题,本文在HRnet神经网络的基础上,通过引入Squeeze-and-Excitation模块,使用改进后的激活函数L-Swish等策略,提出一种改进的网络结构L-HRnet,并将其应用于高空作业人员危险行为识别之中,用以判断作业人员是否存在危险行为,进而发出预警信号预防危险的发生。

1" 网络架构改进

本文提出的网络模型在HRnet网络模型结构的基础上做了进一步的改进。HRnet模型作为一种面向高分辨率人体姿势估计任务的网络架构,通过使用一种称为“分阶段融合”的策略,确保不同分支之间的信息共享和融合[9],不仅保留了高分辨率特征,还通过多分支的设计来融合不同尺度的信息,能够在不损失细节的情况下提高姿势估计的准确性。本文提出的改进模型,在保持该模型精度的前提下采用深度可分离卷积[10],引入Squeeze-and-Excitation(SE)模块[11],极大地减少了网络参数量进而缩小模型体积,提高了运行速度。同时使用改进后的L-Swish激活函数来进一步提升模型精度。

1.1" Squeeze-and-Excitation模块引入

SE模块可根据目标损失函数loss去学习、构建特征权重,最终使特征图的有效性与权重值呈正相关。这种训练方式进一步提高了模型的精度。

如图1所示,Ftr为传统的卷积结构,X和U分别为Ftr的输入(C′×H′×W′)和输出(C×H×W)。与一般卷积神经网络不同的是,SE模块是通过Squeeze(挤压)、Excitation(激励)与Scale(重标定)等步骤来重新标定原先获得的特征,具体如下所述:

1)Squeeze。对应图1中的Fsq(·)操作。这一步骤中SE模块执行全局池化(通常是全局平均池化),以对特征图每个通道的信息进行压缩。这使得特征图的尺寸从(H、W、C)缩减为(1、1、C),其中H和W分别为特征图的高度和宽度,C为通道数量。这一步旨在获取每个通道的全局信息,以便为稍后的调整做好准备。

2)Excitation。对应图1中的Fex(·,W)。在此步骤中,SE模块通过一系列的全连接层(通常包括一个隐藏层和一个激活函数(如ReLU))来学习每个通道的权重或重要性。这些权重表示每个通道对于特定任务的贡献程度。Excitation操作将生成的权重向量应用于原始特征图,以调整每个通道的响应。

3)Scale。对应图1中的Fscale。通过逐通道的缩放操作来重新加权特征图。具体来说,它将每个通道的权重乘以原始特征图中的对应通道。这会使具有更高权重的通道对后续网络层的输出产生更大的影响,从而更好地捕捉特定任务所需的信息。

SE模块允许网络动态学习每个通道的权重,以适应特定任务的需求,从而提高网络的性能。这种注意力机制的有效性在各种计算机视觉任务(包括图像分类、对象检测和语义分割)中得以证明。SE模块通常嵌入到深度卷积神经网络的不同层中,以增强网络的表示能力。

1.2" SE模块算法

如图1所示,首先Ftr是转换操作,输入输出的定义如下:

那么,Ftr的表达式如式(1)所示:

Ftr操作得到的U就是图1中左边第二个三维矩阵,也叫张量Tensor,或者叫C个大小为H×W的特征图,而uC表示U中第C个二维矩阵,下标C表示通道。

然后将结果输入Squeeze,实质上就是执行全局平均池化操作:

通过此操作可将输入C×H×W转换成多个尺寸为1×1×C的输出,也就是得到了该层的C个全局特征图信息。

最后通过式(3)实现Excitation操作:

从上述计算式可以看出,Excitation操作其实是由两个全连接组成的。第一个全连接就是将上一步的Squeeze输出z乘上权重W1,其中权重W1的维度是C/(r×C)。参数r的目的是减少通道个数从而降低计算量。又因为z的维度是1×1×C,所以W1z的结果为1×1×C/r;然后再经过一个ReLU层,输出的维度保持不变。

第二个全连接则是第一个全连接的输出结果和权重W2相乘,W2的维度为C×C/r,所以输出结果的维度为1×1×C;最后再经过Sigmoid函数得到s。s的维度为1×1×C,C为通道数目,用来刻画向量U中C个特征图的权重。而且这个权重是通过前面这些全连接层和非线性层学习得到的,因此可以进行端到端训练。

这两个全连接层的作用就是融合各通道的特征图信息,因为前面的Squeeze都是在某个通道的特征图里面操作的。最后,通过计算式(4)对初始向量U进行通道乘法操作,即图1中的Fscale过程:

其中,uc为二维矩阵,sc为权重值。本文将SE模块引入HRnet网络,以进一步提升算法的精度。

1.3" 激活函数设计

虽然ReLU激活函数具有收敛速度快的优点,但是其强制的稀疏处理会减少模型的有效容量(特征屏蔽太多,导致模型无法学习到有效特征)[12]。使用ReLU作为激活函数极易出现梯度消失、梯度爆炸或输出不是零中心化的问题,不利于网络模型的训练学习。实验表明,Swish [13]激活函数是一种比ReLU更优的非线性激活函数,避免了ReLU函数x小于0时梯度为0的情况,如计算式(5)所示:

其中,β为常数或可训练的参数,Swish具有无上界有下届、平滑、非单调的特性。但是相比于ReLU,因为它含有Sigmoid函数,计算更为复杂。为进一步提高模型运算精度,降低它的计算开销,使用分段函数L-Sigmoid(如计算式(6)所示)模拟Sigmoid函数,对比效果图如图2所示。

其中α = 0.01,改进后Swish函数如计算式(7)所示:

图2为Sigmoid与L-Sigmoid两种激活函数的对比图。

图3为Swish与L-Swish两种激活函数的对比图。

考虑到应用非线性激活函数的成本问题,在模型设计中,本文将L-Swish应用于并行低分辨率子网络中。

2" 改进后的L-HRnet

本文提出的网络结构L-HRnet是在原网络结构HRnet的Bottleneck部分引入SE模块,并在原网络最后的分支融合阶段使用改进后的L-Swish激活函数。图4为改进后的L-HRnet网络结构图

为了充分了解所提模型的性能,本文采用HMDB51 [14]数据集训练L-HRnet模型,将HMDB51中51类动作统一分为危险动作与安全动作两类,输入图片尺寸为256×256×3,然后以高分辨率子网为第一阶段,逐步增加高分辨率到低分辨率的子网,形成新的阶段,并将多分辨率子网并行连接,引入跨并行子网的交换单元,使每个子网能够重复接收来自其他并行子网的信息,最后通过Softmax分类器将图片分为两类输出人体动作。

3" 实验结果与分析

本实验采用PyTorch,Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20 GHz架构,GPU采用Nvidia Titan X Pascal。在公开数据集上使用L-HRnet网络模型进行人体动作关键点检测,检测结果如图5所示。实验结果验证了L-HRnet模型在人体动作关键点检测方面的精确性。

为了对本文所改进网络进行有效验证,在HMDB51数据集上分别用HRnet网络模型和改进后的L-HRnet网络模型进行人体动作识别分类测试实验。分别对两种网络模型的识别准确率、运算速度、参数量进行测试比较,测试结果如表1所示,实验结果表明,改进后L-HRnet网络模型的参数量更小,运算速度更快,实现了轻量化的目标,同时识别准确率也略有提升。

4" 结" 论

本文在人体动作识别任务方面,在HRnet的基础上提出了改进的深度卷积神经网络模型结构L-HRnet,并利用改进后的网络模型在HMDB51数据集上进行测试,取得了95.6%的识别准确率。目前深度卷积神经网络算法已成功应用于图像识别、图片分割等领域,但若要部署在建筑行业,需要首先解决实验所需建筑工人危险动作数据集的采集、摄像头的部署,以及模型运行计算资源的消耗问题,执行起来有一定的困难。在建筑行业的应用场景中,对模型的精度和实时性要求较高,虽然本文所提方案在运算速度和精度上有所改善,但距离实际应用还有一段距离。故今后将在模压缩方面做进一步的深入研究。

参考文献:

[1] 王文翔.建筑施工安全管理中高处坠落的原因及预防措施 [J].散装水泥,2021(3):41-43+46.

[2] 仇昕.建筑安全事故发生原因分析及控制措施 [J].建筑与预算,2022(5):37-39.

[3] 刘昊东.建筑工程安全事故成因分析与预测 [J].四川建材,2023,49(5):241-243.

[4] 周元昊.高处坠落事故的原因和预防对策 [J].建筑施工,2023,45(2):431-433.

[5] KRICHEN M. Convolutional Neural Networks: A survey [J/OL].Computers,2023,12(8)[2023-09-15].https://doi.org/10.3390/computers12080151.

[6] 方升,梁飞豹,刘勇进.统计回归模型及其优化算法综述 [J].福州大学学报:自然科学版,2021,49(5):638-654.

[7] WEI S E,RAMAKRISHNA V,KANADE T,et al. Convolutional Pose Machines [C]//.2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:4724-4732.

[8] SUN K,XIAO B,LIU D,et al. Deep High-Resolution Representation Learning for Human Pose Estimation [J/OL].arXiv:1902.09212v1 [cs.CV].[2023-09-10].https://arxiv.org/abs/1902.09212.

[9] 石洋宇,左景,谢承杰,等.多尺度融合与FMB改进的YOLOv8异常行为检测方法 [J].计算机工程与应用,2024,60(9):101-110.

[10] ZHANG T,LI S,FENG G Q,et al. Local Channel Transformation for Efficient Convolutional Neural Network [J].Signal, Image and Video Processing,2022,17(1):129-137.

[11] ZHANG Y P,WU G C. Temporal Squeeze-and-Excitation Networks for Skeleton-Based Action Recognition [C]//2023 5th International Conference on Industrial Artificial Intelligence (IAI). Shenyang:IEEE,2023:1-6.

[12] VARGAS V M,GUTIÉRREZ P A,BARBERO-GÓMEZ J,et al. Activation Functions for Convolutional Neural Networks: Proposals and Experimental Study [J].IEEE Transactions on Neural Networks and Learning Systems,34(3):1478-1488.

[13] 米硕,田丰收,孙瑞彬,等.Swish激活函数在中小规模数据集上的性能表现 [J].科技创新与应用,2018(1):4-5.

[14] KUEHNE H,JHUANG H,GARROTE E,et al. HMDB: A Large Video Database for Human Motion Recognition [J].2011 International Conference on Computer Vision. Barcelona:2011:2556-2563.

作者简介:聂程(1995—),男,汉族,江西宜春人,运维工程师,工学硕士,主要研究方向:输电线路运行与维护;叶翔(1984—),男,汉族,江西上饶人,工程师,工学硕士,主要研究方向:输电线路运维、安全管理;方百里(1992—),男,汉族,广东揭阳人,工程师,工学学士,主要研究方向:输电线路安全管理;孙嘉兴(1986—),男,汉族,辽宁丹东人,工程师,工学硕士,主要研究方向:输电线路安全管理;张滔(1984—),男,汉族,江苏南通人,运维工程师,工学学士,主要研究方向:输电生产运维技术。

猜你喜欢
深度学习神经网络
神经网络抑制无线通信干扰探究
电子制作(2019年19期)2019-11-23 08:42:00
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
现代情报(2016年10期)2016-12-15 11:50:53
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34
基于神经网络的拉矫机控制模型建立
重型机械(2016年1期)2016-03-01 03:42:04
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定