【关键词】洗手动作识别;目标检测;注意力机制;编解码结构
【中图分类号】Q189 【文献标识码】A 【文章编号】2026-5328(2022)03--01
1 引言
中华人民共和国卫生部[1]在2020年发布了《医务人员手卫生规范》,它规定了医务人员洗手方法和外科冲洗手消毒方法。在临床环境中引入手卫生依从性的智能化检测方式是十分必要的。2020年2月,邢政等人[2]发明一种洗手监测装置,该装置使用传感器检测到手部后,执行洗手响应,记录使用者的信息并上传至终端。2020年5月,杉村由花等人[3]研发出一种基于视频的通用行为分析系统Actlyzer,该系统无需大量训练数据,可以快速进行部署,同年被扩展应用于洗手动作识别。Llorca D F等人[4]提出了基于支持向量机的洗手识别系统,该系统使用颜色和运动分析进行手部区域分割,以双手相连或分开这两种状态判断使用者是否在洗手。本文对ResNet34网络进行改进,提出了一种洗手动作实时识别方法。
2 洗手动作识别
2.1洗手动作识别模型
本文在编码阶段以ResNet34网络为基础,结合卷积块注意力模块进行改进,本文网络模型包括编码器、解码器和分类器三部分。编码器由提取网络由改进后的残差结构构成。解码器由平均池化层、Dropout层和全连接层构成。平均池化层和全连接层对特征图进行下采样,减少网络模型的计算量,Dropout层对上一层参数进行随机丢弃,增加网络的健壮性。分类器采用SoftMax分类算法,对网络模型识别的准确性进行调整,输出识别结果。
2.2 残差结构改进方式
Woo S等人[5]提出的卷积块注意力模块是一种结构简单、性能优异的注意力机制,由通道注意力模块和空间注意力模块构成。
He K等人[6]提出了残差学习网络,它改变了神经网络越深,学习效果越好的观念,该网络使得网络层能根据其输入来学习残差函数而非原始函数,基本组成单元是残差结构。该结构由自上而下进行卷积运算的主分支与卷积核为1×1的捷径分支两部分构成,捷径分支只改变特征图维度,不改变特征图的尺寸。当输入残差结构的特征图F维度为256时,卷积运算不对特征图F的维度进行扩展处理,只是将运算结果的输出维度设置为512。
改进后的残差结构结构图如图1所示。CBAM模块的位置在主分支与捷径分支进行和运算之前,卷积核为3×3的网络层之后。该结构由自上而下进行卷积运算的主分支与不进行卷积运算的次分支两部分构成。次分支在反向传播的计算中不参与主分支的权重路径,这使得主分支的权重参数与没有过经过梯度衰减的权重相加,可以达到抑制过拟合的效果。在残差结构中加入CBAM,可以对模型参数进行微调,使特征图中的重要信息在通道和空间维度上被网络关注。
3.1 實验环境与评价指标
本文设计的洗手动作识别方法在Windows10系统下搭建,硬件平台配置如下:CPU为Intel(R) Core(TM) i7-7700K,内存为32GB;GPU为NVIDIA GTX1080TI;2K网络摄像头;显示器:Lenovo LT2024wA。
洗手动作识别的本质是一个分类问题,因此本文采用了准确率(Acc)、洗手动作的平均查准率(Pavg)、平均查全率(Ravg)、平均特异度(Specificityavg)、平均调和平均数(F1avg)和参数量(N)为评价标准。准确率(Acc)表示分类模型正确分类样本类型的能力。
3.2 算法对比与分析
本文选取的ResNet、Vgg、MobileNet V2和EfficientNet模型与本文提出的洗手动作识别模型做对比,各个模型采用相同的数据处理方式和硬件条件进行训练。实验结果如表1所示。表中,Acc表示各个模型在数据集中的准确率; Pavg表示洗手动作的平均查准率;Ravg表示平均查全率;Specificityavg表示平均特异度;F1avg表示调和平均数的平均值。
各个模型在本文数据集上的实验结果如表1所示,在准确率ACC和调和平均数F1avg方面,ResNet34的准确率高于深层网络VGG16、MobileNet v2,略高于EfficientNet-B0网络。由于本文数据集的训练样本小,深层网络模型的结构过于复杂,训练时的过拟合现象较为严重,在训练效果上反而不如网络层数较少的ResNet34,但是相对于只有18层的ResNet18网络,其结构过于简单又不能较好的拟合特征信息,因此ResNet34达到了最好的效果。本文模型准确率为71.9%,各洗手动作查准率与查全率的调和平均数的平均值为0.675,比EfficientNet-B0、MobileNet v2、VGG16、ResNet34、模型提高了2.4%、9.3%、17%、1.3%。
本文以洗手动作为研究对象,对ResNet34进行改进,将其应用于洗手动作识别任务中。实验结果表明,这种神经网络模型的性能优于其他识别网络。本文提出的模型参数量较原网络,参数量有所增加,这使得模型在时间效率上有着较大的优化空间;受数据集样本数量的限制,后期训练时过拟合问题对识别准确率依然有着较大影响,这两方面有待进一步的优化。
参考文献:
中华人民共和国卫生部. 医务人员手卫生规范:WS/T313—2019[J].中华医院感染学杂志,2020,30(05):796-800.
邢政,谢迎春. 洗手监测方法、洗手监测装置及电子设备. CN110796836A[P],2020-02-14.
杉村由花, 内田大輔, 鈴木源太, 等. 映像から人の様々な行動を認識する 「行動分析技術 Actlyzer」[C]//人工知能学会全国大会論文集 第 34 回全国大会 (2020). 東京都: 人工知能学会, 2020: 4Rin157-4Rin157.
Llorca D F, Parra I, Sotelo M Á, et al. A vision-based system for automatic hand washing quality assessment[J]. Machine Vision and Applications, 2011, 22(2): 219-234.
Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV). Munich: ECCV, 2018: 3-19.
He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. New York: IEEE, 2016: 770-778.
作者简介:胡志明(1995—),男,汉族,沈阳工业大学信息科学与工程学院硕士,主要研究方向为智能信息处理,辽宁省凌源市人。