刘春霞,高 强+,潘理虎,龚大立
(1.太原科技大学 计算机科学与技术学院,山西 太原 030024;2.精英数智科技股份有限公司,山西 太原 030006)
近几年,透水事故的发生率有所降低,所采取的方式是指派专职人员对探放水作业进行验收,通过监管探水作业从而杜绝透水发生。存在的问题是人工验收耗时长、效率低,所采集的数据资料不便长期保存[1]。鉴于深度学习和神经网络的快速发展和应用场景逐渐成熟,Tran等[2]提出的网络模型能够在大规模样本数据获取出泛化性的特征信息。Juanhui Tu等[3]将人体骨架信息点与3D卷积神经网络相结合,在时间域和空间域中提取特征,应用于增强区分捕获全局关系的时空特征信息。但由于训练过程参数量较多,极易出现过拟合现象。Chengjie Wu等[4]则在网络模型中加入时间语义信息的提取模组,对整个网络进行干预学习,能够将整个时序图像信息作出较为完整的提取。Kanav Vats等[5]引入结合长短期记忆[6](LSTM)的姿势序列变换和光流特征网络的双通道网络,将时间和空间特征信息提取后再按权重融合,能够获取完整特征信息。而这两种方法更侧重于理解上下文语义关系,在表达图像深层语义方面尚有不足[7]。
针对上述问题,提出一种融合交叉熵损失的3DCNN探水作业动作识别模型(water exploration action recognition net,WEARNet),以期利用分布式学习图像特征信息的方法,提高探水作业动作识别效率,从而解决人工验收探水作业效率低的问题。
在一般的网络模型的设计中,采用的是自主学习型的特征提取网络框架结构,将样本数据输送到模型后,利用隐藏层进行特征信息的提取,再将得到的特征信息进行全连接得到最后的学习结果。采用流程化的顺序特征提取网络模型,一方面能够在无监督的情况下完成学习过程,排除了人为因素的干预;另一方面则是采用卷积核提取信息时造成神经元被遗漏、搁置以及直接被坏死的情况,存在特征信息提取时神经元被利用率不充足的弊端。受到生物神经系统轴体信号刺激传递过程[8]的启发,设计出一种能够将特性信息点充分利用的网络模型,自行学习并能够调节学习深度,摄取到更多有用的信息点。具备有特点的信息元区域映射,得到关联性采集,能够把辨识度较差的信息二次更新利用,做到在模型训练过程中层层递进刺激性学习机制,让学习过程不再出现层层衰减的现象,使网络模型在进步中强化学习,以挖掘到更多的信息,基本结构如图1所示。
图1 基本结构
本文工作主要致力于得到最优网络模型,对非线性化函数选择及使用和改善模型训练效率,得到真实一致性图像特征信息图[9],最接近实际地对特征进行描述。
本文所提模型WEARNet共由3个部分构成,共使用了4层3D卷积层来进行特征提取。对于三维卷积神经网络而言,在学习训练过程中产生的参数量是呈指数增长的,参数数量的急剧上升很有可能会造成特征网络图的梯度直接消失,那么再获取较为细致的特征信息就显得较为困难。所以,在本文模型中引入了两种层次化函数ReLU函数和SoftMax交叉熵损失函数,并且在模型中先使用ReLU函数进行线性化再使用SoftMax函数。原因在于,根据两种函数的机理过程分析可得,ReLU函数是一个主线向前的非线性化过程,如果不先使用ReLU函数,那么就会造成特征信息图加载过多无用的数据,网络模型的收敛状态瞬间就会达到稳定,后面的卷积层也将不再起作用;相反,如果使用过多的ReLU函数,特征信息图又会显得过于稀疏,特征丰富度也随之下降。而在ReLU函数之后使用SoftMax函数,赋予每一个神经元概率值,让其进行区间划分,得出可能值后再进行学习,会使得影响较大的信息得以保留,既保持了梯度的完整性,又兼顾到特征图的丰富度[10]。
WEARNet模型中的第一部分和第二部分都属于特征提取部分,网络结构都采用卷积之后再池化的学习步骤,共计4轮循环过程,而第三部分为特征全连接过程,产生三维特征信息图。
第一部分见表1,卷积核大小为3×3×3,数量为32,主要聚焦于对全面信息点的捕获摄取,对大范围的特征信息进行初步筛选,深度还较浅,这一部分也是为第二部分打下基础,将深度节点记录并反馈给下层网络。第二部分见表2,和第一部分不同的是将卷积核数量增加了一倍,主要进行强化学习,作用于局部潜层信息域,深入提取到更丰富的特征信息。
表1 第一部分网络
表2 第二部分网络
最后部分,见表3,是模型的特征全连接部分,经过全特征拼接出相应数据集的4类动作特征响应图。
表3 特征连接网络
在经过卷积操作之后,采用ReLU函数[11]对特征进行非线性化,对卷积之后的数据进行运算,层次化后的效果表现为特点较不明显的信息元暂时被搁置,只留下较明确的信息,如下方法
(1)
在上述式(1)中,x表示的物理量为特征映射素点[12];即信息点非映射关联输出则为0,其余情况输出则为线性化。此函数过程的作用是将信息特征呈现梯次表达,避免在卷积过程中出现弥散现象。本文所建网络模型中使用了两层ReLU函数,考虑到该函数作用于整个信息区域,如果使用过多的ReLU函数,会引起网络梯度下降过快,出现信息元还未被学习到就直接流失的情况。
在网络前两部分的第二层卷积层之后加入SoftMax交叉熵损失函数,对所得特征信息进行分类回归拟合,对不同信息元进行概率值化,按照动作的特点完成特征提取,在赋予神经元一定程度信息标记后再进行学习,从而加深网络模型的泛化力度,如下方法
(2)
(3)
(4)
在式(2)中θ1,θ2,…,θk代表的是模型偏量数值,其维数则对应于所分类的数量[13]。式(3)是k类特征神经元分配概率值的过程。在式(4)中,x是特征信息元集合,hθ(x(i))是输入x(i)时对应归属类别的概率矩阵,p(y(i)=k|x(i))表示归属类别为k的概率值,而对于本文数据集,类别数k=4。根据该函数计算过程的机理,将其引入到本文网络模型中,是为了对信息神经元进行值化后产生类效果,能够在训练过程中被充分利用,让信息元具有特征属性后再被学习。
在深度神经网络结构中,学习训练时都会对图像产生分布偏移,数据点在层层卷积后已不再保持原态,特征信息的提取造成困难。如果,能对发生偏移的神经元进行归一化[14]处理,让网络建立新的数据分布[15],使得层与层的运算后不会产生较大误差,使其保持相应的真实度,则摄取特征信息的效率随之会有所加强,学习训练的质量也有所提升。归一化过程方法如下
(5)
(6)
(7)
(8)
批量归一化层是以批次为计量单位处理的数据信息元规则化的运算过程,式(5)是本批次期望值μβ的计算过程,式(6)是方差σβ的计算过程,利用式(7)做整体运算,得出归一化运算结果,ξ是式子运算的极小常数,之后再利用式(8)对式(7)得到的结果进行变换,其中γ和β是可学习的两个参量,分别表示缩放度和平移量[16]。采用批量规则化对神经元进行偏移纠正后,网络特征图则会更加清晰。
本实验过程主要采用Python语言搭建模型框架,采用Tensorflow训练框架,16 G内存,GPU为NVIDIA RTX 2080Ti,图形加速工具为CUDA 10.0。
通过与煤矿安全相关的互联网公司合作,在山西某煤矿生产基地组织实施实验工程,利用高清录像机进行井下探水作业过程录制采样。而且为了保证样本数据的多样性,又兼顾到视频拍摄的角度和人体姿势的变化,共录制了9个不同采煤区的探水作业视频,最后筛选出45到50段特征性较强的样本,共计有410段数据样本。
经过对自制数据集中的探水作业动作研究分析,可把探水作业过程看作分解动作的连续,根据动作特点将其分为4个部分,如图2所示:①扳手拧杆:操作员行走至钻机头部拧开钻杆(图2(a));②转身拿杆:操作员将旁边的钻杆拿起并摆放到合适位置(图2(b));③匹配并固定钻杆:操作员将已经摆放在合适位置的钻杆与钻机拧合(图2(c));④拧开水龙头:操作员转身移动到水阀位置后打开水阀(图2(d))。
图2 4类作业动作
图3 训练识别过程
3.4.1 加入不同数量卷积层实验对比
首先做了关于卷积层数确定的实验,实验结果如图4所示,折线A-acn、B-acn、C-acn分别对应3层、5层和4层卷积层。从实验结果可得,使用4层卷积层的模型拟合效果较好,能够有效避免训练时出现过拟合和拟合不足等问题,较为适中,同时采用4层卷积层也不会使得训练周期过长。分析其原因,卷积层的使用主要在于特性信息的提取,产生数据量较大,如果使用较多的卷积层,则会造成数据量暴增,此时梯度也会随之消散,模型过早拟合;而如果使用较少的卷积层,训练学习的强度又会达不到,不利于深层信息的提取。
图4 不同卷积层数迭代训练准确率对比
3.4.2 加入批量归一化层实验对比
其次做了关于加入批量归一化的实验,实验结果如图5所示,在加入归一化层后的网络模型的拟合效果有明显提升,在训练200次之后趋于平稳状态,识别精度已经达到90%以上;同时,收敛速度也有所提升,归一化也解决了训练周期过长的问题。
图5 加入BN层的迭代训练准确率对比
3.4.3 加入层级化函数实验对比
还做了加入层次化函数的实验对比,通过实验得出在模型中加入两种层次化函数的效果最好,实验结果如图6所示。折线rel-fun是在模型中只加入ReLU函数的效果反映图,从实验效果来看,只加入ReLU函数的模型会对信息元造成大量遗失,这种不利现象会引发特征提取的不充分;折线sof-fun是在模型中只加入SoftMax函数的效果反映图,会造成网络模型收敛速度过快,梯度消失的情况,不利于再进行下层特征提取;而折线art-fun是在模型中同时加入ReLU函数和SoftMax函数的效果反映图,是本文模型对非线性化过程的最优使用,在保证信息元不缺少和丰富度的同时,回归拟合符合深度学习评估,又能对其进行完整提取,能够达到模型设计的预期效果,使得在进步中不断地强化学习的思想得以体现。
图6 不同函数迭代训练准确率对比
3.4.4 本文算法性能验证
在对模型的框架确定之后,做了本文WEARNet模型对自制数据集的实验对比,主要关注的指标是各类动作的识别精确度、召回率和以及F1 Score,实验结果见表4。
表4 性能评价
最后,将本文WEARNet模型与目前较为优异的模型[17,18]在自制数据集上做实验对比,见表5。
表5 相同条件下各模型性能对比
从表5中可以看出本文WEARNet模型的识别精度高于其它模型,其训练效率也有较大提升。
文中针对矿井探水作业中人工验收效率低耗时长等问题,提出一种融合交叉熵损失函数的3DCNN探水作业动作识别模型(WEARNet),使用ReLU层级化函数和SoftMax交叉熵损失函数过滤掉部分模糊特征信息,选择较清晰的特征进行学习,从而挖掘出更深层次的特征信息;其次利用批量归一化层对特征图进行规则化处理,解决数据分布漂移问题,进一步增强模型的泛化能力;最后经过实例验证,模型具备较好的深层特征提取能力,算法的鲁棒性和训练效率有所提高。所提方法在自制数据集上识别精确率最终达到95.64%,从技术层面来说,本文所提方法能够使得智能识别验收探水作业的精确度有所提高,可应用于实际工程。