基于视觉增强检测的车间人员数字孪生模型快速构建方法

2021-03-16 08:57刘庭煜孙毅锋孙习武刘晓军
计算机集成制造系统 2021年2期
关键词:车间卷积准确率

刘庭煜,张 培,刘 洋,孙毅锋,孙习武,刘晓军

(1.东南大学 机械工程学院,江苏 南京 210096;2.南京理工大学 机械工程学院,江苏 南京 210094;3.上海航天设备制造总厂有限公司,上海 200245)

0 引言

随着时代的发展,以互联网信息技术和工业生产不断融合为代表的智能制造技术发展迅速。数字孪生作为将制造信息物理融合的关键“粘合剂”逐渐被人们重视,该技术使用数字化手段,将多维度、多尺度的虚拟化模型与现实物理世界深度融合,使二者相互映射、相互影响。目前,已有不少研究成果采用信息传感器网络,将产品设计、生产、制造等全生命周期中的多源数据融合,构建产品数字孪生模型[1],并应用到数字孪生车间[2-3]。

车间人员数字孪生技术的研究可以从宏观和微观两个层面展开:宏观上,忽略人员的具体行为,将人看作运动的质点,主要关注其在车间内的位置、分布和活动轨迹等信息[4];微观上,重点解读人员的肢体动作等信息,针对具体工位的具体人员行为特征进行识别与分析[5]。从宏、微观两个角度构建生产车间数字孪生模型,可以实现车间内人员数量、行为的多维度虚实映射。

车间是制造活动的执行基础,车间内的工人和制造资源是车间的基本组成单位,将人工智能技术有效地应用到制造车间,是“工业4.0”和“中国制造2025”等先进制造模式对智能生产和智能工厂的新要求。人作为车间管理五要素(人、机、料、法、环)中的关键一环,在车间生产过程中,人员活动具有主观能动性和高度不确定性。因此,对车间人员的监管一直是车间生产活动中较为困难的一环。在航天某些高危产品作业车间,出于安全考虑,往往对生产作业过程中的不同区域、不同作业环节、不同生产工序的人员数量和密度分布有着严格的要求,局部人员过密可能造成灾难性的安全事故,严重威胁车间生产人员的人身安全。目前,主流的监管方式是使用摄像机全时录像并安排专员监视,但是利用海量监控图像进行实时监管容易让监控人员疲于应付,难以实现全局全时高效管控。因此,基于计算机视觉实现人员数量等宏观行为的智能管控具有重要的实际意义,既可以保障安全生产,又可以提高生产效率。

自2012年AlexNet[6]算法在ILSVRC(ImageNet large scale visual recognition challenge)竞赛图像分类子赛道中取得优异的成绩后,深度学习(deep learning)作为深层神经网络的代名词被大家所熟知。随后几年,国内外研究者相继提出了如RCNN[7]、GoogLeNet[8]、ResNet[9]、YOLO[10-13](you only look once)、特征金字塔网络(Feature Pyramid Networks,FPN)[14]等一系列优秀的通用目标检测框架。然而自2017年至今,卷积神经网络(Convolutional Neural Networks,CNN)的发展速度逐渐减慢,之前的文献大都提出一个又一个全新的主干网络(backbone),其网络结构变化多端,检测效果提升显著;近年来,研究者提出的基本都是一些“即插即用”的轻量级模块化结构,如更新数据增强的方式、在网络的某两层之间加入一个小结构、更换一个全新的激活函数或损失函数、添加数据后处理等。

2017年,Zhang等[15]提出创新性的数据增强方式,随机抽取两张图片,修改其透明度并按比例叠加在一起,形成一张新的图片,该图片的分类结果也按相应比例进行分配。Devries等[16]在此基础上提出Cutout方式,即用一个固定大小(8×8 pixel或16×16 pixel)的纯色(默认黑色)正方形随机覆盖在图片上,使CNN不仅限于局部特征,还会更多地用到整幅图像的全局信息。2019年Yun等[17]提出的CutMix综合了上述两种方法各自的特点,将Cutout被黑色抹去的部分用另一个随机选取图片的像素块进行填充,将所形成的新图片的分类结果也按一定比例分配。CutMix使神经网络能够从一幅图像的局部视图上识别出两个目标,因此定位和分类更加准确,训练效率明显提高。

继ResNet将残差连接的概念引入CNN后,与之对应的稠密连接也被证明能够提升网络的表达性。2017年Huang等[18]提出的DenseNet借鉴了ResNet的short cut连接,不同的是ResNet只将前后两层卷积层连接在一起,而DenseNet将所有卷积块(block)都连在一起,每一个卷积块的输入都来自前面所有卷积块的输出。这样做有以下优点:①网络更窄,参数更少,减少了计算量;②减缓梯度消失,有利于搭建更深的网络结构;③有正则化效果,抑制过拟合。

Momenta团队[19]提出的SENet以大优势夺得了2017年最后一届ILSVR竞赛图像分类子赛道的冠军。SENet主要考虑了特征通道之间的关系,其可以在任意卷积位置加入,以此增加通道之间的信息交流,在基本不增加计算量的前提下提高了网络的识别准确性。

2019年提出的跨阶段局部网络CSPNet[20]在DenseNet的基础上进行改进,其将特征图在两个方向进行分裂,即一个dense block和一个过渡层,然后由一个跨阶段的层次结构将二者合并。通过这种切换、连接和转换,被传播的梯度信息产生了较大的差异,大大减少了计算量,提高了前向传播的速度和准确性。

鉴于此,针对车间内复杂场景下的目标检测问题,本文提出一种自适应车间人员识别网络(Adaptive Rec-network),并基于HITL对过时的权重进行更新,以增强车间人员的检测效果,为构建车间数字孪生模型提供数据支持。

1 车间人员自适应识别网络

本文在Yolov3经典结构的基础上,结合车间实际使用提出一种Adaptive Rec-network,其核心结构如图1所示。下面针对各模块结构及其功能进行详细阐释。

1.1 ResNet残差网络

理论上随着训练轮数的增加,传统神经网络的错误率会逐渐降低,但实际情况是,到训练后期,增多轮数反而会使错误率逐步增大,这便是“退化问题”,即深层网络准确率不如稍浅层网络的性能。ResNet很好地解决了这一问题,其创新性地提出了抄近道连接(short cut connection),是对当前残差进行学习而不是对整个得分进行预测,如图2所示。

这种针对残差进行学习的思想便是ResNet的精华。随着网络深度的增加,学习越来越难,学习效果开始出现波动。当本轮结果提升时,已有得分继续提高;当本轮结果下降时,舍弃本轮结果,继续执行后续过程,即负结果全部舍弃,正结果全部保留。因此,ResNet很好地解决了随着网络深度的增加,越来越多负结果累加导致错误率上升的问题。

通过引用这种结构,Adaptive Rec-network网络的深度为118层。图1上部虚线框的ResNet结构的具体参数如表1所示。

表1 ResNet结构参数

1.2 特征金字塔网络

FPN实现了不同特征层之间的信息交流,使原本仅能使用一次的特征得到充分利用,通过多次预测来增加样本的精确率和召回率,使模型预测更加准确,其结构如图3所示。

从表 1第25行、21行和17行末尾可以看出,参与FPN的3个特征图的大小分别是17×11,34×22,68×44,FPN的运行机制为:

(1)直接对17×11的特征图进行第1次预测,随后进行上采样,使用直接复制的方式进行填充,最终放大两倍变为34×22大小。

(2)将其与第21行的34×22特征图按位求和,得到新的34×22特征图,用该特征图进行第2次预测。

(3)与第25行68×44的特征图进行上述重复操作。

由此,可以重复利用第17行和21行的特征图进行3次预测,而且特征图之间进行了直接的信息交流,提高了预测的准确性;另外,特征图从下到上无卡顿、无等待直接生成,最后3次预测按照并行的方式生成检测结果,这也提高了网络的运行速度。

1.3 SE强化重要特征

FPN从卷积层和卷积层之间的信息交流为切入点,提高了识别准确度。本文引入SE(squeeze and excitation),表示压缩和激发两个过程,旨在通过卷积层内部不同核之间的信息交流进一步提升识别准确度,具体运行方式如图4所示。

图4清楚地展现了SE模块如何进行卷积内部信息交流:

(1)针对大小为W×H×C的卷积U,将其沿厚度方向切分成{u1,u2,…,uc}共C片W×H的核。首先对各片核进行全局平均池化(Global Average Pooling,GAP)操作:

(1)

即将每片核的所有数字相加取平均,最后只得到一个数字(zc),该数字在某种程度上代表这一片卷积核的特点。式中用FGAP表示将uc转换为zc的映射关系。

(2)将(1)得到的{z1,z2,…,zc}共C个数字与全连接层相连进行信息交融,然后将结果进行ReLU线性激活:

tc=δ(ω1·zc)。

(2)

式中δ表示线性激活函数。

(3)上两步由多转为一的过程便是压缩(squeeze)过程。此时,各通道间可以进行信息交流,下面需要将这种信息映射回去,对卷积的重要特征进行强化激发(excitation)。

(4)进行(2)的逆过程,恢复为{s1,s2,…,sc},随后将结果用Sigmoid非线性激活:

sc=σ(ω2,δ(ω1·zc))=σ(ω2·tc)。

(3)

式中σ表示非线性激活函数。

(5)将初始卷积的各核分别乘以与其对应的sc,得到大小为W×H×C的新卷积核V。

vc=Fscale(uc,sc)=ucsc。

(4)

式中Fscale表示将uc,sc转换为vc的映射关系,由此完成压缩与激发。SE模块的特点是即插即用,虽然中间引入全连接层进行信息交融,但是其先将每一片核的诸多数字压缩到1位,再进行全连接运算,几乎不产生额外的计算量,却能够强化卷积内部的重要特征,舍弃无用特征。

1.4 RPN增强检测框宽高比

针对检测框宽高比,可以直接采用1∶2.5的单一宽高比,然而这种固定宽高比的检测框显然不能完全覆盖车间可能出现的所有情况,造成检测准确率下降。为此,本文采用K-means++聚类的方法,通过统计分析得出适用于车间数据集的宽高比和适用于车间数据集的检测框大小。

K-means++聚类方法是经典K-means聚类的优化版,其针对经典K-means因初始中心选择的随机性导致结果不稳定的问题进行改进,一步步择优确定K个初始中心,使最初的K个初始中心相隔较远,最终使聚类结果稳定。K-means++聚类步骤如下:

步骤1计算数据集中标签的宽高比,比值存入csv。

步骤2从csv中随机选取一个样本,作为初始的聚类中心C1。

步骤4重复步骤3,直到选出所有K个聚类中心。

步骤5针对csv中每个样本xi,计算其到当前已有K个聚类中心的距离,并将其分配到与之最近的聚类中心所属的类。

步骤7重复步骤5~步骤6,直到所有K个聚类中心的坐标不再变化。

为了选定最优的K值,本文进行了12次实验,分别令K=1~12,将K-means++统计出的比值映射回数据集,并进行Avg IOU计算,结果如表2所示。

表2 选择最合适的K值

图5中横坐标表示K的不同选值,纵坐标表示与K值相对应的Avg IOU。可以看到,随着K值变大,曲线变得逐渐平滑,表示神经网络检测效果的提升越来越不明显,K值增大也意味着神经网络的计算量线性倍增。综合考虑Avg IOU与计算量,最终选取曲线变平滑的第一个K值,即K=3,宽高比比值如表2第3行所示。

1.5 锚点框加速搜索

对于检测图片来说,传统的选择性搜索(selective search)会采用先验检测框在图片上滑动并裁剪,每张图片都重复该过程。其实只要图片大小和滑动步长相同,两次滑窗划过的位置和裁剪的区域完全一样,就没有必要每次都进行计算。锚点框(anchor box)从这一点出发,在第一次滑动时就将被裁剪的坐标统一存入一个矩阵中,然后对每张输入图片按照矩阵中的坐标直接一次性获取全部裁剪区域。

经过1.4节已选取出{2∶1,1∶1,1∶2.5}3个宽高比的检测框,下面需要进一步选择框的大小,使预测框面积尽量和车间数据集吻合,以提升检测准确率。将数据集中上述3种比值的检测框分别进行汇总计数,图6所示的柱状图是宽高比为2∶1检测框的数量统计情况,图中横坐标为框的宽度(单位:pixel),纵坐标为相同宽度检测框的数量和。

由图6可见,宽高比为2∶1的检测框在3处柱状位置(49~65,105~125,217~233)达到数量的众值。图中剩余两条折线是按照相同方式分别对宽高比1∶1,1∶2.5的检测框数量进行统计得到的,为便于区分直接用折线图描述。同样,二者也分别在3个宽度范围内出现数量的众值,下面求解具体锚点框尺寸。

图7将图6中3条曲线的x坐标分别按照0.5,1,2.5的斜率统一放置在相同坐标系下。为了使预测框面积尽量吻合车间数据集,本文采用3条x·y=S的双曲线与3种比值的检测框数量的峰值区间拟合,发现x·y=1 600,x·y=6 400,x·y=25 600可以很好地代表车间数据集检测框的面积,分别求解3条双曲线与3条直线的交点,结果如表3所示。

由此求解出锚点框的具体数值。锚点框在1 088×704图片中的真实大小如图8所示,从图中可以看出,经过统计分析求解出的锚点框坐标可以很好地对车间数据集中的工人进行包围。

1.6 人在回路增加网络的自适应性

人在回路(Human in the Loop, HITL)的原本意义是:武器操作员在经过第一次指令输入后,仍有机会进行第二次或不间断的指令更正。本文对其引申表述为:具备管理员权限的操作人员在发现权重检测效果下降后,可以人为干预网络识别结果,修正后的结果将被视为新的正、负样本存入服务器,等待在非工作时段网络自动开启自我修正程序,达到自动适应车间变化的异步更新效果。作为一个独立的辅助模块,HITL存在与否不影响识别网络的正常工作,只会在必要(管理员干预)的时候于非工作时段训练识别网络。HITL的工作机制如图9所示。

表3 选择最合适的K值

为减轻管理员的工作量,神经网络在工作时段检测目标的同时也会自动且不断地分析其检测结果。以30帧图片为周期,帧序列不断到来,神经网络不断检测,并将检测框标注在图片中。Δ=4 pixel是人为设置的超级参数,由于摄像头固定不动,且人员基本不会保持完全静止,如果某检测框的上中心点坐标在一段时间内保在半径为4 pix的圆内波动,则将被计数,一轮周期结束后,如果某坐标点的出现率达到(包含)60%,则该检测框极有可能是非人的误检对象,本轮结果将存入数据库等待管理员定夺。

HITL的工作界面如图10所示,主要由图像、复选框、画布和提交按钮组成。HITL程序首先会读取图片,并将该图片的包围框、上中心点、方框编号相应地标注在图片上。管理员需判断图片中所有检测框的正负性,如果有正样本(人员)遗漏,则勾选“添加正样本”按钮,然后直接在画布内框选出所有人员。点击提交按钮后,程序自动将该图片、正负样本坐标、手动新增的正样本坐标一并存入数据库,同时向计算机写入指令,就近选择非工作时段自动执行权重更新任务。

当到权重更新计划的预设时间点时,训练开始,每100轮保存一次新权重。结束训练的条件有3点,满足任意一点即停止训练:①损失函数下降到预设阈值(本文选择0.25),表示训练完成;②损失函数出现震荡,表示训练进入瓶颈,无需继续训练;③距离员工上班时间不到40 min,为保证工作时段检测网络正常运行,应立即停止。

训练结束后,执行收尾工作,即删除训练中间过程文件、释放资源、将新权重移至工作目录并重命名、将旧权重回收至指定目录下等。等到工作时间点,检测程序被自动唤醒,新权重上线工作。

2 实验验证

已有的三阶段级联卷积神经网络(3-Stage Cascade Convolutional Neural Networks,3-Stage CCNN)[4]在车间数据集上的检测速度为8帧/s,准确率达到79.08%。为了验证Adaptive Rec-network网络的效果,本文与3-Stage CCNN一样,同时在Caltech Pedestrian[21]和本课题组车间生产人员数据集[4]上设计实验对效果进行验证。

2.1 验证集对比分析

Caltech Pedestrian是目前最大的行人检测数据集,其由11个文件组成,图片分辨率为640×480,视频帧率为30 fps,持续时长10 h,摄像头固定在一辆行驶中的轿车上,沿途经过各种街道、闹市区、行人密集的场合等。该数据集最后公开了约250 000帧、2 300位不同行人、350 000个标注框的数据集。

火工品生产车间是Adaptive Rec-network的应用场景,采用车间内高度约8m、俯仰角一致的19个摄像头同步采集车间视频数据,预处理后的图像分辨率为1 088×704,通过人工标注的方式建立车间数据集。图片总数为13 420张,包括30 000多个标注框,数据集图片包括不同程度的遮挡和光照变化。

在使用这两个数据集分别对神经网络进行训练时,数据集按照训练集∶测试集∶验证集=8∶1∶1的比例进行划分,数据集对比如表4所示。

表4 Caltech数据集和车间数据集对比

下面采用消融实验,从网络准确率和检测速率两方面对比Adaptive Rec-network网络和3-Stage CCNN网络的性能,并分析出现该结果可能的原因。

2.2 消融实验验证自适应网络的性能

2.2.1 FPN金字塔层数设置

如表1和图3所示,本文分别将网络17×11,34×22大小的特征图上采样,共进行3次并行预测。为了验证FPN不同层数对网络检测效果的影响,本文设计了FPN层数的消融实验,分别将层数设置为0,1,2,3层(即网络并行预测1,2,3,4次),如图11所示。其实验结果如表5所示。

表5 FPN金字塔层数消融实验结果

分析结果,得出如下结论:

(1)随着FPN层数的增加,检测准确率逐渐上升,上升逐渐变缓;检测速度逐渐下降,下降逐渐变快。

(2)因为Caltech数据集的目标框普遍偏小,大尺度特征图一般负责小目标检测,所以FPN层数越多,大尺度信息利用得越多,在Caltech数据集上的表现越好,准确率越高;而车间数据集目标框普遍略大于Caltech数据集,小尺度特征图负责大目标检测,因此0层FPN结构在车间数据集上的准确率大于Caltech数据集。随着层数的增多,对车间内小目标的检测准确率逐渐上升,整体准确性呈上升趋势。

(3)如前所述,由于Caltech图片较小,其计算量少,运行速度快,然而随着FPN层数的增多,运算量增加,检测速率降低;车间数据集图片的大小约为Caltech的3倍,其计算量大,速率普遍低于前者,随着FPN层数的增多,其检测速率也逐渐下降。

综合考虑准确性和检测速度,本文选择2层FPN特征融合的方案,其具体结构及连接方式已在1.2节叙述。同时,注意到3-Stage CCNN在两个数据集上的准确率和检测速度均劣于Adaptive Rec-network网络,下面从网络结构的角度解释该结果。

3-Stage CCNN的作用机制如图12所示,其为一种串行运行结构,网络深度为34层;整体采用3个阶段级联的方式运行,即前一阶段的输出为后一阶段的输入,将第3阶段的输出作为最后的结果;检测框采用1∶2.5的固定宽高比,比例单一。而Adaptive Rec-network引入了ResNet结构,网络深度增加到118层;FPN使3次检测能够并行执行,特征之间融合能够提取更多有效的信息;SE则增加了卷积层内部的信息交流;多尺度的锚点框能够更好地覆盖车间人员的比例。这些结构上的升级叠加在一起,最终不论在准确率还是检测速度上,Adaptive Rec-network均优于3-Stage CCNN。

2.2.2 SE模块效果验证

SE模块作为即插即用的模块存在于复合卷积单元中,为验证其对准确率和检测速率的影响(如图13),本文将初始复合卷积单元记作origin,将去除SE模块剩下的复合卷积单元记作beta,分别将上述两个单元替换进入主体网络部分,以此测试SE模块对网络准确率和运行速度的影响。实验结果如表6所示。

表6 SE模块对网络准确率和运行速度的影响

分析表6可知:

(1)在两个数据集上,origin单元比beta单元的准确率高出约1.2%,检测速度平均慢约0.8帧/s,即提高准确率的同时,速度几乎不受影响。

(2)模型尺寸上,origin单元比beta单元大约16 MB。

2.2.3 人在回路适应性研究

为检测基于HITL的Adaptive Rec-network网络对车间变化的自适应性,笔者从2019年3月起开始进行对比试验,分别于6,9,12月和2020年7,10月(2020年1~6月受疫情影响未能实验)共进行了5次适应性实验,即更新过5次权重。

(1)月评测数据集 为了评估网络准确率,在上述时间内将所有摄像头按工作时间每小时保留一张车间实时图片,这些数据以月为单位进行汇总,并人为标注检测框,作为月评测数据集。19个摄像头的每日工作时间按8∶00~18∶00算,一天190张图片,每月约5 700张图片,此即为月评测数据集的样本容量。

(2)评测方式 为了对比执行HITL前后的检测效果,自2019年6月第一次更新权重起,每次评估都将现有的所有权重分别在该月的评测数据集上进行测试,以此对比新老权重对车间现状的平均检测准确率(mAP)。Month-mAP曲线如图14所示。

(1)左数第一个柱状表示2019年4月中旬,产品订单发生改变,车间布局、背景等发生较大变化。

(2)左数第二个柱状表示北方天气变冷较早,从9月起,车间员工衣着开始出现变化,由原来的夏常服逐渐变为冬常服。

(3)左数第三个柱状表示2020年上半年,受疫情影响,工厂停工。

下面对曲线进行分析:

(1)图中的最下方折线是最初运行的权重,随着时间的推移,其整体走势呈下降趋势,且上述3次改变对其均造成较大影响,准确率下降较快。

(2)在图中左数第二个柱状位置,员工工作服出现更替,因为在原本的训练样本中并没有该类衣着数据,所以对网络检测效果产生冲击,图中位于该区间内的3条曲线均有较大下降;然而随着时间推移到2020年,同样是9~10月,由于此前已经经过4次HITL的干预,权重已经适应了这种衣着的改变,此时衣着更替并未对网络效果造成冲击,曲线正常波动。

(3)图中黑色箭头所指的位置为HITL进行干预之处。权重更新完成后立即上线,检测效率跳跃式回升到与之前相似的水平;观察5次HITL的初始准确率,大体趋势是沿着图中黑色虚线逐次升高,且每条曲线的下降趋势逐渐变小,原因是样本不断增多,原本无用的特征被舍弃,重要特征的占比逐渐增加,网络能够更好地适应车间检测的要求。

由此得出结论:HITL可以通过打补丁的方式提升检测效果,以此补救因训练样本片面、样本量少、环境变化剧烈而造成的权重过时问题。

3 结束语

本文针对车间人员增强检测的数字孪生模型快速构建问题,从宏观层面出发,重点提出车间人员自适应识别网络Adaptive Rec-network,为获取人员位置进而构建宏观层面的数字孪生模型提供数据支持,而且设计了实验,将Adaptive Rec-network与已有3-Stage CCNN网络进行了对比,结果表明,Adaptive Rec-network不论在准确率上还是速度上均优于3-Stage CCNN。然而,该网络仍然留有改进和提升的空间,今后的研究将把重心放在以下几个方面:①改进网络模型,提升检测效率;②进一步探究网络如何自适应不同光照,不同背景下的检测工作,提高神经网络的鲁棒性,使得检测过程更加智能化。

猜你喜欢
车间卷积准确率
100MW光伏车间自动化改造方案设计
基于3D-Winograd的快速卷积算法设计及FPGA实现
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
从滤波器理解卷积
招工啦
高速公路车牌识别标识站准确率验证法
基于傅里叶域卷积表示的目标跟踪算法
“扶贫车间”拔穷根