基于图卷积网络的数字孪生车间生产行为识别方法

2021-03-16 08:57刘庭煜孙毅锋杜小东刘晓军宋豪杰
计算机集成制造系统 2021年2期
关键词:关节点骨架车间

刘庭煜,洪 庆,孙毅锋,刘 洋,杜小东,刘晓军,宋豪杰

(1.东南大学 机械工程学院,江苏 南京 211189;2.南京理工大学 机械工程学院,江苏 南京 210094;3.中国电子科技集团公司 第二十九研究所,四川 成都 610036;4.中国电子科技集团公司 第二十八研究所,江苏 南京 210007)

0 引言

车间是制造业的基础单元,车间的数字化和智能化是实现智能制造的先决条件。数字孪生车间的提出及其后续的深化应用,为车间生产过程的高效管理提供了有效的理论和技术支撑[1]。数字孪生技术旨在采用数字化手段多维度、多尺度地虚拟化物理实体,构建物理世界和虚拟世界深度融合与映射的纽带,并基于虚拟模型对物理实体及其行为进行仿真、分析和优化[1]。要实现制造车间的智能管控,数字孪生模型的构建是不可或缺的关键环节。

与装备、产品等生产元素相比,人员在产品设计制造活动中尤为重要,其行为管控一直是车间生产活动的重点[2-3]。复杂机电产品生产车间通常具有规模大、工位多、环境复杂和关键工序高危等特点,人员行为的不确定性可能对车间的生产安全和生产效率产生重大影响。传统的视频监控方法很难精确感知和识别非接触式的人员行为,而可穿戴数据采集设备又很难方便地应用于复杂生产场景中,对车间的生产行为进行数字化描述能够更加高效地为数字孪生车间提供人机交互[4]和人员管控服务[5],提高车间的生产安全等级和生产效率。

传统的视觉感知任务一般基于普通的RGB摄像头,随着3D设备(如深度视觉传感器)的逐渐普及,3D视觉强大的表达能力(如对光照、尺度和旋转的高鲁棒性)使得基于3D视觉提取人体三维骨架关节点的行为识别技术得到了较大的发展。基于关节点的动作识别方法通常采用手工特征表示人体行为,继而结合机器学习方法(如支持向量机(Support Vector Machine, SVM))等进行识别[6-7],其中人体行为的手工特征设计过程有较高的难度,导致识别效果不理想。

近年来,深度学习技术不断发展,其在各领域已经超越了传统方法。基于骨架的行为识别深度学习方法主要有基于RGB图片的方法、基于向量序列的方法和基于拓扑图的方法3种,其中行为特征信息分别被表示成伪图像、向量序列和拓扑图。基于RGB图片的方法主要通过卷积神经网络对骨架坐标编码后的特征图进行识别[8-9];基于向量序列的方法依然将骨架帧序列看作时序上的序列,利用循环神经网络对行为进行分类识别[10-11]。这两类行为识别方法将人类关节视为一组独立的特征,通过聚合手工设计和学习特征来模拟关节点的时空相关性,但是忽略了人体关节点之间的内在关系,而以骨关节为顶点、以骨骼为边的人体骨架图能够更加具体地表达行为特征[12]。相对于普通卷积神经网络(Convolutional Neural Network, CNN),图卷积网络(Graph Convolution Network, GCN)在处理输入为拓扑图结构数据时的学习能力更强[13],因此采用GCN解决基于骨架图结构行为识别问题的效果更好[14]。

本文针对数字孪生车间人员生产行为的智能管控问题,构建人员特征虚拟化表达模型和生产行为识别模型,并将模型应用到数字孪生车间中,以实现对生产行为的智能感知与识别。首先,基于拓扑图结构和GCN原理,提出了一种人员数字孪生体特征结构和注意力GCN模型,通过设计骨架拓扑图特征构建人员数字孪生体;其次,将数字孪生体数据输入注意力GCN,自动提取人员行为特征信息,实现对数字孪生车间人员生产行为的智能识别。该方法对规范复杂车间生产过程,降低生产安全隐患,实现数字孪生车间人员行为的多维度多层次监控与感知,具有较为重要的研究价值和现实意义。

1 基于图卷积网络的车间人员行为识别总体流程

为了对生产车间中的人员进行直观、透明和实时地智能行为识别,助力数字孪生车间生产过程人员管控与人机交互,并减少甚至杜绝安全事故,本文设计了一套能够对车间生产人员进行数字化表述和行为智能识别的方案。该方案首先采用深度视觉传感器远距离采集物理世界人员孪生出的骨架关节点数据,通过构建注意力网络提取人员数字孪生体数据深层次的特征信息,对人员行为进行智能判别,帮助数字孪生车间更安全、高效地生产。

针对车间的生产行为识别,本文的总体实现方案流程主要包括人员数字孪生体构建及数据预处理、注意力GCN生产行为识别模型构建、算法实例验证与分析3部分,如图1所示。

(1)人员数字孪生体构建及数据预处理

鉴于骨架序列能够很好地表达车间人员的生产行为,采用深度视觉传感器内置的人体姿态估计算法[15]获取骨架关节点数据,并基于拓扑图结构构建人员数字孪生体。

在车间中对生产人员进行行为识别中,人员相对于深度传感器并非在同一个位置和角度,会对模型学习训练产生干扰。为消除人员位置和面朝方向对行为识别产生的影响,将骨架所在的绝对坐标系转换为相对坐标系,并对骨架数据进行旋转,使人员骨架在坐标系中的位置和面朝方向固定不变。

(2)注意力GCN生产行为识别模型构建

基于GCN原理和注意力机制,构建注意力GCN模型,通过GCN充分提取人员数字孪生体中的内在关联信息特征,并利用注意力机制重点关注人员行为的关键节点特征,实现对车间生产行为的识别。

(3)算法实例验证与分析

基于NJUST-3D生产行为数据集对注意力GCN模型、CNN模型的识别效果进行对比验证,证明了该方法的有效性和先进性。

2 车间人员孪生体构建与数据预处理

数字孪生车间中人员的孪生体构建目前仍然是难点,该任务需要对生产人员进行数字化表达。如果直接在车间关键工位部署RGB摄像头,采集彩色图像和视频数据,则数据量太大,不方便储存和处理,而且车间背景环境复杂多变,大幅增加了行为识别的难度。因此,采用人体骨架节点数据对车间人员进行数字化表达,以降低行为识别难度,并对人员孪生体数据进行预处理,提高识别模型的泛化能力。

2.1 车间人员数字化表述

如图2所示,基于人体骨架关节点[16-17]的车间人员数字化表述是从图片中提取人体的主要关节点,以人体关节点数据构建人员数字孪生体,从而代替图片以更低的复杂度表达人体姿态。

通常,依据人体骨架主要关节点的位置即可表达行为信息[18],人体骨架是以图的形式抽象描述人的肢体。实际上,人体骨架的关节点数据是一组坐标点,关节点坐标可以描述人员位置,关节点所构成的向量代表人员的骨架数据。其中,骨架中的每个坐标点称为一个关节,两个关节之间的有效连接称为一个肢体。

骨架模型通常由二维或三维关节点序列构成,本文使用的是深度视觉传感器KinectV2构成的三维骨架关节点序列,KinectV2设备获取到的人员骨架信息由25个关节点的x,y,z轴三维坐标数据组成。人员数字化描述通常的做法[9,11]是将所有关节的坐标向量串联起来形成每帧的单一特征向量,一帧中的原始骨架数据总是以向量序列的形式提供,每个向量表示相应人体关节的二维或三维坐标。然而骨骼关节的简单链状排列方式忽略了人体关节之间的运动相关性和空间结构特征,人体骨架类似于一个图结构,基于该图结构能够充分发掘25个关节点的关联信息,因此采用类似拓扑图[12]的结构来模拟这些关节点之间的连接信息。

利用图形成骨架序列的层次表示。每一个动作实例中的帧都有25个关节,这种具有体内连接的骨架序列可以看作为一个无向无环图,在其上构造无向空间时间图类似于图论中图的表述方法。人体骨架图可以表述为G=(joints,bones),其中joints={V1,…,Vn},n=25,为25个骨架关节点,Vi={xi,yi,zi},表示每个关节点的三维坐标数据,因此边bones为人体关节点自然连接的骨架。基于拓扑图结构构建的骨架图结构(即人员数字孪生体)如图3所示,各关节点所指的人体部位及其相邻节点信息如表1所示。

表1 临近节点对照表

2.2 人员数字孪生体数据预处理

为更好地对数字孪生车间人员的行为进行识别,针对人员数字孪生体数据提出以下数据预处理方案:

(1)对数字孪生体中的所有坐标进行平移,KinectV2获取到的数据坐标在以KinectV2为坐标原点的坐标系中,因为KinectV2相对于地面是固定的状态,该坐标系可以视为绝对坐标系,坐标系原点为KinectV2红外摄像头,z轴方向为KinectV2光轴方向,y轴垂直于KinectV2向上,x轴遵循笛卡尔直角坐标系。数据以这种原始坐标系的形式表达,人体距离KinectV2的相对方位对人体行为的描述其实是一种无用信息,使用这种原始数据会对模型训练产生干扰,不利于模型学习到有用的信息,因此将骨架在绝对坐标系上的表示转换为相对坐标系表示。为方便处理,且遵循对称的原则,选择臀中部关节点为坐标系原点,臀中部如图3中的点1所示,平移方法表示为:

(1)

(2)由于人员相对于深度传感器并非同一个角度,其在进行同一种动作时会以不同姿态面对深度传感器,后续行为识别模型可能会因学习这类干扰的姿态信息而降低识别模型的稳定性,为消除人员的面朝方向对行为识别产生的影响,需要对骨架数据进行标准化旋转,使人员骨架在坐标系中固定不变。具体方法如下:

使关节点0和1之间的骨骼与z轴平行,关节点8和4的骨骼与x轴平行。以旋转关节点0和1之间的骨骼与z轴平行为例,旋转轴为该骨骼与z轴的公垂线,旋转角度为其之间的夹角,变换公式如下:

(2)

其中旋转轴通过两向量叉乘得到。两向量的旋转角度可以通过反余弦求得,即

(3)

3 注意力机制图卷积网络生产行为识别模型的构建

在获取骨架关节点表示的人员数字孪生体后,为识别车间人员行为,本文提出一种融合注意力机制的GCN分类算法。该算法的核心思想是将行为骨架数据视作拓扑图结构,构建图神经网络并嵌入注意力机制,给出车间人员数字孪生体中不同节点的注意力。为此,使用一种融入注意力机制的图卷积技术,使该算法能够自适应地关注不同节点。

3.1 图卷积模块

近年来,虽然卷积神经网络取得了较大成功,但是卷积神经网络的处理数据主要是以图片为主的规则张量,对于不规则形状的非欧式空间数据,如拓扑图结构和序列类数据,卷积神经网络的适用性较差[13-14],很难在此类非欧式空间数据中学习到各子向量之间的内在关联信息特征,相对于CNN,GCN更擅长于提取此类特征[14]。

基于GCN针对图节点之间关联关系特征提取的强大能力,将其应用于关节点的行为识别,以人体骨架拓扑图G=(joints,bones)为例。图结构G是joints={V1,…,Vn}的顶点和bones⊆joints×joints的边缘的组合。设定n为关节点的个数,m为骨架边的个数。每个图可以由大小为n×n的邻接矩阵A表示,若关节点Vi到关节点Vj有一条边,则Ai,j=1,否则Ai,j=0。在这种情况下,顶点Vi在A中的位置是i行。因此,如果Ai,j=1,则Vi和Vj相邻。节点和边缘的属性可以看作是深度学习中的特征。

图卷积可以定义为[12]

(4)

式中:f表示特征映射;v为图的顶点;B(vti)表示节点vti对其邻域所有节点的映射;Zti(vtj)为临近节点的数量;lti(vtj)表示节点向其领域节点的映射;w为与原始卷积运算相似的加权函数,其提供了基于给定输入的权向量。然而,普通卷积操作的权向量数量是固定的,而B(vti)中的顶点数量是变化的,因此除以Zti(vtj)来消除这种不确定性的影响。

图卷积神经网络在卷积操作上相对于卷积神经网络有一定的变换,图4所示为一个节点的图卷积操作,图中节点及其所有邻域信息根据权重映射到该节点的高维特征,权重则由反向传播算法调整。CNN的非线性激活函数等操作仍适用于GCN[14],因此GCN具有卷积神经网络的很多性质,例如局部参数共享,感受野会随卷积层数的增大而增大,此时在高层网络参与运算的节点关联信息进一步增多,针对非欧式空间数据的特征提取能力更强。

3.2 行为识别模块

基于车间生产人员骨架信息的行为识别方法的本质在于对骨架序列的特征进行提取并分类,基于拓扑图论,本文将车间生产人员骨架节点信息视为一种图结构,即可把基于骨架序列的人员行为识别问题转化为基于GCN的分类问题。参考图卷积思想[12],设计如图5所示的图卷积模块,在卷积层后添加ReLU激活函数层,并在网络模型中添加残差结构,以防止因网络维度过高而出现梯度消失或梯度爆炸问题。

虽然采用图结构网络进行行为识别更加合理,但是图结构数据无法直接用作网络输入,同时由于目前主流神经网络框架中没有适用于图卷积的接口,只能采用卷积神经网络加上邻接矩阵并乘以权重矩阵的形式实现。在进行模型训练时,卷积操作中的各关节点信息只向连接着的临近关节点传播。因此,作为一个神经网络层,GCN层与层之间的传播方式为[12]

(5)

3.3 注意力空间卷积模块

车间人员的生产行为可以用人体骨架关节点坐标的一系列变化来描述。对于人体而言,不同行为使用的关节不同,例如拧螺丝时的手部关节信息比其他部位信息更加重要,而在车间行走时,腿部节点信息更加重要。因此,在生产车间行为识别中合理运用注意力机制[19]必然能够增强识别模型的可靠性。

使用嵌入注意力机制的GCN模块[13]能够学习各节点之间的关联信息,弥补预先定义的关节点邻接矩阵的不足,学习到的关联信息对不同层次和样本更具独特性,同时注意力机制在网络学习训练中能够自适应地针对不同行为类别关注不同的关节点,提高模型对不同行为类别的适应性。

因为不同的动作涉及不同的关节子集,所以参考并简化2S-AGCN[13]的注意力机制方法,在网络中嵌入注意力模块,使网络能够探索和利用不同关节在执行不同行为时的重要程度,从而为特征关节点内的各节点动态分配不同的注意力权重。该注意力机制采用编码解码网络结构,在解码层后加上Softmax层使得各信息的注意力之和为1,同时在网络中添加残差结构的分支,防止因网络层数过深而出现不稳定的现象。图6所示为加入注意力机制的图卷积模块,通过该模块可以进一步提取输入的图特征信息。嵌入注意力机制的图卷积模块输出公式为

(6)

式中:A为关节点邻接矩阵;W为图卷积操作;fin为输入特征;fout为输出特征。通过Softmax层后输出的n×n参数确定任意两个图顶点之间是否具有共现特征及其各自的权重,采用归一化嵌入高斯函数来计算两个顶点的相似度。

3.4 行为识别网络模型

行为识别网络总体结构如图7所示,图中网络前部包含8个注意力图卷积模块(GCN),每个模块的输出通道数分别为64,64,64,128,128,128,256,256,256;然后是一个全局平均池化层(Global Average Pooling,GAP),其将不同样本的特征映射池化到相同大小;最后经过全连接层(Full Connection,FC)输出到Softmax分类器进行预测。分类器计算公式如式(7)[13]所示,该分类器将原来各神经网络节点的输出通过Softmax函数映射成为(0,1)的值,这些值的累加和为1,即各类别发生的概率累加起来等于1,在最后选取输出节点时,选取概率最大节点的类别作为预测目标类别。由于为单分类任务,模型训练损失函数选择交叉熵损失函数[13]。

(7)

4 算法实例验证与分析

本文算法基于Python 3.5,操作系统为Windows10,在NVIDIAGTX1080Ti和NVIDIACUDAToolkit GPU加速环境下开展实验验证。为验证算法的稳定性和准确性,在针对车间环境自采集的NJUST-3D数据集[9]上进行相关测试和验证。

该车间的生产行为数据集通过KinectV2深度视觉传感器采集获取,主要由18组行为构成,共有行为数据2 160组和骨架数据80万帧,其中包括常见的生产行为和生产车间中的危险行为,如使用通讯设备、搬运工件等,由20位志愿者模拟动作并采集数据。

在模型训练过程中,随机将该数据集中每种行为的2/3作为训练集,用于进行模型训练,同时将剩余的1/3作为测试集,评判最后的模型准确率。

采用所构建的注意力GCN行为识别模型对该数据集进行相应的模型训练,最终在该数据集上的行为识别准确率达到84.17%。根据测试集上的准确率绘制行为识别模型的混淆矩阵,其中包含各个行为的准确率,混淆矩阵如图8所示,按照行为的置信度由大到小排序,该识别模型Top-3的准确率达到95.66%,在实验室模拟的车间环境下具有较为理想的识别准确率。

与CNN行为识别方法[9]的各行为类别准确率进行对比,如图9所示,可见本文识别模型的准确率相对于CNN有较大提升。相比CNN 71.36%的识别准确率[9],融合注意力机制GCN的识别准确率为84.17%,并在使用通讯设备、抽烟、擦汗这3个行为上的准确率有大幅提升。通过分析可知,这3个行为的动作类似,均为手部提起放近头部,骨架节点坐标位置相近,而本文提出的融合注意力机制的GCN可以更好地捕捉到手部与头部的共现特征,提高此类行为识别的准确率。

5 结束语

识别和理解人员行为是数字孪生车间的主要任务之一,也是人机共融技术的难点,在数字孪生车间中,人机交互和人员管控是较难解决的问题。鉴于此,本文提出一套生产行为识别方法,该方法利用深度视觉传感器采集人员骨架节点数据,基于拓扑图结构构建人员数字孪生体,基于GCN原理和注意力机制构建注意力GCN模型,将数字孪生体输入网络模型,对车间人员的生产行为进行判别。该识别方法主要有以下优点:

(1)相对于普通的骨架坐标向量数据,基于拓扑图结构构建的人员数字孪生体数据能够更加充分地利用人体各关节点之间的内在关联信息,保证行为识别的可靠性。

(2)人员数字孪生体数据的平移、旋转等预处理操作减少甚至消除了行为识别中的多数干扰因素,提高了识别模型的泛化能力。

(3)相对于CNN,GCN更擅长学习人员数字孪生体(人体骨架图结构)的内在关联特征,对骨架坐标相似行为(如打电话、擦汗)的判别能力更强。

(4)注意力机制的引入使GCN能够更加专注地学习到不同行为的关键关节点信息,减少对模型冗余点的识别。

因此,该方法能够较好地满足准确率的需求来识别车间人员生产行为,对规范复杂车间生产过程,降低生产安全隐患,实现数字孪生车间人员行为的多维度多层次监控与感知,具有较为重要的研究价值和现实意义。

当然,本文方法依旧有很多不足,在此处进行总结与展望,为后续研究指明方向:

(1)针对环境进行优化由于实际部署车间并不会像理想环境一样无遮挡,需要考虑遮挡问题,这里提出一种设想,采用多台深度传感器从不同角度联合拍摄,并进行数据融合。这种方法一方面可以减缓单台深度传感器的遮挡问题,另一方面可以通过空间方法结合不同深度传感器采集到的骨架数据,获取精度更高的车间生产人员骨架数据。

(2)与场景的交互本文只考虑人体的动作,没有考虑生产人员与场景的交互信息,如员工操作某台设备,或身体倚靠在产品上。未来研究可以在模型中引入更多特征,如外观及人与物交互信息,进一步提高模型的识别性能。

猜你喜欢
关节点骨架车间
浅谈管状骨架喷涂方法
100MW光伏车间自动化改造方案设计
基于深度学习和视觉检测的地铁违规行为预警系统研究与应用
关节点连接历史图与卷积神经网络结合的双人交互动作识别
骨架密度对炭/炭多孔骨架压力浸渗铜的影响
招工啦
“扶贫车间”拔穷根
搞好新形势下军营美术活动需把握的关节点
RGBD人体行为识别中的自适应特征选择方法
把农业搬进车间