基于注意力时空特征网络的装配动作识别

2022-09-21 11:14赵希聪黄凯陈成军李东年
机床与液压 2022年4期
关键词:电信号预处理准确率

赵希聪,黄凯,陈成军,李东年

(青岛理工大学机械与汽车工程学院 山东青岛 266520)

0 前言

装配动作识别对于手动装配监控、人机协作和装配操作的人体工程学分析具有重要意义。考虑到用户对产品多样化需求的不断增长,大规模定制已成为制造业的趋势。在大规模定制的装配过程中,存在各种具有不同结构型号的个性化产品,装配过程中一旦缺少组装步骤甚至工人的不规范操作都会对产品质量产生不利影响。因此,应在装配线上监测或识别工人操作的规范性。目前根据装配动作采集数据的方式不同,大致可分为两类:基于机器视觉的动作识别技术和基于可穿戴设备的动作识别技术。

在基于机器视觉的动作识别技术方面,已经取得了一些成果。王天诺等使用3D卷积神经网络模型在装配动作视频数据集上进行测试,准确率达到88.5%。CHEN等基于目标检测和姿态估计算法对重复装配动作进行识别。基于视觉的动作识别技术,不需要穿戴传感器等设备,只需要摄像头对图像进行捕捉,通过特定的机器视觉算法提取动作特征,从而进行装配体动作识别,但这种技术往往受到光照、复杂的背景、视角遮挡等的影响。

在基于可穿戴设备的动作识别方面,KUTAFINA等采用HMM和ANN识别戴着MYO臂章的医务人员的洗手动作,准确率达98.3%;OGRIS等采用隐马尔可夫模型分类器,利用超声波和IMU信号识别自行车维护场景中的工人活动,后来他们提出了一种基于字符串匹配的分割和分类方法,该方法使用多个IMU传感器来识别汽车制造任务中工人的活动。KOSKIMAKI等使用腕戴式IMU传感器捕捉手臂运动,并使用KNearest Neighbors模型对工业装配线的5种活动进行分类;MAEKAWA等提出了一种无监督的测量方法,该方法使用带有IMU传感器的智能手表的信号来估算工厂的交货时间。

通常动作识别技术分为两个步骤:动作特征的提取和动作的分类。PHINYOMARK等在频域上基于EMG功率谱密度的统计参数计算频域特征。CHANG等提出了一种基于一个惯性测量单元(IMU)传感器和两个表面肌电图(sEMG)传感器的分层手势识别方法,准确率可达到95.6%。针对动作分类,学者们已经提出了多种方法,例如支持向量机(SVM)、随机森林、线性判别分析和主成分分析等。为了学习最有用的特征,JIANG和YIN提出了一种基于卷积神经网络的方法,将sEMG信号作为网络的输入信号,以进行活动识别。

针对工人装配动作识别问题,本文作者将手臂部位提取的表面肌电信号和惯性信号的动作特征以及卷积神经网络的动作识别方法相结合,提出一种基于注意力时空特征融合网络(Spatiotemporal Feature Fusion Network,SFFN)的装配动作方法,在此基础上不断训练网络模型,从而实现对装配动作的识别和分类。

1 装配动作识别系统总体方案

在生产作业车间尤其是工件的组装与装配车间中,为了保证装配动作的规范和完整,需要对装配过程中人员的行为进行监管。在这些工件装配过程中,虽然车间中有一套完整的装配规范,但仍有部分员工无法按照标准的装配流程进行操作,其中不乏经验丰富的老员工。为了减少乃至杜绝由于装配动作不规范而造成的产品质量问题,本文作者设计一套能够对工人装配动作进行识别的方案,以此对车间人员装配动作进行智能监测。

该方案中,装配动作识别主要由装配动作数据采集、装配动作数据预处理、装配动作模型构建和装配动作识别与评估4部分构成。

(1) 装配动作数据采集。考虑到肌电信号能够表达工人装配动作类型,通过在手臂上佩戴MYO臂环来采集这种信号,并进行预处理和动作识别。

(2) 装配动作数据预处理。通过MYO臂环采集到的装配动作原始数据与理想的数据之间存在一定偏差,这些偏差主要是由MYO臂环传感器自身的精度和实验人员自身因素造成的。为此需要进行一些预处理操作来降低这些因素的影响。

(3) 装配动作模型构建。针对预处理后的肌电信号,构建神经网络模型,对工人装配动作进行识别。

(4) 装配动作识别与评估。本文作者使用自建装配动作数据集对上述方法进行测试,并基于实验结果提出结论和改进的方向。

2 数据的采集和预处理

2.1 数据采集

加拿大Thalmic Labs公司于2014年推出MYO臂环,该臂环由8块传感器组成,分别对应采集8个通道的肌电信号数据。MYO臂环具有低成本、低延迟、佩戴舒适的特点,具有良好的适应性。

使用Thalmic Labs的MYO传感器以200 Hz的采样率采集8个通道的sEMG,采集的信号范围为[-128,127],这些信号代表相应装配动作所对应的肌肉激活水平。

装配动作数据集由抓取零件、磨、锉、锤、拧螺丝、刷共6个装配动作组成,每个动作的数据采集由5名23~25岁的健康实验者完成。为避免在采集数据时不同实验者佩戴的MYO传感器的通道位置错杂而造成干扰,在实验之前规定MYO传感器统一佩戴在前臂靠近肘关节上方的肌肉凸起位置,臂环LED标识向下。

2.2 信号预处理

表面肌电信号(sEMG)是指当骨骼肌收缩时,肌纤维所产生的微弱电信号在皮肤表面的募集。这是一种微弱的信号,频率一般为10~500 Hz。肌电信号在采集过程中往往会受到一些噪声的干扰,因此在进行装配动作识别之前需要对它进行预处理以减小这些因素的影响。本文作者首先使用滑动窗口对200 Hz的sEMG信号进行采样,滑动窗口的长度为200个时间戳,两步之间的重叠率为75%;其次,设计一个频率为50 Hz低通陷波滤波器用于处理sEMG信号以消除sEMG信号中由本地电源频率引起的干扰,和一个频率为30 Hz的零相移高通滤波器用于消除sEMG信号中手动操作产生的噪声;最后,通过全波整流将sEMG信号全部转换为正值,并将肌电信号的幅值归一化到[0,1]范围内。肌电信号预处理流程如图1所示。

图1 肌电信号预处理流程

3 装配动作识别网络设计

3.1 装配动作识别网络架构

本文作者提出的基于通道注意力的时空特征融合网络模型由数据输入层、时空特征提取层、注意力模块、全连接分类层组成,如图2所示。

图2 基于注意力时空特征装配动作模型

(1)数据输入层:装配动作表面肌电信号由测试者佩戴MYO臂环经过滤波等预处理成200×8的数据矩阵;

(2)装配动作特征提取层:本文作者构造三层卷积神经网络提取装配动作的空间特征,通过反向传播算法不断优化网络参数,再构造两层时间卷积网络提取时序特征,经过注意力模块强化网络的特征提取能力;

(3)分类层:将网络提取的时空特征输入到全连接层,经过SoftMax激活函数输出装配动作的分类结果。

3.2 装配动作空间特征提取

为有效进行装配动作的分类,需要从肌电信号中提取有利于动作分类的特征信息,但人工提取特征往往依赖相关领域的专家,有较大的局限性。随着深度学习以及计算机性能的快速发展,应用深度学习方法可以自动提取特征的优势逐渐显现出来。因此,文中装配动作信号的空间特征提取模块则基于卷积神经网络构建,由二维卷积层和ReLU激活函数以及最大池化层构成。每一个卷积层(Conv2d)中的具体参数如表1所示。

表1 Conv2d层网络参数

在每一个卷积神经网络后边添加最大池化层,即使用某一位置的相邻区域的最大值作为网络在该位置的输出,从而对特征进行压缩、简化网络复杂度。池化层网络参数如表2所示。

表2 MaxPooling层网络参数

3.3 装配动作时间特征提取

装配动作具有连续性的特点,上一时刻的动作状态对下一时刻的动作有较大影响,因此为提取装配动作信号的时序特征,构建两层TCN网络架构作为时间序列特征的提取模块。TCN网络结构如图3所示,它是一种融合了因果卷积和扩张卷积的残差模块堆叠序列建模结构,每个残差模块有两层因果空洞卷积,并对卷积核权重进行规范化,使用ReLU激活函数增加层与层之间的非线性关系,同时添加Dropout层以减小过拟合。

图3 TCN网络结构

3.4 通道注意力模块

由MYO臂环采集的肌电信号是多通道的,不同通道之间的信号对特定动作的贡献不相同。因此,应该优先选择包含丰富装配动作信息、装配动作变化较明显的通道来实现分类。本文作者通过添加SE Block模块来学习自动获取每个通道的重要性。根据此重要性来增强有用通道信息所占的比重并抑制对当前任务不太有用的通道信息。图4所示为SE Block模块的结构。

图4 SE Block模块

(1)Squeeze操作。通过全局池化操作沿空间维度将输入数据的特征维度由[,,]压缩为比例为[1,1,];

(2)Excitation操作。通过引入可学习参数来为每个特征通道生成对应的权重,并通过sigmoid函数对权重归一化,完成建模特征通道间的相关性;

(3)Scale操作。将Excitation的输出权重看做是经过选择后的每个特征通道的重要性,实现通道维度上对原始特征的重标定。

然后,通过可学习的参数生成每个通道的权重并将每个权重值归一化到0~1之间,对输入特征数据进行逐层加权,并在通道维度上重新校准输入特征的权重;最后,经过Scale操作使得输入数据和输出数据的维度一致。

4 模型实例验证及分析

4.1 实验环境参数设置及评价指标

实验中使用的CPU是Intel Xeon E5-2630,GPU显卡为 NVIDIA TITAN Xp。深度学习框架为Keras、深度学习模型的batch size为128、迭代次数为50。使用ADAM优化器,损失函数为交叉熵损失函数。在训练过程中,不断优化网络参数,将训练好的模型参数保存以用于模型的测试,进而评判模型对装配动作的分类性能。

采用几种常用的指标来评估分类性能,具体指标如下:

(1)

(2)

(3)

(4)

其中:表示正样本被正确检测个数;表示正样本被漏检个数;表示负样本被正确检测个数;表示负样本被误检个数。

4.2 模型实验验证

为验证文中所构建的基于注意力时空特征网络模型在装配动作分类任务方面的优势,文中还使用双流CNN网络模型和LSTM网络模型进行对比实验。为保证模型对比的有效性,3种网络模型均采用相同的数据集、迭代次数、优化器、批处理大小。3种深度学习模型的准确率曲线如图5所示。随着迭代次数的增加,3种模型的准确率均不断上升,文中所设计的网络模型约迭代到10次时,网络模型的准确率达到收敛,最高的识别率可以达到96.1%;CNN网络模型准确率相对低一些,为94.2%;LSTM模型的识别准确率最低,在测试阶段准确率波动也较大。文中构建的网络模型准确率最高,而且波动较小,与CNN和LSTM相比,所设计的模型充分学习了数据的空间特征和时间特征,时空特征的融合更有利于装配动作的识别。

图5 3种模型的准 确率曲线

本文作者同时比较了3种网络模型在准确率、精确率、召回率、得分方面的表现,如表3所示。CNN网络模型相比LSTM网络在准确率、精确率、召回率、得分方面均有提升。而文中提出的模型在准确率、精确率、召回率、得分方面性能表现最佳,比CNN神经网络分别提高1.9%、2.5%、1.9%、2.2%。因此,所提的融合注意力机制的时空特征网络模型在装配动作识别任务中有良好的性能。

表3 3种网络模型的分类表现 单位:%

本文作者还对每个特定的装配动作进行了测试,最终融合模型的识别结果也以混淆矩阵的形式进行了展示,如表4所示。其中,每一行代表真实类,每一列代表预测类,斜对角线上的数字则代表各类装配动作正确的识别结果。从结果来看:绝大多数装配动作的识别准确率都在95%以上;单个动作中锤的识别率最高为99%,而锉的装配动作识别率较低为94%,其中4%的动作被认为是刷。经过分析,造成这样结果的原因是2种装配动作相对其他动作而言有一定的相似度。基于这个原因,神经网络不能很好地学习到这两类动作的特征。

表4 装配动作识别混淆矩阵 单位:%

5 结束语

对工人装配动作的识别是实现企业高效生产的重要方法。本文作者提出基于注意力时空特征网络的装配动作识别方法,并在开发的肌电信号装配动作数据集上验证了该方法的有效性。尽管研究取得了初步成果,但仍有一些工作有待进一步解决。设计出装配动作识别准确率更高、适用于更多装配动作的网络模型是未来的研究方向。

猜你喜欢
电信号预处理准确率
求解奇异线性系统的右预处理MINRES 方法
基于联合聚类分析的单通道腹部心电信号的胎心率提取
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
污泥预处理及其在硅酸盐制品中的运用
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
基于Code Composer Studio3.3完成对心电信号的去噪
基于随机森林的航天器电信号多分类识别方法
基于预处理MUSIC算法的分布式阵列DOA估计