融合注意力机制的刀具磨损预测方法

2024-03-29 02:27:36董靖川武晓鑫高宇博苏德鹏

天津大学学报(自然科学与工程技术版) 2024年4期

董靖川，武晓鑫，高宇博，苏德鹏

融合注意力机制的刀具磨损预测方法

董靖川，武晓鑫，高宇博，苏德鹏

(天津大学机械工程学院，天津 300072)

刀具的磨损状态影响着工件表面质量与加工稳定性，故实现其磨损量的准确监测对于保证加工可靠性、维持生产加工连续性具有积极作用．为进一步提高刀具磨损预测模型的泛化性能和准确度，提出一种融合注意力机制的多尺度卷积双向门控循环(multiscale convolutional bidirectional gated recurrent unit-attention，MSCBGRU-A)神经网络的刀具磨损预测方法，其由特征拓展模块、多尺度卷积模块、双向GRU模块、注意力模块、回归模块组成．首先，将切削力、声发射、振动信号作为输入信号，输入信号通过多尺度卷积模块获得多个尺度的刀具磨损输出特征图，将多个卷积通道输出的特征图输入到连接层进行首尾和层叠两种方式的连接来获得两种输出数据．然后，将两种输出数据分别输入到双向GRU模块与注意力模块，通过双向GRU模块学习输出特征图动态变化来获取时序特征，通过注意力模块对多尺度卷积神经网络的输出进行权值分配，强化对刀具磨损预测结果贡献度更大的特征．最后，通过回归模块对磨损值进行预测．经过对比实验引入混合域注意力机制的基于卷积块的注意力机制(convolutional block attention mechanism，CBAM)，获得MSCBGRU-CBAM模型，并且通过绘制CBAM的注意力权重图证明注意力机制可以自适应地关注与刀具磨损更相关的特征．与其他深度学习模型进行对比实验表明，MSCBGRU-CBAM模型具有最高的预测精度，且与未使用注意力机制的MSCBGRU模型相比，RMSE降低19.3%，MAE降低17.7%，2提高2.7%．

刀具磨损预测；多尺度卷积神经网络；注意力机制；门控循环单元

在制造业中，数控机床是主要的加工设备，而刀具作为执行部件，其磨损状态是影响数控机床加工产品表面质量与加工过程稳定性的关键因素．刀具磨损的准确监测能够有效地提高加工产品表面质量、降低生产成本、减少停机时间、实现连续自动化加工[1].

刀具的磨损监测技术有直接法和间接法．其中，直接法就是通过相关设备直接检测刀具体积变化，有光学图像法[2-3]、电阻法等方法．间接法是指利用传感器收集加工过程中的状态信号，来反映刀具磨损的状况．相比于直接法，间接法并没有直接对加工过程产生影响，保证了加工过程的连续性．

基于间接法采集的数据，诸多学者采用传统机器学习的方法建立磨损量与输入数据之间的数学模型，如支持向量机[4]、高斯回归[5]、人工神经网络[6]等．其弊端在于建模人员需要掌握有关刀具磨损的数据分析知识，提取与刀具磨损量相关的特征，比如时域、频率和时频域的特征，易造成特征提取不充分的问题.

深度学习可以从大规模数据中自动学习映射关系，适用于难以建立数学模型的加工过程，且其能自主提取时序数据深层次特征信息，不依赖于先验知识，故广泛应用于状态监测与故障诊断领域[7-8]．曹大理等[9]将待处理的数据视作一维图像，将卷积神经网络(convolutional neural network，CNN)应用于传感器采集的数据，自适应提取特征．Marani等[10]发现主轴电流信号与刀具磨损之间的相关性，利用长短时记忆(long short-term memory，LSTM)神经网络学习数据的长期依赖关系，对刀具磨损值进行预测．Babu等[11]分别提出了基于深度LSTM的模型和基于CNN的模型．对比结果表明，LSTM虽然可以获得时间序列数据的长期依赖特征，但特征提取能力略低于CNN．此外，由于传感器原始数据通常包含噪声，直接使用LSTM处理原始时序数据效果不佳．

因此，通常结合CNN与LSTM的优势来混合搭建模型[12]．何彦等[13]考虑到刀具磨损数据同时包含高维度特征与时序特征，将LSTM与CNN级联建立网络模型，对数据进行时间与空间的多维度特征提取，这种混合方法可以减少噪声的影响，保留更多有效特征，从而提高预测的准确性．Bazi等[14]考虑刀具磨损时序信息复杂的特点，将变分模态分解(variational mode decomposition，VMD)处理后的信号用作输入信号，采用双向的LSTM提取数据前后相关性特征，并结合CNN，充分发挥CNN 模型的空间特征提取能力和双向的LSTM 模型的时序特征提取能力．在大多数情况下，考虑反向信息获得更多有用特征，提高模型的性能．董靖川等[15]针对单尺度卷积特征提取不完全与尺度大小难以确定的问题，提出了多尺度分布式卷积长短时记忆网络模型神经网络，发现多尺度卷积可以有效提升模型提取特征的能力，减少特征信息的丢失，并在此基础上加入LSTM结构学习时序特征．但LSTM结构存在因参数过多导致的模型复杂度高且计算效率低等问题，因此诞生了门控循环单元(gated recurrent unit，GRU)．Xu等[16]提出了一种基于多个门控循环单元的多阶段刀具状态监测框架，提取表征刀具磨损状态信息的特征．

上述学者在认为全部数据特征对最终预测精度具有相同贡献的情况下展开研究，但特征信息的重要程度并不相同[17]．注意力机制(attention mechanism)近年来被提出，使模型可以自适应地关注包含高相关性信息的特征．梁露等[18]采用ECANet(efficient channel attention network)对卷积神经网络进行优化，突显重要信息，提高了电力系统短期负荷预测的准确性．

针对上述研究现状，本文提出一种融合注意力机制的多尺度卷积双向门控循环神经网络的刀具磨损预测方法．通过多尺度卷积神经网络学习刀具磨损数据的不同尺度的空间特征．采用混合域注意力机制对多尺度卷积神经网络输出的多通道特征图进行权值分配，使网络更加注重与刀具磨损特征有关的通道与区域，降低模型中非重要特征的影响力．使用双向门控循环单元对多尺度卷积神经网络输出的多通道特征图前向与后向的动态变化进行学习来获取时序特征．最后对时序特征与空间特征进行融合并使用全连接层对刀具磨损值进行预测．所提方法提升了模型预测精度与泛化能力，满足工业要求．

1 MSCBGRU-A模型框架

1.1 模型框架结构说明

本文所提模型由特征拓展模块、多尺度卷积模块、双向GRU模块、注意力模块，回归模块组成．如图1所示．

图1 MSCBGRU-A模型框架结构

特征拓展模块由具有1×1卷积核大小的卷积层与非线性激活函数组成，1×1的卷积层将原始单通道输入数据升维到多通道，并接入批标准化层与非线性激活函数，对数据进行归一化，提高网络非线性拟合能力与特征抽象能力，加快网络收敛．

多尺度卷积模块由多尺度卷积神经网络(multiscale convolutional neural network，MSCNN)与连接层组成．多尺度卷积神经网络使输入特征图并行地通过具有不同尺度卷积核的卷积层，充分提取不同尺度的特征．连接层用于连接多尺度输出特征图作为后续模块的输入数据．

双向GRU模块由双向GRU层与展平层组成．双向GRU层可以同时提取前向和后向特征，提高获取特征数据长期依赖性的能力．展平层负责将输入特征转化为一维数组．

注意力模块由注意力层与展平层组成，对输入的不同尺度的特征进行自适应的权值分配，将注意力更多地集中在与刀具磨损相关性更强的特征信息上．

回归模块由连接层、全连接层与Dropout层组成．连接层将时序特征与经过注意力权值分配的多尺度卷积输出特征融合送入全连接层与Dropout层得到刀具磨损值预测结果．

1.2 多尺度卷积神经网络

MSCNN是CNN的一种实现形式，CNN通过卷积操作提取特征矩阵．卷积操作是通过具有一定大小的卷积核在数据矩阵上滑动，对应位置的值相乘，将结果累加形成新的特征矩阵．卷积的优势在于，可以增强信号特性、降低噪声干扰、充分学习输入特征．计算过程如式(1)所示．

MSCNN的具体结构如图1中多尺度卷积模块所示，由多个并行的卷积通道组成，每个卷积通道可根据实际任务包含多个卷积块．卷积块的组成如图2所示．

单个卷积块首先连接卷积层，通过式(1)所示的卷积操作提取数据的空间特征．本文中设置8个不同尺度的卷积通道，每个卷积通道使用2个卷积块：各个卷积通道的第1个卷积块所用卷积层的卷积核大小相同，用于提取数据更全局的局部特征，同时调整数据维度；第2个卷积块使用不同尺度的卷积层，用于提取更细微的局部特征．本文根据实际数据维度，第2个卷积块中的卷积核大小设置为(＋2，3)，表示第条卷积通道．

图2 卷积块结构

其次，连接激活层，本文中使用LeakyReLU函数作为卷积块中激活层的激活函数，其作为分段线性函数，在正负区间内具有不同的恒定且不为0的导数，避免梯度消失的问题．

然后，连接批标准化层(batch normalization，BN)，调整特征图之间的数据分布，加快模型训练．

最后，连接池化层(pooling)．进一步凝练特征，相当于卷积后的二次特征提取．本文模型使用最大池化层．

1.3 门控循环单元

门控循环单元从循环神经网络(recurrent neural network，RNN)发展而来，RNN通过记忆单元提取时序变化特征与规律，每一时刻的输出都由前面所有时刻共同决定，记忆单元越多效果越好．但是当时序数据过长时，RNN会出现梯度消失导致模型处理长时间序列数据的性能下降，无法学习到更长期的依赖关系．GRU使用门结构解决了上述问题，与LSTM的门结构对比，GRU只有两个门，通过减少门的数量降低了参数数量，提高了训练速度．两个门分别为重置门与更新门，如图3所示．两个门控结构决定了哪些信息最终能作为门控循环单元的输出．其中重置门决定遗忘多少之前学习到的信息，获取短期时序特征；更新门决定过去的信息与当前的信息有多少可以被传递到下一个记忆单元，可以获取数据的长期时序特征．

图3 GRU模型结构

计算方式如式(2)所示．

上述GRU为单向的GRU，单向GRU只考虑到正向的长期依赖性，忽略了反向的长期依赖特征．本文使用BiGRU层作为时序特征提取层，将前后输入特征同时兼顾，能够充分提取数据的时序特征．双向传播的门控循环单元网络结果如图4所示，其由前向GRU与后向GRU组成，通过GRU的隐藏层达到前向和后向两个方向的计算可以获得更多的数据特征.

图4 BiGRU模型结构

BiGRU层更新过程如式(3)所示．

1.4 CBAM注意力机制

注意力机制是根据人类观察图像时会聚焦于图像某些区域，从而重点关注这一现象提出的．通过引入注意力机制，在众多的输入特征中聚焦于对当前刀具磨损预测任务贡献度更大的特征，降低其他特征对结果的影响，提高模型的准确性．

注意力机制根据关注对象的不同可以分为通道域注意力机制和空间域注意力机制．混合域注意力机制是融合两者形成的．通道注意力机制的代表性方法有SENet[19](squeeze-and-excitation network)方法和ECANet方法[20].空间注意力机制方法采用CBAM[21]方法中的空间注意力模块，后文以SAM (spatial attention module)代指此方法．混合域注意力机制的代表性方法是CBAM方法．

本文利用具有不同卷积核大小的卷积层提取刀具磨损数据的特征，每种尺度的特征对刀具磨损预测准确度的影响程度不同，刀具磨损数据不同区域提取的特征对结果的影响程度也不同，所以为了进一步提升模型的预测精度与泛化性采用注意力机制优化多尺度卷积神经网络．通过实验对比验证，本文最终使用CBAM作为本文注意力模块．CBAM结构如图5所示．CBAM中的通道注意力用于获取每个通道对结果的贡献度，弱化与刀具磨损不相关特征通道的影响力．空间注意力机制用于获取输入特征图不同区域对刀具磨损的贡献度，使与刀具磨损更相关的特征区域得到关注，提高特征的鲁棒性．

图5 CBAM结构

CBAM首先进行特征图各个通道权重的分配，式(4)给出了通道注意力的计算方法．首先分别计算各个通道的全局平均池化值与全局最大池化值，各个通道的值按照通道所处位置排列组成一维数组，获得平均池化数组与最大池化数组．将两者依次输入到只有一个隐藏层的多层感知器(MLP)中，获得两组输出的权重．将输出的权重相加送入激活层，激活层使用Sigmoid函数将各个通道的权重系数映射到0与1之间，即可获取通道的权重系数．最后将输入特征的通道与对应的通道权重系数相乘，获取空间注意力机制的输入特征数据．

式中：Mc为通道注意力部分的计算符号；为Sigmoid激活函数；MLP为多层感知器；AvgPool为全局平均池化计算函数；MaxPool为全局最大池化计算函数．

然后，CBAM进行特征区域的权值分配．计算方式如式(5)所示．首先，对输入数据沿特征图平面方向分别计算平均池化特征图和最大池化特征图，并将两者的计算结果按照图5所示合并，然后，将合并结果依次通过卷积层与激活层获取空间注意的权重系数．最后，将权重系数与输入数据相乘，获得最终的输出特征．

式中：Ms为空间注意力部分的计算符号；为卷积层的计算．

2 实验验证

2.1 数据集说明

为了验证本文提出模型的有效性，采用美国预测与健康管理学会提供的铣削数据集进行实验．此数据集中的铣削实验采用的设备与主要加工条件如图6与表1所示．

图6 铣削实验台

表1 实验设备参数

Tab.1 Parameters of experimental equipment

按照相同的实验条件与加工参数进行6次铣刀全生命周期实验．铣削方式采用顺铣，单次铣削长度为108mm．在此过程中，使用表1中所示传感器采集铣刀加工数据．每次铣削结束后使用表1中所示显微镜直接测量并记录实验刀具3个刀刃后刀面的磨损量．最终获得C1、C4、C6 3把球头铣刀的全生命周期数据集，每把刀具包含315次走刀数据与315组磨损值，单次走刀数据包含7列信号，前3列是三向铣削力信号，然后是三向振动信号，最后1列为声发射均方根值信号．

本文中采用每把刀的3个刀刃的磨损平均值作为铣刀实际磨损量用于训练与预测．3把刀具的磨损量如图7所示．

图7 C1、C4、C6刀具磨损曲线

2.2 实验设置

从图7中可以看出磨损曲线具有较大的分布差异，虽然3把铣刀在相同工况下进行铣削实验，但是刀具个体的不同导致刀具性能、安装误差等因素具有差异性的数据作为训练集数据训练模型，3把刀具轮流作为训练集训练模型，使用该模型预测其余2把刀具的磨损值．每组实验进行3次训练与预测，取评价指标的平均值作为最终结果，实验设置如表2所示．

表2 实验设置

Tab.2 Experimental setup

本文采用均方根误差(root mean square error，RMSE)、平均绝对误差(mean absolute error，MAE)与决定系数2作为评价指标．均方根误差在计算过程中采用误差的平方，对于预测值中预测误差较大的值更敏感，易受极端值的影响，反映离群点．MAE反映的是真实误差，不易受极端值的影响，综合反映整体误差．决定系数2是一种去量纲的评价指标，反映预测值对真实值的拟合程度，越接近1证明模型效果越好．3个评价指标计算公式分别为

2.3 参数设置

深度学习模型涉及大量的超参数与结构参数，试错法作为一种常用于确定深度学习模型参数的方法，能以简单直接的方式获得较满意的参数选择效果．因此，本文涉及的深度模型参数均在大量实验数据下通过试错法确定．

对于MSCBGRU-CBAM模型的结构参数，输入数据维度为(5，1，2000，7)，多尺度卷积模块的卷积通道数量选为8，每个卷积通道使用2个卷积块．

对于MSCBGRU-CBAM模型的超参数，文中所有LeakyReLU函数的负值部分斜率取0.02，优化器选用Adam优化器，学习率设为0.01，批大小设为5，迭代最大次数设为500，模型的其他参数如表3所示.

表3 模型参数

Tab.3 Model parameters

2.4 本文模型实验结果

图8为使用本文所述模型后的预测结果，每张图按照“训练集-测试集”的方式命名，每张图中包含两条曲线，其中蓝色曲线代表测试集的磨损真实值，红色曲线代表磨损预测值．从图8与表4中可以看出，使用任何一把刀具作为训练集，预测曲线均能以极小的误差拟合真实曲线，趋势正确，证明了本模型在刀具磨损预测领域具有良好的泛化性与预测精度．

（a）C1-C4 （b）C1-C6

（c）C4-C1 （d）C4-C6

（e）C6-C1 （f）C6-C4

图8 本文模型预测结果趋势

Fig.8 Trend chart of prediction results of the proposed model

表4 本文模型预测结果

Tab.4 Prediction results of the proposed model

2.5 注意力机制可视化展示

本文模型中的注意力模块使用混合域注意力机制CBAM，该注意力机制对多尺度卷积模块输出的特征图进行通道域与空间域上的权重分配，图9与图10分别为通道注意力模块权重和空间注意力模块权重．

从图9中可以看出通道注意力模块从每组实验中均学习到了各个通道的权重，每个通道代表着一种尺度的卷积．由于训练集不同、卷积层内部卷积核的权重参数和送入样本批次的随机性导致通道注意力学习得到的权重不相同，证明了通道注意力机制可以根据训练集以及训练情况的变化自适应地选取与刀具磨损更加相关的特征．

（a）C1-C4 （b）C1-C6

（c）C4-C1 （d）C4-C6

（e）C6-C1 （f）C6-C4

图9 通道注意力模块权重

Fig.9 Weight diagram of the channel attention module

空间注意力模块的权重以热图的形式进行可视化，如图10所示，以蓝色为底色，颜色越深代表权重越大．输入数据维度为(batch_size，8，4，5)，其中batch_size表示批大小，8表示通道数，4表示行数，5表示列数，所以空间注意力机制的权重图的矩阵维度为4行5列．从图10中可以看出，以C1、C4、C6互为训练集与测试集的实验中，每张空间注意力机制权重图均表现出左边颜色深、右边颜色浅的规律，即在矩阵空间上，左侧矩阵权重大、右侧矩阵权重小，且从左到右权重逐渐变小的趋势．其原因为原始输入数据中为7列数据，前3列为切削力，中间3列为振动数据，最后1列为声发射信号．根据相关理论[22]，切削力与刀具磨损直接相关，振动信号与刀具磨损的关系不如切削力直接，声发射数据对切削条件敏感、处理难度大，所以空间注意力最终呈现出这样的趋势．

通过通道注意力权重与空间注意力机制权重可以看出，注意力机制可以有效地关注到与刀具磨损更加相关的特征，弱化不相关特征．

2.6 不同注意力机制的对比实验

本文选用通道域SENet与ECANet、空间域SAM、混合域CBAM 3种不同域的注意力机制作为模型的注意力模块进行对比验证．结果如图11所示.

从图11中可知，相比于未使用注意力机制的模型，4种注意力机制均对模型的预测效果起到了提高作用，RMSE与MAE呈现明显降低的趋势，2呈现上升的趋势，验证了注意力机制具有提高刀具磨损模型的预测效果作用．其中，CBAM模块对模型预测效果的提升最好，RMSE降低了19.3%，MAE降低了17.7%，2提高了2.7%．这是因为CBAM在通道与空间两个层面上计算权重，能够将网络资源分配到与刀具磨损更相关的特征，实现刀具磨损领域下网络模型的自适应注意．而使用其余3种注意力机制的模型提高效果相近，是因为三者局限于考虑特征图通道之间的权重关系或者特征区域的重要性，没有考虑全面，所以提升效果较差．

（a）C1-C4 （b）C1-C6

（c）C4-C1 （d）C4-C6

（e）C6-C1 （f）C6-C4

图10 空间注意力模块权重

Fig.10 Weight diagram of the spatial attention module

图11 采用不同注意力机制的预测结果对比

2.7 模型结构有效性验证

本文提出的MSCBGRU-CBAM模型由多个模块构成，现通过在MSCBGRU-CBAM模型基础上分别去除特征拓展模块、双向GRU模块、注意力模块与MSCBGRU-CBAM模型进行对比验证，验证本文模型框架中各个模块的重要性．由于多尺度卷积模块为模型主干网络，去除该模块对模型整体造成较大改动，且卷积层的特征提取能力已被多名学者验证，所以本次实验不设置去除多尺度卷积模块的模型．实验结果如图12所示．

从图12可知，去除模块会对模型的预测性能造成影响．首先，去除特征拓展模块对模型造成的影响最大，其原因在于去除特征拓展模块导致模型非线性表达能力降低，难以学习到刀具磨损特征与刀具磨损值间复杂的映射关系．其次，去除双向GRU模块效果变差是因为模型没有学习到刀具磨损数据的时序特征，丢失了部分信息，使得模型预测效果下降．最后，去除注意力模块的影响最小，但也使得模型性能下降，主要因为模型不能自适应地突出与刀具磨损更相关特征，使得相关性高的特征与相关性低的特征对结果的影响力相同．

2.8 不同模型对比实验

在刀具磨损预测领域，已经有诸多学者提出了相关预测方法，并且在本数据集中取得了不错的效果．本文选择其中一些刀具磨损预测方法与本模型进行对比，证明本模型的优势，实验设置与表2相同．本模型选取的算法有高斯过程回归(Gaussian process regression，GPR)、随机森林(random forest)、LightGBM(light gradient boosting machine)、结合粒子群算法优化的支持向量回归(PSO-SVR)、LSTM、分布式卷积网络(time-distributed convolutional neural networks，TDCNN)、LSTM-CNN．

其中GPR、random forest、LightGBM、PSO-SVR 4种算法的输入特征需要进行特征提取与特征降维．首先对原始数据进行特征提取，每列原始数据提取均方根值、峰峰值、峭度、峰度、频率均方根、中心频率等共16个特征．原始数据中包含7列数据，共112个特征．再采用PCA进行特征降维，保留10个特征，作为以上4种刀具磨损预测方法的输入．其他方法均采用原始数据作为输入．实验结果如图13所示．

从图13中可知，深度学习方法的预测效果均优于传统机器学习方法．几种深度学习方法中，LSTM模型主要提取数据的时序特征，TDCNN模型提取空间特征，LSTM-CNN与MSCBGRU提取数据的时空特征．从图13中可以看出LSTM-CNN与MSCBGRU的预测效果明显优于前两者，说明同时提取时空特征的必要性．MSCBGRU-CBAM模型在深度学习方法中取得了最佳的效果，证明了该模型可以有效地提取并融合刀具磨损数据的空间特征与时序特征，能够更加精准地预测刀具磨损值．

图13 不同模型的预测结果对比

2.9 模型学习在少信号条件下学习能力验证

经过多种注意力机制之间的对比实验，已经确定模型使用的最佳注意力机制为CBAM，通过模型结构验证各个模块对于模型预测结果的影响，并在相同输入条件下与当下常见的深度学习模型和最新模型进行了对比验证，证明本文模型在预测精度上的优势.为了更加了解模型的适用范围与边界条件，进行模型在缺少某部分信号信息条件下的学习与训练.本文使用的数据集中包含切削力信号、振动信号与声发射信号，所以实验共分为7组，具体设置如表5所示，前3组采用单一信号作为输入信号，第4～6组采用两两组合的形式作为输入信号．其中模型采用MSCBGRU-CBAM模型，每组实验按照表2所示实验设置进行．

表5 多传感器验证实验设置

Tab.5 Multisensor verification experiment setup

实验结果如图14所示．在实验过程，由于本文采用的决定系数计算方法的取值范围为(－∞，1)，第3组与第6组内的部分实验出现了决定系数为负值的情况，说明预测效果较差．由于取值范围的不对称性，取负值时将其计算入平均值会造成较大的差异．为了便于对比，当决定系数为负值时取0，不影响结果趋势．

图14 不同输入信号预测结果

从图14中可见，当3种信号同时作为输入信号时效果最好，3种指标均取得最优效果．将第1组、第2组、第3组实验结果进行对比可知，单一传感器信号中的切削力信号的RMSE与MAE指标最低，2最高，预测效果最好．振动信号次之，声发射信号预测效果最差，甚至其决定系数为0，表示声发射信号的预测效果达不到取平均值的预测效果．结果与相关理论一致，这是因为切削力信号受刀具磨损的影响更大，包含磨损信息更多．而声发射对切削条件中的噪声和变化比刀具本身的条件更敏感，更适合作为增加可靠性的附加信号，不适合单独地作为输入信号进行刀具磨损预测．从6组实验对比可知，当使用2个传感器作为输入信号时，普遍对单一信号起到了一定优化作用，可以证明多传感器信号融合对于刀具磨损模型预测精度提升的有效性．

除第3组实验，其他组实验中，本文模型在缺少部分传感器信号的情况下，依然取得了较好的结果，证明了本文模型对于刀具磨损特征的学习能力更强，可以在缺少部分传感器的场景中使用．第3组实验的结果相对其他组结果较差，说明在只使用声发射信号的情况下，本文模型学习能力较差，如何针对声发射信号进行对应的改进将是未来对模型改进的重要方向．

3 结论

本文提出了一种融合注意力机制的多尺度卷积双向门控循环神经网络的刀具磨损预测方法，将刀具磨损数据的时空特征进行融合并使用注意力机制优化模型，对注意力机制学习到的权重进行了可视化，并通过实验验证了最佳的注意力机制．通过与其他模型进行对比，确定了模型在刀具磨损领域的有效性，得出以下结论．

(1) 本文提出的MSCBGRU-CBAM模型可以有效提取并融合刀具磨损数据的时空特征，并有效挖掘出输入特征与刀具磨损值之间的复杂映射关系，在RMSE、2、MAE指标上优于其他算法，有效提升了刀具磨损预测精度与泛化性能．

(2) 将注意力机制从通道域、空间域和混合域的角度出发，经对比发现，SENet、ECANet、SAM和CBAM均能提高模型的预测精度，且绘制了使用CBAM注意力机制情况下注意力层学习到的权重图，证明注意力机制可以有效自适应地关注与刀具磨损更相关的特征．其中，基于混合域的CBAM注意力机制效果最好，更适用于刀具磨损预测任务．

(3) 通过使用缺失信号作为输入对模型进行验证，表明该模型在非多源传感器融合的场景中仍具备良好的预测性能，更加满足工业现场的实际需求．

［1］董江磊，代月帮，雍建华，等. 刀具磨损状态识别与智能监测方法综述[J]. 风机技术，2019，61(6)：67-73.

Dong Jianglei，Dai Yuebang，Yong Jianhua，et al. Overview of tool wear status recognition and intelligent monitoring[J]. Chinese Journal of Turbomachinery，2019，61(6)：67-73(in Chinese).

［2］田颖，杨利明. 基于组合型阈值分割的在线立铣刀侧刃磨损测量[J]. 天津大学学报(自然科学与工程技术版)，2023，56(1)：81-92.

Tian Ying，Yang Liming. Online side edge wear measurement of milling based on combined threshold segmentation[J]. Journal of Tianjin University(Science and Technology)，2023，56(1)：81-92(in Chinese).

［3］田颖，杨利明，郜占旭，等. 立铣刀侧刃磨损检测的装置及方法[J]. 天津大学学报(自然科学与工程技术版)，2022，55(10)：1008-1015.

Tian Ying，Yang Liming，Gao Zhanxu，et al. Device and method for detecting side edge wear of end milling[J]. Journal of Tianjin University(Science and Technology)，2022，55(10)：1008-1015(in Chinese).

［4］黄庆卿，黄豪，张焱，等. 基于多信息融合和改进PSO-SVM的刀具磨损仿真预测[J]. 实验室研究与探索，2021，40(6)：119-123.

Huang Qingqing，Huang Hao，Zhang Yan，et al. Tool wear simulation prediction based on multi-information fusion and improved PSO-SVM[J]. Research and Exploration in Laboratory，2021，40(6)：119-123(in Chinese).

［5］曹翔，赵培轶，王鹏程，等. 基于高斯过程回归方法的钛合金铣削刀具磨损预测[J]. 制造技术与机床，2019(6)：55-59.

Cao Xiang，Zhao Peiyi，Wang Pengcheng，et al. A novel method for tool wear prediction in titanium milling by Gaussian process regression method[J]. Manufacturing Technology & Machine Tool，2019(6)：55-59(in Chinese).

［6］田颖，王文豪，杨利明，等. 基于刀具磨损状态识别的加工参数多目标优化[J]. 天津大学学报(自然科学与工程技术版)，2022，55(2)：166-173.

Tian Ying，Wang Wenhao，Yang Liming，et al. Multi-objective optimization of machining parameters based on tool wear condition[J]. Journal of Tianjin University(Science and Technology)，2022，55(2)：166-173(in Chinese).

［7］ Xu X W，Tao Z R，Ming W W，et al. Intelligent monitoring and diagnostics using a novel integrated model based on deep learning and multi-sensor feature fusion[J]. Measurement，2020，165：108086.

［8］ Elsheikh A，Yacout S，Ouali M S. Bidirectional handshaking LSTM for remaining useful life prediction[J]. Neurocomputing，2019，323(1)：148-156.

［9］曹大理，孙惠斌，张纪铎，等. 基于卷积神经网络的刀具磨损在线监测[J]. 计算机集成制造系统，2020，26(1)：74-80.

Cao Dali，Sun Huibin，Zhang Jiduo，et al. In-process tool condition monitoring based on convolution neural network[J]. Computer Integrated Manufacturing Systems，2020，26(1)：74-80(in Chinese).

［10］ Marani M，Zeinali M，Songmene V，et al. Tool wear prediction in high-speed turning of a steel alloy using long short-term memory modelling[J]. Measurement，2021(12)：109329.

［11］ Babu G S，Zhao P，Li X L. Deep convolutional neural network based regression approach for estimation of remaining useful life[C]// International Conference on Database Systems for Advanced Applications. Dallas，USA，2016：214-228.

［12］ Zhao C Y，Huang X Z，Li Y X，et al. A double-channel hybrid deep neural network based on CNN and BiLSTM for remaining useful life prediction[J]. Sensors，2020，20(24)：7109.

［13］何彦，凌俊杰，王禹林，等. 基于长短时记忆卷积神经网络的刀具磨损在线监测模型[J]. 中国机械工程，2020，31(16)：1959-1967.

He Yan，Ling Junjie，Wang Yulin，et al. In-process tool wear monitoring model based on LSTM-CNN[J]. China Mechanical Engineering，2020，31(16)：1959-1967(in Chinese).

［14］ Bazi R，Benkedjouh T，Habbouche H，et al. A hybrid CNN-BiLSTM approach-based variational mode decomposition for tool wear monitoring[J]. The International Journal of Advanced Manufacturing Technology，2022，119(1)：1-15.

［15］董靖川，谭志兰，王太勇，等. 结合域对抗自适应的刀具磨损预测方法[J]. 机械科学与技术，2023，42(2)：165-172.

Dong Jingchuan，Tan Zhilan，Wang Taiyong，et al. Prediction method of tool wear combined with domain adversarial adaptation[J]. Mechanical Science and Technology for Aerospace Engineering，2023，42(2)：165-172(in Chinese).

［16］ Xu H，Hong G S，Zhou J H，et al. Coarse-to-fine tool condition monitoring using multiple gated recurrent units[C]//45th Annual Conference of the IEEE Industrial Electronics Society. Lisbon，Portugal，2019：3737-3742.

［17］ Song Y，Gao S，Li Y，et al. Distributed attention-based temporal convolutional network for remaining useful life prediction[J]. IEEE Internet of Things Journal，2020，8(12)：9594-9602.

［18］梁露，刘远龙，刘韶华，等. 基于ECA-TCN的电力系统短期负荷预测研究[J]. 电力系统及其自动化学报，2022，34(11)：52-57.

Liang Lu，Liu Yuanlong，Liu Shaohua，et al. Research on short-term load forecasting of power system Based on ECA-TCN[J]. Proceedings of the CSU-EPSA，2022，34(11)：52-57(in Chinese).

［19］ Hu J，Shen L，Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York，USA，2018：7132-7141.

［20］ Wang Q L，Wu B G，Zhu P F，et al. ECA-net：Efficient channel attention for deep convolutional neural networks[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle，USA，2020：11531-11539.

［21］ Woo S，Park J，Lee J Y，et al. CBAM：Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision(ECCV). Munich，Germany，2018：3-19.

［22］王国锋，李志猛，董毅. 刀具状态智能监测研究进展[J]. 航空制造技术，2018，61(6)：16-23.

Wang Guofeng，Li Zhimeng，Dong Yi. Recent advances in intelligent monitoring of cutting tool condition [J]. Aeronautical Manufacturing Technology，2018，61(6)：16-23(in Chinese).

Tool Wear Prediction Method Based on Attention Mechanism

Dong Jingchuan，Wu Xiaoxin，Gao Yubo，Su Depeng

(School of Mechanical Engineering，Tianjin University，Tianjin 300072，China)

The wear state of a tool affects the surface quality and processing stability of the workpiece；hence，accurate monitoring of its wear amount has a positive role in ensuring processing reliability and maintaining the continuity of production and processing. To further improve the generalization performance and accuracy of the tool wear prediction model，a tool wear prediction method based on a multiscale convolutional bidirectional gated recurrent unit-attention(MSCBGRU-A) neural network is proposed here，which integrates the attention mechanism and is composed of feature expansion，multiscale convolution，bidirectional gated recurrent unit(GRU)，attention，and regression modules. First，cutting force，acoustic emission，and vibration signals are taken as input signals. Next，these signals generate the tool wear output characteristic maps of multiple scales through the multiscale convolution module. The characteristic maps output by multiple convolution channels are input to the connection layer to connect in two ways，head-to-tail and stacking，to obtain two kinds of output data. Then，the two kinds of output data are input to the bidirectional GRU and attention modules，respectively. In addition，the bidirectional GRU module learns the dynamic changes of the output characteristic graph to obtain the time series characteristics. Next，the attention module assigns weights to the output of the multiscale convolutional neural network to strengthen the characteristics that contribute more to the tool wear prediction results. Finally，the regression module predicts the wear value of the tool. Furthermore，the mixed domain attention mechanism，that is，the convolutional block attention mechanism (CBAM)，is introduced through comparative experiments to obtain the MSCBGRU-CBAM model. It is proved that the attention mechanism can adaptively focus on features more relevant to tool wear by drawing an attention weight map of CBAM. Compared with other deep learning models，the MSCBGRU-CBAM model has the highest prediction accuracy. Compared with MSCBGRU models without the attention mechanism，the root mean square error decreases by 19.3%，MAE decreases by 17.7%，and2increases by 2.7%.

tool wear prediction；multiscale convolutional neural network；attention mechanism；gated recurrent unit(GRU)

TP183

0493-2137(2024)04-0362-12

10.11784/tdxbz202209020

2022-09-14；

2022-11-08.

董靖川（1983— ），男，博士，高级工程师.

董靖川，jcdong@tju.edu.cn.

国家自然科学基金资助项目(51975402).

the National Natural Science Foundation of China(No. 51975402).

(责任编辑：王晓燕)

融合注意力机制的刀具磨损预测方法

1 MSCBGRU-A模型框架

1.1 模型框架结构说明

1.2 多尺度卷积神经网络

1.3 门控循环单元

1.4 CBAM注意力机制

2 实验验证

2.1 数据集说明

2.2 实验设置

2.3 参数设置

2.4 本文模型实验结果

2.5 注意力机制可视化展示

2.6 不同注意力机制的对比实验

2.7 模型结构有效性验证

2.8 不同模型对比实验

2.9 模型学习在少信号条件下学习能力验证

3 结 论

3 结论