李东阳 袁东风 张海霞 郑安竹 狄子钧 梁道君
1.山东大学信息科学与工程学院,青岛,266237 2.山东大学控制科学与工程学院,济南,250061 3.山东省无线通信技术重点实验室,济南,250100 4.5G应用产业方阵创新中心,济南,250061
新一轮科技革命和产业变革加速孕育、集聚迸发,引发了国际产业分工的深刻变化,全球工业互联网发展正处于竞争格局未定的战略窗口期。随着中国制造2025战略的部署,以智能制造为主攻方向,激励新一代信息技术与先进制造技术的深度融合,已成为我国制造业转型升级、实施高质量发展的重要途径[1]。然而,随着智能制造的深入推进,生产加工流程变得更加自动化、智能化,使得数控机床设备也变得愈加复杂,工业生产中常因微小的故障而引发连锁反应[2],轻则造成设备损坏、加工成本浪费,重则危及人身安全[3]。为此,对数控机床设备的故障诊断成为保障企业生产效率、提高产品加工质量的关键所在[4]。刀具作为数控机床的“牙齿”,其实时的运行状态直接影响着机床加工效率和产品质量。然而,刀具在数控机床高速铣削过程中,由于与工件之间的相互作用,很容易造成边缘变形或损坏。准确高效地监测机床刀具实时运行状态,能够有效避免由于刀具故障而导致的工件质量问题,从而提高产品加工质量[5]。同时,文献[6]中数据表明,对机床刀具状态的精准监测可提高50%加工效率,降低40%生产成本。因此,开发一种具有高精度、高效率的机床刀具故障诊断系统具有重要现实意义。
目前,国内外已有大量学者开展机床刀具故障诊断系统的研究。文献[7]提出一种基于决策树的振动信号机床刀具磨损预测算法,使用十折交叉验证评估模型分类准确性,最大分类准确率为87.5%。在上述工作基础上,文献[8]采用经验模态分解的方法处理刀具振动信号,并使用支持向量机建立故障诊断模型,将机床刀具故障诊断准确率提高到90.01%。文献[9]研究一种基于最小二乘支持向量机分类器的机床刀具破损诊断技术,提供了一种廉价的机床刀具状态在线监测系统。为进一步提高机床刀具磨损状态识别的准确率,文献[10-12]提出基于频域特征分析的机床刀具磨损状态监测方法,通过将频域信息作为辅助特征来扩展机床刀具磨损特征维度,从而提高机床刀具实时监测的准确性。上述工作主要采用结构相对简单的人工智能(artificial intelligence, AI)模型,对机床刀具故障模式的识别能力有限,难以适用于复杂工业环境。
近年来,深度学习凭借其对复杂非线性数据的特征提取能力,被应用于机床刀具故障诊断研究中。文献[13-15]提出基于深度学习的机床刀具磨损状态监测新方法,通过对切削力、振动或声发射信号的分析,挖掘机床刀具磨损过程中潜在特征,实现对机床刀具磨损状态的精准预测。文献[16]采用傅里叶变换将机床X、Y、Z三个主轴方向的电流信号转换为频域信号,借助压缩感知方法将多维度频域信号融合成单维度样本,并输入深度自编码器中来实现对机床刀具磨损状态的精准分类。文献[17]提出一种基于改进多尺度网络的机床刀具故障诊断方法,可提高2.2%的故障诊断准确率。为进一步提高刀具故障诊断的识别精度,文献[18-20]提出基于卷积神经网络(con-volutional neural networks,CNN)和长短时记忆网络(long short-term memory,LSTM)集成的机床刀具故障诊断模型来同时捕获刀具磨损在空时域的特征。虽然现有工作已经开展了机床刀具故障智能诊断系统的研究,但是这些工作在应用于复杂工业现场时仍存在以下问题:①现有基于CNN和LSTM集成的机床刀具故障诊断方法并未考虑机床刀具磨损在不同信号维度上的多尺度特征,故障识别的精度还有待进一步提高;②大部分现有工作处于理论研究阶段,主要聚焦于故障诊断算法的精度提升,而忽略了实际产线对故障诊断的高效率要求,难以保证刀具故障诊断及预警的实时性。边缘计算作为一种新兴技术将云计算的存储、计算资源下沉到网络边缘侧,可及时处理工业现场的故障诊断任务并将结果实时反馈给产线设备,成为实现机床刀具故障诊断实时响应与及时预警的核心技术手段。受限于边缘服务器的计算能力,在实际生产中时间不敏感型或计算密集型的任务仍需在云端完成。为此,针对复杂工业现场,需设计云边高效协同机制来实现刀具故障诊断任务的低时延处理。然而,目前国内外仅有少量文献[21-23]在轴承、发动机等部件的故障诊断系统中引入了云边协同机制,而对适用于机床刀具故障诊断的云边协同机制的研究目前仍属空白。
针对以上问题,本文设计云边端协同的机床刀具故障智能诊断系统。搭建基于振动传感器的刀具磨损试验平台,采集X、Y、Z三轴机床刀具全生命周期振动数据,并通过对机床刀具磨损数据分析,提出基于多尺度卷积神经网络(multi-scale convolutional neural network,MSCNet)和LSTM集成的机床刀具故障诊断模型(LSTM-MSCNet模型),挖掘刀具在不同故障模式下的多尺度特征,实现对机床刀具故障状态的精准识别;同时,考虑到工业产线对故障诊断的高实时性要求,设计一种适用于机床刀具故障诊断的云边端协同(cloud-edge-device collaboration,CEDC)架构,以实现底层产线、边缘节点与工业云平台的高效互联,保证机床刀具故障的及时预警。
为实时监测机床刀具运行状态,精准识别断刀、崩裂等异常情况,实现刀具故障的及时预警,本文设计云边端协同的机床刀具故障智能诊断系统架构。如图1所示,该系统包含数据采集与传输、基于人工智能(AI)的机床刀具故障智能诊断、工业云平台交互三个部分:①在底层设备边缘,部署多源传感器(振动、切削力、声音、电流等)采集机床刀具磨损数据,并利用轻量级数据采集仪对多源传感器数据进行聚合,最后借助嵌入5G模组的网关设备将数据传输至具有计算能力的边缘服务器;②在边缘服务器中部署基于AI的机床刀具故障诊断模型,用以负责实时的机床刀具状态监测与故障识别,根据智能检测与识别结果产生决策,驱动可编程控制器(programmable logic controller,PLC)对报警器、电机等设备进行控制,实现故障的及时预警与处理;③工业云平台则通过基础设施即服务(infrastructure as a service,IaaS)、平台即服务(platform as a service,PaaS)及软件即服务(software as a service,SaaS)辅助生产全流程中各要素之间的交互及可视化展示,同时依托强大计算资源,分析故障数据,训练AI模型。综上所述,本系统设计的关键在于对机床刀具磨损数据的采集以及基于AI的机床刀具故障智能诊断算法与云边端协同机制的设计。
图1 云边端协同的机床刀具故障智能诊断系统架构图Fig.1 Architecture diagram of intelligent tool fault diagnosis system of machine tools with cloud-edge-device collaboration
为设计适用于实际生产场景的机床刀具故障诊断系统,本文基于立式加工中心VDF-850数控机床搭建刀具磨损试验平台,如图2所示,用以采集机床刀具全生命周期磨损数据并进行标注,为后续基于AI的机床刀具故障诊断算法的设计提供数据与理论支撑。
机床刀具的整个切削过程在立式加工中心VDF-850数控机床上进行,通过安装KS903三轴加速度传感器来采集数控机床主轴X、Y、Z三个方向的振动信号,采样频率为10 240 Hz。根据加工工艺,设置每组铣削过程实验耗时为4 min 17 s,每把刀从全新状态到严重磨损状态可采集35~40组实验数据。每组振动信号采集完后,利用19JC数字式万能工具显微镜测量机床刀具磨损值作为数据标签,测量值包括:每个主后刀面的最大磨损宽度、ap/2(ap为背吃刀量)处磨损宽度和磨损面积,每个副后刀面的最大磨损宽度和磨损面积。具体试验参数设置如表1所示。
表1 机床刀具磨损试验平台加工参数
由于在加工过程中机床会存在退刀、空转等状态,这会导致采集的振动数据存在异常值。为此,在进行数据分析前,需先对采集的数据进行预处理,将采集产生的无效值或异常值进行剔除。以机床主轴X方向单组切削过程的原始振动信号为例,数据预处理前后信号如图3所示。参考刀具磨损过程及磨钝标准,依据测量的刀具磨损值将机床刀具全生命周期数据分别标注为初期磨损、正常磨损以及急剧磨损三个阶段。
(a)数据预处理前
在设计机床刀具故障诊断算法前,本文对机床刀具全生命周期磨损数据进行了时频域的分析,结果如图4和图5所示,可以看出,机床刀具磨损越严重,采集振动信号在时域和频域的幅值越大,且X、Y、Z不同维度上的数据均可反映刀具不同的磨损状态。但是,不同维度上的振动信号对机床刀具磨损强度的表征会有所差异。
图4 机床主轴X、Y、Z轴的振动信号样本时域图Fig.4 Vibration signal samples in time domain forX, Y and Z axes of machine tools
(a)X轴初期磨损样本频谱图 (b)X轴正常磨损样本频谱图 (c)X轴急剧磨损样本频谱图
根据对实际加工现场采集的振动信号分析的结果,机床刀具的磨损状态与空时域多维度特征存在着强相关性。为捕获刀具磨损在不同振动方向上的多尺度特征,提高机床刀具故障识别的精度,本文设计了基于长短时记忆网络(LSTM)和多尺度卷积神经网络(MSCNet)集成的机床刀具故障诊断模型(LSTM-MSCNet模型)。如图6所示,LSTM-MSCNet模型网络架构主要包含三个部分:①基于LSTM的时序特征提取模块,主要用于提取X、Y、Z不同振动方向信号在时域上的相关性;②基于MSCNet的空间特征提取模块,用以捕获空间域上X、Y、Z轴振动信号的多尺度特征;③空时特征融合模块,通过全连接网络,将MSCNet与LSTM提取的空时域多尺度特征进行深度融合,更好地挖掘机床刀具潜在的故障模式,提高机床刀具故障诊断准确率。
图6 LSTM-MSCNet模型网络架构图Fig.6 Network architecture diagram of LSTM-MSCNet model
1.3.1基于LSTM的时序特征提取模块
(1)
(2)
(3)
(4)
(5)
其中,wi、wf、wo和bi、bf、bo分别为输入门、遗忘门、输出门学习得到的网络权重和偏差值;wc、bc分别为状态向量变换的权重和偏差值;xt为当前时刻的输入;ct-1、ht-1分别为上一时刻的状态向量和隐状态向量;ct、ht分别为当前时刻的状态向量和隐状态向量;δ(·)表示sigmoid激活函数,值域为 0~1,0表示不通过,1表示全通过。本文采用两层LSTM网络来提取机床刀具磨损信号的时域特征,每层网络神经元个数分别设置为128、32。
1.3.2基于MSCNet的空间特征提取模块
为捕获机床刀具磨损信号在空间域上的多尺度特征,本文设计基于MSCNet的空间特征提取模块。MSCNet可以利用不同分支结构与卷积核参数来提取机床刀具磨损在空间域上不同尺度特征信息,然后通过对不同尺度特征进行融合来提高模型对机床刀具故障诊断的准确率[22]。本文所设计的MSCNet网络结构如图6所示,主要包含3个网络分支,不同分支的卷积层深度有所不同。第1个网络分支包含5个卷积层,各卷积层输出的特征图尺度大小分别为n×n×3,n/2×n/2×8,n/4×n/4×16,n/8×n/8×32,n/16×n/16×64,其中n为输入数据的维度。第2个网络分支包含3个卷积层,各卷积层输出的特征图尺度大小分别为n/2×n/2×8,n/4×n/4×16,n/8×n/8×32。第3个网络分支仅包含1个卷积层,其输出的特征图尺度大小为n/4×n/4×16。通过3个网络分支,模型可以提取不同尺度特征信息。3个网络分支的数学表达式如下:
(6)
(7)
(8)
为进一步优化MSCNet网络性能,在不同分支之间加入残差连接模块,通过将浅层网络分支的特征图与深层网络分支的特征图做残差,以增加特征提取的多样性,同时解决网络梯度消弭问题。残差模块加入后,卷积层输出的数学表达式如下:
(9)
最后,将3个分支输出的不同尺度特征图整合后输入全连接网络进行特征融合,得到机床刀具磨损在空间域上的多尺度特征ys其数学表达代如下:
ys=(ys1,ys2,ys3)
(10)
1.3.3空时特征融合模块
为融合LSTM提取的时域特征与MSCNet提取的空间域多尺度特征,本文在模型最后添加两层全连接网络,并通过Softmax激活函数来输出不同机床刀具磨损状态的概率,从而判定当前的机床刀具磨损状态,其表达式为
yc=[ys,ht]wc+bc
(11)
yp=Softmax(yc)
(12)
其中,yc为全连接网络融合后的空时域特征;wc、bc分别为全连接网络的权重和偏差值;yp为不同机床刀具磨损状态的输出概率向量。
针对复杂工业现场对机床刀具故障预警的高实时性要求,本文设计一种适用于机床刀具故障诊断的云边端协同框架(图7),以实现底层产线、边缘节点与云端工业互联网平台的高效互联,从而保证机床刀具故障的及时预警。其中底层终端设备主要负责数据采集、智能分流等任务并协同边缘服务器与云中心工作。在中层部署边缘服务器节点,优先处理底层产线产生的机床刀具故障诊断、预警等时延敏感型任务,同时部署任务调度监控节点,负责实时查看边缘节点工作状态,同时执行云边端协同调度算法。云中心负责处理AI模型训练、数据存储及机床刀具状态可视化展示等时间不敏感型或计算密集型任务。
图7 基于云边端协同机制的机床刀具故障诊断框架图Fig.7 Architecture diagram of tool fault diagnosis of machine tool based on cloud-edge-device collaboration mechanism
本文的目标是通过设计合理的云边端协同任务分配机制来实现最小化与机床刀具故障诊断相关的不同任务的处理时延,因此,优化目标可表示如下:
(13)
(14)
εu,ξu∈{0,1}ε=(ε1,ε2,…,εu,…,εU)
ξ=(ξ1,ξ2,…,ξu,…,ξU)
其中,ε、ξ为任务在终端的卸载策略向量;U为任务总数;εu、ξu为任务u在终端的卸载策略,εu=1表示任务在底层终端执行;ξu=1表示任务被卸载至边缘服务器执行;当εu=0、ξu=0时,表示任务被卸载至云服务器执行。式(14)为约束条件,表示在底层终端和边缘服务器上为不同任务分配的计算资源总和不能超过底层终端和边缘服务器本身计算能力上限Kdevice和Kedge。
针对上述优化问题,本文采用一种贪心算法对其进行求解,所带来的性能增益将在后续实验部分进行具体分析。贪心算法的核心思路是将一个优化问题的求解过程分成若干个步骤,但每个步骤都应用贪心准则,选取当前状态下最优的选择,最终逼近全局最优解。本文中,选取的贪心准则为:对所有任务进行数据量由大到小的排序,优先选取数据量大的任务进行决策,分别对比其底层设备(按需分配计算资源) 执行、边缘服务器(按需分配计算资源)执行和云服务器执行所带来的系统处理时延,并选择其中时延最小的策略执行,此后依次选取数据量大的任务进行决策,直至所有任务决策完成,具体流程见算法1。
在上述理论研究基础上,本文研发基于AI的机床刀具故障诊断软件系统,实现对机床刀具故障的及时预警,从而指导工作人员对故障设备进行维护,提高企业生产效率与产品加工质量。如图8所示,本软件主要包含4个功能模块:用户注册与登录模块、数据预处理模块、信号特征提取模块、基于AI的机床刀具故障诊断模块。其中用户注册与登录模块主要统计用户注册信息、保证用户信息安全;数据预处理模块主要为了可视化X、Y、Z三轴振动数据;信号特征提取模块主要用以分析和展示机床刀具磨损信号在时频域上的特征信息,辅助机床刀具故障诊断算法进行智能决策;基于AI的机床刀具故障诊断模块主要利用所提基于LSTM-MSCNet的机床刀具故障诊断模型,实现对机床刀具实时磨损状态的精准识别。
为证明所提机床刀具故障智能诊断算法与云边端协同机制的有效性,本文利用采集的实际产线数据开展验证性实验。经过数据预处理后,共得到24 705个样本,其中,初期磨损阶段包含549个样本,稳态磨损阶段包含14 274个样本,急剧磨损阶段包含9882个样本。将数据集随机打乱之后,将样本总数的70%、10%和20%分别作为训练集、验证集和测试集。
图8 基于AI的机床刀具故障诊断软件系统Fig.8 AI-based software system for tool fault diagnosis
本文采用准确率RA(Accuracy)、精确率RP(Precision)、召回率RR(Recall)、F1分数SF1(F1 Score)作为机床刀具故障诊断算法性能的评价指标。4种评价指标的计算表达式如下:
(15)
(16)
(17)
(18)
其中,准确率RA是机床刀具磨损状态分类正确样本数与总样本数的比值;精确率RP是机床刀具磨损状态分类正确的正样本数与所有被分类为正样本数的比值;召回率RR是机床刀具磨损状态分类正确的正样本数与实际正样本数的比值;F1分数SF1是RP和RR的调和平均;NTP表示将正样本正确分类为正样本的数目(true positive,TP);NFP表示将负样本错误分类为正样本的样本数目(false positive,FP);NTN表示将负样本正确分类为负样本的样本数目(true negative,TN);NFN表示将正样本错误分类为负样本的样本数目(false negative,FN)。
学习率(learning rate,LR)是影响模型精度和训练速度的重要参数。当LR值过大时,会使权重更新过快,使得模型精度和稳定性变差;当LR值过小时,会减缓网络学习速度,导致陷入局部最优从而影响模型性能。为此,本文在不同学习率下对所提LSTM-MSCNet进行50次迭代训练,性能分析结果如图9所示,可以看出,当学习率RL为0.0005时,模型取得了最佳的机床刀具故障诊断准确率,因此,本文将LSTM-MSCNet模型的学习率设为0.0005。
图9 不同学习率下机床刀具故障诊断算法性能分析图Fig.9 Performance analysis diagram of tool faultdiagnosis algorithms with different learning rates
为验证所提基于LSTM-MSCNet模型的机床刀具故障诊断算法收敛性,本文对比3种基于不同深度学习模型的机床刀具故障诊断算法,分别为卷积神经网络(CNN)、长短时记忆网络(LSTM)、多尺度卷积神经网络(MSCNet)。由图10和11可以看出,随着迭代次数的增加,不同算法在训练集和测试集上都可以收敛到一定的准确率。而本文所提的LSTM-MSCNet相较于其他对比算法来说具有更快的收敛速度和最优的收敛准确率。
图10 不同刀具故障诊断算法在训练集的收敛性分析图Fig.10 Convergence analysis diagram for different toolfault diagnosis algorithms in training dataset
图11 不同刀具故障诊断算法在验证集的收敛性分析图Fig.11 Convergence analysis diagram for different toolfault diagnosis algorithms in validating dataset
为验证所提基于LSTM-MSCNet的机床刀具故障诊断算法性能,本文除了对比2.2小节不同深度学习模型外,还添加了如下两种机器学习算法:多层感知机(MLP)、支持向量机(SVM),结果如表2所示。从表2中可以看出,本文所提出的基于LSTM-MSCNet的机床刀具故障诊断算法在4种评价指标上都取得了最优的性能。就准确率指标而言,相较于MSCNet、LSTM、CNN、SVM、MLP,所提算法的性能分别提高0.88%、1.23%、1.35%、19.94%、20.99%。这主要得益于本文所提基于LSTM-MSCNet的机床刀具故障诊断算法可以通过提取不同空时域的多尺度特征来增强模型表达能力,从而提高机床刀具故障的诊断性能。此外,相较于机器学习方法,基于深度学习的机床刀具故障诊断算法具有明显的优势,这也进一步说明研究基于深度学习的机床刀具故障诊断算法具有较好的实用价值。
表2 刀具故障诊断算法在4种评价指标上的性能对比
为分析所提云边端协同机制的性能增益,本文与4种不同任务卸载机制进行对比:①任务全部在底层终端设备执行(only local, OL);②任务全部卸载至边缘服务器执行(only edge, OE);③任务全部卸载至中心云服务器执行(only cloud, OC);④通过云边协同机制将任务卸载至边缘服务器或中心云服务器执行(cloud-edge collaboration, CEC),结果如图12和图13所示。从图12中可以看出,随着底层产线待处理机床刀具故障诊断任务数目的增多,除OL机制外,其他卸载机制的任务最大完成时延都逐渐增加。其原因在于任务数目的增加会导致边缘服务器的负载越来越大,使得每个任务被分配的计算资源越来越少,从而导致计算时延增加。相较于OL、OE、OC和CEC机制,当任务数目为45时,本文所提云边端协同(CEDC)机制通过对本地设备、边缘服务器以及云服务器资源的最优化配置,分别缩短31.77%、52.41%、45.38%、47.59%的任务最大完成时延。特别地,OL架构的任务最大完成时延并没有随任务数目的增加而变化,原因在于实际产线上每台机床设备在同一时间段内仅能产生并处理一个机床刀具故障诊断任务。
图12 任务数目变化时不同卸载机制性能对比图Fig.12 Performance comparison of different offloadingmechanisms as the number of tasks changes
图13 边缘计算能力变化时不同卸载机制性能对比图Fig.13 Performance comparison of different offloadingmechanisms as the capacity of edge computing changes
此外,从图13中可以看出,随着边缘服务器计算能力K值的增大,在边缘处理的机床刀具故障诊断任务数也将增加,使得OE、CEC、CEDC机制的任务最大完成时延逐渐缩短。所提CEDC机制取得了最优的时延性能,相较于OE和CEC机制,可分别缩短13.97%、42.34%的系统最大任务完成时延。
针对复杂工业现场对机床刀具故障诊断的高精度、高时效性要求,本文设计一种云边端协同的机床刀具故障智能诊断系统,以实现机床刀具运行状态的精准监测与故障的及时预警。研究结果表明,所提出的基于LSTM-MSCNet的机床刀具故障诊断算法可通过挖掘机床刀具磨损在不同空时域的多尺度特征,实现对刀具磨损状态的精准识别,准确率可达98.3%;同时,所提云边端协同机制可以高效协同工业云平台、边缘服务器及终端设备三者之间的计算资源,最小化任务的完成时延,从而满足机床刀具故障预警的高实时性要求。本工作的研究对提高企业产品的生产效率和加工质量具有重要意义,具备较强的可推广性。在后续的研究工作中,本课题组将考虑增加切削力、声发射、电流等多源传感器采集数据,提高在不同工况下刀具故障诊断的稳健性。