陆正卿,方维岚,胡晓俊,梁军汀
(1.上海烟草集团有限责任公司,上海 200082;2.同济大学声学研究所,上海 200092)
在工业企业中,制冷机或制冷机组的使用极为广泛。目前,制冷机的故障检测大多采用人工的方法,不仅效率低,而且容易出现误检或漏检。在制冷机的长期运行过程中,因气缸、曲轴磨损以及管路、设备松动等导致的运行异常或故障往往伴随着制冷机运转噪声的加大和异常声音的产生,因此,采用声音识别技术对制冷机的运转噪声进行研究,从而实现制冷机运行状况及故障的在线监控,不仅是可行的,也是非常有必要的。
声音信号识别的关键是声信号特征参数的选择、提取以及分类模型的建立。关于声信号特征参数的提取,常用的方法有线性预测倒谱系数(LPCC)法和Mel频率倒谱系数(MFCC)法等[1-3];常用的分类模型有基于高斯混合模型(GMM)的聚类算法模型、基于机器学习的最小二乘支持向量机回归算法模型、基于深度学习的卷积神经网络(CNN)/神经网络(RNN)/长短期记忆神经网络(LSTM)模型等[4-8]。采用不同的特征参数及分类模型,声信号的处理效果也不同。
笔者针对企业的实际需求,在分析、研究各种声音识别技术的基础上,根据制冷机运转噪声所具有的持续时间长、噪声信号较为平稳等特性,提出了一种将MFCC与LSTM相结合的制冷机运行状态及故障识别方法,研制了一种基于声信号无线远传和声纹识别的制冷机运行及故障监控系统,并采用试验的方法验证该方法的有效性。
MFCC是根据人耳对声音信号的频率非线性感知特性,对接收到的制冷机运转噪声语谱信号(即时频分布信号)进行一系列的处理后计算得到的,MFCC特征提取的步骤如下。
(1) 信号预处理。
包括预加重、分帧、加窗、去噪处理等,其中,预加重主要用于声信号的高频衰减补偿;分帧用于声信号的短时或瞬时特征提取,常采用交叠分段的方法,使得帧与帧之间的信号有一个较为平滑的过渡;加窗主要用于减小每帧信号在起始点和终点处可能存在的因直接分段截取而产生的突变,加窗常采用Hamming窗函数。
(2) 对帧长为N(采样点)的信号中的每帧信号求离散功率谱。
(3) Mel频率转换。
对求得的离散功率谱中的线性频率f进行转换,转换为非线性Mel频率mf,则有
mf=2 595log10(1+f/700)
(1)
(4) Mel滤波器组滤波、取对数。
对频率转换后的离散功率谱Xa(k),用M个在Mel频率刻度上均匀分布且相互重叠的三角带通滤波器Hm(k) 进行滤波,并对每个滤波器的输出求对数能量s(m),则有
0≤m (2) 式中:k为整数,且0≤k≤N-1。 (5) 离散余弦变换(DCT)。 对求得的对数能量s(m)进行离散余弦变换,得到MFCC 系数C(n) 0 (3) 式中:L为MFCC系数的阶数,且L≤M。 (6) 动态特征。 式(3)求得的MFCC 系数C(n)反映了声信号参数的静态特性,是MFCC的静态谱部分,可以使用C(n)的一阶或二阶差分来对声信号参数的动态特征进行描述,具有很好的鲁棒性。C(n)一阶差分d(n)可表示为 (4) 式中:K表示一阶差分的时间差,可根据具体情况选择1或2。 将一阶差分的计算结果,按照式(4)的方法再进行一次一阶差分计算,就可以得到MFCC的二阶差分参数。 1.2.1 LSTM基本结构单元 LSTM的基本结构单元[9]如图1所示。图1中,每一基本结构单元都由遗忘门、输入门、输出门以及细胞状态更新层等4部分构成,它们以一种特殊的方式进行信息交互,从而避免发生梯度消失和梯度爆炸现象。其中,遗忘门输出值ft介于 0~1之间,“0”表示全部忽略,“1”表示全部接受,遗忘门的存在使模型具有长久保存信息的功能;输入门分成it和t两部分,其中it确定当前输入中的哪些信息需要更新,输入门的存在可以避免无用信息被记录。图1中σ()为激励函数,tanh()为双曲正切函数,xt为t时刻的输入信息;ht为t时刻的输出信息;Ot为输出门。 图1 LSTM基本结构单元示意 LSTM内部工作流程大致可分为遗忘阶段、选择性记忆阶段和输出阶段等3个阶段,其中遗忘阶段主要是在对上一个LSTM节点的输入信息进行判断后,对其进行选择性遗忘,以便筛选出其中的重要信息向后传导;选择性记忆阶段主要是对前一节点传输而来的输入信号xt进行选择性记忆,从而筛选出其中的重要内容;输出阶段决定哪些信息会被作为当前状态的有效信息进行输出。 1.2.2 LSTM神经网络总体结构 毕业要求中提到“基于科学原理”进行研究,运用“自然科学、工程基础和专业知识”,可见机械工程材料的基本科学原理是教学的重点内容。课程体系中的主要原理包括:力学、晶体学、材料凝固过程和二元合金相图、钢的非平衡相变和钢的热处理原理等。这些内容较多且比较零碎,是重点又是难点。在教学过程中,需要把握抽象理论的内在联系规律,即以成分、组织、工艺和性能为主线讲解,最终目标是实现材料的应用。从晶体结构角度设计材料成分,通过制定和改进热处理工艺改变组织,达到期望的力学性能。 笔者设计的LSTM神经网络分类模型由输入层、隐藏层、全连接层、Softmax分类层和输出层构成(见图2)。 图2 LSTM神经网络分类模型 输入层用于MFCC参数的输入;隐藏层为多层LSTM构成的LSTM网络,用于对输入MFCC特征参数进行多层次抽象或者更好地展现其抽象化特征,以便对这些特征进行更好地线性划分;全连接层用于增加模型的非线性表达能力,提高模型的学习能力并指定输出类别的个数;Softmax分类层用于接收来自全连接层的经过处理的特征数据,计算并输出各类别分类的概率;输出层用于输出最后的分类结果。 研制的基于声信号无线远传和声纹识别的制冷机运行及故障监控系统结构框图如图3所示。 图3 故障监控系统结构框图 图3中,信号调理采集及无线远传仪将麦克风接收到的制冷机运转噪声信号进行调理、放大、采集后,通过通用分组无线业务(GPRS)网络、广域互联网以及云平台传送给上位计算机,接收信号的处理、识别主要在上位计算机中进行。 接收信号调理采集及无线远传仪采用低噪声、微功耗设计,其电路原理框图如图4 所示。 图4 接收信号调理采集及无线远传仪电路原理框图 图4中,采用由前置放大器、可控增益放大器、滤波器、主放大器构成的四级运算放大器结构对麦克风接收到的制冷机运转噪声信号进行放大、调理,其中前置放大器和主放大器的增益固定;可控增益放大器的增益由单片机通过控制数字电位器的电阻来实现;有源带通滤波器的带宽根据制冷机运转噪声的频率特性设定。 笔者采用MATLAB语言编制了相关的MFCC特征提取及LSTM神经网络分类识别软件,并用自行研制的故障监控系统,对现场使用的离心式制冷机的运转噪声进行了采集、远传及相关的分类识别试验。试验时,根据制冷机运转噪声的频率特性将有源带通滤波器的带宽设置为100 Hz~2 kHz,接收信号的AD(模数)采样位数为16位,采样率在1 kHz~16 kHz内可任意设置。 试验中,将声信号的AD采样率设置为16 kHz,每次采集的信号时间长度设置为5 s,FMCC特征提取主要参数设置如表1所示。 表1 MFCC特征提取主要参数设置 Mel滤波器的个数为36个,以便对接收声信号的整个频率范围进行良好的覆盖;MFCC阶数为18,可以在不影响测试性能的前提下有效减少特征参数的数据量;每帧长度设为256个采样点,在16 kHz采样率下对应的时间长度为16 ms,符合短时信号时间长度一般为10~30 ms的限制性要求;每帧位移设为80个采样点,能够保证每帧之间有相对平滑的过渡;小信号切除阈值设为5%,用来切除接收声信号中存在的微小噪声;窗函数采用比较常用的Hamming窗。 提取的MFCC特征参数包含静态特性参数和一阶差分动态特性参数两部分。以MFCC静态特性参数为例,试验中实测的声信号波形及对应的MFCC特征谱图如图5所示。 图5 实测的声信号波形及对应的MFCC特征谱图 试验中,LSTM神经网络的主要参数设置如表2所示。 表2 LSTM神经网络的主要参数设置 根据现场制冷机的实际运行情况,将制冷机的工作状态分为闲置状态(制冷机未开启)、正常启动状态(制冷机正常从停止到开启)、正常运转状态(制冷机正常运转)、正常关 闭状态(制冷机正常从运转到停止) 、异常/故障状态(声信号特征有别于前4类的状态)等5类。试验时,松动正常运转的制冷机外壳固定螺丝进行,使其产生轻微的振动声,以模拟制冷机出现故障时可能出现的声音。 在各个状态下分别采集200个时长均为5 s的声音信号,随机选取其中的100个信号作为MFCC特征提取及LSTM神经网络的训练样本,剩下的100个信号作为测试样本,得到的制冷机运转状态识别结果如表3所示。 表3 制冷机运转状态识别结果 采用MFCC与LSTM相结合的方法,可以有效提取制冷机运转噪声在不同状态下的时频分布特征并对其进行有效识别,具有很高的分类识别率及故障预测性能。利用研制的制冷机运行及故障监控系统,不仅可以及时发现各种部件损伤或损坏引起的制冷机运行异常,实现故障的及时预测与报警,而且对于降低企业的人力成本、运营成本等具有重要意义。1.2 LSTM神经网络原理
2 系统的实现
3 试验结果及分析
3.1 MFCC特征提取
3.2 基于LSTM的制冷机运行状态及故障识别
4 结语