李兴,朱苏青,刘松林
(中国石化股份有限公司 江苏油田分公司,江苏 扬州 225009)
随着油田生产信息化深入发展,生产现场管理在逐步向自动化、无人化的方式转变,油水井生产参数监测、视频巡回检查等手段得到了充分利用,并在生产现场管理中发挥越来越重要的作用。当前油田生产信息化系统对于现场抽油机设备的监控存在以下问题: 设备监控手段较少,仅有视频或电参仪设备;抽油机故障初期产生的声音异常,很难在中心控制室视频巡查中发现和辨别,当通过视频发现异常时,故障已严重化、事故化。在油井日常管理中发现抽油机出现故障前都会产生一些典型的预警声音,如皮带打滑时的啸叫声,平衡块固定螺丝松动产生的撞击声,若超负荷运行时,电动机振动导致抽油机振动,游梁与横梁连接部位脱落,或其他部件发生变形、损坏,平衡块松动,造成的各种异常响声等[1]。如果在故障初期及时发现和识别,可以防范小故障演化成大故障、更能避免机械事故的发生。
随着人工智能、信号处理、智能信息处理等新技术的出现,开展抽油机故障音频诊断及预警技术研究与应用,利用物联网、机器学习、大数据分析等技术,推动油田的安全生产具有十分重要意义。
在抽油机合适位置安装音频智能采集器,对抽油机音频进行智能分析研究,传统的识别方法[2-3]普遍存在实现困难和识别精度不高难以达到工业现场要求的缺点。随着近些年深度学习的发展,深度学习的卷积神经网络在图像识别处理中表现出了越来越高的准确度。本文将音频数据转换为特征图像(语谱图),利用深度学习的卷积神经网络对图像分类识别,从音频信号中提取梅尔频率倒谱系数(MFCC),将音频信号转换为语谱图,通过深度卷积神经网络提取图像特征,应用迁移学习和知识蒸馏等多种学习方法,结合深度残差网络进行抽油机音频故障分类。
通过研究音频智能采集器在不同安装位置所获取的音频数据,排除来自其他方向的干扰音频信号,选择监测能表征抽油机工作状态的声音信号。
声源定位系统主要包括: 麦克风阵列、多通道声波信号同步采集仪(声相仪)和声波信号分析平台。麦克风阵列分为规则几何形状和非常规阵列,通过麦克风阵列可以计算声源的角度和距离,从而实现对声源的跟踪以及后续的声音定向拾取。声相仪使用高性能动态数据采集卡,可完成多通道大量数据的精确采集。声波信号分析平台处理声波信号形成声图像,直观显示声波定位信息。
某油田项目前期做了大量实验,在抽油机多个部位安装抽油机音频智能采集器,但资金投入大,逐步简化为带有双路麦克风的抽油机音频智能采集器,具有很好的应用效果。
抽油机音频采集技术所使用的前端硬件主要是音频智能采集器,由电源模块、拾音模块和采音模块组成,拾音模块接收外部的声音,降噪处理后传输至采音模块,采用海思Hi3518E芯片作为该采集器的微控制单元(MCU),配置时钟电路、存储器、音频接口、RJ-45接口、JTAG接口和RS-485接口,具有Micro SD卡扩展功能,音频智能采集器通过采音模块的RJ-45接口连接油田内网,将处理后的音频数据传输至远程数据库服务器。双路麦克风抽油机音频智能采集器硬件架构如图1所示。
Hi3518E芯片具有回音消除和自动增益功能,同时采用了低功耗工艺和内部的低功耗架构设计。
该采集器的拾音模块的前置放大电路的主芯片采用TL971,具有较低噪声和较高共模抑制比。对于较远距离传来的音频信号使用较大放大倍数,对于近处音频信号使用较小放大倍数,以防止削峰失真。当输入信号较弱时,呈线性放大趋势,增益较大;当输入信号强时,增益随着输入信号的增强而减小。
拾音模块的有源带通滤波器采用两个Sallen-Key 结构的二阶有源带通滤波器串联构成,优点是可以通过内部增益来改变品质因子,而不改变中心频率,缺点是品质因子和增益不能独立调节。
利用Hi3518E芯片自带的回音消除模块(AEC)消除回音,无需外接回音消除芯片,可以更好地控制成本。自动增益模块(AGC)通过反馈控制直放站的增益来控制输出电平,当声音输入音量有大小变化时,能将输出音量控制在比较一致的范围内。
音频识别算法的主要过程[4-5]包括: 音频输入、预处理、特征提取、模型匹配、输出结果。预处理主要是分割音频数据,即打点切分音频。音频切分完成后,将切分得到的各音频片段加以分类,使之后的音频处理有据可循。
语谱图和MFCC[6]是音频识别中常用的特征类型。
3.1.1语谱图
语谱图[7]是一种频率随时间变化的三维图谱,它通过二维平面图来表达三维图谱信息,其纵坐标为频率,横坐标为时间,时间和频率所对应的像素点的值可以反映出相应时刻和频率的能量。语谱图也是一种可查看信号特性的二维平面图,可以查看到声源点的共振特性与声音在自然界的特点。颜色深浅反映了语谱图所表示声纹幅度的大小,幅度越大颜色越深。
3.1.2梅尔频率倒谱系数
MFCC基于人类听觉特性的特征,主要应用于语音识别等领域的音频数据特征提取与运算维度的降低。由于人耳感知的声音高低与声音的频率成非线性关系,而与声音频率的对数成线性相关,因此提出与赫兹频率成非线性对应关系的梅尔频率。
3.1.3音频处理
3.1.3.1 音频处理流程
结合MFCC和语谱图特征的音频处理流程,如图2所示。首先对音频信号进行预加重、分帧处理与加窗操作,然后将每一个短时分析窗经过快速傅里叶变换(FFT)得出相应的频谱;将该频谱经过梅尔滤波器组得出梅尔频谱,再做倒谱分析;对其取对数,逆变换处理,一般采用 离散余弦变换(DCT)来实现[8-9]。
图2 音频处理流程示意
音频处理流程[8-9]是在标准语谱图的实现过程中,将能量密度谱处理环节用梅尔滤波器组、对数运算和DCT变换代替。
3.1.3.2 音频处理主要步骤
音频处理的主要步骤如下:
1)音频信号分帧。整体上看,抽油机音频信号的特性及能表示其本质特性的参数都是随时间变化的,其过程在长时间范围内是非平稳态的,通常用来处理平稳音频信号的数字信号处理技术对其并不适用。然而,由于不同的抽油机音频是由抽油机部件运动产生的,而部件运动相对于音频来说是非常缓慢的,所以在一个短时间范围内的抽油机音频信号特性基本不变,也就是“短时”相对稳定,因而可以将其看作是一个准稳态过程,即抽油机音频信号具有“短时”平稳性。在“短时”的基础上,对抽油机的音频信号进行分帧分析和处理,如图3所示。
图3 信号分帧处理示意
傅里叶变换要求有平稳的输入信号,它既要保证足够短且平稳的帧内信号,又要保证足够多的信号周期,只有重复足够多次才能分析频率。
2)加窗处理。音频信号分帧后对每一帧加一个“窗函数”,以获得较好的旁瓣下降幅度。窗函数公式如式(1)所示:
(1)
式中:w(n)——样本索引n处的窗口系数;0.54——抵消期限;0.46——缩放项;N——窗口长度。
音频信号加窗处理原理如图4所示。加窗即信号与一个“窗函数”相乘,加窗是为了让一帧信号的幅度在两端逐渐变到0,使其在此时间长度内为周期信号,满足了FFT变换处理的周期性要求,减少频谱泄漏。
图4 音频信号加窗处理示意
3)FFT变换。对分帧加窗后的各帧信号进行FFT变换得到各帧的频谱,并对音频信号的频谱取模平方得到音频信号的功率谱,从而得到频谱上的能量分布。频谱能量分布如图5所示。
图5 频谱能量分布示意
由图5看出该帧音频信号在0.490 kHz和0.585 kHz附近的能量比较强。“包络”是连接图中小峰峰顶的平滑曲线。“包络”上的峰叫共振峰,4个共振峰,分别在0.5 kHz,1.7 kHz,2.45 kHz,3.8 kHz附近,共振峰代表了音频的种类。
4)MFCC提取。将FFT变换处理后的音频信号功率谱,通过梅尔滤波器将每个滤波器中的能量相加。再取所有滤波器组能量的对数,经DCT变换后得到MFCC。
第二天,紫云来了,她还在打自己的小算盘,催促蒋浩德结婚,也好搬进蒋家,名正言顺地照顾老人。蒋浩德开始疏远她,给她交了个底:“紫云啊,你还是趁早找个人吧!我是不长久的。”
5)生成语谱图。映射MFCC的频率幅值,通过量化的方式,0表示白,255表示黑色,幅值越大,相应的区域越黑,映射后得到语谱图如图6所示。语谱图表达了时间、频率和声音级功率(LW)三个维度信息。
图6 映射后得到的语谱图示意
目前国内音频识别领域的应用算法以循环神经网络(RNN)为主,而图像领域专注卷积神经网络(CNN)。借鉴图像识别在近些年的成果,以及语音与图像在模型训练上的共通性,成功的将深层卷积神经网络技术应用于该项目领域的抽油机音频识别研究。
算法研究的第一个关键点是采用更深层次的神经网络。从ImageNet 竞赛和谷歌的研究可以看出,更深的卷积网络层级,能提取更为抽象的特征,进而在逐渐增多的数据中,学习到更多的知识。
算法研究的第二个关键点是在少量标签上,提高学习效果。相对于图像识别拥有的巨大训练数据量,语音识别领域的一个很大的困难就是训练数据不足。如何尽可能充分利用少量的标签数据,是模型成功的关键。但是如果标签过少,将无法达到好的泛化效果。
对于音频识别采用以下几种方式:
1)深度残差网络。传统的深度学习网络,当网络深度足够深时,会出现深度越深学习率越低的情况。深度残差网络作为一种卷积神经网络的变化形式,借鉴了高速网络的跨层链接思想,具有跳跃式的结构,该网络的设计[10],解决了网络深度加深使学习率变低的问题,有效提升了准确率,解决了网络退化问题,也带来了更为丰富全面的信息或维度(特征值)作为参考。基于该网络,系统可以学习到更加丰富、全面的信息。
2)特征抽取。先将残差网络在ImageNet的有标注数据集上预训练,预训练模型内部包括多个残差块,接着删除最顶层的分类层,把中间的输出层作为特征抽取模块。
3)模型训练。模型训练时,用迁移学习提高模型的泛化能力和稳定性。先将残差网络在ImageNet 的有标注数据集上预训练,以该预训练参数作为初始参数进行迁移学习,可使模型获得一定与图像相关的先验知识。
该项目在现场录取了近6.0×103条特征音频数据,并在相邻区块112口井推广应用,实现了抽油机音频信号的实时采集与传输,通过抽油机故障音频实时诊断技术,实现了设备故障处理的实时响应。
抽油机音频数据采集流程如图7所示,该采集器安装在靠近抽油机电机的位置,通过无线接入点(AP)与交换机连接,井场的监控球机也与交换机连接,交换机利用光纤收发器接入油田内网的光纤链路,油田管理区通过音频数据转储软件,将抽油机音频信息存储至中国石化勘探开发业务协同平台(EPBP)的MongoDB数据库服务器,由音频诊断程序进行诊断,并输出诊断结果,由用户查询程序查看结果。
图7 抽油机音频数据采集流程示意
通过该音频智能采集器生成语谱图的三个维度信息可用于分析设备故障原因。从像素的灰度值大小反映相应时刻和相应频率的信号能量,颜色越深表示该点的语音能量越强。
4.2.1电机正常运行语谱图
电机正常启动过程中,声音随转速的频率增大而变大,特征频率点随着时间,形成向上的弧线。在停电机过程中,随着转动变慢,对应的特征频率点,随着时间降低形成向下的弧线。电机启停正常运行声音语谱图如图8所示。
图8 电机启停正常运行声音语谱示意
4.2.2皮带打滑语谱图
皮带相对于机械部位,相对频率较高,皮带发出的声音对应于1~4 kHz间的波纹,间隔约1 s出现双扇形纹。皮带打滑语谱图如图9所示。
图9 皮带打滑语谱图示意
4.2.3压杠松语谱图
压杠松动造成的撞击声音,从低频到高频都有,对应于图形上一个短时间的柱状条,间隔约1 s出现柱状干扰。压杠松语谱图如图10所示。
图10 压杠松语谱图示意
4.2.4电机轴承干磨语谱图
干磨的独特声音,对应于栅栏状的纹理,密集出现柱状干扰,但强度低。电机轴承干磨语谱图如图11所示。
图11 电机轴承干磨语谱图示意
4.2.5支架松语谱图
支架松动导致的故障声音,也是类似栅栏状,但是和干磨的周期、频率范围不同,形成密集出现柱状,强度高的另一种栅栏状语谱图。支架松语谱图如图12所示。
图12 支架松语谱图示意
本文使用语谱图技术,把音频转为视频图像,用图像领域的深度卷积网络来处理音频数据。通过深度残差网络模型有效地对信息完整性做了保护,网络深度加深导致的学习率变低问题得以有效解决。在项目实现过程中,基于迁移学习,复用预训练的复杂网络,提高了模型稳定性,在小样本数据集上,也能得到高准确率、高稳定性的结果。