刘 元,苏 盛,刘正谊,夏云峰,刘贯科,李 彬
(1. 长沙理工大学 电网新能源防灾减灾研究中心,湖南 长沙 410004;2. 国网常德供电公司,湖南 常德 415000;3. 广东电网有限责任公司东莞供电局,广东 东莞 523000)
电力设备运行时发出的声音信号能有效反映设备运行状态。利用非接触式声音传感器采集电力设备运行声音信号,利用声音信号分析和诊断运行状态,具有安装灵活、信息量丰富和可靠性高等优势,是电力设备状态在线监测的重要发展方向。科研人员围绕利用声音监测电力设备运行状态开展了大量研究[1-3],有力地推动了基于声音的在线监测技术的工程应用。分散分布的配电变压器由于数量庞大、巡检周期长,存在的故障隐患问题更突出。基于声音的无接触式在线监测技术有望发展为提高配电变压器运维水平的重要手段。需要指出的是,配电变压器多布设于街头巷尾的嘈杂环境中,环境噪声将对基于声音的设备运行状态诊断造成较大的影响。如何消除环境噪声的干扰,是利用声音监测配电变压器运行状态的关键。
已有的电力设备状态监测研究中,可听声音消噪主要针对变电站内变压器、电抗器等设备,此类应用场景下噪声干扰来源明确,目前主要有2 种消噪思路。
1)采用滤波消除较强信号中的微弱干扰,一般采用小波分析结合软、硬阈值滤波等方式,可在弱噪声条件下取得良好的消噪效果[4-5]。由于电力设备运行环境的噪声具有强不确定性,该方法主要用于消除微弱噪声,或信号和噪声的频段相互分离的确定性噪声,如滤除频率集中在低频段的冷却风扇噪声,但也存在难以滤除强背景噪声、参数控制困难、容易削弱有效数据的问题。
2)采用盲源分离技术从观测信号中恢复辐射源信号,该思路以基于独立分量分析和基于稀疏表示理论的稀疏分量分析的信号分离方法为主。其中,基于独立分量分析的信号分离方法在变压器振动、局部放电检测等领域应用较多[6-7]。但该方法存在非线性欠定问题,需要满足观测信号数目大于信号源数目及观测信号具有线性可叠加性的条件。由于干扰信号源数目难以预知,只能大量增加声音传感器。且受声音反射、折射等因素影响,在不同位置测量的电力设备声音并不具有严格的线性可叠加性,这制约了该方法的推广应用。基于稀疏表示理论的稀疏分量分析的信号分离方法通过对信号的稀疏表示解决非线性欠定性问题,从含环境噪声干扰的变压器运行声音中分离本体振动声音[8-9],再根据变压器运行声音在频域上具有稀疏性的特点,提前录制噪声干扰较小的变压器声音作为样本集,训练得到能标识样本的训练字典,并挑选出与新采集样本最为匹配的字典后进行重构。但根据含强环境噪声的声音信号重构设备运行声音,可能会改变声音对应的设备运行状态,难以真实还原声音构成。
此外,经验模态分解和变模态分解相结合的算法近年来也被用于信号消噪[10]。但前者存在模态混叠问题,后者存在需提前确定模态数量等问题,使得该类算法还需得到进一步优化。
配电变压器运行在开放、嘈杂的环境中,环境噪声具有强不确定性,难以预判一般性规律,传统的噪声消除方法难以适用,容易将含噪声的声音监测样本判断为设备异常状态。因此,有必要研究嘈杂环境下环境噪声干扰的识别和消除方法,推动基于声音的配电设备状态监测技术的发展。
因为电力设备故障多为慢变过程,状态异常检测的时效性要求不高,加之基于声音的在线监测系统可持续不断地记录设备声音数据,只要能准确识别和剔除含环境噪声干扰的录音样本,仍可利用含环境噪声较小的录音样本聚类识别设备运行状态。本文利用正常和故障异常状态下电力设备运行声音与环境噪声的特性差异,提出了一种基于时、频域自相似性的环境噪声识别与剔除方法,将每分钟的录音数据分帧后提取每帧的时、频域特征,利用基于MeanShift 聚类的相似度分析方法对特征进行相似度分析,识别其中是否包含不具有时、频域自相似性的环境噪声,从而筛选出有效样本,为后续基于声音信号识别电力设备运行状态监测提供支撑。
变压器振动发出的声音主要由铁芯和绕组振动产生[12]。其中,铁芯振动是由硅钢片的磁致伸缩效应、硅钢片接缝处的电磁力引起的,绕组振动是由通电绕组在漏磁场中受力引起的。在分钟级时间尺度上,电力设备的电气量参数波动有限,振动声音信号的时、频域特征随时间变化较小,具有稳定性和自相似性。配电变压器在轻载、重载以及底座螺栓松动故障下发出声音的时域和时频域图像见附录A图A1。
1)从图A1左边的时域波形图能直观看出,声音强度在轻载时波动幅度很小,重载时声音强度略有加大且频繁出现小幅毛刺;底座螺栓松动时发出声音的强度明显高于正常运行场景,也频繁出现小幅毛刺。
2)图A1 右边的时频域特征图展示了频率成分随时间变化的情况,颜色对应能量大小,颜色越亮的区域对应频率成分的能量越强。轻载时频率成分在60 s 内基本平稳;重载时频率成分和频率波动与轻载时大致相同,但低频能量明显更强;底座螺栓松动时,出现了较多的高频分量,包含低频能量在内的各部分能量进一步加强。此外,在3 种故障下频率分量在60 s内均基本平稳。
配电设备运行环境中的可听声音可分为设备运行声音和环境噪声两大类,如表1所示。第1类是配电房或环网柜内目标监测配电设备运行时的可听声音,主要包括正常运行时的设备振动声音和异常时的振动、放电声音;第2 类是周围环境噪声,如语音、车辆经过、蝉虫鸣叫、蛙鸣、风声、雨声、雷电声等。其中,电力设备在正常和异常状态下发出的声音均具有稳定持续的特性,而环境噪声均为短期内不稳定变化的声音,无论在时域上还是在频域上都不具有持续稳定的特性。含典型环境噪声的录音数据的时域和时频域图像见附录A图A2。
表1 配电设备运行环境中的可听声音分类Table 1 Classification of audible sound in operation environment of distribution equipment
1)图A2(a)所示的录音包含语音和车辆经过的噪声。由图可见:语音大小和频率无规律,不具有平稳性,与配电设备运行声音存在较大差异;车辆经过时发出的声音随车辆与配电设备的距离的变化而持续波动,车辆从远处驶来,经过配电设备且车身侧面正对配电设备时,发出的声音先增大后减小。
2)图A2(b)所示的录音包含蝉鸣和鸟叫,由图可见,两者在时域上部分区域存在规律的脉冲,在短时间内具有一定的周期性。但动物鸣叫是靠发声器官的肌肉收缩,声音随时间变化较大,不会长期持续稳定存在。
3)图A2(c)为下雨时的录音数据,雨点落在声音传感器附近造成类似脉冲的噪声干扰,使得声音的时域波形存在较多毛刺,在时频域图像中表现为颜色较亮的条纹。
4)图A2(d)为大风天气下的录音。刮风时风速的起伏将在经过声音传感器时留下呼啸声,随风速变化产生较明显的不稳定噪声。
综上所述,配电设备运行环境噪声在时域和时频域上具有和设备运行声音显著不同的差异性特征,可考虑利用这一差异识别和剔除含环境噪声的录音数据。
电力设备的振动类和放电类故障为慢变过程,异常声音将持续存在。在分钟级时间尺度上,电力设备的电压、电流等参数波动幅度有限,发出声音的时域和频域特征随时间变化较小,在时域和频域上具有较高的自相似性。而环境噪声在时域和频域上随时间有较明显的变化,不会长期持续,并不具有自相似性。将分钟级的声音样本分帧分割为若干片段后,可对各帧进行相似性分析,发现样本声音在时、频域上不具有相似性时,可判断该样本为含噪声样本。
利用环境噪声不具有自相似性的特点,按图1所示流程,采用无需预设类簇数的MeanShift 聚类算法判断录音数据的自相似性。将录制的分钟级声音分帧分割为若干秒级片段,然后提取每帧的时域能量、小波包频域能量特征,作为特征向量进行聚类。不含噪声的声音片段在时、频域特征上具有较高的相似性,会紧密聚成一个类簇,而含噪声的声音片段和不含噪声的片段具有差异性,会被识别为不同的类簇。
图1 含环境噪声样本的识别、剔除流程Fig.1 Identification and elimination flowchart of samples with environmental noise
2.2.1 预处理
识别电力设备监测录音中的环境噪声时,对声音的预处理主要包括分帧和加窗2 个步骤。进行信号分帧时,为了使相邻帧具有连续性,可参照图2 在两帧之间设置部分重叠区域,重叠区域长度一般为帧长的1/3~1/2。图2 中,分帧帧长为T,重叠区域为T/2,后一帧相对前一帧的位移量称为帧移。
图2 样本分帧示意图Fig.2 Schematic diagram of sample frame
2.2.2 特征提取
本文选择小波包分解后的能量特征作为频域特征,用于表征不同频段上的频率成分的能量分布[15]。小波包分解是一种频段划分方法,能将信号按任意时频分辨率分解到不同频段,具有精确细分的特点和较强的时频局部化能力,能很好地满足信号特征提取的要求。
对于已知声音信号s(t),经过i层小波包分解后将在第i层获得2i个信号的子频段,此时s(t)可表示为:
式中:i=0,1,2,…,2i-1;fi,j(tj)为进行i层小波包分解后节点j在第i层的重构信号。若信号的最小频率为fmin,最大频率为fmax,则经过i层分解后第i层的每个子频段频率宽度为(fmax-fmin)/2i。
由于含噪声与不含噪声的声音片段在频率分布上具有差异性,可提取不同频段上的特征如能量进行区分。上述信号s(t)经过小波包分解后,每个子频段能量Ei,j可表示为:
聚类算法是以相似性为基础,将样本集合按照特征属性划分为不同类簇,它认为属于同一类簇的样本具有较大的相似性,属于不同类簇的样本间具有较大的差异性。
式中:h为带宽参数;核函数K(x)满足式(6)。
式中:ck,d为保证K(x)积分为1的标准化常数。
另外定义向量函数k(x)的负导函数g(x),即g(x)=-k′(x),其对应的核函数G(x)为:
1)给定初始点x、g(x)的核函数G(x)、容许误差ε,计算均值漂移向量mh(x);
2)将mh(x)赋值给x;
3)重复步骤1)、2),直至‖ ‖mh(x)-x≤ε时结束循环。
图3 MeanShift聚类示意图Fig.3 Schematic diagram of MeanShift clustering
将一段声音信号经过分帧后得到的n帧信号记 作{yi|i=1,2,…,n},将 其 时 域 特 征 向 量 记 作Si,1—Si,4,将频域特征向量记作Pi,1—Pi,128,则第i帧声音信号的特征向量Mi、单个声音样本总的特征矩阵M分别如式(10)、(11)所示。
对样本的特征矩阵进行聚类分析,若能聚成一类,则说明各帧信号具有较高的相似性,判断为可用于诊断设备运行状态的有效样本;若形成多个类簇,则说明样本不具有自相似性,判断为含噪声样本。
采用TEAC 公司的TASCAMDR-05 录音机在部署有一台配电变压器的箱式变压器内持续采集2 个月的可听声音,现场布置见附录B 图B1。声音传感器的测量误差在3 dB 以内,采样频率为48 kHz。录制了变压器正常运行状态和底座螺栓松动状态下,大量含不同类型环境噪声的声音样本,录制时的环境噪声以车辆路过、语音、雨声、风声等为主。由于录音是现场采集,将人工挑选的高信噪比声音样本作为不含环境噪声的正常运行声音样本。
将录音数据分割成长度为60 s 的子音频样本,以其中一个子样本为例进行说明。首先,按分帧帧长10 s 对子样本进行分帧,如图4 所示;然后提取每帧的时、频域特征。将小波包分解层数设置为7,小波基选择db10,利用小波包分解提取不同频段的能量特征,得到128 个频段能量,每频段带宽约为156 Hz。取前3帧的前10个频段的能量分布进行分析,如图5 所示,图中为含噪声帧(第1 帧)与不含噪声帧(第2、3帧)的前10个频段的能量分布。由图可见,含噪声与不含噪声帧在不同频段上的能量分布有明显差异,不含噪声的正常运行帧之间的频段能量差异较小,因此小波包频段能量可作为区分噪声的特征向量。
图4 含环境噪声样本的分帧Fig.4 Framing of samples with environmental noise
图5 含噪声与不含噪声帧的频率能量占比分布Fig.5 Frequency energy ratio distribution of frames with and without noise
利用MeanShift 算法对每个样本的特征矩阵进行聚类分析,当聚类结果中只有1 个类簇时,为不含噪声的有效样本,否则为含噪声样本。该算法需设置带宽参数h,基于大量历史样本实验测试本文设置h=0.02。
由于高维数据无法直接显示,本文采用多维标度法将高维数据降维至二维[19],部分样本聚类结果如附录B 图B2 所示。图B2(a)、(b)中,样本各帧聚类形成1 个类簇,各帧录音具有较高的相似性,可见图B2(a)、(b)所示的样本为有效样本。图B2(d)—(f)为含语音、雨声、风声噪声的变压器正常运行声音样本,由图可见,样本各帧聚类后形成多个类簇,可判断为含噪声样本。图B2(c)为含鸟叫噪声的正常运行样本,由图可见,样本各帧同样也被聚为一类,出现了含噪声样本各帧聚类形成单个类簇的情况,相比其他含噪声样本,该样本中的噪声具有持续时间较短、能量小的特点。经分析比较,笔者认为分帧的帧长设置是影响判断的关键要素。该算例中,分帧长度为10 s,长度偏大,使得每帧信号的时、频域统计特征相对平滑,减小了含噪声帧与不含噪声帧的特征差异,使得具有较高相似性的样本被聚为一类。但帧长设置过小也存在放大局部细节、削弱样本之间相似性的问题。
为分析分帧长度对样本聚类结果的影响,在不同的分帧帧长下对附录B 图B3 所示的测试样本进行聚类,分析聚类类簇数目对分帧长度变化的影响,结果如图6 所示。图中,样本1—4 分别对应图B3中含鸟叫的正常运行声音样本、不含噪声的正常运行声音样本、底座螺栓松动声音样本、绕组松动声音样本。由图可见:分帧长度T≥6.4 s 时,含噪声样本聚类为1 个类簇,而在T≤3.2 s 时无法聚类为1 个类簇,因此,为识别该含噪声的样本,分帧长度不宜超过6.4 s;不含噪声的声音样本在T>0.1 s时均可聚类为1 个类簇,而当T<0.1 s 时出现多个类簇;底座螺栓松动声音样本在T≥0.4 s 时能聚类为1 个类簇,当T<0.4 s时开始出现多个类簇;绕组松动声音样本在T≥0.8 s时只能聚类为1个类簇。为了保证后3种有效样本不被聚类为多个类簇,T应大于0.8 s。
图6 不同分帧长度下类簇数目的变化Fig.6 Change of number of clusters with different framing lengths
3.3节的分析表明分帧长度会影响聚类结果,并给出了能同时识别含噪声样本和有效样本的大致分帧长度的取值范围,但该取值范围仅利用少量样本得到,不能代表实际情况。为保证有效样本(不含噪声的正常、故障声音样本)只能聚类为1 个类簇,同时含噪声样本不能聚类为1 个类簇,本节利用大量不同类型的声音样本进行训练,得到各种不同类型样本的优选分帧长度取值范围,并取交集得到总体的优选取值范围。
在设置有效样本的优选分帧长度时,可定义式(12)所示的有效样本识别率PT1,PT1越大,类簇数目为1的有效样本数量越多,则有效样本识别率越高。
式中:N1为类簇数目为1的有效样本数量;Ne为有效样本数量。
在设置含噪声样本的优选分帧长度时,可定义式(13)所示的噪声样本识别率PT2,PT2越大,表明越多的噪声样本难以形成1 个类簇,噪声样本识别率越高。
式中:N0为类簇数目不为1的样本数量;Nn为含噪声的样本数量。
当PT1=100%时,优选的有效样本分帧长度T1存在一取值范围,当PT2=100%时,优选的含噪声样本分帧长度T2存在一取值范围,理论上这2 个取值范围之间存在交集,该交集即为总体的最优分帧长度取值范围。
设置初始分帧长度为0.1 s,以步长为0.1 s 进行迭代,T最大取值为15 s,训练样本的信息及其优选分帧长度范围如表2 所示。由表可见,为有效识别有效样本,需要T1≥0.9 s,为有效识别含噪声样本,需要T2≤3.5 s,取交集得到总体的最优分帧长度取值范围为[0.9,3.5]s。
表2 训练结果Table 2 Training results
为测试优选的分帧长度取值范围能否适应其他样本,利用人工挑选的测试集(包括40 组有效样本、40 组含各种噪声的样本),得到指标PT1、PT2的测试结果如图7 所示。由图可见:当分帧长度设置在[0.9,3.5]s 范围内时,PT1、PT2始终大于95%;在[1.5,3]s 范围内,PT1、PT2同时达到100%。由此可见,所确定的优选分帧长度范围能够满足现场需求,可保留大部分有效样本,同时识别含噪声样本。
图7 PT1、PT2的测试结果Fig.7 Test results of PT1 and PT2
本文利用电力设备在正常和故障状态下运行声音具有自相似性而环境噪声不平稳、无自相似性的差异性特征,提出了一种基于时、频域自相似性分析的电力设备环境噪声识别与剔除方法,主要结论如下:
1)对比设备正常、故障运行声音和典型环境噪声的时、频域特征,分析发现两者在稳定性和自相似性上具有明显差异;
2)提出基于时、频域自相似性的配电设备录音监测数据中环境噪声的识别与剔除方法,将录音数据分割为分钟级片段后再进行分帧,对各帧的时、频域特征指标进行聚类分析识别含非平稳环境噪声的录音数据;
3)基于现场实测数据的分析表明,所提方法的环境噪声剔除准确度主要受分帧长度影响,将分帧长度设置在[1.5,3]s范围内时可准确识别并剔除所有含环境噪声的录音数据。
本文所提方法为后续利用声音信号识别配电设备运行状态奠定了重要基础。需要指出的是,所提方法是以环境噪声不具有稳定性和自相似性为前提的,在本文的测试环境下能有效识别和剔除环境噪声。未来一方面需要进行更多运行场景下的测试分析,探寻可能出现的具有自相似性的环境噪声,另一方面也可以从设备运行状态诊断分析的算法设计上入手,利用夹杂稳定的具有自相似性的环境噪声的设备运行录音识别配电设备运行状态。
附录见本刊网络版(http://www.epae.cn)。