虢 韬 沈 平 王 伟 时 磊 杨 渊 张 磊 陈 玥* 胡 有 罗 飞
1(贵州电网有限责任公司输电运行检修分公司 贵州 贵阳 550005)2(国网电力科学研究院武汉南瑞有限责任公司 湖北 武汉 430074)3(武汉大学计算机学院 湖北 武汉 430074)
雷电是一种常见的自然现象,它会对人们的日常生活及公共财产造成安全影响。尤其是一些重点设施,如输电网,雷电现象伴随的热效应和过电压会对电力线路产生破坏[1]。我国人口生活的稠密地区多属于季风带,每年都有较多的雷电发生,这也增加了雷电对电网影响的机率。为了尽可能地降低雷电灾害造成的经济损失,需要对雷电进行监测。目前主流的雷电监测设备包括了地基雷电定位仪、气象雷达、气象卫星,大气电场仪等。这些设备通过监测雷电发生的伴随信号,能够识别或预报雷电的发生。这些设备在使用成本和效果上有所差别,气象雷达和气象卫星造价成本较高[2],而雷电定位仪是记录雷电发生的仪器并不能预报雷电发生。
大气电场仪由定片和动片组成,利用导体在电场中产生感应电荷的原理,动片的旋转使定片的感应电荷转换为和大气电场成正比的电压量,从而测量大气电场数据[3]。当大气中有雷雨、大风、冰雹、大气湍流等强对流活动发生时,大气中的电荷会被不断地分离和聚集,尤其是将要有雷电发生时,地面电场强度的变化尤为明显。因此可以通过监测地面大气电场强度的变化来预测雷电的发生。目前已有基于大气电场仪数据进行雷电预警与雷电识别的相关研究。在预警雷电方面,有基于大气电场幅值的雷电预警方法[4-7]。在雷电识别方面,多是以电场幅值作为识别指标,或利用快速傅里叶变换提取电场信号在频域的特征。傅里叶变换通过识别信号中频率的成分来对信号进行识别,对于雷电的0.5小时预警有着较好的识别能力。但是傅里叶变换作为全局性的变换忽略了信号在时域上的变化,对于在时域上变化的雷电过程,有着很大的局限性。文献[8]利用大气电场数据结合小波包分解和BP神经网络分类器来区分不同天气现象,但BP神经网络训练需要有大量的数据并且可解释性差。
为了提高对由雷电引起大气电场波动识别的准确性,降低假阳性率,本文提出了一种基于小波包提取特征并以随机森林作为分类器的识别方法。相对其他的工作,本文有三大优势:一是小波包可以提取大气电场数据完整的时频数据。二是应用随机森林作为分类器,随机森林可对分类特征有更好的解释性,可比较各个特征的区分权重,辅助优化模型。三是在区分度更加精细。客观上,不同雷电过程的雷电发生数量差异很大,在一个等长时段内可从几次到上百次变化。本文以雷电频次对雷电数量强度进行分级,分为弱、中、强三个等级,区分实验在三个级别上进行,更清楚地揭示在不同雷电强度下,本方法用大气电场值区分真假雷电现象的能力。
从雷电形成原理上,当天气变化导致大气中存在可以击穿空气介质的电势差超过临界值时产生放电现象,即大气电场强度的变化确实与雷电现象存在联系。但是这种联系的量化关系依然没有准确的描述,而且如前所述雷电不是唯一引起大气电场值变化的原因,当大气电场值有波动时,也会出现雷电假阳性发生情况,如图1所示。
图1 在假阳性雷电发生情形下的大气电场值波形
从信号形式角度,大气电场在时域上是等时间间隔连续采样信号,本文以s(t)代表;而雷电发生在时域上是随机离散值,本文以g(t)代表。基于大气电场值区分雷电真假发生的情况,本质上是以雷电发生的事件频次划分大气电场值的类别,提取构建大气电场连续时频信号的分类特征,进而用这些特征区分雷电事件发生的真假阳性情况。为此,本文提出使用小波包技术提取大气电场值的时频特征,然后用随机森林作为分类器的方法,在雷电发生数量弱、中、强三个强度上(如图2所示,左侧Y轴对应柱状表示雷电数量,右侧Y轴对应曲线图表示大气电场值的波形),进行大气电场区分雷电发生的真假阳性情况。
图2 不同雷电发生情形下的大气电场值波形
小波理论可以对时频信号进行多种目的的处理。有工作对雷电条件下的大气电场值进行小波多尺度分析达到降噪的目的[9-10]。与它们不同,本文不过滤任何时频信息,相反需要从任何细微的信息中提取特征,因此本文选择使用小波理论中的小波包进行特征提取。
小波包适于提取信号的分类特征主要基于其具有的两个特性。
(1) 信号频带分解是完整的。
(2) 满足能量守恒性。
以Mallat[11]为代表的多尺度分析的尺度函数是按二进制变换的,在逐层细分的过程中,每次都只将低频部分带入下一层继续分解。因此在高频段其频率分辨率较差,而在低频频段其时间分辨率较差。但是小波包在每个层次的分解时,对高频部分的信息进行保留,这样小波包对信号进行分解得到的是一颗完全二叉树(图3-图4),包含各个子带的全部信息,这样不会损失用于区分样本真假阳性的频带信息。
图3 Mallat多尺度分析的分解树
图4 小波包的分解树
对于待分解的信号s(t),小波包设置分解层次深度k和小波基函数un(t)后可以分解为2k个小波分量之和:
(1)
(2)
(3)
并且:
(4)
小波包的能量守恒性使得对于第k层的能量Ek等于该层各子频带能量的总和,即:
(5)
同时,s(t)无论分解到第几层,各层总能量保持不变。对于原始信号的能量E以及第k层的能量Ek有:
E=E1=E2=…=Ek
(6)
(7)
(8)
(9)
除了上节大气电场值变化的频率特征外,大气电场值的强度幅值在雷电预警相关研究中也使用过。如宋佳军等[12]设定2 kV/m,5 kV/m,8 kV/m,12 kV/m,15 kV/m五级预警。为此,引入s(t)的均值和方差描述其强度幅值特征。考虑到电场值有正负性,如以下情况:
如图5所示,给定sin(x/100)和2sin(x/100)两个信号,其幅值的均值在一个周期内均为0,出现正负极性能量相互抵消的情况,两信号不能区分。但这两个信号在能量绝对大小上不同。如对大气电场值的均值做绝对化处理后|sin(x/100)|和|2sin(x/100)|,幅值的均值能很好地区分开两个信号。所以,本文选择大气电场强度幅值经过绝对化处理后的均值和方差作为分类特征的一部分。
图5 幅值能量绝对值化对区分影响的对比
最终,本文构建表1所列举的指标作为分类特征。所有的特征在使用之前都进行归一化处理。
表1 分类特征
随机森林是一种基于统计学习理论的组合分类器,相对于其他分类器,随机森林有分类精度高,模型泛化能力强,可以在分类过程中给出特征重要性等优点。
随机森林将bootstrap重抽样方法和决策树算法相结合,算法的本质是构建一个树型分类器{h(X,θk);k=1,2,…}的集合,然后使用该集合通过投票进行分类和预测。
一个随机森林分类器具有多棵决策树。对于第k棵树,引进随机变量θk,它与森林中的任意一棵树的随机变量θj都是独立同分布的。利用训练集合θk来生成第k棵树,等价于产生一个分类器h(X,θk),其中X是一个输入向量。Θ由介于0到N之间某些的随机整数组成。Θ的性质和维度(量纲)依赖树的构造过程。在生成大量的树之后,让这些树进行投票选出最流行的类,其结果即为分类器分类结果:
(10)
式中:H(x)表示组合分类模型,hi是单个决策树的分类模型,Y表示输出变量(或称目标变量),I(·)为示性函数。式(10)说明了使用多数投票决策的方法来确定最终的分类。
本实验选用大气电场数据为江苏利港的大气电场仪(120.079 E,31.991 N)于2016年2月至12月测量所得,采样频率为每秒一次。该数据集的基本数值特征为全年的电场强度平均绝对值约为0.19 kV,场强绝对值方差为0.1。同时,雷电监测网提供该地区同期的雷电发生定位数据,考虑到大气电场仪的探测有效距离为20千米,将以大气电场仪为中心半径20千米内的所有雷电记录视为可检测记录,匹配大气电场仪数据。
由于该数据时间跨度大,大气电场数据采样密度高,特别是提取负样本时,必须先从时间轴扫描大气电场仪数据,找到有波动的时段,所以对电场数据进行预处理:大部分情况下电场值在0附近,以场强绝对值超过0.3 kV定位波动点,并将间隔5分钟内的相邻波动点间的数据相连,组成最长波动时间段。将时间段内平均场强绝对值超过0.4 kV的情况结合同时期的雷电定位数据划分正负样本。某个时期大气电场值有波动而无雷电发生,则为负样本(如图1);反之大气电场值波动有对应的雷电匹配则为正样本(如图2)。
雷电从发生、发展、高潮到结束有一个时间过程。因此,每一个样本按7 200秒时间跨度对齐,小于7 200秒的波动时间段,两端扩展;大于7 200秒的两端截断。
获取正负样本之后,因为正样本之间的雷电频次数量相差很大(从1次到1 700余次),对正样本进一步细分。即存在电场波动且发生雷电的样本,分成弱、中和强3组,分别按以下三个数量区间划分:4~18次、18~100次、100次以上(排除4次以下的突发特殊情况)。经统计,一共提取了符合标准的样本430个,其中包括389个负样本、16个弱样本、14个中等样本和11个强样本。
本研究目的是为区分负样本和正样本,所以使用后面两个指标对分类结果进行评估:真阳性率TPR(True Positive Rate)和假阳性率FPR(False Positive Rate)。即:
TPR=TP/P
FPR=FP/N
式中:TP为被分类为阳性的阳性样本数量;FP为被分类器错分为阳性的阴性样本数量;P为测试集中阳性样本的数量;N为测试集中阴性样本的数量。
由于提取出的正样本数量相对较少,在对方法进行评估时,选择留一法验证进行性能评估:每次将样本分为两部分,每次取一个样本作为测试用例,其余样本作为训练集。假设有K个样本,则轮流将其中的每个样本作为测试其他作为训练集,循环K次。留一法交叉验证样本利用率最高,适合于小样本的情况。
由于强雷电样本的数量为11个。为保证正负两类样本对分类器训练的样本平衡性和各个正样本之间的训练强度相等性,每次训练均从389个负样本随机抽选11个负样本和11个正(弱和中是随机抽11个)样本使用留一法交叉验证。小波包提取层次为3层。实验程序在MATLAB和Python环境实现。
对每种情况均进行3次训练-测试过程,其结果如表2所示。
表2 分类结果
从结果上,负样本与弱正样本的区分难度大于中和强等级情况。但是总体上,三个等级的准确率以及误报率都非常好,证明本方法对于雷电的正负样本识别在不同雷电级别下均有很好的分类效果。
雷电现象的成因与雷云中电荷分布、电场变化有着因果关系。大气电场仪通过测量大气电场值可用于雷电识别与预警。本文针对大气电场识别雷电发生时会出现假阳性结果的问题,提出了基于小波包和随机森林的方法。在三个雷电数量等级上与负样本进行区分实验,实验结果的优良性证明本方法的有效性。
[1] 田锋涛.雷电对电力线路的危害以及雷击计算方法探讨[J].机电信息,2012(18):158-159.
[2] 张义军,孟青,马明,等.闪电探测技术发展和资料应用[J].应用气象学报,2006,17(5):611-620.
[3] 张淑霞,吴安坤,丁旻,等.大气电场仪的工作原理浅析[J].电子世界,2014(22):399-399,400.
[4] 潘家利,王明亮,吴海,等.基于大气电场的雷电监测预警技术研究[J].气象研究与应用,2012,33(3):94-97.
[5] 郭钧天,曾瑜,田浩,等.基于大气电场动态自适应阈值的雷电预警方法研究[C]//第30届中国气象学会年会论文集.2013:1-5.
[6] 王振会,徐栋璞,曾庆锋,等.利用地面大气电场和雷达资料进行雷电临近预报方法[J].科技导报,2012,30(14):42-48.
[7] 丁德平,李迅,邓长菊,等.北京地区大气电场的特征及雷电预警中的订正分析[J].沙漠与绿洲气象,2012,6(4):68-73.
[8] 康海龙,刘成,姜秀杰,等.基于大气电场特征的天气现象识别算法研究[J].计算机仿真,2014,31(12):312-315,324.
[9] 余蓉,杜牧云,杜九三,等.大气电场仪资料的小波去噪研究[J].成都信息工程大学学报,2016,31(2):175-179.
[10] 李艳,王振会,陈红兵,等.基于小波技术的地面大气电场数据处理[J].气象科学,2012,32(2):177-181.
[11] Mallat S G.A Theory for Multiresolution Signal Decomposition:The Wavelet Representation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1989,11(7):674-693.
[12] 宋佳军.DNDY地面电场仪的研制及电场数据融合闪电数据进行雷电监测预警的研究[D].中国科学院研究生院,2008.