李 鹏,嵇佳丽,丁倩雯
(1.南京信息工程大学 江苏省气象探测与信息处理重点实验室,江苏 南京 210044;2.南京信息工程大学 江苏省大气环境与装备技术协同创新中心,江苏 南京 210044;3.南京信息工程大学 滨江学院,江苏 无锡 214105)
适量降水能促进农作物生长,而过量的强降水会造成洪涝等灾害.强降水灾害,具有时间短、破坏性大、范围小、突发性强的特点,给工农业生产和人民生命财产带来极大危害,故对强降水天气的预警监测就尤为重要.降雹和降雨的监测根据雷达的回波强度进行.文献[5]利用机器学习处理高分辨率的预报数值,改善了冰雹预报.文献[6]提出了一种经验预测模型,预测可提前2至5周.文献[7]采用基于边缘检测的卷积神经网络方法,对冰雹进行预报.文献[8]根据雷达图像中冰雹和暴雨特征,设计了基于聚类评分的暴雨冰雹分类模型.文献[9]通过实时探测大气中水汽含量,对降雨进行预测.文献[10]建立了基于MapReduce的改进加权朴素贝叶斯降雨等级预测模型,能较准确预测降雨.文献[11]提出了一种地面与高空联合的降雨预报模型,提高了短期降雨的预报精度.
该文提出一种基于声信号特征分析的降雹和降雨识别方案,设计降雹和降雨声信号的采集装置,提取降雹和降雨声信号的特征参数,且将其作为识别依据,采用基于马氏距离的模糊聚类算法对声信号进行识别.
降水包括降雨、降雪、降雹3种形式,其中降雨一年四季时常发生,降雪多发生在温度达到零度以下的冬季,降雹多发生在春夏秋三季.通常情况下,降雹和降雪不会同时发生,且考虑到降雪声信号的能量相对小不易采集,故假设从天而降的物体只有冰雹和雨水两种.因此,该文以冰雹和雨水落下时产生的声信号为研究对象.
图1为笔者设计的采集降雹和降雨声信号的简易装置,该装置由拾音模块、数据采集模块和计算机组成.拾音模块由一块60 cm×80 cm×0.2 cm不锈钢拾音板、4个长度为10 cm的支柱以及单通道声音传感器组成,声音传感器置于拾音板下方.数据采集模块通过Waveform软件控制的Analog discovery 2-NI edition采集卡采集声信号.数据采集模块通过USB接口和螺栓端子分别与计算机和声波传感器相连.
图1 声信号采集装置
为保证降雹和降雨声信号处理的有效性和准确性,在对声信号进行特征提取之前,需先对信号进行预处理.该文采用小波阈值去噪法,选择Daubechies4(db4)小波对声信号去噪.首先利用小波变换对声信号进行多层分解,然后对分解后的各层信号进行阈值滤波处理,最后通过重构滤波后的各层信号得到去噪信号.小波分解层数影响去噪结果,综合考虑去噪效果、运算时间,最终选择层数为3.使用db4小波对降雹和降雨信号进行分解,结果如图2所示.
采用软阈值方法,对声音信号去噪.图3为降雹和降雨的原始信号、加噪信号及去噪信号.
图3 降雹和降雨的原始信号、加噪信号以及去噪信号
声信号特征提取主要从时域、频域和时频3方面进行.图4为采集到的降雹和降雨原始声信号的时域波形.从图4可看出,降雹和降雨声信号波形的幅度、陡峭度以及分布密度均存在明显差异.
图4 采集到的降雹和降雨原始声信号的时域波形
能量为区分降雹和降雨声信号的最重要特征,其大小随着信号频率变化而变化.冰雹落下时产生的声信号频率主要集中在[0,15 000]Hz,而雨滴落下时产生的声信号频率主要集中在[0,10 000]Hz.因声信号是1维非平稳信号,在提取短时能量之前,需先对声信号进行分帧加窗处理.第n
帧声信号x
(m
)短时能量计算公式为(1)
其中:M
为帧长.带宽能量比为-3 dB带宽与短时能量的比值.图5为不同直径冰雹和雨的单边频谱和带宽能量比.由图5(a)~(b),(e)~(f)可知,利用单边频谱和带宽能量比,能区分大冰雹、中冰雹、中雨、小雨.但对比图5(c),(d)发现,小冰雹和大雨单边频谱存在重叠部分,不易识别.图5 不同直径冰雹和雨的单边频谱和带宽能量比
统计分析发现,根据均方根、波形因子、峰值因子、峭度因子和脉冲因子等特征区分大雨和小冰雹是可行的.综合考虑多种因素,该文选择了均方根、敏感性好的峭度因子、稳定好的波形因子作为区分二者的特征.假设采集的声信号为X
={x
,x
,…,x
},N
为样本数.声信号的均方根、波形因子、峭度因子的计算公式分别为(2)
(3)
(4)
图6为降雹及降雨声信号的时域特征参数.由图6可知,降雹及降雨的这3个时域特征参数有显著差别,根据它们能区分降雹和降雨.
图6 降雹和降雨声信号的时域特征参数
该文采用基于马氏距离的模糊聚类(fuzzy c-means based on Mahalanobis distance,简称M-FCM)算法对降雹和降雨声信号进行识别.该算法是一种无监督学习的识别算法,对目标函数的相似准则进行了改进,用马氏距离取代传统模糊聚类中的欧式距离,消除了量纲不同的特征给聚类带来的影响,避免了各变量间的相互干扰,更有利于处理复杂的多维数据.
假设样本集合={,,…,},其中样本={x
,x
,…,x
},样本到样本集合的马氏距离为(5)
其中:为聚类中心,为协方差矩阵.M-FCM算法的目标函数为
(6)
其中:=(θ
)×为聚类中心矩阵,=(u
)×为模糊隶属度矩阵,m
(m
>1)为加权参数.M-FCM算法步骤如下:
(1) 给定n
个数据,假定聚类个数为k
,2≤k
≤n
.设定迭代阈值ε
=1×10,m
=2,迭代计数器L
=0.初始化聚类中心矩阵(0).(2) 通过下式更新隶属度矩阵和聚类中心矩阵
(7)
其中:C
1为第t
个聚类中心,x
为第j
个待识别样本,n
为待识别样本的数目,b
为加权参数,U
(x
)为隶属度函数.(3) 计算新的聚类中心、隶属度函数和目标函数.
(4) 如果‖(L
)-(L
+1)‖<ε
,则算法停止且输出最终的隶属度矩阵和聚类中心;否则令L
=L
+1,重复步骤(2).C
,C
和隶属度函数U
.④提取待识别样本的特征参数,根据隶属度函数U
及式(7)得到待识别样本的聚类中心C
,C
,分别计算C
到C
,C
及C
到C
,C
的距离.先比较C
到C
的距离与C
到C
的距离大小,后比较C
到C
的距离与C
到C
的距离大小.若待识别样本的聚类中心C
到训练样本的聚类中心C
(或C
)的距离最短,则判定属于聚类中心C
的所有样本与C
(或C
)的类别相同;同理,若待识别样本的聚类中心C
到训练样本的聚类中心C
(或C
)的距离最短,则判定属于聚类中心C
的所有样本与C
(或C
)的类别相同.图7为声信号识别流程.图7 声信号识别流程图
C
,C
.表1为由上述5个特征参数构成的训练样本聚类中心.训练样本的聚类结果如图8所示.图8 训练样本的聚类结果
表1 训练样本聚类中心的5个特征参数
待识别样本的聚类结果如图9所示.表2为待识别样本聚类中心的5个特征参数.分别计算C
到C
,C
的距离以及C
到C
,C
的距离,结果如表3所示.对比表1~3发现,C
到C
的距离比C
到C
的距离更近,C
到C
的距离比C
到C
的距离更近,因此判定待识别样本1属于降雨声信号、待识别样本2属于降雹声信号.但是,图9中虚线框里的3个红点表示的样本应是降雹声信号,却被误判为降雨声信号,故存在一定的误差.图9 待识别样本结果
表2 待识别样本聚类中心的5个特征参数
表3 待识别样本的聚类中心到训练样本聚类中心的距离
将K-means,FCM(fuzzy c-means),M-FCM算法应用于降雹和降雨声信号的识别,3种算法在设置相同实验参数的情况下,各进行10次实验,结果如表4所示.由表4可知: K-means的识别准确率最低,M-FCM的识别准确率最高,其值为93.333 3%.因此,综合看来,M-FCM算法识别降雹和降雨声信号更具优势.
表4 3种算法实验结果比较
笔者从声学角度,提出一种基于声信号特征分析的降雹和降雨声信号识别方案,自主设计降雹和降雨声信号的采集装置,对采集的降雹和降雨声信号的时域和频域特征进行统计分析.选取均方值、波形因子、峭度因子、平均振幅及最大带宽能量比5个特征参数组成特征向量,采用K-means,FCM,M-FCM算法对降雹和降雨声信号进行识别.实验结果表明: M-FCM算法的核心指标(识别准确率)最高.