, ,,,
(河南省人工影响天气中心,郑州 450003)
人工影响天气(简称“人影”),是指为避免或者减轻气象灾害,合理利用气候资源,在适当条件下通过科技手段对局部大气的物理、化学过程进行人工影响,使某些局地天气过程朝着有利于人类的方向转化,从而实现增雨雪、防雹、消雨、消雾、改善环境等目的[1]。
目前实施人工影响天气作业主要有地面和空中两种方式。地面作业通常利用高炮或者火箭架向空中具有一定条件的目标云发射含有催化剂的炮弹、火箭弹,它们在云中爆炸,把催化剂播撒在云中,以影响云物理过程。这种作业方式具有播撤路径长、发射高度高、成核率高、便于操作、机动性强等特点。第二种方式是利用飞机直接入云,在具有一定条件的目标云中直接播撒含有催化剂的物质,进行人工影响天气作业,以影响云物理过程。飞机作业成本较高,需要提前向航管部门申请航线,而且适合开展人工影响天气作业的时机往往天气条件恶劣,不利于飞行安全,特别是在夏季强对流发生的天气。因此开展地面高炮人影作业是必不可少的一种作业方式。
在地面人影作业方式中37高炮是常用的作业装备。长期以来人工影响天气作业用37高炮用弹量计数采用的是人工纪录上报的方式,这种统计方式较为繁琐和落后。特别是近年来河南省人影作业期逐年增长、用弹量逐渐增大,这对高炮用弹量信息采集准确性和时效性的要求越来越高。传统的人工统计计数方式已不能满足智慧气象及气象信息化发展水平的需求。
近年来语音识别理论得到了不断丰富和完善,语音识别技术有了长足发展,得到了广泛的应用,工业界也研制出了各种各样的实用产品。例如,手机上的语音拨号系统,只要说出被叫用户名字就可以接通对方电话;基于自然语言识别的机器翻译系统,将极大地方便不同语种人们的交流,增进彼此了解。总之,语音识别已越来越多地融入到了查询服务、工业控制、信息检索等领域,正在改变着人们的生活方式。在人影领域,声级采集仪也获得研制成功并投入使用[2]。但这种声级采集仪在识别算法中只简单采用了声压语音参数,识别性能有待提高。如果能将目前业界广泛应用的矢量量化、动态时间规整(DTW)、隐马尔科夫(HMM)等算法与声级采集仪相结合,必将提高识别性能,为人影37高炮作业用弹量的计数提供一种新的解决方案。
典型的语音识别系统结构如图1所示,通常包括预处理、特征提取、模式匹配、参考模板等基本单元,这一点与常规模式识别系统相同。但由于语音信号的复杂性,实际系统的结构比一般的模式识别系统复杂得多[3]。
图1 语音识别系统结构图
根据语音识别系统所服务的对象,可以分为特定人识别系统(Speaker Dependent, SD)和非特定人识别系统(Speaker Independent, SI)。SD系统需要使用特定人的样本数据对系统进行训练,然后才能使用。每个人都有自己的专用参考模板。SI系统则是用非限定人的语音样本对系统进行训练,训练好的系统可以直接使用。这两种系统服务对象的不同,决定了两者的结构、识别方法、参数选择都很不相同。后者的技术难度要大于前者,但它的应用范围更为广泛。
语音识别系统只能识别出它事先所定义的词汇表中的词条。根据词表的大小,一般把词条数少于100时称为小词表,100至500为中等词表,超过500为大词表。词表的大小直接影响了识别系统的设计难度和识别方法的选择。
从语音的发音方式来划分,可以分为孤立词识别系统和连续语音识别系统。孤立词识别系统结构比较简单,一般采用图1所示的系统就可以完成。这种系统中每个词对应一个参考模板,经过特征提取和训练得到。在识别时,先对待识别的词进行预处理然后提取特征参数,把得到的特征参数与各个参考模板进行模式匹配,将得分最高的作为识别结果。然而对于连续语音识别系统则不同,其由于句子中每个词之间没有明显的停顿标记,分割困难,而且词与词之间的发音会相互影响,因此需要采取复杂的识别策略。
动态时间归整(Dynamic Time Warping, DTW)算法是目前语音识别算法中最为简单有效的,尤其是在孤立词识别应用中,识别准确度已达到实用水平。该算法引入动态规划(Dynamic Programming, DP)思想,将时间规整和距离测度结合起来,解决了发音长短不一的模版匹配问题以及语速多变的问题[4]。
动态时间规整算法思想初衷是用来将未知量长度通过某种映射进行伸长或缩短达到与目标量长度一致。语音识别的原理就是基于标准模板与测试模板的相似度匹配,而语音具有相当大的随机性,发音受发音方式、声道信道影响长短具有随机性,不能进行直接匹配。动态时间规整技术的引入,将测试语音映射到标准语音时间轴中,使长短不相等的两个语音最后通过时间轴弯曲之后时间长度变得一致,从而使匹配差别最小,结合DP动态规划思想计算距离测度,得到测试语音与标准语音之间的距离。
若M={M(1),M(2), …M(i), …,M(m}、N{N(1),N(2), …N(j), …,N(n)}分别为一个标准语音与测试语音特征参数矢量序列,1…m和1…n表示帧号,且m≠n。特征参数矢量可以是MFCC参数、LPCC参数等。测度距离越小,参考语音与测试语音之间的相似度越高,距离最短的即可作为识别结果。DTW算法的核心就是设计时间规整函数i=w(j) 非线性映射测试矢量n到时间轴i上,同时第j阵测试语音矢量与第m帧标准语音矢量R(m)的距离测度D满足:
(1)
其中:w(n)为非线性映射函数,d[T(j),R(w(i))]为第i帧测试矢量T(j)与第j个标准语音矢量R(w(j))的距离。
DP算法寻求M和N的距离D[M(i),N(j)],简单的说就是通过构建邻接矩阵寻找最短路径累积和,一般思路为:
1)规划路径网络。建立一个二维直角坐标系,将M(i)和N(j)分别作为横坐标、纵坐标列出,i横坐标,j为纵坐标。过横轴的每个序号上平行于纵轴的线与过纵轴的每个序号上平行于横轴的线交织为一个路径网格,网格中各点可表示为X(i,j),其中i=1~m,j=1~n。
2)进行路径搜索。确定由坐标原点开始,搜索有穷个格点X(i,j)最后到达终点的路径。若不存在回溯路径时,各个序号点的路径方向可以有三种不同的决策,分别为向左直线、向上直线以及斜线向上,搜索路径如图2所示。如格点X(i,j)通往格点X(i+1,j+1)所经过路径的决策只可能是以下三种情况的一种:
(i,j)—(i+1,j+2)
(i,j)—(i+1,j+1)
(i,j)—(i+1,j)
图2 DTW路径搜索
不同的X(n,m)点组成的搜索路径累积距离D(n,m)不同,最优路径的确定即为确定最优路径函数m=y(ni)且使得沿路径的累积距离达到最小值。格点之间的搜索路径不能过于倾斜,一般将斜率约束于[0.5,2]的范围内。不存在回溯路径情况下,最优路径路线的格点X(ni,mi)累积距离表达式为:
D[(i,j)]=d[T(i),R(j)]+D[(i-1,j-1)]
(2)
D[(i-1,j-1)=min{D[(i-1,j)],
D[(i,j-1)],D[(i,j-2)]}
(3)
其中:D[(i,j)]为格点X(n,m)的累积距离,d[T(j),R(w(i))]为M(i)和N(j)两帧特征矢量之间的距离,通常采用欧式距离。
从起始点(1,1)出发,计算下一个格点的累积距离D[(i,j)],选择最小累积距离格点作为下一个格点,并存储其前续格点(i-1,j-1)和帧匹配距离d[i,j],每次只保留一条路径,直到到达终点时即为最佳路径。
HMM是一种用来表示随机过程统计特性的概率模型,它由马尔科夫链演变而来。隐马尔科夫模型是一个双重的随机过程:一重用于描述短时平稳段的瞬时特征;另一重描述了短时平稳段转到下一个短时平稳段的概率,即短时统计特征的动态特性,它是隐含在观察序列中的[5]。HMM的数学定义如下:
依据上述分析,对垃圾堆体四周采取柔性垂直防渗封闭,阻隔平面长度约1 499 m,然后利用封场技术对垃圾堆体顶部进行封场处理,将污染源整体三维封闭,实现垃圾堆体水文地质的独立,其三维阻隔平面如图4所示。
1)N,表示HMM中的状态数。状态虽然是隐含的,但每个状态都有对应的实际物理含义。模型中的各个状态记为{1,2,…,N},在t时刻所处的状态记为qt。
2)M,表示HMM的每个状态中的符号数。符号序列为V={v1,v2,…,vM},观察序列为O={o1,o2,…,oT},其中ot为集合V中的一种观察符号,T为观察序列长度。
3)A=[aij]为状态转移概率矩阵,
aij=P(qt+1=j|qt=i)1≤i≤N,1≤j≤N
(4)
它满足条件:
(5)
4)B为观察序列O中任一观察的分布,分为离散型和连续型两类,对于离散型HMM,B为一概率矩阵:
B={bj(k)}={P(ot=vk|qt=j])1≤k≤M,
1≤j≤N
(6)
它满足:
(7)
对于连续型HMM,设特征矢量序列为D维,那么B为N个D维的概率密度函数的集合:
B={bj(o),j=1,2,…,N}
(8)
它满足:
(9)
5)初始状态概率分π=[πi],其中:
πi=P(q1=i) 1≤i≤N
(10)
它满足:
(11)
如何选择HMM中状态的输出概率函数是十分重要的,它对系统的性能有很大的影响。人们通常选用高斯混合模型(Gaussian Mixture Model, GMM)来对声学模型建模。高斯混合模型(GMM)理论上可以平滑地逼近任意形状的概率分布[6]。GMM其本质是一种多维概率密度函数,一个由M个高斯成员组成,每个高斯为D维的模型可以用下面的式子表示,即[7]:
(12)
p[xt|μι,∑ι] =
(13)
在公式(12)中,μi为均值向量,Σi为协方差矩阵。共有M个高斯分布函数混合,每个高斯权重为wi,取和得到xt的概率分布[8]。
这样便可以由均值向量μi,协方差矩阵Σι,混合加权系数wi三个变量来描述一个特定的GMM,可以记作:
λ={wi,μi,∑i}i=1,2,…,M
(14)
同时,对HMM中参数B的训练便转化为对GMM模型中参数组λ的训练。根据最大似然准则,通过期望最大化算法(EM),可以求出对GMM参数的估计。在给出T个观察特征矢量xt(t=1,2,…,T)的条件下,可以得到高斯混合模型中三个参数的迭代公式:
(15)
(16)
(17)
在实际计算中,如果∑i采用满矩阵,则运算量非常大,因此通常将其简化为对角矩阵,公式(17)可简化为:
(18)
其中:第i个高斯分量的后验概率为:
(19)
GMM有很好的特性,在理论上如果模型中混合度足够高的话,它能够对任意形状的分布进行模拟;同时每个概率密度分布函数可以表示如摩擦音、辅音、元音等基本声学类型。但由于实际语音信号的复杂性,特征参数不一定满足高斯分布,因此GMM不能完整无误的对观察向量进行建模。另外,由于协同发音的影响,HMM中前后状态之间并不是独立的,其对观察向量独立性的假设也是不合理的。所以基于混合高斯的隐马尔科夫声学建模方法有一定的局限性,要进一步提高系统识别性能,必须采用新的技术,构建新的模型结构。
为了对人影37高炮用弹量计数开展研究,在洛阳进行了实地测试,录制了作业时的高炮声音。作业装备采用人影37 mm口径的高射炮,作业弹使用全省通用的人影增雨炮弹,进行单发作业实验。
图3 人影37高炮作业图片
图4 人影37高炮声音波形
利用Matlab软件对采集到的人影37高炮声音进行初步分析,波形如图4所示。声音采样频率为44.1 K,16 bit 编码。从图中可以看出,在高炮作业发射前有一段瞬时的平静期,在发射瞬间声音波形迅速增大增强,持续大约0.6 s的时长,然后逐步衰减。针对这种突发性较强的声音信号,可以采用较为传统的DTW算法来进行识别。
在语音信号的识别过程中,首先需要对语音信号进行预处理。预处理的目的是去除语音信号中不需要的信息、噪声及干扰,提升语音中的高频部分同时去除非有效语音帧。主要步骤包括预滤波、数字化、预加重、分帧加窗以及语音端点检测等[8]。
端点检测是语音识别中非常重要的环节,目的是从语音信号中分割出语音的起止端点,从语音噪声段和静音段中分割出语音段,也叫语音起止点检测[9]。在本实验中采用基于短时能量及过零率的双门限端点检测算法来进行端点检测,结果如图5所示。
图5 双门限端点检测
原始语音信号中包含大量的冗余信息,无法直接进行处理,需要提取语音信号的特征参数实现降维。合适的特征参数能有效地表达语音信号信息,也可以通过计算机来方便地处理。语音特征参数大致可以分为时域参数、变换域参数和超音段参数三类。常用的频域参数包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、感觉加权的线性预测(PLP)参数等。MFCC参数是基于人耳的听觉感知特性提出的,即人的听觉系统是呈非线性的,对于不同频率信号的灵敏度是呈对数关系的[10]。利用一组三角窗滤波器对信号的功率谱进行滤波,来模拟人耳的掩蔽效应。它具有很好的抗噪性和鲁棒性且识别性能好,在语音识别领域中得到广泛的应用,因此本文选取MFCC参数作为待识别的特征参数。MEL频率与Hz频率成非线性对应关系:
(20)
图6 MFCC参数提取流程
将采集到的高炮声音数据分为2组,分别记为1a.wav、2a.wav、3a.wav、4a.wav、5a.wav、6a.wav,和1b.wav、2b.wav、3b.wav、4b.wav、5b.wav、6b.wav。第一组作为训练数据集,第二组作为测试数据集。利用Matlab R2010b搭建如图7所示的语音识别系统。
图7 构建的语音识别结构图
实验步骤如下:
1)对训练集内的6个语音信号进行预处理;
2)提取MFCC语音特征参数,将提取到的特征参数保存为模板库;
3)对测试集语音信号进行预处理,提取MFCC特征参数;
4)采用DTW算法将测试集特征参数与模板库进行匹配,得到识别结果来进行计数。最终识别结果在Matlab界面中显示如图8所示。
图8 识别结果图
对比文献[11]中提到的通过采集声音实现人影高炮用弹量自动计数的方法,本文中的语音识别算法更为先进。文献[11]中的语音识别算法仅仅用到了声压这一个声音特征参数,虽然这种算法计算量小,但在识别准确性及抗干扰性方面有待提高。如果将本文提到的识别算法移植到现有的声级采集仪中,将是一种新的人影37高炮用弹量计数研究方案。
人工影响天气工作在保障农业生产、改善环境、减灾防灾等方面发挥着越来越重要的作用,是气象工作的重要组成部分,也是气象现代化建设的载体。一直以来对人影37高炮用弹量计数采用的是人工纪录上报的方式,这种统计方式较为繁琐和落后。特别是近年来河南省人影作业期逐年增长、用弹量逐渐增大,这对高炮用弹量信息采集准确性和时效性的要求越来越高。
随着声学技术的发展,语音识别算法不断改进,识别准确度越来越高,应用的行业也越来越多。同时,气象行业信息化水平也不断提高,能够自动采集高炮作业信息的声级采集仪研发成功,使得自动采集并传输作业信息成为可能。但传统的声级采集仪对高炮声音识别时仅仅使用了声压这一简单的特征参数,识别精度及抗干扰性有待提高。将传统的声级采集仪结合先进的语音识别算法,能够克服环境噪音,提高声级采集仪的准确性,这为实现自动采集人影作业高炮信息提供了新的方案。