卓嘎 边巴旺堆 姜军
摘要:语音端点检测是语音处理分析过程中的重要环节之一,该文介绍了语音端点检测的两个传统算法即短时平均能量和短时过零率,并将这两种算法结合起来进行藏语语音进行端点检测。运用Matlab编程和仿真验证了双门限判断法在藏语语音端点检测中的准确性。这种方法降低了藏语语音处理的时间、提高了处理的质量、可用来进行一些藏语语音识别的特征参数的提取。
关键词: 藏语语音;短时平均能量;短时过零率;双门限;端点检测
中图分类号:TN912 文献标识码:A 文章编号:1009-3044(2014)31-7466-04
Abstract: Tibetan speech endpoint detection is an important part of Tibetan speech signal processing. This article introduced two traditional endpoint detection methods which including the short-term average energy and short-term zero rate algorithm and tested Tibetan speech endpoint detection by combing these two algorithm. It verified correctness of dual threshold method for the implementation of Tibetan speech endpoint detection。This method reduces the processing time and improve the quality for Tibetan speech Tibetan Speech Endpoint Detection。It can be used to extract some of the characteristics of Tibetan speech recognition parameters.
Key words: Tibetan speech;short-term average energy;short-term zero cross rate;dual threshold; endpoint detection
随着藏文信息技术的飞速发展,藏语语音分析、语音合成和语音识别的应用领域也越来越广泛,而语音端点检测是语音处理分析过程中的一个重要环节。在语音信号处理过程中,经常需要从各种语音数据中采集真正有用的语音数据,而精确地找出语音信号的起始点和终止点是语音处理的关键环节[1],好的端点检测方法在语音识别过程中不仅能够节省信号处理的时间而且能有效提高处理的质量[2]。语音识别的基本方法是先区分有声段和无声段,然后根据语音的一些特征参数对有声段进行进一步处理[3]。但发音过程中,在有声段和无声段的前后还包含一些附带信息如呼吸产生的杂音、弱摩擦音、弱爆破音、鼻音等等[4],这些因素增加了语音端点检测的难度,影响了语音识别的处理时间降低了语音处理的质量.在语音处理过程中,特别是在语音识别系统中大部分的识别错误是在端点检测环节中产生,并直接影响处理模块其它功能的正常工作[5]。此外,有效的端点检测在语音增强算法和语音编码中也具有重要作用。该文采用语音端点检测常用的算法,即短时能量检测和短时过零率相结合的双门限算法[6]并结合Matlab强大的编程和仿真功能对藏语语音进行端点检测的验证,并分析这种算法对藏语语音端点检测影响。
1 短时平均能量
4.2 数据分析
本程序前面所述的双门限端点检测思路先经过反复测试定出了三个门限值t1,t2,和t3,并用循环功能进行左右搜索,找出语音段、语音段的起止点,相应输出的波形和标注的短点如图1(b)和图1(c)所示。在研究过程中对30个藏文辅音字母用上面的Matlab代码进行了端点检测,因篇幅有限只给出了第九个辅音字母语音的端点检测结果。由于浊音语音能量集中在较低的频率,而大多数轻音语音能量集中在较高的频率上,因此只用短时过零率也能检测出部分藏文字母语音的端点,但是,有些藏语的音位于浊音和轻音的重叠区域,因此采用双门限判断才能准确检测出字母语音的起止点。
5 结束语
本文采用双门限判断原理进行Matlab的编程和分析,该方法在无噪声环境下能够很好地检测藏语字母语音的端点;在藏语语音处理过程中,能够减少处理时间、抑制无声段的噪声干扰,并提高语音处理的质量;此外,在一些藏语语音识别中可用来提取轻音、浊音等特征参数。
参考文献:
[1] 张震宇.基于Matlab的语音端点检测实验研究[J].浙江科技学院学报,2007(3):197-201.
[2] 韩立华,王博,段淑凤. 语音端点检测技术研究进展[J].计算机应用研究,2010(4):1220-1226.
[3] 陈拥权,张羽.语音信号处理技术及其应用前景分析[J].网络安全技术与应用,2014(2):58-59.
[4] 董胡.倒谱距离和短时能量的语音端点检测方法研究[J].计算机技术与发展,2014(7):1-5.
[5] 张宁,顾明亮,朱俊梅,等.语音活动检测对方言辨识系统的影响研究[J].计算机技术与发展,2012,22(11):76-79.
[6] 路青起,白燕燕. 基于双门限两级判决的语音端点检测方法[J].电子科技,2012(1):13-19.
[7] 张雪英.数字语音处理及MATLAB仿真[M].北京:电子工业出版社,2010.
[8] 武光利,戴玉刚,马宁. 基于短时平均幅度和短时平均过零率的藏语语音端点检测研究[J].,福建电脑,2007(3):116-122.
[9] 韩纪庆,张磊,郑铁然. 语音信号处理[M].2版.北京:清华大学出版社 2013.
[10] 刘琦.基于短时能量特征的语音端点检测技术研究[J].信息系统工程,2014(2):145.
[11] 王路露,夏旭,冯璐,等.基于频谱方差和谱减法的语音端点检测新算法[J].计算机工程与应用,2014(8):1-4.
[12] 张君昌,胡海涛,崔力.融合Burg谱估计与信号变化率测度的语音端点检测[J].西安电子科技大学学报, 2014(3):209-214.