米辉辉 李成伟
摘要:本文自建了语音数据库,用于系统搭建中模型的训练和测试,设计并实现了一个英文语音拨号系统,进而实现了英文语音拨号应用系统。本文重点设计并实现了一个英文语音拨号应用系统,该系统是一个连续语音识别系统,能够对0-9英文数字串和5组人名进行识别,具有一个人性化的人机交互界面,能对识别结果进行实时显示。性能测试表明系统对特定人取得了很好的识别效果:语句级识别率达到了80%,字词级的识别率达到了100%。
关键词:语音识别;隐马尔科夫模型;语音拨号系统
1 引言
本文自建了语音数据库,用于系统搭建中模型的训练和测试,设计并实现了一个英文语音拨号系统,进而实现了英文语音拨号应用系统。本文重点设计并实现了一个英文语音拨号应用系统,该系统是一个连续语音识别系统,能够对0-9英文数字串和5组人名进行识别,具有一个人性化的人机交互界面,能对识别结果进行实时显示。性能测试表明系统对特定人取得了很好的识别效果:语句级识别率达到了80%,字词级的识别率达到了100%。
2系统结构及实现
2.1 基于ATK的实时语音拨号系统的设计与实现
本系统是一个实时英文语音拨号应用系统,其搭建过程可以分为两大步:1、基于HTK(Hidden Markov Model Toolkit)的拨号系统的搭建;2、使用基于HTK的拨号系统的任务语法文件、任务字典文件、模型列表文件和模型文件,在Microsoft Visual Studio 2010平台下运用ATK工具箱进行编程,实现识别结果的实时显示,并且能够对系统工作过程进行监控。
2.1.1 ATK语音识别系统结构
使用ATK搭建的语音识别应用系统结构如图2-2所示。
在基于HTK的英文语音拨号系统的基础上,使用ATK工具箱在VISUAL STUDIO 2010平台下编程实现本系统。
在系统运行界面,在cmd命令框中输入命令,进入debug文件夹,输入命令:TREC –C 参数文件即可进入本英文语音拨号应用系统,系统运行界面如图2-3所示。
图2-3中,AREC识别窗口,能够对识别结果进行实时显示。在AREC窗口底部,还能显示识别器状态、识别时间、目前最匹配的模型、活跃的模型数目等参数。ACODE窗口能够显示语音数据被转化成为特征参数的情况。MONITOR窗口是系统监视器,能够监视系统各模块的工作情况。
2.1.2 系统性能分析
本系统是一个英文语音拨号应用系统,能够连续识别0-9英文数字串以及5组英文人名,并能够对识别结果进行实时显示。特别地,本系统是针对音素进行建模,因此添加一个新的电话号码无需更新系统,而添加新的人名也只需更新相应的任务字典和任务语法,系统的可扩充能力强。本系统具有灵活的拨号语法,典型的拨号语句是DIAL+电话号码和CALL或PHONE+人名,特别地,运用人名进行拨号时,既可以叫全名也可以只叫姓,符合人们的生活习惯,具有较强的实用性。识别结果显示界面如图2-4所示。
在图2-4中,系统对4句拨号语句进行了连续识别,其中一句基于数字的拨号,3句基于人名的拨号,均正确识别并显示。并且系统具有较快的反应速度,进行实时识别时,系统延时不明显。
本系统的识别效果可用HRESULTS函数来进行评价,运行HRESULTS函数,得图2-5结果显示。
由图2-5可知,本系统的语句级的识别率达到了80%,而单词级的识别率则达到了100%,可见系统达到了很好的识别效果。值得注意的是,该结果是在较为安静的实验室环境下录制的测试数据所得到了识别率,在噪声较大的环境下,系统的识别效果将有所下降。因此,本系统的抗噪声干扰能力有待加强
3 本文小结
本文介绍了基于ATK的英文语音拨号系统的设计与实现,并对系统的性能进行了分析。本系统是一个英文语音拨号应用系统,能够连续识别0-9英文数字串以及5组英文人名。本系统具有良好的人机交互界面,能够对识别结果进行实时显示,系统的反应较快,具有很小的识别延时。经测试,本系统取得了较好的识别效果,语句级的识别率达到了80%,而字詞级的识别率则达到了100%。
参考文献
[1] Daniel Jurafsky,James H. Martin. Speech and Language Processing:An Introduction to Natural Language Process,Computational Linguistics,and Speech Recognition [M]. Second Edition. POSTS & TELECOM PRESS,2010:35-49,319-321
[2] 刘幺和,宋庭新. 语音识别与控制应用技术[M]. 科学出版社,2008:2-10
[3] 赵力. 语音信号处理[M]. 第2版. 机械工业出版社,2009:1-4
[4] 李宏梅,伍小芹. 有关语音识别技术的研究[J]. 现代电子技术. 2010,33(8):138-139
[5] 王炳锡,屈丹,彭煊. 实用语音识别基础[M]. 国防工业出版社,2005:180-181
[6] 韩纪庆,张磊,郑铁然. 语音信号处理[M]. 清华大学出版社,2004:1-6
[7] 赵博. 语音识别应用于计算机辅助语言学习的研究[D]. 上海交通大学硕士学位论文. 2009:1-2,13-14
[8] http://htk.eng.cam.ac.uk/
[9]张强,陶宏才. 基于HTK的语音识别语言模型设计及性能分析[J]. 成都信息工程学院学报. 2009,24(2):142-143
[8] 刘盈. 大词表连续语音识别系统的研究与实现[D]. 清华大学工学硕士学位论文,2005:2-3
[9] 杨行峻,迟惠生. 语音信号数字处理[M]. 电子工业出版社,1995:330-335
(作者单位:国网四川省电力公司检修公司)