韩剑波
HAN Jian-bo
(廊坊师范学院,廊坊 065000)
近年来,随着DSP技术的普及和低价格、高性能DSP芯片的出现,DSP已越来越多地被广大的工程师所接受,并越来越广泛地被应用于各个领域,例如:语音处理、图像处理、模式识别及工业控制等,并且已日益显示出其巨大的优越性。DSP是利用专门或通用的数字信号处理芯片,以数字计算的方法对信号进行处理,具有处理速度快、灵活、精确、抗干扰能力强、体积小及可靠性高等优点,满足了对信号快速、精确、实时处理及控制的要求。
与机器进行语音交流,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,它正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
语音识别技术发展到今天,对特定人语音识别系统的识别精度很高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。
我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。
近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
随着人们对多媒体通信要求的日益提高,现代通信网的传输量越来越大,媒体压缩技术迅速发展。语音压缩技术也处于不断发展中,实用系统的最低压缩速率已经达到2.4kbps甚至更低,在大大节省信道带宽的同时还保证了话音质量。由于大容量通信信道的引入,一段时间内曾认为语音压缩技术已没有研究的必要,因为语音压缩量相对于光纤信道容量来说已微不足道。实际上,光纤信道目前也只是在骨干网上得到应用,在接入网及支线的大规模应用仍需一定时间。另外,无线领域的信道带宽始终是一个突出的问题。由此可见低速率语音编码技术仍然有广泛的应用前景。
语音编码既可用软件也可用硬件的方法实现。软件实现就是将压缩算法用软件方法实现,这样做的好处是成本低、修改方便灵活,但处理速度较慢,不易保证处理的实时性。采用硬件实现就是将语音压缩算法固化到专用DSP芯片中,这样处理速度快,便于实时处理。
随着性能高的DSP芯片的推出,数字语音系统成为一个研究新方向,也是适应人们需求的一个新热点,语音编码和语音识别的研究日渐广阔,新的理论不断推出,这就需要有新的硬件去实现它,同时以促进理论的不断发展。
采用的研究方法是理论与实际相结合,硬件与软件相结合,把新的理论应用到实际当中去,把好的语音编码技术G.728与DSP相结合,保证有好的语音压缩和高质量的语音保持,应用好的DSP芯片――TMS3205402,把语音识别技术更好的发挥出来,把算法固化到硬件当中去,可以最大限度的加快运算速度,减少制作成本,提高本系统的实时处理能力。
图1 编码器
本系统拟通过G.728语音编码的编码器如图1、解码器如图2所示。
图2 解码器
本系统的语音压缩采集部分,可适用不同的DSP芯片,加上一些必要的系统即可成为一个独立的系统,无机械噪声,存储容量大,时间长,易录放,如图3所示:
图3 语音采集
本系统的语音识别部分拟采用以下过程,框图4如下:
图4 语音识别
在于把语音编码和语音识别技术很好的与DSP芯片相结合,开发出一种功能相对强大的多功能数字语音处理系统,为以后的实际应用打下良好的基础,能够迅速的开发出一系列的应用型产品,满足社会的需求。
将语音信号采集后,利用DSP芯片,如TMS320VC5402,作现场处理,以便减少信息存储量,对语音信号采用ITU-T G.728语音编码标准编码,以保证有好的语音质量,然后采用半导体器件作为语音信号的存储载体,如果内容非常巨大时,可再通过DSP与PC机之间进行通信,保存在硬盘中。本系统不仅能够实现语音信号的录音、随机播放,而且可对信息进行加密、分段查询、编辑等功能,无需机械装置。
对已存储的信息,根据信息的关键词,本系统可进行语音控制,能方便的进行信息查询。语音输入方式与手写方式相比,具有操作简便、查询方便、识别准确率高等优点,省去了大量的输入时间,降低了信息检索的复杂度,且语音识别,语音编码可在同一个DSP芯片上实现。
本系统可作为多功能数字记录系统,如作数字采访机;声控电子记事本;稍作改进后可实现数字留言电话系统的功能;语音电话拨号功能;语音玩具等等。本课题的研究主要是通过语音编码和语音识别技术,把TMS320C5402的功能充分的开发出来,形成一整套的语音数字处理系统,既可以作为一个整体来使用,也可以根据不同的需要把其中一部分拿出来单独使用。
本系统是一个有着广阔前景的实用系统,能够迅速的开发出成品,很好的适应人们对数字语音系统的不断增长的要求,应用面非常的广泛,几乎包含了语音应用的各个方面,具有很好的经济效益和社会效益。
[1]苏涛.等.高性能数字信号处理器与高速实时信号处理[M].陕西:西安电子科技大学出版社,1999.
[2]戴明帧,周建江.TMS320C54X DSP结构原理及应用[M].北京:北京航空航天大学出版社,2000.
[3]邵蔚,吴开杰,李刚.54X系列DSP与计算机井口通信的设计方案[J].电子技术应用, 2002,3(3):23-26.
[4]曹延伟,林家宇,唐朝京.用定点DSP实现ITU G.728[J].微处理器.2001,7(3):26-27.