张晓明
(唐山市人事考试中心, 河北 唐山 063000)
在考场语音识别过程中识别出发音错误的词汇,对于其系统纠错水平提高具有重要作用,现有的多数语音识别系统在技术上无法有效消除信号和杂音干扰,识别能力较差[1-4]。为此本文提出了一种发音自动纠错技术,采用单识别器的CCD 传感器和TDSP-TF887 芯片提升识别速度,将DTW 算法引入到系统的语音识别程序中以保证错误语音的精确识别,为考试者提供了一个良好的口语练习辅助平台。
语音信号采集是错误语音识别流程的第一个环节,对应的程序需要能够从采集到的语音信号中提取出发音有误的词汇。程序运行的第一步是对系统中安装的语音设备进行检测,如果没有发现相关设备则会发出提醒信号;第二步执行语音信号初始化操作,保证系统采集到的语音以正确的格式进行保存;接下来从存储空间中划拨出一部分作为语音数据的缓存空间;最后对错误语音的参数进行计算。语音采集的具体流程如图1 所示。
错误语音信号参数的提取方式和结果都是整个系统识别精度的影响因素。通过错误语音信号参数的提取获取有效的错误语音信息才能保证系统识别结果的准确性。错误语音信号参数提取分为以下几个步骤进行:
1)通过预加重、信号分帧和加窗的方式对错误的语音信号进行处理,在这个过程中,设定采样点的数量为256 个,基于傅里叶变换错误语音信号的频谱。
2)计算错误语音信号的功率谱。
3)获取功率谱后使用梅尔滤波器对其进行运算,取运算结果的对数,获得对数频谱。
4)将该对数频谱由时域变换到频域,具体方式为:
5)基于上述过程对每一帧错误语音信号进行特征提取,获取效用最高的错误语音信号。
由上述流程可见,通过功率谱的计算可以完成错误语音信号参数的提取,从而实现错误语音识别功能,既简化了错误语音识别的流程,又保证了识别结果的准确性。
基于错误语音采集程序和错误语音信号参数提取实现了错误语音的识别功能,并通过错误语音的功率谱计算保证了识别的准确性。
人发出的语音由语音识别传感器中的二极管进行采集并将其转换为数字信号。CMOS 传感器与CCD传感器是语音识别系统中较为常见的语音传感器。CMOS 传感器中集成了多个配有单独转换电路和识别器的二极管,其语音输出方式与内存电路较为相似;CCD 传感器的内部结构与CMOS 传感器相比较为简单,只集成了一个识别器,语音数据由二极管开始逐单元传输直至传感器的最底层并在此进行整合,经识别器识别后继续向后传输。本研究选用CCD 传感器进行语音的采集和识别。
本次研究的过程中对语音识别处理器进行了优化设计,采用DTW 算法进行语音的处理和识别,重点在于能够实时处理系统采集到的语音。所以,系统的语音识别处理器除了运算与控制的基础功能之外,还通过执行程序、指令系统与处理器结构的优化具备了语音实时处理的能力。DPS 芯片的性能决定了语音数据的处理效率,此外还关系到语音识别处理器的优化程度和优化过程的复杂度,因此DPS 芯片的选取是语音识别处理器优化设计的一个重要环节。
制定语音识别处理器的优化方案要从芯片的数据处理性能和语音识别精度两个方面出发,对于智能语音识别系统,语音数据的处理效率是极为重要的性能指标,为了确保实现语音数据的实时处理,处理器必须能够在极短的时间内完成处理过程。对于语音的识别精度,浮点DPS 芯片通常情况下要高于定点DPS 芯片,能够使智能语音识别系统拥有较强的错误语音识别能力。语音识别处理器芯片的总体结构与数据处理流程如图2 所示。
语音识别处理的选择要依据硬件资源丰富、数据处理效率高的要求进行。智能语音识别系统的错误语音识别是基于大量的数据运算实现的,为了保证运算速度,本次研究选取TDSP-TF887 芯片作为语音识别处理器芯片。基于代码密度进行数据处理的语音识别处理器采用了集成16/32 位混合指令集的架构形式,应用于本系统可以使其获得更高的错误语音识别能力。
系统的硬件部分基于CCD 传感器的应用优化了语音识别传感器的语音采集和数据处理功能,为了满足语音数据实时处理的要求,通过选用TDSP-TF887浮点DPS 芯片优化了语音识别处理器,提高了语音的处理效率和识别精度。
为了验证本系统在错误语音智能识别方面的性能,选取一种传统语音识别系统为参照系统[5]与本系统进行性能对比。使用中文32 篇短文作为口语语音输入内容。系统主要参数设定如下:语音振动音频范围为[-100,100],语音有效性判定参数=8.5,maxX的峰值分别取3.2、3.6、4.0、4。
系统数据库中包含待测语音数据库、汉语词典数据库与标准发音数据库,其中汉语词典数据库为BEEP 数据库。系统数据库采取对外开放的形式,所有用户都可以进行语音输入。
发音自动纠错系统的性能以准确率和查全率两项指标进行评价。其计算方式分别为:
本系统与参照系统各进行10 次性能测试,测试结果如图3 和图4 所示。
由图3 和图4 中的数据可见,参照系统对错误语音进行识别的准确率和查全率数值都处于较低的水平,其中准确率最高只达到了62.6%,查全率最高仅为63.4%,10 次测试的准确率平均值为59.02%。本研究所提出系统的准确率和查全率均达到90%以上,其中最高准确率为96.2%,最高查全率为95.2%,10 次测试的准确率平均值为93.0%。以上数据表明,本研究提出的发音自动纠错系统相较于传统同类系统拥有更强的错误语音识别能力。
为了满足考试语音识别模块中的纠错需求,本文提出一种发音自动纠错技术,采用CCD 传感器进行语音的采集和处理,基于TDSP-TF887 浮点DPS 芯片实现了语音识别处理器的优化设计,同时,在软件部分引入了DTW 算法,提高了系统对错误语音的识别速度和精度。实际应用测试结果显示,本文所设计系统的性能相较于其他同类系统有了大幅提高,非常适用于考场语音纠错问题的解决。