孙亚鹏,王啸飞
(湖南科技大学计算机科学与工程学院,湘潭411201)
随着语音技术的迅速发展,语音库作为其中的重要一环凸显了越来越重要的作用。一个高质量的语音库,在语音应用的各种重要领域,例如语音合成、语音识别、情绪感知、人机交互等,可以获得更好的效果。
传统的语音库的构建,需要经过一系列的人工工作过程,例如文本处理、语料处理、语音录制、语音处理、语音存储等。使用传统的构建方法时,整个过程耗时长、受到地域限制多、花费大、人工处理误差大一致性不好。考虑到这些因素,结合现在正在蓬勃发展和普及应用的Android 智能手机,可以开发一个基于智能手机的语音库自动构建的App。通过该App 可以在服务器端或者管理端预先设置好需要录音的文本,然后用户打开App 后,根据现实的文本,在提示下进行朗读,获得朗读录音后,进行滤波去除噪声,然后进行语音的切分对齐,最后将一一对应好的语音和文本存入语音库。下面将进一步进行阐述。
语音的发音是基于文字的,所以需要先确定好文本内容和格式,App 可以设置多种格式文本进行显示,可以是字、词、句、段落和文章。在服务器端或者管理端,将需要朗读录音的文本,按照需要的格式进行录入。完成后,用户在App 上将看到按照设定的格式一个一个显示的文本内容,就可以在提示下进行录音操作。
语音的录制时语音库构建的一项关键性工作,其效果直接决定了语音库的质量高低。用户在App 上的朗读指定的文本进行语音录制时,其操作简单明了,在这个环节除了对用户的录制过程进行一定的指导外,还有一些工作可以提高语音录制的效果。例如说在推广App 的使用时,可以在选定特定的用户群体上下一些功夫,若是录制的是标准普通话,则可以分析用户数据,更多的选定一些大学生、教师等一些群体进行推广录制;若是录制的是某种方言,则选定这个方言的聚居区一定年纪的人群进行推广录制;若是要求的是女性或者男性语音用来做合成,也可以根据需要进行灵活选择,以此为基础,能够完成一些专业化特色化语音库的快速构建。
由于语音在录制过程中是使用用户智能手机的App 软件在开放环境下进行录制的,不是在录音棚之类的专业环境下,所以很可能带有一些噪声,另外电子设备在工作环境下也会自带噪声干扰。对录制的语音进行滤波去噪是一种必要的预处理操作。
在进行语音滤波去噪处理时,首先要进行的是将长段的语音数据分割为短段的语音数据,这是考虑长段的语音数据在统计上是不平稳的,我们需要先将之处理为合适的平稳的语音数据。在实践中汉明窗和矩形窗经常被用来处理这个问题,这里使用选择汉明窗进行分帧处理。其分帧组帧处理如图1 所示。
接下来需要进行参数估计,考虑到实时性要求,采用端点检测法来区分语音段和噪声段,通过两段功率谱相减可以得到语音段的参数。
然后利用改进的卡尔曼滤波前期处理过的语音数据进行滤波,考虑到实际噪声信号有色性,改进的卡尔曼滤波可以在有色噪声情况下获得更好的滤波效果。改进卡尔曼滤波的增益计算公式:K=PHT(HPHT+μR)-1其中当μ =1 时,就相当于白噪声假设原始卡尔曼增益,因此改进后的公式更加适应一般情形一些,更加具有普遍性。
经过去噪处理的语音,接下来要进行切分对齐处理,就是按照文本里的文字,和语音中的每个字的发音,进行一一对应的切分对齐,使得每个字都对应好自己的发音。整个过程中主要包括语句自动切分技术和音段自动切分技术。
在语句自动切分处理时,首先是隐马尔可夫的训练和语音解码,得到被处理语音的特征参数,对每个音素建立隐马尔可夫,然后获得音素的时间信息,对于语句的标点符号,采取音素sil 代表。最后根据语句的音素sil 的时间信息,将篇幅语音切分成句子语音。
在音段自动切分处理中结合隐马尔可夫和维特比算法,使用维特比算法对语音信号和相应文本进行强制对齐,可以取得较好的切分效果。过程如图2 所示。
图2 音段自动切分图
完成语音和文本的切分对齐后,最后将语音数据和文本数据一一对应存储,建立索引,基本完成了语音库建设。
利用现在普及的移动智能手机和计算机技术构建语音库,相较于传统的语音库建设,在效率方面可以达到更加高效快速,在效果方面可以达到更加一致专业。不论是在建设大型、综合性的语音库,还是特殊、专业化的小型语音库都不失为一种更好的途径和选择。