蒙古语单元拼接语音合成方法探讨

2019-10-21 09:36郭淑妮
科学与信息化 2019年16期
关键词:深度学习

郭淑妮

摘 要 本文对蒙古语单元拼接语音合成方法进行了探讨,并基于深度学习探究了蒙古语的相关语音合成,采用了硬拼接和软拼接相结合的方法。

关键词 深度学习;蒙古语;单元拼接;语音合成

引言

通过对蒙古语中的语音韵律的参数进行统计分析,总结出其中的韵律变化规则。使用时域基因同步叠加算法和频域基因同步叠加算法相结合,对合成语音进行韵律调整,从而提高蒙古语合成语音的自然度,在拼接算法上采用的是硬拼接和软拼接相结合的方法,从而达到更好的语音合成效果。

1 语音合成方法

按照現代拥有的技术手段,语音合成方法主要分为参数合成法和波形拼接合成法。参数合成法也是一种比较复杂的分析合成法,它是基于音节和音素为合成单位,对合成单元进行相应的语音分析,并提取出相应的特征参数,经过编码后形成相应的语音库。使用该方法进行语音合成时,是根据需要合成语音的信息从语音库中提出相应的合成参数,它是对人的发音过程进行直接的模拟。

波形拼接合成法是基于基因同步叠加算法而实现,它的合成单位包括语句、短语和音节等单位,不同于传统的将不同的语音单元进行简单的拼接,这种方法需要使用大量的语言库,在语音库中选择出最合适的语音单元进行拼接,这期间会涉及许多复杂的技术,一般包括统计学技术和神经网络技术,在最后拼接时采用的是PSOLA算法,修改合成语音的韵律特征,经过相应的解码之后进行语音输出,这种技术也是目前语音合成的主流技术[1]。

2 基于时域基因同步和频域基因同步叠加算法相结合进行韵律调整

2.1 时域基因同步和频域基因同步叠加算法介绍

TD-PSOLA算法是PSOLA中较为简单并且计算效率最高的一个版本。通过把相应的分析信号在时间轴上进行移位,就能够得到这种算法。在这个过程中省去了对短时信号的频域变换,对某些短时分析信号只是进行简单的删除或者重复,通过对分析信号间同步标记的距离进行改变,来改变其基频,在实时系统中得到广泛的应用[2]。

关于FD-PSOLA算法,其最终合成信号是通过对分析信号进行频域变换和反变换后得到的。通过使用傅里叶变换求出相应的短时分析信号的短时谱以及谱包络,在匹配合成基频时需要对两个谱进行相应的修改。

2.2 基于TD-PSOLA和FD-PSOLA算法结合的韵律调整

把时长修改因子作为常数,根据时长因子对短时信号数量进行增加删除就可以。选择适当的修改因子不会造成太大的噪声,对于大于等于2的修改因子,其会造成清音的短时相关,这样听起来会有噪声的感觉。在实际应用过程中,可以采用将时轴的重复部分进行部分倒置的方法来解决,如果要使用较大的修改因子则可以结合FD-PSOLA算法来实现噪声的避免。

对基频进行调整是与时长的调整相互交叉的,通过对语音基音同步标记时间的间距进行改变,从而实现对基频的调整。一般情况下时长和基频的修改因子是没有关系的,对短时分析信号就要进行相应的复制或者删除。在实际情况中,时长和基频的修改都是在一步之内同时完成的,如果时长因子的倒数比较大,在进行浊摩擦音的音高增强并减慢其语速时,会产生很小的噪音。对于振幅的调整,语音波形的幅度对应于相应的音强,改变音强只需要进行加权波形数据就行,对于一些重音有变化的音节,有时也需要改变其幅度包络。

3 蒙古语语音合成系统的实现

随着深度学习方法的发展,基于神经网络的语言模型在语音识别系统中已经得到相应的应用。针对蒙古语语音识别基线系统,本文作了以下研究。

3.1 相关实验数据准备

传统蒙古文书写时如果不考虑字符的发音及内码,只是注重外形,很容易在输入时造成拼写错误。蒙古语属于黏着语,词汇的构造形式是由词干加后缀拼接组成,并且在一个词干后边可以拼接不同的后缀,这样会形成大量意义不相同的词。本文对发音词典和文本语料库构建时进行了词干后缀分割操作,切词前后发音词典部分对照表如表1所示。

3.2 蒙古语语音识别基线系统建立

本文基于Kaldi语音识别开发平台建立了蒙古语语音识别基线系统。首先对于提取的包含噪音干扰的语音特征进行倒谱均值方差归一化,使得特征向量的概率密度函数与无噪声环境中计算得到的PDF更加接近,进而降低训练集和测试集之间的差异性。使用线性判别分析与最大似然线性变换结合,将归一后的上下文的高维特征进行区分性投影,以此降低特征向量维数,保留具有分辨率的特征成分,并让其处于对角线上,满足对声学模型影响最小的情况下构建对角矩阵。

4 结束语

通过对蒙古语语音识别基线系统进行简单的分析,对基于深度学习蒙古语语音合成技术的研究提供一定的借鉴。

参考文献

[1] 王勇和.基于深度学习的蒙古语语音识别声学模型研究[D].呼和浩特:内蒙古大学,2018.

[2] 包春梅.基于动词词干词缀的蒙古语语音合成系统的研究[D].呼和浩特:内蒙古大学,2009.

*[项目编号]内蒙古民族大学科学研究项目。编号:NMDYB1768。中国民族语言文字信息技术国家民委-教育部重点实验室开放课题。

编号:KFJJ201608。

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究