关于维吾尔语口语语料的三音子选取方法研究

2015-04-21 09:26:46徐宝龙努尔麦麦提尤鲁瓦斯吾守尔斯拉木

中文信息学报 2015年2期

关键词：维吾尔语语料语料库

徐宝龙，努尔麦麦提·尤鲁瓦斯，吾守尔·斯拉木

(新疆大学信息科学与工程学院，新疆乌鲁木齐 830046)

关于维吾尔语口语语料的三音子选取方法研究

徐宝龙，努尔麦麦提·尤鲁瓦斯，吾守尔·斯拉木

(新疆大学信息科学与工程学院，新疆乌鲁木齐 830046)

在大词汇量连续语音识别应用中，优质的语音训练语料是所有识别工作的基础和前提, 能否挑选出覆盖更多语音现象的语料是提高语音识别性能的关键。该文在多种维吾尔文口语化传播平台中采集了大量口语句子语料，并考虑协同发音的影响和常用词的适用性，根据评估函数对语料筛选。经过筛选后的语料包含的三音子更加均衡和高效，囊括的语音现象更加全面，为训练准确而牢靠的语音模型打下了稳固的根基。

维吾尔语；语音识别；语料库；三音子

1 引言

从1962年开始，语音识别技术的发展过程由处理孤立词识别、连接数字识别和连接词识别到处理连续语音识别和语音交互，词汇的数量级也由少词汇量扩展到超大词汇量，语言的形式也由书面语识别发展到自然对话识别[1]。汉语和英语的语音语料库正日趋完善，相应的应用也为人们的日常生活与科研活动提供了方便快捷的帮助，然而维吾尔语语料库资源的质量还没达到要求，仍不能满足人们的实际应用需求。这就迫切地需要建设更高质量、更加稳定的维吾尔语语音识别语料库。此外，本文的

研究还将推动如哈萨克语、乌兹别克语、柯尔克孜语以及阿拉伯语等相似言语体系的语音研究工作[2]。

由于维吾尔语属于阿勒泰语系突厥语族，是黏着性语言，在元音和谐、辅音结合等方面有自己特有的规律，语音的多样性与复杂性较为明显[2]。同时，选取出更具有代表性的语料，对训练健壮性强的声学模型有着不容忽视的作用，因此语音的分析和合成工作也就越来越依赖语音语料的选取质量。为此，本文结合维吾尔语自身特点，参考绑定三音子模型理论，对语料覆盖三音子的程度进行排序筛选，并考虑常用词表在句子中权重的影响，挑选出覆盖较多语音现象的句子，从而缓解数据稀疏问题。

2 维吾尔语连续语音的三音子结构

所谓音子(phone)，是语音之间在声学上连贯的、粘着的音段部分，它对应于声学上的音段。它跟音位或音素不同，音位是区别性的语音，对应于听觉上的音段[3-4]。可是在声学上除了音段以外，在它们之间还存在着由于协同发音(协同发音是指在周围声音的影响下，一个语音声音会发生变化)而产生的过渡音段的音联，这些在声学上就叫作音子[4]。虽然音子可以作为描述维吾尔语普通话的最小单位，但在连续语音中，一连串音节紧密连接，发音部位和发音方法不断改变，音节之间互相影响，偏离原来的位置，导致其声学表现和孤立音节有很大区别[5]。因此，在维吾尔语连续语音识别系统中，只是用音子还不足以完全表征出维吾尔语语音流的全部语义。我们可以使用三音子(tri-phone)来描述连续语音的音变和过度[4,6]。

三音子(trip-phone)考虑了一个音子和其左右语言环境对其造成的影响，它包括音子本身(中心音子)以及和它左右相邻的音子之间的过渡段[5]。由于三音子是考虑上下文相关的协同发音影响，所代表的语音现象更加全面，所以使用三音子作为语音的识别单元更合理。

在维吾尔语中，元音音强普遍强于辅音。音长低于辅音中的送气音及擦音，与半元音、边音、鼻音音长相近，其中[ü]的音长最短。非爆破辅音中，擦音音强较弱。发音时长与发音人性别，发音习惯，及上下文(音素过渡)有一定关系，故音长离散度较大。由统计结果可知，元音的音强比之辅音的要强，且与半元音、边音、鼻音相近。维语语音分为音位、音节、重音等结构单位，其中元音8个，辅音24个，其中共有41个音素(其中16个为元音长发音和短发音，24个为辅音，1个为静音)、5 000多个音节(包括外来词)，这些音节的使用频率是不平衡的[7-8]。

此外，在建立语言模型时很难获得充分的大词汇量。这就更加迫使我们必须挑选出一种简洁高效的、覆盖广的语料。为此本文根据这一实际需求出发，选用三音子作为识别基元，并考虑三音子覆盖率对其进行优化，目前已经可以较好地实现这个需求。

3 维语语料的预处理选取

我们的目的是从大规模口语语料中挑选一定数量的句子作为语音训练语料，本文中采用了无需人工干预的全自动挑选方法[9]。而且，使用者可以按照自己的需求挑选任意多的语料，提高了所选语料的稳定性。

3.1 采集口语语料

维吾尔语的文本数据之所以收集比较困难，是因为有的维吾尔语媒体没有保存网站的历史数据，有的媒体保存的文本数据不支持Unicode编码，自动存储与自动识别不能方便地转换[10]。本文程序考虑了维吾尔语的语言特性与编码格式等问题，可自动识别维吾尔语的编码格式，并进行转换。

本文针对浏览量大、客户群体多的交互性网站进行数据采集，这些网站包括微博、博客、论坛等。因为这些平台上的语料更加真实，更加贴近生活，是对语音识别的实用性更加突出。由于上述的维吾尔语交互网站并不完善，网站内部架构里存在许多链接地址不同但内容完全相同的帖子。并且由于维吾尔语书写格式与汉语不同，是从右至左书写，语言又属黏着性语言，有些用户回复格式不正确，很容易在两个字之间少打或多打空格，这给预处理文本造成了很大的障碍。本文首先根据具体网站的源码，找到并筛选出多空格与少空格的句子。其次，根据网站的规则去掉地址类似、内容全部相同的文本。本文对15个相关网页内容进行了过滤，最后得到语句约 2 800万句。

在维吾尔语方面，进行如此大数据量的采集与预处理，是从未有过的。这也使得此实验有充足的数据作基础，使得验证的算法更准确。

3.2 断句保存

将原始语料库根据标点符号与特殊符号分割成句子形式，由于维吾尔语的书写习惯与汉语不同，所用的符号也不相同，应当把所有可能出现的维吾尔语书写符号罗列出，以便根据这些符号进行断句。本文共罗列出了31个特殊符号，据此断句，丢弃太长或者太短的句子(本实验选取的句子为6到18个词之间)。

3.3 统计口语常用词表

每一种语言通常根据其应用领域不同，常用词表涉及的内容也不同。比如体育的、生活的、书面语的、官方新闻的和常用语的词表等等。但是语音识别主要是识别人的语言，那么从常用语作突破，才能更加贴近生活。为了使得到的数据更加准确，用程序实现把40万个口语文本集整合到100个文本内。然后对每个文本进行分词，由于第二步得到不含特殊符号的有效句子，因此在这里可以仅根据空格分词。然后进行词频统计，保留不重复的独立词，并统计每个词出现的频数。最后根据各个词频的大小进行排序。抽选出频率最高的常用词频，本文选取出了频率幅度最高的前2 200个口语常用词。

3.4 给每个句子打分筛选

打分的目的是使得在同样语音环境下，包含的常用词较多的句子可以有优先被选取的机会[11]。

首先定义每个词的权重，如果该词存在于常用词表中，则采用如下计算公式，否则Q值不变。

(1)

其中，s为每个词的权重赋值，可根据具体实验需求设置，本文设置为0.5；

Ci为第i个词在List表中出现的频数；

List表初始化为空。每读取句中的一个词，判断是否存在List中，如果不存在，则插入List中，否则不操作。

R为限制Ci频数的阈值，可根据具体实验需求设置，本文设置为3；

(2)

定义句子权重为权重总和的平均值。

(3)

其中，Word(i)为第i个词，T为该句中包含的词的总数。

3.5 设定参数值

一个句子中重复词出现太多会影响选取结果，设置词的重复频数Ct可以避免这种情况的发生。我们可以根据对N值的取值，来设定所取语料的规模。也可以根据得分对句子由高到低降序排序。实验中的其它参数数值可以根据实验需求设定。

预处理语料流程图如图1所示。

图1 预处理语料流程图

在实际抽选过程中，由于原始语料库的规模可能非常庞大，例如，我们采用的原始语料库经过预处理后共包括大约2 800万个句子，遍历如此庞大的语料库并按照每个句子的得分顺序排序需要花费大量的运算时间。为此我们采用了一种平衡二叉树结构来保存得分最靠前的N个句子：在遍历整个原始语料库的过程中，依次将每个句子插入到二叉树的一个节点中，该节点记录了此句子的ID标识及其评估得分值W，当二叉树的节点数目达到N时，如果下一个句子的评估分值小于该二叉树最左子树节点(即该二叉树中最小值)的评估分值，则放弃插入，继续下一个循环；否则首先删除该二叉树的最左子树节点，然后将该句子插入到树中，对于含有N个树节点的理想二叉树，每次插入或删除运算的复杂度为O(logN)[12]。

4 根据三音子覆盖率筛选语料

维吾尔语语音识别基元的选取是影响维吾尔语语音识别系统性能的一个关键问题，因为它决定了声学模型的精细程度和可训练度[11]。本文考虑了协同发音的影响，以上下文相关的三音子模型为语音识别基元。首先把语料拆分成音子形式，其次根据三音子音联关系进行绑定，最后对三音子形式的句子打分、排序、筛选。

绑定三音子具体步骤如下：

(1) 从句子库读取一句，n=n+1；

(2) 将文本代码转换成拉丁文的基本区域。

(3) 根据此转换结果，生成出现的所有单词的有序词表；

(4) 对原语料句子注音，并根据发音词典规则，生成发音词典;

(5) 利用HTK工具包的命令，根据已生成文件列表和脚本文件，按照字典展开，得到基于单音素的因素列表；

(6) 由单音素文件转换成等价的三音素级标注文本。

绑定三音子流程图如图2所示。

图2 绑定三音子流程图

把语料拆分为三音子形式后，采用优先原则，包含语音现象最多的句子将会首先被挑选出来。

首先定义一句话中每个三音子的权重为：

(4)

我们设计了一个三音子表Stable，存放所有已出现的三音子。

m为每个词的权重赋值，可根据具体实验需求设置，本文设置为1；

其中，Ci为第i个词在Stable三音子表中出现的频数。

定义句子权重为三音子权重总和的平均值为：

“我只是来告诉你，艾瑞克刚发布了新通知，我们明天去城市围栏实地训练，学习无畏派的职责。”艾尔说，“明天八点一刻在火车那里集合，准时出发。”

(5)

triphone(i) 为该句话中的第i个三音子，N为该句中包含的三音子总数。

评估筛选三音子流程图如图3所示。

此种算法较传统算法更加稳定，鲁棒性更强。传统算法需要分批次处理大量语料，如若不然，在处理一定规模数据后，后面出现的句子得分大部分是0[9,11-12]，这使得数据界限不好判定，并且数据的精确度只能模糊限定。而本文中的算法无需这方面的担忧，用户可以对所有数据语料进行一次性处理。

5 算法的评测标准和实验结果

我们所筛选语料的算法是否可靠以及在评估函数中各参数的设置是否恰当,是以已被选中的语料所覆盖的三音子数目以及数据稀疏度等因素指标来衡量的[9]。很显然，找到的三音子数目越多，覆盖率越高，算法就越好。其中，覆盖率的定义为：覆盖率=语料集覆盖的不重复三音子数/维吾尔语三音子总数。

图3 评估筛选三音子流程图

5.1 语料选取

实验室所用语料主要采集于维吾尔语常用口语交流网站，包括微博、博客、论坛等。根据本文中的第一部分筛选规则，对原始语料进行分句并丢弃过长或者过短的句子。按照所占常用词表的比重，对原始语料进行筛选排序。

维吾尔语语言中包含的单音素共有34个，理论上互相结合后的三音子数为34×34×34个。但实际上很多音素结合后并不一定生成有效的三音子，这就给我们的工作带来了很多的冗余信息与冗余操作。本文对所选语料的全部三音子进行统计，并筛掉不规范音子与重复音子，得到23 840个有效的维吾尔语三音子。

5.2 实验结果

(1) 测试选取算法包含三音子数量的稳定性，从已筛选的前五万句语料中，分别抽样选取了两组A、B，每组都是由6 000句、8 000句、10 000句组成的三份文档。对比数据如表1所示。

表1 A组与B组数据对比

根据表1可知，所选取的三音子覆盖率达到了84%。我们分析了上述语料统计中尚未包含的三音子的情况，它们是维吾尔语中出现概率极其微小的情况，分别是“韵尾+韵母+韵头”和“声母+韵母+韵头”的。前者主要是三个零声母音节相邻的情况，如“a+a+e”之类的三音子；后者在维吾尔语中为有声母音节和零声母音节相邻的情况，并且此韵头又可同时单独作为一个音节，如“o”在实际中这类情况几乎不会出现[11]。

A、B两组，重在测试选取算法包含三音子数量的稳定性。在已挑选的语料集中，可能某些实验不需要那么多的语料。这时，我们随机抽选出适用于具体实验规模的语料，得到的结果并没有差异性。依据上述的分析可知，本文中的算法挑选出的语料是具有代表性和普遍性的。

(2) 等距抽样选择语料是将总体中各单位按一定顺序排列，根据样本容量要求确定抽选间隔，然后随机确定起点，每隔一定的间隔抽取一个单位的一种抽样方式。本文从原始语料中抽样选取出C组文档，同样是由6 000句、8 000句、10 000句组成的三份文档。对比数据如表2所示。

表2 A组与C组数据对比

图4 A组与C组数据走势对比

表2与图4是用我们的算法挑选出来的语料和等距抽样方法挑选出来的语料的比较。等距抽样方法在抽选10 000句语料后，覆盖三音子总数的77.01%。即使将数据规模再扩大，等距抽样蕴含的不重复三音子数也没有明显的提升。而本文所得出的每个三音子在语料中出现的次数相对比较平均，并且在挑选10 000句语料后可覆盖84%的三音子。

在实际情况中，我们不可能训练足够多的语句做实验。我们总是希望使用较少的语句，就可以覆盖更多的语音现象。本文的选取方法在选取数量达到10 000句时，就可以覆盖绝大多数的语音现象，而传统的方法不能做到这。传统方法中即使选取数万语句，涵盖三音子数也达不到本文方法选取出的10 000句，故此方法更适合维吾尔语三音子的选取。

6 总结与展望

本文结合维吾尔语口语的自身特点，提出了一种连续语音口语语料的自动选取方法，这种方法既考虑了常用词的分布排序，也考虑了上下文相关的三音子音素形式的影响。挑选出的语料既满足了语音单元覆盖和词频调整方面的需求，又缓解了数据稀疏问题。

本文没有深入研究维吾尔语的语法结构和发音规律，后续工作可以与之结合展开研究。

[1] Rabiner L R, Juang B H. Fundamentals of speech recognition[M]. Englewood Cliffs: PTR Prentice Hall, 1993.

[2] 那斯尔江·吐尔逊，吾守尔·斯拉木.基于隐马尔可夫模型的维吾尔语连续语音识别系统[J]. 计算机应用，2009，29(7)： 2009-2012.

[3] 刘玉宇, 吴及, 王作英. 汉语三音子模型观测概率比较[J]. 中文信息学报, 2003, 17(3): 47-52.

[4] 曹剑芬. 普通话语音的环境音变与双音子和三音子结构[J]. 语言文字应用, 1996, 2: 58-63.

[5] 林焘, 理嘉. 语音学教程[M]. 北京：北京大学出版社, 1992.

[6] 曹剑芬. 普通话双音子和三音子结构系统代表语料集[J]. 语言文字应用, 1997, 1: 60-68.

[7] 蔡琴,吾守尔·斯拉木. 基于HTK的维吾尔语连续数字语音识别[J]. 现代计算机: 下半月版, 2007，(4): 14-16.

[8] 那斯尔江·吐尔逊，吾守尔·斯拉木，麦麦提艾力．维吾尔语大词汇量连续语音识别研究——语音语料库的建立[C]//第十一届全国民族语言文字信息学术研讨会论文集,2007(2)： 379-385.

[9] 吴华, 徐波, 黄泰翼. 基于三音子模型的语料自动选择算法[J]. 软件学报, 2000, 11(2): 271-276.

[10] 热依曼·吐尔逊.维吾尔语语音语料库管理软件的研究与实现[J]. 新疆大学学报: 自然科学版, 2011 (2): 242-247.

[11] 康恒, 刘文举. 基于综合因素的汉语连续语音库语料自动选取[J]. 中文信息学报, 2003, 17(4): 27-32.

[12] 宁振江, 杜利民. 面向语音识别声学模型的汉语语料抽选方法[J]. 声学技术, 2003 (z2): 356-358.

[13] 库热西·马合木提，阿米娜·立提市，亚热·阿白都拉．现代维吾尔语[M].乌鲁木齐：新疆人民出版社，2003.

[14] 赵晖, 林成龙, 唐朝京. 基于视频三音子的汉语双模态语料库的建立[J]. 中文信息学报, 2009, 23(5): 98-103.

[15] 陶梅, 吾守尔, 斯拉木. 基于 HTK 的维吾尔语连续语音声学建模[J]. 中文信息学报, 2008, 22(5): 56-59.

Analysis of Triphone Selection Method in Uyghur Speech Corpus

XU Baolong, Nuermaimaiti Youluwasi, Wushouer Silamu

(College of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046, China)

A good speech training corpus is essential for the wide application of continuous speech recognition. Therefore, whether more multiple voice phenomena are covered in the corpus is of substantial importance to improve the performance of speech recognition. In this paper, we collect a large number of spoken corpus sentences from a variety of Uighur spoken language communication platforms. Then, we refine the corpus according to the evaluation function considering the effect of co-articulation and applicability of the common words. The final corpus contain mor more balanced and efficient tri-phones, covering more phonetic phenomena, which lays a solid foundation for training a much accurate and reliable acoustic model.

Uighur Language;speech recognition;database;Triphone

徐宝龙(1988—)，硕士研究生，主要研究领域为语音识别，自然语言处理．E⁃mail：xbl＿hometown@hotmail．com努尔麦麦提·尤鲁瓦斯(1980—)，讲师，博士，主要研究领域为自然语言处理，语音识别。E⁃mail：y．nurmemet@gmail．com吾守尔·斯拉木(1942—)，中国工程院院士，博士生导师，主要研究领域为多语种信息处理。E⁃mail：wushour@xju．edu．cn

1003-0077(2015)02-0118-07

2014-04-17 定稿日期： 2014-10-27

国家973重点基础研究计划项目(2014CB340506)；国家自然科学基金(61363063)；新疆维吾尔自治区科技计划项目(201312104)

TP391