西班牙语发音词典构建及标注研究

2020-01-26 05:49赵皎谷马延周周默草
电脑知识与技术 2020年34期
关键词:语音识别西班牙语

赵皎谷 马延周 周默草

摘要:西班牙语发音词典是西班牙语语音识别系统及语音合成系统的重要基础资源,由于目前公开来源的西班牙语发音词典资源稀缺,构建西班牙语发音词典对于西班牙语语音处理工作具有重要意义。该文通过分析西班牙语的发音特点,制订西班牙语发音音素集,广泛收集各个领域的西班牙语词汇,利用音素集人工标注并核对,构建了一个涵盖9万多词条的西班牙语发音词典,对于西班牙语语音智能处理研究领域能够起到一个基础支撑作用。

关键词:西班牙语;发音词典;标音方法;语音识别

中图分类号: TP182      文献标识码:A

文章编号:1009-3044(2020)34-0249-05

Abstract: The Spanish pronunciation dictionary is an important basic resource for the Spanish speech recognition system and the speech synthesis system. Due to the scarcity of Spanish pronunciation dictionary resources that are publicly available, the construction of a Spanish pronunciation dictionary is of great significance for Spanish speech processing. The article analyzes the pronunciation characteristics of Spanish, develops a Spanish pronunciation phoneme set, collects Spanish vocabulary in various fields, uses the phoneme set to manually mark and check, and builds a Spanish pronunciation dictionary covering more than 90,000 entries that can play a basic supporting role in the research field of Spanish speech intelligent processing.

Keywords: Spanish; pronunciation dictionary; labeling method; speech recognition

1 引言

发音词典是语音识别、语音合成等技术实现的基础,是自然语言处理中的基础资源建设工作,在整个语音识别系统以及语音合成系统中起到关键作用。西班牙语属于屈折型语言,依靠词形变化体现不同的人称、时态、语态、单复数以及词性等等。西班牙语中存在大量的变位现象,使得语音智能处理过程中的待识别词汇数量剧增,因此西班牙语发音词典的准确性以及规模大小都尤为重要。

本文通过研究西班牙语的发音规律,制订合理的西班牙语音素集,利用音素集对大量的西班牙语词汇进行标注,构建一个西班牙语发音词典。发音词典的词汇将涵盖各个领域,即制作一个通用型西班牙语发音词典。在此基础之上,后期进行具体的语音处理工作时,就可以根据需要添加新的词汇以及外来词;如果需要专业领域性很强的发音词典,则可以依据原本的通用型发音词典通过建模自动预测特定领域的词汇,帮助实现专业领域发音词典的快速构建。

2 发音词典在西班牙语语音识别系统中的作用与地位

语音识别以语音为研究对象,通过语音信号处理和模式识别让计算机自动识别和理解人类所讲的语言。简单来说,就是机器自动将一段语音信号转换成相对应的文本信息。语音识别的流程如图1所示。

语音识别流程可以分为前端处理和后端处理两大部分,前端处理部分包括语音的输入、预处理以及特征的提取,后端处理部分是一个数据库的搜索过程, 分为训练和识别。训练是对所建的模型进行评估、匹配、优化, 获得最终的模型参数, 识别则是在数据库中进行搜索, 获取前端数值后, 在声学模型、语言模型和发音词典的共同作用下,完成语音识别任务。[1]可见,发音词典在语音识别系统中是不可或缺且十分重要的,是语音识别技术的重要基础资源,发音词典的准确性和规模大小会影响语音识别结果的优劣。

制作发音词典,需要首先制订音素集。音素集是发音词典的基础,音素集的合理性和准确性直接影响发音词典的准确性,制订音素集时要充分考虑制作语种的独特性,根据其语音规律分析制订适合这一语种的特定音素集。收集词汇时可以直接选择现有词典中的词汇,使得收集的词条更具有全面性。如果需要某一領域的专业词汇,可以通过网络爬取相关资料,再通过筛查和预处理获得所需词汇。最后利用已制订的音素集对收集到的词汇进行标注即可得到最终的发音词典。标注方式可以是人工手动标注、规划生成或者机器学习自动生成,具体过程如图 2所示。

3 西班牙语的语音特征分析

制作西班牙语音素集,需要先掌握西班牙语的发音规则,再根据实际需要归纳适应发音词典音素集的新规则,从而制订音素集。本章节将对西班牙语原有的发音规则和为制作发音词典而改进的新规则进行对比说明,为后面音素集及发音词典的制订打好基础。

3.1 西班牙语发音规则

西班牙语共有27个字母,与英语极为相似,其中“a, b, c, d,……”等26个字母的书写与英文字母完全一致,但字母的名称不同,发音也不同。另外,西班牙语多了一个特殊的字母“?”。

西班牙语的基本发音单位就是“词”,为了明确“词”的发音,需要将“词”这一发音单位逐步拆解分析。“词”的基本组成单位是“音节”,“音节”组合成“词”的方式共有4种。第一种是单音节词,即一个音节独立构成词汇。第二种是双音节词,顾名思义就是两个音节拼接构成的词汇。第三种是多音节词。最后一种是外来词汇,即直接借鉴了其他语种的现有词汇,比如“Beijing, watt, kaki, Washington”等等。外来词汇也存在单音节词、双音节词、多音节词,但是其音节的划分方式与西班牙语词汇的音节划分方式不同,因此将其单独作为一类处理。西班牙语中的“词”由更小的发音单位“音节”组合构成,“音节”又由“元音字母”和“辅音字母”等组合构成,它们的组成方式可以分成13种,下面通过表格说明“音节”的构成:

以上就是西班牙语中“音节”的组合方式,根据表格可以看出,西班牙语的“音节”由“元音”、“辅音”、“二重元音”、“三重元音”这些更小一级的单位组合而成,这些元素就是在制作发音词典时要考虑的最小标音单位“音素”,下面对西班牙语中的“音素”作详细说明。

根据西班牙语教学用书中的发音规则,可以将西班牙语的27个字母划分为35个音素,如表2所示。他们分别是五个元音:a, e, i, o, u和30个辅音。这30个辅音又分别由22个辅音和8个特殊的辅音构成。如此划分是因为这其中的22个辅音是原本27个字母除去5个元音字母后剩下的22个字母自然形成的辅音,而另外8个音素分别是“d”“b”“v”“y”“x”“g”和“c”的多种发音。这些音素在基本的字母里已经存在,却把它们划作特殊音素的范围,因为在西班牙语实际使用中,字母“d”“b”“v”“y”“x”和“c”有两种发音,字母“g”有三种发音。特别说明,音素y在发音时,如果它位于元音之前,则将它视作辅音处理;如果它单独使用,或者是位于元音之后使用,则将它视作元音处理。

除了基本的音素以外,西班牙语的元音音素还会重新组合成二重元音以及三重元音。西班牙语元音分为三个强元音:a、e、o,和两个弱元音:i、u。二重元音的组合方式有三种,分别是:1.一个强元音加一个弱元音;2.两个弱元音;3.一个弱元音加一个强元音。根据排列组合的规律总共可以构成14个二重元音。二重元音的发音规律是:当二重元音由一个强元音和一个弱元音构成时,强元音重读;当二重元音由两个弱元音构成时,任意一个弱元音都可以重读,但一般位于后侧的元音重读。三重元音的组合方式只有一种:即一个弱元音加一个强元音再加一个弱元音。根据排列组合的规律总共可以构成12个三重元音,但实际使用中由于有的组合方式在西班牙语中并未出现,所以实际共有7个三重元音,分别是“iai, iei, ioi, iau, uay, uey, uau”。三重元音的发音规律即为强元音重读。另外,西班牙语中还存在5个以“n”结尾的音节,发音时与熟悉的英文发音方法不同,需要特别注意。具体分类如图 3所示。

3.2 为设计音素集而归纳的发音规则

如果完全按照西班牙语本身的发音规则来制作音素集和设计发音词典,过程将会十分复杂且识别结果也一定不够准确。因为西班牙语中存在二重元音、三重元音这些由元音组合而成的音素,还有辅音和辅音组合而成的音素以及辅音和元音组合而成的音素,使得基本的音素过多,而且实际使用中,某些单个字母的音素在不同的单词中会发不同的音,有的甚至一个字母有三种发音,所以按照西班牙语的发音规则来设计发音词典难以满足后期语音识别的需求,会产生很多没法解释的语音问题以及发现问题后很难再进行改进的系统缺陷。因此作者结合实际操作需求,总结改进了适合于西班牙语发音词典的发音规则,其中共设置了44个音素。

该音素集可以分为四个部分,即元音音素、重音元音音素、“ü”的发音以及其他音素,下面详细说明。

3.2.1 元音音素

元音音素一共有5个,分别是:a、e、i、o、u。由于二重元音以及三重元音的读音都是由原本的元音读法拼接而成,所以没有必要为其单独设置音素,另外,为了解决字母带重音符号的情况,将带重音符号的元音单独设置成了音素。

3.2.2 重音元音音素

重音元音音素一共也有5个,即五个元音加上重音符号,分别是:á、é、í、ó、ú。

3.2.3 “ü”的发音

字符“ü”是字母“u”的变体,“ü”的发音与“u”一样,只是书写不同而已。西班牙语中,当单词中出现“gue”或者“gui”三个字母连写时,字母“u”默认不发音,字母“g”发音标[g]的音,直接与后一个字母连读,比如“consigues”,“consiguientemente”。但是有些情况下,这三个字母连写时需要字母“u”单独发音,这个时候就将字母“u”变成“ü”,代表字母“u”本身正常拼读,比如“desvergüenza”,“lingüista”。

3.2.4 其他音素

除了以上的11个音素,剩下的音素组成相对复杂,因此将它们统一划作其他音素分组,共有33个音素。下面对其他音素组再做详细的分类和说明。其他音素中又可以分为五个类别:字母“h”的发音、特殊组合音素的发音,只有一种发音的音素、有两种发音的音素、有三种发音的音素,下面具体列举。第一类,字母“h”的发音。西班牙语中字母“h”不发音,因此它的音标就是空白。第二类,特殊组合音素的发音,共有4个音素,“ch”“gu”“qu”“ps”。“ch”是特殊的组合音素,因此为其设置单独的音标[?§]。“gu”和“qu”只有在形成字母组合“gue”“gui”“que”和“qui”时,或者在个别外来词汇和人名中,才会作为一个单独的音素发音,音标为[k],否则作为两个独立的音素分别发音。“ps”正常情况下分开发音,当其作为单词开头时,字母“p”不发音,字母“s”正常发音,比如“psicológico”,因此为其单独设置音素,这一特点类似于英语。第三类,只有一种发音的音素。这类音素就是西班牙语中最普通最基本的音素,共有14个,分别是“l, m, n, p, t, q, z, f, j, ?, k, w, ll, rr”。第四类,有两种发音的音素,它又可以分为两小类。第一类是一个字母拥有两种发音,但只标注出一种音标,这类字母共有4个,分別是“s, d, b, v”,共构成4个音素。因为尽管这一类音素的字母在西班牙语语法中都有两种发音,但其不同的发音差别并不大,在实际的语音识别过程中不会影响识别的结果,因此在归纳为音素集时,只为其设置了一个音标。另一类就是一个字母拥有两种发音,并按其发音规则设置两种不同的音标。这一类共有3个字母,分别是“c, r, y”,共构成6个音素。最后一类,有三种发音的音素,这一类只有两个字母,分别是“g”和“x”。由于实际使用中,仅需要将这两个字母分别归纳为两个音素就能满足识别需求,所以该类别共构成4个音素。

4 西班牙语发音词典设计

4.1 西班牙语发音音素集的设计

通过上一章节对于西班牙语发音规则的归纳和改进,已经归纳出了适应于发音词典音素集的新规则。根据新规则,将音素集总结制成如表 3。

表3即按照上一章节的分类进行排序和分块,可以清晰地区分不同类别的音素。同时,表格除了基本的音素音标外,还设置了单词举例、中文含义、原本发音、特殊用法四个模块,更好地体现出该音素集的制订具有根据性。单词举例和中文含义两个模块可以对有特殊发音、特殊用法和具有两个或多个发音的字母进行举例说明,并通过最后的原本发音模块标注出其本来的音标发音,特殊用法模块则主要对个别只有构成特殊字母组合模式才采取特殊发音的音素做特殊说明。由于后期利用发音词典进行语音识别实验的过程中,可能还会出现一些错误和问题,需要重新完善发音词典和音素集,因此这样的音素集表格设置有利于音素集后期的修改和完善,为可能遇到的问题提前做好准备。

4.2 西班牙语发音词典词表设计

根据以上的西班牙语发音音素集,标注并制成了最终的发音词典。标注过程中所使用的工具为Notepad++,由于西班牙语发音词典涉及很多一个字母有不止一个发音的情况,标注过程中需要掌握西班牙语发音规则的人进行研判并标注,所以采取的标注方式为人工手动标注,等全部标注完成后再进行二次人工检查核对。词典属于通用性发音词典,词典里面所包含的词汇范围涉及各个领域。发音词典共分为两部分,分别是单词拼写和音标标注,下面将发音词典中一部分词条制成表 4进行展示。

由表4可以看出,该发音词典的词条范围不仅包括了一些常用词汇,还包括字母本身的发音,还有动词、名词等词类的变位形式,另外还有人名、地名、机构名以及一些外来词汇的发音,可以说具有很好的全面性和实用性。

5 总结

本文通过对西班牙语语音规则的学习总结,修改制定了适用于发音词典音素集设计的新规则,并制订发音音素集,最后利用音素集对词汇逐条标注得到西班牙语发音词典。本研究为西班牙语语音识别工作的基础建设部分,将在最后的语音识别过程中起到关键作用。目前尚有的不足之处在于发音词典的规模还是不够大,计划在后期的研究中,将这一通用型发音词典作为基石,通过深度学习技术对其进行建模,再对新的词汇集进行自动标注和人工复检,从而快速扩充词典规模。另外,这一通用型发音词典对于其他特定领域发音词典的制作可以起到推波助澜的作用。运用同一方法,对特定领域的词汇进行预测,即可得到特定领域发音词典,这将对特定领域的语音识别技术起重要作用。

参考文献:

[1] 詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机(专业版),2008(9):43-45,50.

[2] 郭龙银,扎西多吉,尚慧杰,等.基于LSTM的藏语语音识别[J].电脑知识与技术,2020,16(4):154-155.

[3] 王嘉伟.基于卷积神经网络的语音识别研究[J].科学技术创新,2019(31):71-73.

[4] 冯伟,易绵竹,马延周.基于TensorFlow的俄语词汇标音系统[J].计算机应用,2018,38(4):971-977.

[5] 杨建菊,唐录洁,龙虎.基于HMM的黔东南少数民族地区苗语连续语音识别系统研究[J].电脑知识与技术,2017,13(31):190-191.

[6] 侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246.

[7] 黄娴,黄金柱,张克亮.面向印度英语连续语音识别的发音词典设计[C]//中国声学学会2017年全国声学学术会议论文集.哈尔滨,2017:673-674.

[8] 董燕生,刘建.現代西班牙语(1)[M].北京:外语教学与研究出版社,2014.

[9] 于洪志,高璐,李永宏,等.藏语机读音标SAMPA_ST的设计[J].中文信息学报,2012,26(4):66-72.

[10] 王嘉龄.《英语发音词典》面面观[J].天津外国语学院学报,2004,11(2):1-4.

【通联编辑:唐一东】

猜你喜欢
语音识别西班牙语
鲣鸟
西班牙语母语者汉语副词“就”的习得研究
电力西班牙语在委内瑞拉输变电项目上的应用
通话中的语音识别技术
基于LD3320的非特定人识别声控灯系统设计