话语自信构建下的语音翻译合成技术

2023-03-26 04:45蓝杨

秀江南 2023年9期

蓝杨

文化是一个国家、一个民族的灵魂。文化兴，国运兴；文化强，民族强。党的十八大以来，习近平总书记多次阐述中华文化与文化自信的重要性。没有高度的文化自信，没有文化的繁荣兴盛，就没有中华民族的伟大复兴。

增强国际话语权，传播好中国声音，必须坚定我们的话语自信。习近平总书记指出：“我们有本事做好中国的事情，还没有本事讲好中国的故事？我们应该有这个信心！”话语自信是对中国发展理论、道路、制度和文化的充分肯定，是对中国话语体系科学内容及其表达能力的坚定信念。说到底，话语自信是中国自信在中国话语体系上的表现。中国自信是话语自信的基础和保障，话语自信是中国自信的反映和升华。在中华民族的文明进程中，语言文字更是我们独特的精神标识和文化印记。《中国汉字听写大会》《中国成语大会》《中国诗词大会》等节目的播出和《写意中国—探寻汉字起源》等活动的举办引起了人们对传统文化的关注，掀起了“汉字热”和“诗词热”，让全社会看到了语言文字的魅力，坚定了中华文化自信。

如何开发与利用计算机和语言翻译系统，更好地传播中国声音、传达中国意思，使国际社会更好地理解和认同中国文化，为构建人类命运共同体贡献应有的力量，成为摆在我们面前的一个现实问题。

语音合成系统基本架构

一般语音合成系统包含语言、音韵、合成单元三个资料库以及语言分析、音韵预估、合成单元选取及合成器四个模块。首先，输入文章被送入语言处理模块，在语音资料库的帮助下进行断句、断词、构词甚至语法及语意分析等处理，得到正确的读音。其次，语言处理结果被送入音韵预估模块，?用上下文及读音等信息，加上音韻资料库中的韵律规则或训练获得的参数，计算可能的音韵值，如音长、停顿、音量及基频值等。再次，合成单元选取模块根据所需音及预估的音韵值从合成单元资料库中选取最合适的合成单元。最后，合成器依据音韵预估模块预估的音韵值调整合成单元选取模块选择的合成单元，加以适当的连接后输出合成语音。

三个资料库

（1）语音资料库，用来储存语言处理分析所需资料，包括字音表、词音表、词类、词频等。

（2）音韵资料库，用来储存预估音长、音强、基周、停顿时间等音韵资料所需规则或模型参数。这些模型参数在训练阶段求得。

（3）合成单元资料库，用来储存语音基本单元，可能是音素、双音素、三音素、半音节、单音节、词或者更长的单元。单元的长度可能固定，也可能不固定，甚至同一个单元有几个不同韵律的合成单元版本供选择。一般所选语音基本单元越大，合成的接点越少，合成语音更容易保持清晰自然，但所需单元更多，储存空间也更大。目前，许多中文系统采用单音节的字作为合成单元，主要原因是中文为一字一音的语言，但是因为缺乏连音的考虑，无法合成很自然的声音。

四个模块

第一，语言处理模块。其主要功能是在语音资料库的帮助下分析输入的文章，适当断句、断词、构词甚至分析语法结构及语意，找出文章中每个字的正确读音，并且提供词边界、换气边界等相关信息给音韵预估模块使用。首先，开展智能前处理，将输入文句中的符号或数字先转成恰当的文字。?如“有1/3的人无家可归”中的“1/3”代表“三分之一”，而不是“一月三日”；“1234567”可能读成电话号码“一二三四五六七”或者金额“一百二十三万四千五百六十七”。如果把“1/3的人无家可归”读成“有一月三日的人无家可归”或把“电话号码为1234567”读成“电话号码为一百二十三万四千五百六十七”，一定会让听者一头雾水。另外，中文的词与词之间没有分隔符，不论是分析语法结构还是朗读都要先找到词。先将字串分成数个包含可能词汇的大词段，然后根据最长匹配法则在每个词段里选取最有可能的词汇组合。中文词的变化很多，如果把所有可能的词都列入辞典中，不仅会导致辞典所占记忆容量过于庞大，还会减慢在辞典中搜寻词群的速度，影响整个语音合成系统的效率。为了缩短查询辞典的时间，属于非规律性字串组合的词及出现频率较高的词应放进辞典中，有规律的部分则在构词处理中组合成词。中文的三种主要构词方式是附加、重叠及复合。决定词群后，可由词库中的标音找到正确读音，不在词库中的可以用字转音表处理，但仍可能有多音字的问题。中文大约有10%的字有两个以上发音，但大部分可由辞典及词频信息（选用最常用的发音）解决，错误的概率在2%～3%。这个数字也许并不显眼，但只要计算机读错音，大部分人都会关注这个错误。因此，一个语音合成系统要想被大众广泛接受，必须将错音比例降到最低。

第二，音韵预估模块。语音合成系统必须发音自然，抑扬顿挫。音韵预估模块的目的是从读音、语法结构、语意等方面找出适当的方法预估合成语句的抑扬顿挫，包括对声调、音长、音量及停顿等参数的预估。早期音韵处理多采用语言学家经过长期收集观察总结出的规则，但这种方法费时且难以规避许多因素的影响；近期偏向统计方法（即资料库训练法）。一般采用音韵模型代表音韵受各因素影响的情形，先以大量语料训练此模型，使其具有韵律特性，然后将其应用于语音合成系统预估音韵值。统计方法包括回归模型、类神经网络、期望最大化等，成效都不错。统计模型可以帮助我们定量决定每个因素影响音韵值的程度。对于声调、音长、音量及停顿而言，不同的因素有不同程度的影响。可能影响音韵的因素包括：（1）目前及相邻的声调、目前及相邻的音素、子音、元音、音节等；（2）词类（如名词词组、动词词组）；（3）词组（换气群及句中的位置等）。

第三，合成单元选取模块。该模块是从资料库中选择合适的合成单元连接产生需要的语句，在语音合成系统中经常用来提高声音质量。单元选取技术主要是从语言学特性或音韵特性中找到一些选择的标准，以选出最符合目标值的最恰当单元。如果单元语料库够大，含有足够多不同上下文及韵律变化的组合，就不需要调整单元或只要小幅度调整，减小了调整单元导致的声音质量下降幅度。因此，这种方式合成的语音通常比单一单元合成的语音更清晰自然。合成单元选取的方法很多，例如树状结构、隐马尔可夫模型。有些研究通过定义成本的方式选取，?如使用结构句法成本。

第四，合成器。人类的发声器官就像乐器一样，可以发出很多种声音，但也有许多先天的限制。空气由肺部送出，如果是浊音，声带会震动，气流在发声腔道内产生共振现象，然后从嘴部释放出来，产生声波，传到我们的耳朵里。如果是清音，激发源为乱流的杂音形态。以不同的发音位置及方式可发出不同的声音。但若以简单的线性发声管模型模仿人类的发音，仍有不足。因此，许多分析合成模型或合成器被提出。合成方法除了用一组不同口径相连的发声管模拟声道外，还有贝尔实验室的荷尔·杜德利在1939年提出的声码器、共振峰合成器、时域上的基周同步叠加法及弦波模型等。以单脉冲/噪音激发的线性预估编码为例，这种基于口腔模型的合成器可以随意调整基周周期，但合成语音质量受限于单脉冲激发的声带模型，语音较粗糙。质量好一点的是以多脉冲激发或码本激发的方式。之后受到欢迎的是波形合成器，可在时域直接调整语音。一般若是调整音韵的范围不大，原始语料的音质不会被破坏。因此，合成语音的质量比线性预估编码合成器好。基周同步叠加法是一套在时域直接修改语音的算法，比较简单又能得到不错的音质，因此受到欢迎。

其他语音合成方向

以大量语料库为基础的传统语音合成的优点有资料库所需内存较小、系统可移植性较高，缺点是合成语音自然度较难提升，因为要将有限的语音单元合成自然语音，语音單元必须经过转换调整，而经过大幅调整的单元不易保持音质，且选择太少，难以达到自然的要求。于是，更庞大的音韵资料库被用来训练音韵参数模型，更多语音合成单元得到应用。计算机硬件的运算速度越来越快，储存容量越来越大，价格却越来越低，设计一个可容纳自然语言变化的庞大资料库成为可能，以大量语料库为基础的语音合成系统应运而生。由于语音单元包括许多变化，在单元相接时不用对合成单元做太大改动就能产生接近自然原音的合成语音。

情绪语音合成。语音一向是最方便的人机接口。计算机语音在过去几年里进步不少，变得更加易懂、易听。但跟真人相比，声音里还是缺少一些元素，那就是情绪。人类情感的表达方式很多，透过语音的情绪表达是沟通的重要部分。如果能在计算机合成声音中加入情绪，就能让合成语音更真实，也能表达得更好。目前，已经有相当多的学者及机构投入情绪语音合成的研究。

歌声合成。唱歌和说话都是人类沟通及表达的自然方式。歌声合成的应用包括作曲、娱乐、教学等领域。歌声合成虽与语音合成一样是处理人类发声的问题，却有着和语音合成不一样的困难。在歌声合成中，作曲者已经在谱中提供了韵律这方面的信息，但若只依照谱上的标准韵律值合成，无法产生自然的歌声。我们在唱一首歌时，会试着表达歌词，而职业歌者赋予了歌声许多艺术成分，使歌声的变化比说话更动态化、更复杂，且变化的范围更大。

结语

虽然目前的合成语音和真人声音之间还有距离，但让计算机说话不是实现不了的梦想。其实在许多播报系统中，语音合成都已进入实用阶段。这项科技会用在家电、影片、电玩、动画、机器人等我们能想到或想不到的领域，发出栩栩如生的声音。

（作者单位：浙江警官职业学院）