作者简介:沙晓娅(1980-),女,江苏苏州人,硕士,讲师,研究方向:德语语言学,跨文化交际。
摘要:随着人工智能技术的广泛应用,语音合成取得了重大技术进步。该文从语言学角度出发,采用语音处理领域客观定量的数据分析方法,对比分析了传统德语合成语音、新一代人工智能增强的合成语音及自然语音之间的差异及其原因,并进一步探讨了德语语音合成技术的改进方向。研究结果表明,相较于传统语音合成技术,基于人工智能的新一代德语语音合成技术在多项反映自然听感的指标上均展现出不错的提升。然而,由于德语本身独特的韵律特征,新一代人工智能合成语音在准确度和自然度方面与自然语音之间仍存在一定差距,具体体现在整体韵律、词间间隔以及音强变化等方面。
关键词:德语;合成语音;自然语音;人工智能;深度学习;TTS
中图分类号:H33 文献标识码:A 文章编号:2096-4110(2024)06(b)-0025-07
A Study of Differences between German Synthesized Speech and Natural Speech
SHA Xiaoya
(School of Foreign Languages, East China University of Science and Technology, Shanghai, 200237, China)
Abstract: With the wide application of artificial intelligence technology, speech synthesis has made significant technological progress. From a linguistic perspective, this paper adopts the method of objective quantitative data analysis in the field of speech processing to compare and analyse the differences and reasons between traditional German synthesized speech, new generation AI synthesized speech and natural speech, and further discusses the direction of improvement in German speech synthesis. The results of the study show that the new generation of AI-based German speech synthesis does show a good improvement over traditional German speech synthesis in terms of indicators reflecting the natural sense of hearing. However, due to the unique prosodic characteristics of the German language, there are still differences in accuracy and naturalness compared to natural speech in terms of overall rhythm, inter-word spacing and variations in sound intensity.
Key words: German; Synthetic speech; Natural speech; Artificial Intelligence; Deep Learning; TTS
语音合成(Text to Speech,简称TTS),是将语言文字信息转变为语音输出的技术。随着语言学和计算机软件技术的快速发展,语音合成技术的研究和应用取得了显著的进步。尤其是近年来基于深度学习的人工智能技术加速变革,使得语音合成质量大幅提升,逐渐接近自然语音的水平。
2016年,谷歌DeepMind实验室推出WaveNet模型,采用真人语音作为训练素材,合成的英语语音在韵律、重读和语调上较传统合成语音有了大幅改善[1],在学术界及工业界引起了广泛关注。同年底,亚马逊推出了基于人工智能技术的Polly语音合成技术应用,能够支持包括德语在内的多种语言。几乎同时,百度研究院也发布了Deep Voice语言合成技术。多家业界领先的人工智能研究机构的关注与科研投入,使得人工智能助力下的语音合成技术向更深层次迈出了重要的一步。
在深度学习训练机制的基础上,新一代人工智能技术持续发展,为语音合成带来了前所未有的机遇。语音合成技术的水平,与工业界的应用支持、研究投入、使用广泛度及可训练材料的丰富程度等因素密切相关。得益于研究与使用的广泛性,英语语音合成技术的发展水平尤为突出。德语与英语同属日耳曼语系,因此在研究和实际应用领域,德语语音合成技术往往采用与英语相似的方法,甚至只是改变词典库后直接套用。然而,德语和英语在重音、语调、词形构成和语法变化等方面又存在着不少差异。
因此,新一代人工智能技术的引入对德语语音合成是否有确实的改善,德语合成语音与自然语音的差异目前处于何种水平,新一代德语语音合成技术有何实用性和不足之处,都是亟待研究和分析的问题。有鉴于此,本文采用语音处理领域客观定量的数据分析方法,对比传统德语合成语音、新一代人工智能合成语音与自然语音这三者的差异,旨在深入探讨上述问题。
1 语音合成技术简介
传统语音合成技术主要基于参数化合成与拼接式合成这两种方法。参数化语音合成是历史最悠久且最常用的语音合成方法,即利用人工建立的模型对某种语言的声音进行排列、组合构成语句,通过设计一套算法从文字建立语音。而拼接式语音合成,则是先录制标准朗读者真人发音的大量语音片段,建立一个大型语料库,然后从中选择并拼接成完整的语句。传统德语语音合成技术基本都是建立在上述两种方法或其变形基础之上,典型的微软德语TTS技术便是这两种方法的结合。
基于深度学习的新一代人工智能语音合成技术则与此不同,它利用真人录制的声音剪辑和相应的文字及标注作为训练集,由程序本身来辨别语言的内容、组合及其构成模式,在给定的训练材料下学习其内容和发音方式,通过深度学习来推广所有文字到语音合成。这种深度学习再推广的模式与传统语音合成技术的重要差别在于,传统参数化或拼接式的合成都是在给定的人工设计的某种算法条件下的学习推广,人工智能深度学习却不采用固定的人工设计的合成算法,而是由学习程序本身模拟人脑思维方式,根据训练材料分析并提取特征和规律,在此基础上继续推广衍生。
不管采用哪种具体技术,语音合成有两个最主要目标:准确度和自然感[2]。准确度是指合成语音听觉上的清晰度和能够被提取出正确信息或者被准确理解的程度。自然感是指语言表达的隐含信息,如语音韵律特征、整体风格一致性、地域特点或语言层面的其他微妙细节。语音合成的最终目标就是在准确度和自然感上达到与标准朗读者的自然语音无听觉差别的水平。对于语言工作者而言,准确度的研究主要关注合成语音的词、句是否达到了标准发音的要求,而自然感的研究则侧重于合成语音与自然语音在细节表达上是否存在差异。
2 德语合成语音与自然语音的对比分析
2.1 对比分析环境
传统德语语音合成采用传统语音合成领域应用最广泛的微软德语语音合成系统,通过多年的应用发展、更新迭代和较多用户的使用已经达到了传统语音合成领域的较高水平。
人工智能增强的德语语音合成,则采用亚马逊Polly德语语音合成程序,这是一款使用深度学习人工智能技术将文本转换为语音的云端程序,可以通过在线提交文本由亚马逊语音服务器合成语音音频文件。
真人自然语音则采用母语发音者的德语标准语音。
所有合成语音和自然语音均采用女声,通过设定语速和音强范围,使合成语音完成同一内容的时长和音量与真人自然语音基本相同。
客观对比实验过程采用Praat软件,这是一款功能完善、可扩展的语音学专业软件,主要用于对数字化的语音文件或信号进行分析、处理、标注等的实验中。
2.2 对比结果分析
采集一系列真人自然语音的音频文件和它对应的文字作为比较对象,将对应文字分别输入微软德语TTS和亚马逊德语Polly进行语音合成,将对应相同文字的传统德语合成语音、人工智能增强的合成语音及真人自然语音这三个音频作为一个比较组,采用Praat语音分析工具对每组音频分别提取声学波形图、音强曲线图和音调曲线图,共对比分析了20组音频。
以其中一个比较组为例,文字信息如下:
Ich habe z. B. eine chinesische Tandempartnerin. Sie hilft mir beim Chinesischlernen und ich helfe ihr bei der deutschen Sprache. (比如我有一个中文语言伙伴,她帮我学中文,我帮她学德语。)
从声学波形图上可以看出,图1是基于传统语音合成技术的德语合成语音,带有强烈的规则化时间间隔特性,每个词及元音之间的间隔非常规整,除非出现标点符号,否则词语间隔基本一致。在听觉上,过于规律化的吐词导致自然感降低,影响了直观的听觉体验。
而图2是基于人工智能增强的合成语音,在这一点上有了明显改善。其结果已经不再表现出明显、生硬的规则化间隔,具备在不同词语间选择性的连读特性和拟人化的连接转换,趋近于真人。
分析图3可以发现,真人自然语音的发音间隔在波形上看似更加随机,但这种随机并非完全无序,而是伴随强调位置、个人情绪、气息转换及词语使用习惯的不同出现,这也是自然语音具备自然听感的重要因素。
从音强曲线图的波形幅度来看,图4所示基于传统技术的合成语音有如下特点:各单词间的波动不大,语句中不同单词的最高音强基本保持稳定,最低音强和变化趋势也具有近似重复的规律性。
分析图5可以发现,基于新一代人工智能的合成语音也表现出各单词间波动低的特点,同时语句中不同词语的最高音强保持稳定的程度与传统语音合成结果类似。但最低音强和变化趋势的重复规律性有所降低,这说明其对不同词语的处理已经具备一定的上下文全局视野,能根据词语强调位置和语境进行合理调整。
从图6真人自然语音的音强曲线图可以看到,语句中不同词语的最高音强、最低音强和升降趋势都有比较明显的变化,最高音强包络呈现明显的起伏,这种起伏变化与真人发音器官的强调位置、个人情绪等因素密切相关,伴随真人发音器官输出能量的改变而变化,是自然语音在重读和韵律上的外在表现。
观察三者的声学波形图和音强曲线图,发现一个值得注意的现象。从整体来看,基于人工智能的新一代合成语音实现了一定的改善;但从个别词语的波形图和音强曲线中却可以发现,传统的语音合成结果中也能看到近似于真人自然语音的音强曲线特点。这一现象说明,基于传统参数化合成或拼接式合成的方式,个别词语的发音也可以达到不错的合成效果;基于人工智能深度学习的新一代语音合成机制在元音和词语级别上并没有明显的改善,其更显著的进步主要体现在对上下文的整体性和全局性效果的精细处理上。
通过Praat软件分别提取三个音频的音调曲线图。如图7所示,基于传统技术的合成语音的音调曲线在句中变化幅度不大,句中语调处于平稳状态,往往是在句首或句尾进行与上下文没有明确关联的机械性语调变化。而语调的变化是传达人类情绪的重要因素,所以这容易给听者带来一种缺乏情感的机械化听觉感受。
与图7相比,图8是基于人工智能的新一代合成语音,其单词内的音调变化幅度虽不明显,但整句的音调起伏有一定程度的增大,句子整体上的音调变化更接近图9真人自然语音所呈现出的音调曲线。
当然,图9所示的真人自然语音的音调曲线随情绪和韵律的变化表现出更大范围的波动。这说明,基于人工智能的新一代语音合成系统在反映情绪和韵律的整体自然感方面已经取得了进步,但与真人自然语音还存在一定差距。
在20个比较组的对比分析中可以观察到,上述差异具有普遍性。研究各比较组的声学波形图、音强曲线图和音调曲线图可以明显看到,基于人工智能的新一代德语语音合成技术在反映自然听感的指标上确实较传统德语语音合成技术有显著的提升,但其结果与真人自然语音相比还存在一定的差别。
3 德语韵律特征及其对语音合成的影响
德语合成语音的评价标准众多,主要集中在准确度和自然感两大方面。而这两方面都涉及韵律学的研究内容,即语音的韵律特征,如重音、节奏、停顿、语调等具体因素[3]。只有符合德语本身的韵律特征,才能得到准确且自然的德语合成语音。
3.1 词重音
德语属于重音节奏语言,轻重音节交替出现,带有鲜明的重读与非重读对比的语言韵律特征[4]。重读音节通常会被拉伸,发音更加响亮、精准,相比之下,非重读音节的发音速度更快,响度较弱[5]。要把握好德语单词发音的准确性,关键在于正确区分重读和非重读。同一个单词,重读音节的位置一旦发生改变,含义也大相径庭,读错就会引起歧义或误解[6]。
对于语音合成而言,文字信息是唯一的输入信息,因此这种同形异义、重音不同的现象只能通过上下文进行判定和识别。对基于参数化或拼接式的传统语音合成技术而言,其文字到语音的转换主要基于词的范围,对句甚至是段的上下文几乎没有感知,所以要识别和正确处理这种语言现象难度很高。
而采用人工智能增强的新一代语音合成技术通过深度学习可以实现一定程度的全局化感知,具备实现更高质量语音合成的原理基础,但与此同时,对训练材料也提出了更高的要求,只有在获取足够多的重读变化语境材料并经过训练之后才会输出更可靠的结果。
3.2 句重音
德语句子会区分重读单词和非重读单词,判断句重音是正确理解句子含义和正确朗读句子的基础。德语句子的韵律节奏就是通过重读单词和非重读单词的对比而实现的[7]。这也就是为什么德语自然语音让听者感觉整体是连贯的、有节奏感的,而不只是连续单词机械输出的生硬效果。
为了突出说话者想要表达的语义重点,德语句重音会落在需要强调或对比的句子成分上,其音长、音高和吐字清晰度与其他句子成分形成鲜明对比。句重音位置不同,句意就会有很大差异[8]。这也是德语语音合成的一个处理难点。
传统的语音合成技术在处理句重音时难以实现丰富合理的变化,会把句中每个单词都读得非常清晰,缺乏轻重对比和德语特有的节奏感,让听者无法判断出强调的部分或新鲜的信息,听觉感受生硬、不自然。
而对于新一代人工智能增强的语音合成程序而言,其具备一定的上下文扫描及内容匹配能力,使其判断出同样文字要强调的不同语义重点成为可能,因此其语句重音控制从理论上来讲要远远优于传统德语语音合成。当然,要真正达到这一目标,需要进一步扩大其上下文扫描范围、增强德语材料的训练深度及存储计算能力,而就目前的计算机存储计算能力和训练深度的有限性而言,合成结果还难以做到完美。
3.3 节奏与停顿
德语是一种重音节奏语言,无论重音之间的音节有多少,重音间隔出现的时间基本相同,这就形成了德语发音所特有的重读、轻读交替出现的节奏感。重读单词在发音时会将与自己在语义和语法上联系紧密的单词聚拢到一起,形成一个节奏语群。作为一个相对独立的整体,它包含了识别语义的韵律特征,通过停顿和其他节奏语群相区别,使听者更加容易理解语义内容[9]。
句中停顿的位置,一般也就是节奏语群的分界点,它使语群之间的关系更加清晰,也体现了德语的韵律和语法结构。停顿的位置不同,表达的语义也不同,听者对于同一内容就可能产生完全不同的理解。将成句或成段的内容合成语音,必须掌握好恰当的停顿才能使节奏自然,听感舒适。节奏控制和停顿分布主要由句子结构和说话意图决定。句子结构相对比较容易判断,但说话者的意图是很难识别的,这也是传统语音合成技术几乎不可能攻克的难点。
而基于人工智能的深度学习机制则有可能通过足够的学习训练材料对文体和内容识别做出一定程度的衍生判断,从难度上来讲,这种理解要求对当前人工智能语音合成能力提出了相当大的挑战。就目前的人工智能技术水平而言,其输出结果还处于近似模仿的阶段,虽然已表现出一定的拟人化节奏,但要完全做到停顿恰当、节奏自然还言之尚早。特别是在朗读长句子时,合成语音与真人自然语音的差距更为明显。
3.4 语调
德语的语调一般分为降调、升调和平调。在语言实际运用中,语调与句型虽然有一定的对应关系,但并非一成不变,听者可以通过语调来判断语义是陈述事实、提出疑问、给出请求、表达感慨或者抒发某种特定的情感[10]。而针对具体交际场景选取适合的句子语调,也正是语音合成的又一难点所在。传统德语语音合成技术多采用判定标点符号的规则来生成语调,基本无法做到场景识别和上下文感知,所以语调变化容易生硬、不准确。
而人工智能技术虽然能够结合上下文进行分析判定,但对情绪和隐含含义内容识别的要求目前暂时超出了现今人工智能语音合成的技术范畴,在这种条件下要输出完全符合情境的自然语调仍然具有很高难度。
4 结束语
通过对传统德语语音合成技术、人工智能增强的德语语音合成技术和德语自然语音的对比分析,可以发现,新一代以深度学习为基础的人工智能语音合成技术确实表现出了相较于传统语音合成技术的明显进步,在一般应用场合已经能够接近真人自然语音的效果,但是在准确度和自然度方面与自然语音还存在着整体韵律、词间间隔和音强变化上的差异,能够被客观分析软件感知。总体来说,新一代基于人工智能的德语语音合成还没有完全达到自然语音的同等水平,与之相比存在一定差距。
当然,基于人工智能深度学习的语音合成程序具有自我学习和持续进步的能力。外语工作者可以通过更多的人工标记和修正,为深度学习的计算机模型提供更加丰富准确的训练材料,训练语音合成程序产生更拟人的发音,使语音合成更加精准、自然。有理由相信,随着人工智能技术的不断进步,上述准确度和自然度方面的差异将会逐渐缩小,甚至有可能最终消失。
随着语音合成技术的日益完善,外语教学也受到巨大影响。语音合成技术有着真人发音无法比拟的任意可重听、任意可编排的特性,这使得学习者能够更便捷地进行求教与学习,因此,它可以作为外语教学过程中的有益补充与辅助手段,为学生提供更多样化、个性化的学习体验。
语音合成技术是通过计算机实现跨语言交流的重要环节之一,人工智能对语音领域的影响已经显现,这是无法回避或阻止的趋势。那么,如何有效发挥自身在语言理解方面的优势,借助计算机去完成相关的数据与技术处理工作,积极推进人工智能在外语教学领域的创新发展,这是外语工作者应当探索并为之努力的新方向。
参考文献
[1] OORD A,DIELEMAN S,ZEN H,et al. WaveNet: A generative model for raw audio[EB/OL].(2016-09-12)[2024-01-21]. https://arxiv.org/pdf/1609.03499.pdf.
[2] KAESLIN H.Systematische Gewinnung und Verkettung von Diphonelementen für die Synthese deutscher Standardsprache[D]. Zürich: Eidgen?觟ssische Technische Hochschule Zürich,1985.
[3] 胡开宝,尚文博.语言学与语言智能[J].华东师范大学学报(哲学社会科学版),2022,54(2):103-109,176.
[4] BU?覻MANN H. Lexikon der Sprachwissenschaft[M]. Stuttgart:Kr?觟ner,1990:64.
[5] STOCK E. Deutsche Intonation[M]. Leipzig:Langenscheidt,1996:69.
[6] 钱文彩.汉德语言使用对比研究[M].北京:外语教学与研究出版社,2001:24.
[7] KOHLER K. Einführung in die Phonetik des Deutschen[M]. Berlin: Erich Schmidt,1995:117.
[8] 杨军,陈桦.二语口语产出的韵律:与朗读相关的文献研究[J].外语研究,2005(5):46-50.
[9] HIRSCHFELD U,NEUBER B. Prosodie im Fremdsprachenunterricht Deutsch-ein überblick über Terminologie, Mer-kmale und Funktionen[J].Deutsch als Fremdsprache,2010(47):10-16.
[10]ESSEN O. Grundzüge der hochdeutschen Satzintonation[M]. Ratingen,Düsseldorf:A. Henn,1956:18.