李宁,朱丽平,2*,赵小兵,2,木尼热·艾尔肯
1.中央民族大学信息工程学院,北京 100081
2.国家语言资源监测与研究少数民族语言中心,北京 100081
语音自古以来就是人际交流最基本的方式,在使用不同语言的人与人之间实现无障碍语音交流一直是世界各国人民的愿望。语音翻译,通过计算机技术实现语音到语音的翻译(S2ST)或语音到文本的翻译(AST),是实现跨语言人际交流的重要工具。
传统的语音翻译系统采用级联方式,语音到文本翻译由自动语音识别(ASR)模块和机器翻译(MT)模块两级级联实现,语音到语音翻译由 ASR、MT和语音合成模块(TTS)三级级联实现,通过单独训练和调整每个模块提升整体性能。随着语音识别、机器翻译和语音合成技术的日趋成熟,级联方式语音翻译的整体性能较高,但也存在一些固有的问题,如只有语音没有文字的语言的语音翻译问题[1],因系统级联而产生的误差传播问题[2]等。为了解决这些问题,端到端模型[3]成为近年来的研究热点。研究表明,当有足够多的数据可用时,端到端模型的性能优于级联方式,但在低数据情况下表现不佳[4]。与现有的语音识别、机器翻译和语音合成数据集相比,语音到语音翻译和语音到文本翻译均面临严重的数据稀缺问题,尤其是低资源小语种语音翻译数据集非常匮乏[5]。
针对语音翻译数据稀缺问题,数据集建设成为当前语音翻译的研究方向之一。在语音到文本翻译数据集建设方面,国内外研究者目前广泛采用的方法是在现有公开数据集基础上,利用机器翻译得到数据集。根据构建方式不同,这种方法又可分为两类,一类是利用ASR数据,将源文本翻译成目标语言文本,生成AST数据集;另一类是利用MT数据,将某一语言的文字进行语音合成,生成AST数据集[6]。
BÉRARD A以LibriSpeech公开数据集为基础,对该数据集进行法语对齐与谷歌翻译,生成语音翻译数据集[7],该数据集已被LIU Y用于基于知识蒸馏的端到端语音翻译研究[8]。KANO T通过英日机器翻译语料库,通过语音合成的方式生成语音数据,进行端到端的英语日语语音翻译研究[9]。PINO J利用机器翻译模型,将英文文本翻译成法语和罗马尼亚语和利用语音合成技术将WMT14进行语音合成生成音频增强数据[6]。KANO T使用BTEC英语日语平行语料库,并使用谷歌语音合成技术生成语音语料库研究远距离语言对的端到端语音翻译[1]。TU M使用IWSLT2019提供的由并行数据和机器翻译生成的合成语料库研究端到端语音翻译[10]。PINO J证明了两类语音到文本翻译数据集,并证明利用ASR生成AST数据集比利用MT生成AST数据集效果更好[6]。
由于目前国内语音翻译相关数据集几乎是空白,国际数据集多集中在英语方面,在汉语方面仅仅开展了英汉领域的研究,蒙古语、维吾尔语研究工作由于缺少相关数据集支撑而无法开展。本研究在现有公开数据集AISHELL[11]、THUYG-20[12]基础上,利用机器翻译和人工校对相结合,构建了两种语音到文字翻译数据集:中文语音到蒙文文字数据集和维语语音到中文文字数据集,可用于端到端语音翻译模型的研究,开展汉语方面的语音翻译相关研究。本数据集内容涵盖智能家居、无人驾驶、工业生产、新闻等多方面,覆盖面广,可用于多种场景。数据集生成方法较国际公开方法,增加了人工校对步骤,更加科学可靠地保证了数据质量。
本数据集包含两部分,由中文语音蒙文文字语音翻译数据集和维语语音中文文字语音翻译数据集组成。中蒙语音翻译数据集包含1919条中文语音,以及中文语音翻译对应的蒙古文文字。维汉音数据集包含3692条维吾尔语语音,以及维吾尔语语音翻译对应的中文文字。
中文语音蒙文文字语音翻译数据集的中文语音语料直接取自于 AISHELL语音识别数据集[11],对应的蒙文文本原始语料由AISHELL数据集中的中文文本经过预处理、机器翻译和后处理得到。用中文语音和原始蒙文文本训练语音翻译模型,从训练结果中筛选出准确(Bilingual Evaulation Understudy,即BLEU值为1)的中蒙语音翻译数据共计25842条,得到形成中蒙语音翻译数据集原型。再采用随机抽样的方式,从数据集中随机抽取2000条数据,经过专家审核、校对、删除和更新,得到最终的中蒙语音翻译数据集。数据处理方案如图1所示。
具体处理步骤如下:
1)预处理:将AISHELL数据集中带空格的中文文本数据去空格。
2)机器翻译:把中文文本翻译成蒙文文本。
3)后处理:数据清洗,处理特殊字符,包括过滤蒙文语句中的特殊符号,比如书名号,双引号等,以及用计算机辅助方法对蒙古语中的不可见字符,如蒙古元音分隔符等进行批处理,消除不可见字符造成的蒙古文变形现象。
4)语音翻译模型筛选数据:采用编码器解码器结构的端到端语音翻译模型,将文本正确,BLEU值为1的蒙文翻译文本筛选出来。
5)抽样校验:利用随机抽样,从抽样数据集中抽出部分数据,由专家审核,挑选出存在偏差的数据,交由后续专家人工校对,纠正文中的错词、错字及语义不清的文本,形成最终数据集。
维汉数据集中的维语语音语料取自于清华大学和新疆大学发布的 THUYG-20语音识别数据集[12],对应的中文文本原始语料由THUYG-20数据集中拉丁化的维文文本数据经过预处理、机器翻译、后处理、专家校验、最终整合得到,如图2所示。
具体处理步骤如下:
1)预处理:将THUYG-20数据集,利用THUYG-20官方提供的工具包解码拉丁化,得到维吾尔文字。
2)机器翻译:把维吾尔语文本翻译成中文文本。
3)后处理:数据清洗,处理特殊字符,包括过滤维文语句中的特殊符号,比如书名号,双引号等,以及一些机器翻译无法识别的语句。
4)专家校验:通过随机抽样,从数据集中抽出部分数据,由专家审核、校对。
5)整合处理:将专家校对后的数据整理、去除标记,形成最终数据集。
本数据集包含中蒙语音翻译数据集和维汉语音翻译数据集两部分。数据包括音频文件以及对应翻译文本,音频文件格式为wav格式,采样率是16 kHz,文本文件格式是txt文本。中蒙语音翻译数据集包含样本1919条,大小为238 MB。维汉语音翻译数据集包含样本3692条,大小为652MB。
如图3,每个数据集包括wav文件夹和doc文件夹两个文件夹,其中doc文件夹中存放的是翻译文本,wav文件夹中存放音频文件,如下图4所示。
图5是中蒙语音翻译数据集中的蒙文文本,第一列是音频文件名,对应wav文件夹中的音频文件,中间采用水平制表符“ ”分隔,第二列是音频对应的蒙文文本。音频文件名中的第7-11个字符,比如BAC009S0113W0155中的S0113代表是由用户idS0113所录制,中间用户id不同,代表音频录制人不同。
本数据通过机器翻译将源语言文本翻译成目标语言文本,从而得到了语音翻译数据集,但机器翻译的结果存在一定偏差,故后续邀请蒙语、维语语言专家进行打分评价,人工校验数据集,将数据质量高的数据整理成为最终的语音翻译数据。
如图6是蒙语专家对中蒙机器翻译数据审核的结果,蒙语专家将根据偶数行的中文数据审核、判断蒙文数据是否存在差错,以及存在怎样的差错。
图7、图8给出了蒙文专家校正的文本数据对比图,图中左列均为音频文件名,右列是音频文件所对应的中文文本和蒙文文本,图7为专家校验之前的机器翻译原文,图8是专家校正之后的结果。
图9是维文专家校正的文本数据对比图,每一行从左至右依次为文本所属音频编号,机器翻译的中文文本,翻译检验标记。其中,0代表翻译不准确,其后为翻译的问题,如漏翻或翻错,以及改正后的中文翻译结果;1代表翻译正确。
通过专家审核、校验,改善机器翻译产生的偏差,进一步提高数据质量,使得数据更加真实、可靠。
现在语音翻译数据稀少,国际英语相关的数据比较多,但国内研究较少,中蒙数据和维汉数据填补了中文相关语音翻译的稀缺数据。本文提供的语音翻译数据可以直接用于语音翻译的相关研究。本数据是由AISHELL、THUYG20数据集处理加工而来,便于使用AISHELL、THUYG20数据集的科研工作人员快速开始训练,同时还便于将AISHELL、THUYG20的模型迁移到本数据集上。科研人员也可根据本数据集与AISHELL、THUYG20数据集音频命名规则一致,便于修改预处理流程,快速开展相应实验,用于机器翻译的相关研究。
致 谢
感谢中央民族大学中国少数民族语言研究院高娃教授,中国社会科学院民族学与人类学研究所哈斯其木格研究员,中国政法大学戚肖克博士对蒙文机器翻译质量评估给出的宝贵建议,感谢呼和浩特民族学院包乌歌德勒博士,九原区蒙古族学校娜日娜老师,中央民族大学赵美丽、都乐根、媛媛对蒙文数据的审校。
数据作者分工职责
李宁(1996—),男,山东省泰安市人,硕士研究生,研究方向为语音翻译。主要承担工作:数据集的预处理和整合、论文撰写。
朱丽平(1970—),女,湖南省株洲市人,博士,教授,研究方向为语音翻译。主要承担工作:总体质量管控,机器翻译结果审校组织、协调与管理,论文指导与修改。
赵小兵(1967—),女,内蒙古自治区呼和浩特市人,博士,教授,研究方向为自然语言处理。主要承担工作:数据质量控制与综合管理。
木尼热·艾尔肯(1999—),女,新疆省叶城县人,本科,研究方向为自然语言处理。主要承担工作:维语数据质量控制。