翻译语料库建设中一些问题的软件处理法

2016-05-30 03:05丁皓
科教导刊 2016年24期
关键词:重复杂质

丁皓

摘 要 计算机辅助翻译的核心——翻译记忆的积累造就了语料库。语料库的大小决定了计算机辅助翻译软件的效能。因此,语料库建设是CAT用户必做的一门功课。在语料库的建设中,会遇到句库切分、重复、杂质等问题。对此大规模处理的最快捷的手段莫过于软件。文章提出的一种软件处理方法,能较好地解决并处理语料库建设中遇到的绝大部分问题。

关键词 句库 拆分 重复 杂质 删除

中图分类号:H059 文献标识码:A DOI:10.16400/j.cnki.kjdkx.2016.08.026

Abstract The core of Computer Aided Translation - the accumulation of translation memory makes the corpus. The size of corpus determines the efficiency of computer aided translation software. Therefore, the construction of the corpus is a subject that CAT users must do. In the construction of corpus, sentence segmentation, will encounter problems such as repetition, impurity. The most efficient way to deal with this large scale is software. A software processing method is proposed in this paper, which can solve and deal with the problems encountered in the construction of the corpus.

Key words explosive; split; repeat; impurity; delete

0 引言

“累積大量的英汉双语语料并建立语料库,对于计算机辅助翻译的帮助日益扩大”。①而“语料库,尤其是双语平行语料库,在翻译实践方面的应用潜力也十分巨大”。②为此,文章旨在研究主要用于计算机辅助翻译(CAT)的语料库建设中遇到的一些问题的解决办法。在CAT行业,一般把这种翻译语料库(即翻译记忆库)简称为“句库”。所以本文下面也简称为“句库”。

为建设大型句库,需通过各种途径,采用各种方法收集或制作句库。但是,“经过语料采集程序所收集的各类语料、尤其是通过网络下载、扫描识别等方法获得的文本大多会存在各种不合规范的符号或格式,这些不规范的符号格式会导致语料标注错误,为了避免这一问题,在做好原始文件备份工作后,就需要对语料进行清洁整理”。③更麻烦的是,即使是质量好的句库,也可能会与自己已有的句库重复。对于上万句对的句库来说,要处理这些问题靠手工操作是很难完成的,更不用说几十万甚至上百万句对的语料库了。这就要求我们对句库的质量缺陷和重复问题进行研究,并针对这些问题提出简便易行的解决办法。

1 语料库建设中存在的问题

1.1 重复问题

对于搜集来的句库,首要问题是重复。也就是说,新来的句库与自己已有的句库可能有重复。如果一个CAT用户只有几百万句对以下的句库时,句库的重复与否是无关紧要的,因为电脑的运行速度不会受这点重复句库多占电脑内存的影响。但是当句库拥有量超过几千万句对时,电脑的内存就会变得极其宝贵,电脑的运行速度将会受到极大的影响,甚至造成电脑或CAT软件不能运行。这就要求对自己的每个句库都检测并删除重复的句对,以最大限度地利用电脑内存空间并提高CAT的运行速度。

如果句库拥有量在几十万句对以下,这个问题是不难解决的。如现在有些CAT有去重功能。我们只要把自己原有的句库导入CAT,再把新来的句库导入,两者合并起来后,CAT软件就能自动把重复的句对删除。但是当句库太大时,就超过了CAT软件的容量,其重复问题就无法处理了。而且现在一般的CAT软件只能合并不能拆分还会导致这样一种结果——不同专业的句库合并后原来句库的专业分类状态会被破坏。

上述问题对我们提出了一个要求——需要有一种“去重”手段,这种手段既能快速大批量地删除重复的句对,又能保持新句库的原有专业分类状态。对于这样的要求,目前一般的CAT软件仍无法做到。

1.2 切分问题

句库的切分也称拆分。目前一般的CAT软件只有合并功能,没有切分功能。拿Trados来说,它的单个句库容量比一般的CAT要大。但它导入句库合并后却不能切分,这对于需要按专业分类的句库来说就不能满足需要了。而且单个句库太大时会影响电脑的运行速度,也就影响了翻译速度。更令人头痛的是,有些来自Trados的单个句库可能多达几百万句对,而一般的CAT软件没有这么大的容量。如雪人软件单个句库的容量只有一百几十万句对,大于这个容量就无法导入,因而就无法把来自Trados的TMX格式的句库导入并转换成雪人的STM格式,这样雪人就无法使用这个句库。这就要求有种办法来按需求切分句库,特别是切分大型句库。对此,目前一般的CAT软件也做不到。

1.3 杂质问题

为了加快句库的制作速度,大型句库往往是借助软件自动生成的。但是“某些软件不能识别其他编码格式的文本,对一些特殊格式标识符号在读取中会出现乱码”。④此外,“制作双语对应语料库,较为高效的方式是利用Trados的WinAlign工具自动对齐句对,其优点是速度快,准确率较高,优于双语语料库检索软件ParaConc内置的句对工具;其缺点是对中文的支持不够完美,有时会出现乱码”。⑤而且,在句库制作、文件转换及不同CAT软件之间的交换过程中,由于格式不同及其他种种原因,句库中也会产生各种各样的乱码和其他非词语性的东西,甚至还会产生原文或译文空白的句对。对于这些乱码、非词语性的东西及原文或译文空白的句对,本文下面统称为杂质。这些杂质的存在影响了句库的质量,并且会影响翻译时语料查找速度和精确度,因此需要删除。这种删除功能现在一般的CAT软件是没有的。

2语料库建设中问题的解决办法

综上所述,在句库建设中我们会面临三大问题——重复、切分、杂质。而杂质又可归纳并分类为:(1)有原文无译文;(2)有译文无原文;(3)译文错误;(4)译文与原文错乱,即对齐错误;(5)其他各类杂质。

上述这些问题,对于一个只有几百或者几千句对以下的小型句库来说,是可以人工修正的。但是对于几万或几十万句对以上的句库来说,人工修整需要花费极大的人力和极长的时间,所以实际上是不可行的。为此,需要专门研究出一个简便易行的办法来解决这些问题。

由于目前的人工智能水平还无法判断译文的错误或者译文的好坏,所以对于第三大问题中的译文错误和对齐错误,软件是很难解决的;而译文对齐错误就性质上来说与译文错误是一样的,因此软件也无法识别。所以这两个问题目前需要人工检查处理。但是,“建设语料库是一件比较繁琐的事情,光靠人力是不能满足需求的,随着现代科技的快速发展,强大的软件支持将为我国语料的建设提供极大的便利”。⑥笔者经过长期的实践和研究发现,上述三大问题中的前面二大問题及第三大问题中除了译文错误和对齐错误外,其他问题基本都可以用软件解决。为此,笔者与软件设计人员合作,设计开发出了一个句库处理软件,其性能简介如下:

2.1 软件分类

由于是与软件设计人员合作,其将软件分试用版和正式版二种。试用版的功能有较多限制;且试用期过后软件会自动禁止使用。正式版各项功能齐全,处理速度比试用版要快得多。

由于目前几乎所有的CAT软件都备有TMX格式,且“TMX(翻译记忆交换标准,Translation Memory Exchange)是一种不依赖任何软件厂商的公开的翻译记忆数据库格式规范……创建TMX标准,目的是为了让译者可以更容易地在不同的工具之间交换数据”,⑦因此,本软件选择TMX格式作为本软件的运行格式。对于其它格式的句库,可以用CAT软件转换成TMX格式后再导入本软件运行。

2.2 软件容量

由于软件的工作效果极度依赖内存,因此,软件使用当时电脑的剩余内存决定了当时可以处理的最大句库尺寸。据测试,对于试用版,电脑剩余内存3.6GB时,软件可处理的文件大小上限约为600MB。对于正式版,只要电脑放得下,软件的容量无限。

2.3 软件适用的语种

此软件可适用于中英、中西、中俄、中日、中法、中德、英俄、西日等各种语言。以中英为例,该软件能够处理英译中或者中译英的句库。但因目前市场上流行的绝大多数句库均为中英,且都采用英译中模式互相交换,所以英译中模式为该软件的最常用句库处理模式。

2.4 软件运行速度

软件切分和删除杂质时的运行速度很快,基本上以秒计,能够满足快速操作的要求。对于检测和删除重复,试用版的运行速度比较缓慢,且受句库大小的影响较大;而正式版的速度受句库容量大小的影响很小,无论是小型还是大型句库,都能高速运行;可见正式版的功能远比试用版强大。

3 结论

句库经过以上“拆分”、“去重”和“删除杂质”三大方法处理后,质量可以得到较大的提升。此外,软件还有将句库中的汉字繁体转换成简体及Excel格式转换等处理功能,可以满足多用途的需要。但是另一方面,限于目前的人工智能水平,句库中的错译、对齐错乱、译文不完整等缺陷问题,尚未解决,需要作进一步的研究和探索。

注释

① 张倩.计算机辅助翻译的应用[J].鸡西大学学报,2012(6):74.

② 李毅鹏.从双语平行语料库到翻译记忆库[J].鸡西大学学报,2012(12):63.

③ 董爱华.专门用途语料库的建设、应用、问题与发展趋势[J].北京印刷学院学报,2013(10):60.

④ 杨惠中.语料库语言学导论[M].上海外语教育出版社,2002:77.

⑤ 余军.新型电子商务双语语料库研制与应用[J].长江大学学报,2013.36(8):83.

⑥ 蔡星,段超,朱易.国内平行语料库建设的问题分析[J].山西煤炭管理干部学院学报,2013(11):114.

⑦ 徐彬.翻译新视野——计算机翻译研究[M].山东教育出版社,2010(5):36.

猜你喜欢
重复杂质
Study on related substances in ceftizoxime sodium
剔除金石气中的杂质,保留纯粹的阳刚之气
农药中相关杂质种类及管理要求概述
二则
重复衍生间的变与不变
重复与对比:《活着》的叙事策略
创伤书写之“重复”
在细节处生出智慧之花
如何走进高三孩子的复习阶段
探索规律中感悟和认识“重复”的奥妙