基于翻译项目的计算机辅助翻译工具述评

2015-01-08 06:19廖志华
重庆与世界(教师发展版) 2015年1期
关键词:电子词典术语语料库

廖志华

(电子科技大学中山学院,广东中山 528402)

计算机辅助翻译(Computer-aided Translation or Computer Assisted Translation)是借助于计算机强大的记忆功能来进行翻译的一种人机互动技术。CAT和MT是两个经常被人误解的概念,笔者以为它们的区别在于一个是机器自动翻译,另一个是机器辅助人工进行翻译。在机器翻译的基础中进行人工翻译,在某些条件下也是切实可行的,比如用机器翻译天气预报。实践证明,CAT技术对于非文学文本那种重复率很高或者相似度很高的文本,具有非常好的效果。作为21世纪的译者,都应该掌握好这样的技术,提高自己的生产效率,把自己的精力专注在更具创意的翻译上面。国内对CAT的研究都很多,通过搜索中国最大的学术搜索平台,就可以得知大量CAT文章,很多文章在争论CAT应用的必要性,如苏明阳分析了翻译记忆,并提出一些学习的启示[1];把MT和CAT进行多方比较,如梁三云(2004)多方位分析比较了机器翻译和计算机辅助翻译;有的从CAT教学的角度来进行研究,探讨CAT教学的翻译模式,比如郭红提出了计算机辅助翻译教学的模式,探讨计算辅助翻译的新模式[2],刘泽权等提出从语料库和计算机技术结合起来的角度来进行[3]。从理论和实践结合来看,钱多秀提出了计算机辅助翻译课程教学的一些思考,全方位地展现了计算机辅助翻译[4]。从这些文章来看,更多地侧重理论方面,显得略显宏观,对于指导CAT软件翻译实践,作用比较有限。本文拟从翻译流程中的译前、译中和译后来对翻译工具进行分类,归纳出一些实用的CAT工具,并结合自身翻译实践,对翻译中所涉及到的翻译进行评点,提供一些CAT学习应该注意的地方,为CAT翻译实践提供一条便捷的途径。

一、关于计算机辅助翻译工具

计算机辅助翻译工具有广义和狭义之分,广义上的计算机辅助翻译是指译者在翻译过程中所运用到各种工具,如计字计时软件、文字处理软件、电子词典、搜索引擎、在线工具、格式转换工具等。而狭义上的计算机辅助翻译工具指的是翻译记忆工具、术语提取工具、项目管理工具等[5]。在本文中,主要指广义上的计算机辅助翻译工具。翻译工具可以按照翻译流程,即译前工具、译中工具和译后工具来进行划分。

(一)译前工具

根据笔者在翻译实践中所获取的经验,“译前工具”指的是在翻译预处理前的工具,一般用到的译前工具会有计时计字软件和格式转换软件。如果原文的排版格式不是很复杂,一般用MS Word计算字数就可以。在实际的翻译过程中,翻译经常碰到一个头疼的问题就是格式转换的问题,尤其是PDF,尤其是某些PDF由于版权的原因还有可能使用了加密设置,在这样的情况之下,翻译还必须去掉PDF密码,根据笔者测试,去掉密码比较好的软件有Passware_Acrobat Key,Adult PDF Password Recovery v2.2.0 和 PDF Password Remover v2.2.细心的读者都可以在网上找到这样的软件。用过PDF的人都知道,PDF有两种形式,即文本格式,另一种则是图片格式。鉴于PDF是由adobe公司开发的软件,具有自己独立的操作系统,当它置放到我们最常用的Window系统之中的时候,经常就会出现这样或那样的问题。对于文本格式的,我们一般可以采用一些PDF转化工具,常用的有 Nitro Pro 7,ABBYY FineReade,Solid Converter PDF,PDFConverter和Adobe Acrobat Pro,在它们的官方网站都可以找到其试用版本,转化过来之后,它们都能够较好地保持原文格式。为了测试文字版PDF的效果,笔者对几款常见的PDF转换工具的效果进行了测试,得出表1结果。

表1 几款常见的PDF转换工具的效果

但对于图片格式的PDF,一般排版格式会比较复杂,穿插很多图片,图片中又有文字,这样就会显得比较棘手。因此,先要采用文字识别软件把它们转变为文字形式,常见的文字识别软件有ABBYY FineReader、清华紫光OCR、汉王OCR和尚书七号等。目前而言,西文识别率最好的应该是ABBYY FineReader,基本上能够对原文保持较好的格式;中文识别较好比较而言还是清华紫光OCR。此外,还有一些在线的OCR软件,用户把自己的文档发送到它指定的网站,就可以进行转换,这些在线的OCR软件有OnlineOCR和FreeOCR等,不过这些在线的OCR软件文件的大小有限制。对于译者而言,推荐使用ABBYY和清华紫光OCR软件。至于计字软件,文本预处理之后,采用Trados、Déjà Vu X、MemoQ和Wordfast等软件就可以了。不过需要说明的是,译员为了给客户报价,对于那些页眉和页脚都含有较多字数的文件来说,可能还需要估算或者采用AnyCount、PractiCount and Invoice和Worddog来进行处理。这对涉及到多人参与的大型翻译项目中,体现得更为重要,因为往往在这样的项目中,按照文件的个数来分配翻译任务大多数情况下是不可靠的。一个团队里面,少则几百字,多则几万字的差别都可能存在,因此为保证任务的完成,根据统计的字数来进行统计,相对而言会显得比较科学。

另外需要指出的是,在某些翻译项目还有可能会用到术语抽取技术,用来统一某些关键的术语,比较流行的术语抽取软件有SDL Trados Extract。

(二)译中工具

“译中工具”指的是翻译过程中会用到的工具,一般都会用到翻译记忆(TM)工具、术语管理工具、术语查询工具、电子词典、机器翻译、百科全书等。

翻译记忆(Translation Memory,TM),EAGLES(Expert Advisory Group on Language Engineering Standards)评估工作小组将其理解为包含了经过分割、匹配、分析和分类后的(segmented,aligned,parsed and classified)多语文本 (multilingual text)的多语文本库(multilingual text archive)。(EAGLES,1995:140,EAGLES,1999:106)

在进行翻译记忆之前,TM工具通过复杂的数学计算就可以自动给源语(SL)进行分词,并通过标点符号进行断句。比如这是笔者做过项目中的一句话,通过分词,计算机把这句话分词为:“本专业旨在培养系统掌握材料科学与工程的基本知识与研究方法,了解材料先进制备方法与现代分析技术。掌握一门外语,了解材料化学在电化学、催化与材料分析等方面的发展动态;在材料的化学制备与处理、结构表征、化学分析、理化测试方面受到良好训练,具备初步的材料设计与研发能力,在科研院所与跨国公司胜任材料研发与生产、分析测试及质量控制等方面的工作,具有在国内外知名学府继续读研与直接攻博的潜质与学识,能在材料科学与工程及与其相关的领域从事研究、教学、科技开发及相关管理工作的材料高级专门人才。”从这个例子,可以明显地看到词句已经进行了分割。这样TM软件根据SL跟新文件之间的匹配关系,就可以计算出相似度,相似度越高,TM起的作用就越大。这样分词的结果,机器也能够较好地把里面的术语较好地处理。

在笔者看来,翻译记忆库可以通过图1表示出来。

图1 翻译记忆库

国外常见的翻译记忆软件有 SDL Trados,SDLX,Déjà Vu X,MemoQ,Wordfast,Heartsome和 Transit等,中国国内近年来发展起来的TM软件有雅信CAT、雪人、优译、东方快车、Transmate和华建等。除非客户指定了用什么翻译软件,一般来说只需要掌握其中一两种最常见的即可。

术语是翻译中最头疼的问题之一,这在大型翻译项目中体现得更为明显,比如翻译《湖南大学本科教学计划(2010版)》中一个叫做“高等数学”的术语,在一个100万字的翻译项目中,第一个译者可能翻译成“Advanced Mathematics”,第二个译者可能翻译成“Higher Mathematics”。如果术语的译法更加多一点,那无疑会增加统一的难度,因此在这里就要用到术语管理平台。一般的大公司也会有自己的术语管理平台,比如微软要在全球范围内发行Window 8系统,那么微软公司必定在其公司内部把自己的术语全部统一,不然到全球各地就有可能出现内部术语不统一的现象。就翻译项目来说,上面提到的TM软件都会具有术语管理的功能。推荐使用SDL Trados Multiterm和Déjà Vu X的术语管理工具。这两者可以互为补充,尤其是后者对于支持前者做得比较好。比如笔者做过的一个翻译项目,客户提供笔者一个英汉对照的术语表,有1000多条,很明显这样的格式,对于译员来说还需要整理,笔者采用运用一个叫做FanE Changer的工具,把它进行转换,使之中文与英文用“”进行分离,然后复制到 word里面,通过“Ctrl+H”把“||”替换成“^p”或者“^t”就可以很很漂亮地把这样的格式转变为excel格式,很简单地就制作成了TM或者术语库。如果是双语对齐的文章,也可以这样操作,只需要把对齐的术语导入到 Déjà Vu X中,选择 excel 97/2000/xp把它们导出为双语或单语文件。这个方法对于那些做平行语料库的人来说,同样适用,可以说是一个非常好的方法。当然,如果译者还具有一点编程水平,对于简单的,还可以通过在excel中进行解决,方式是,把中英对照的术语复制到excel里面作为A列,在B列输函数公式“=B1=IF(ISERROR(FIND("(",A76)),LEFT(A76,LENB(A76)-LEN(A76)),LEFT(A76,LENB(A76)-LEN(A76)+2))”复制公式就可以得到中文,在C列输入函数“=RIGHT(A1,LEN(A1)-LEN(B1))”,然后复制公式就可以得到英文。

术语查询一直都是译者很棘手的问题,一个术语可能都使得译者绞尽脑汁,在这样的情况下,学习一些术语查询工具的技巧就显得非常有必要了,对于译者来说,最有用的莫过于平行文本,比如句酷、海词、词都、爱词霸等都能够较好地提供双语对照的文本,常用的术语查询工具有谷歌、百度、必应、雅虎、搜搜等搜索软件,还有诸如中国的CNKI、一本词等网站。就搜索而言,最强悍的莫过于谷歌、百度和必应,尤其是谷歌的搜索功能非常强大,对于译者来说,较好地掌握好谷歌的高级搜索功能,对查询术语大有益处。比如,笔者在翻译《中国天主教史人物传》的时候,碰到一个词,“宗座代牧”,这对于一个对天主教不是非常熟悉的人来说,肯定会有难度,我们在谷歌里面输入这个词,然后再输入“catholic”这样,很快就可以得知这个词的翻译“Apostolicus Vicariatus de Phnom-Penh”。如果对于不太确定的东西,还可以采用“*”来代替,排除可以用“—”来进行表示(更多高级搜索,请看各自搜索的官方解释)。

在我们这个电子化的时代,电子词典在我们翻译过程中也是非常重要的工具,好点的电子词典一次性可以查询几十部甚至上百部词典,相对传统的纸质词典而言,其优势不言而喻。比较好的电子词典有有道桌面词典、必应词典、金山词霸(含牛津和谷歌合作版本)、灵格斯翻译家、巴比伦词典和Collins COBUILD on CD-ROM。目前,灵格斯翻译家处于免费阶段,跟巴比伦一样,可以添加上百本字典,应该可以作为电子词典的首选。必应、有道和金山都各有自己的特色,功能都比较强大,而Collins COBUILD on CD-ROM作为免费的单语词典,能够提供译者海量的例句,在词语的使用方面帮助比较大。这些提到的电子词典,都可以在官方网站上免费下载试用。

机器翻译在查询某些术语方面有其独到的地方,最值得推荐的是google的机器翻译,借助于谷歌公司强大的技术力量,通过海量信息的搜索,谷歌推出了译者工具包,使得译者可以像trados一样进行翻译。其他的主要有微软的MT,Systran,还有MyMemory,以及SDL公司的Language Weaver等。一般来说,这些机器翻译通常作为插件放到CAT工具里面,它们对于一些不是很复杂的术语查询准确率还是比较高,可以作为参考使用。从CAT的几个著名大公司来看,它们都把谷歌、微软和Systran做成了插件,集成到它们的工作平台,只要付费就可以获得API进行使用。

百科全书在翻译中的作用也是不可估量的,比如维基百科、百度百科、互动百科、大英百科全书等。此外,一些著名的语料库也可以作为译者的重点参考对象,比如英国国家语料库(BNC)、美国当代语料库(COCA)和北外的英汉双语在线(CEO)。这些网站能够提供十分丰富的例句,而且具有权威性。

(三)译后工具

译后工具可以分为质量保证(QA)工具和桌面排版(DTP)工具,在译文翻译完之后,译者还需要对译文进行检查和查验,无论是从语法、拼写还是术语统一方面,都需要逐一检验,这里推荐使用Trados2011和Déjà Vu X2里面的QA功能,只要设置一下,语法、拼写、空格等就可以很轻易地查找出来。尤其是Trados 2011还支持译文先导出双语版进行检查,然后再导入进来更新TM,这极大地方便了译者。国外流行的桌面排版软件有FrameMaker,InDesign,QuarkXpress和 Coreldraw 等,国内的有WPS和方正腾飞等。译者可以根据客户需要来进行选择。

二、计算机辅助翻译工具对译者的要求和学习建议

随着电子化文件的越来越普及,译者应该增强对各类软件的熟悉程度,熟练掌握格式转换的转换软件,比如PDF转换工具。就狭义上的翻译软件,掌握 Trados,Déjà Vu X,MemoQ 等主流软件就可以了。最好不要一味追求软件的更新,因为有的软件更新出来可能不是很稳定,这可能造成译者倒不出译文,甚至丢失译文。CAT工具的学习是一件需要参与的过程,动手操作才是最重要的,遇到问题,最好是及时参与到各类CAT论坛中,毕竟CAT工具的使用会出现很多技术性的问题,比如译客加油站、译网情深、一本词、象群网、本地化人等网站,上面会有很多板块很集中地展现了各类软件出现的各类问题。就CAT的初学者而言,通过优酷、土豆、酷6等网络,用户也可以很容易搜索到各类软件的专门教程,一边看着视频,一边使用翻译软件,效果应该是最好的。等到入门CAT软件入门之后,可以学习一些稍微高级一点的东西,把各个软件的使用说明书用好,并学会使用一些编程,比如VBA,有时候就能够帮上大忙。比如笔者在翻译《湖南大学本科教学计划》的时候,在检查的后期,经过研究决定把“term”改为“Semester”,当时的 WORD 文档有 164个,每个WORD至少会含有4个“term”,如果是单纯的查找替换,工作量就会很大,如果不是很小心翼翼,犯错误的概率非常大,但是如果是采用VBA代码来更改,不用打开WORD,一次性就可以完成,而且十分准确。

尽管CAT软件对译者的帮助很大,但是译者也不能把CAT视为翻译的全部,毕竟提高译者自身的翻译水平才是提高翻译生产效率的王道。

[1] 苏明阳.翻译记忆系统的现状及其启示[J].外语研究,2007(5):70-74.

[2] 郭红.计算机辅助翻译教学的一种尝试[J].外语界,2004(5):54-61.

[3] 刘泽权,刘鼎甲.多媒体计算机技术与语料库方法运用于翻译教学改革的尝试[J].外语与外语教学,2009(8):27-30.

[4] 钱多秀.“计算机辅助翻译”课程教学思考[J].中国翻译,2009(4):49-53.

[5] 徐彬,郭红梅,国晓立.21世纪的计算机辅助翻译工具[J].山东外语教学,2007(4):79-86.

猜你喜欢
电子词典术语语料库
《语料库翻译文体学》评介
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
电子词典研究现状与展望
英语专业学生手机电子词典使用情况的调查
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
国内双语电子词典现状简论