平行语料库在商务信函机器翻译中的应用①

2010-08-08 08:12洛阳理工学院外语系胡富茂
中国商论 2010年14期
关键词:语块信函语料

洛阳理工学院外语系 胡富茂

中外商务交往中有相当一部分是通过信函形式进行,所以商务信函的翻译就成了一种日益多见的翻译形式。面对海量的商务信函文件,依靠传统的人工翻译已不能满足时代需要。机器翻译作为突破语言障碍的重要技术手段,对加速和扩展世界范围内的信息传播具有深远意义,在经济发展和社会生活中日趋重要,成为当前研究的热点之一。

1 商务信函平行语料库的构建

商务信函是一种比较正式的公务文书,其一般目的是建立和保持良好的商务关系、获得或发布商务信息、达成合作和交易等。(张新红,李明,2003)我们构建的商务信函平行语料库的语料收集范围为商务业务信函,分为建立业务关系函、产品推销函、资信查询函、询盘函、发盘还盘函、订购函、装运通知函、支付结算函、索赔函、保险函等,这些信函涉及商务活动的全过程。在语料库语言学理论的指导下,我们通过初步建立一个100万词次的英汉双语商务信函平行语料库(包括两个子库:英汉商务信函平行语料库,汉英商务信函平行语料库)。该库为动态的、开放的,可以自动获取服务于机器翻译的知识资源。

2 商务信函平行语料库中的语块提取

语块提取是近年来语料库语言学和机器翻译研究领域的重点课题。濮建忠教授(2003)把语块(chunks)定义为:“语块(词块)是以词形或词为基本单位,由连续或非连续的两个或多个词形或词组合而成的,允许抽象度高于词的单位出现的,有一定使用频率、结构相对完整、能表达一定意义的,有心理现实性的语言形式,以整体形式储存在大脑中,并可作为预制组块供人们提取使用的多词单位。”商务信函中的语言大多是具有一定的言语程式或行话, 如: Enclosed please find… (随函附寄……, 请查收), cash on delivery (货到付款), 等。Sinclair(1991)认为:那些出现频率高的词汇串成了英语中基本的语言单位,大约70%的英语语言由存储于人体大脑的语言板块构成。确定一个多词单位是否为语块,可以从语块的三个重要特征加以界定和区分,即语块共现的频率性、语块储存和提取的整体性、语块可记忆的韵律性。我们在语块理论的指导下,从结构和功能上明确英汉商务信函中的语块特征,从而确定提取的具体对象。商务信函语块可分为4种情况:(1)多词词汇,如: buy cheap and sell dear, fi rm offer, 等。(2)习惯搭配, 如: …for your reference, an offer subject to…, 等。(3)惯用表达式, 如: As requested, …, Enclosed please fi nd…, 等。(4)句型框架, 如: We look forward to hearing from you…, 等。为了进行商务信函平行语料库中的语块提取,我们提出了一套特有的提取方法——商务信函语块提取法(如图1所示)。

商务信函平行语料库中的语块提取是基于实例的商务信函机器翻译的重要方法,为进一步对大规模各种专业的双语语料利用计算机自动提取语块提出思路和设想。

3 基于平行语料库的商务信函机器翻译中并列结构的处理

在商务信函机器翻译研究的探索实践中,我们逐渐认识到,单纯使用一种方法难以处理自然语言中各种复杂现象。所以,我们提出了在统计机器翻译基础上引入特定语法结构的一种方法——并列结构的英汉翻译转换方法。基于商务信函平行语料库,通过句法分析研究并列结构的形式化构成,连接词(若含)的前后管辖范围,内部嵌套情况以及并列结构前后临界搭配的情况,并制定可行句法转换规则。

并列结构是最普遍的一种复杂结构,它推动了句子复杂化和简单化的双向活动,但目前的算法对并列结构的处理错误比较严重。英语有许多复杂的句子,它们往往有许多嵌套或者不嵌套的并列结构,翻译系统如果将并列的辖域和层次关系以及前后界限分析错误,就会严重影响翻译的结果。例如,带有连接词“and”的并列结构通,过Google翻译系统的测试,得到如下译文:

原文:We all understand that Chinese slippers are very popular in your market for the superior quality and competitive price of their products and service.

译文:大家都明白,中国拖鞋在您的市场很受欢迎的高品质及他们的产品和服务竞争力的价格。

分析:该译句第一个and的后半部分辖域判断过长,造成错误。

可以看出统计机器翻译对并列结构等复杂结构的处理并不理想。即便是在局部翻译处理正确的情况下,结构翻译错误往往会造成整体译文不知所云。我们的研究方法:(1)参照北大双语语料库加工标注规范,利用双语对齐软件以及人工校正达到商务信函平行语料库的句子级对齐。(2)通过基于统计学手段寻找测试语料中的并列结构,确定相当数目的测试集,并按照当代语言学理论以及形式化理论对其分类。(3)将各类测试集送入Google统计翻译系统进行翻译,得出译文,分析错误原因,进行错误归类。(4)将各类测试集送入基于统计的句法分析系统,分析结果,制定规则。

经过Standard Parser(经典统计句法分析器)的分析,例句的分析结果如下:

通过基于统计的句法分析器进行分析,例句中的并列结构分析完全正确。

4 结语

综上所述,平行语料库在商务信函机器翻译中的应用研究具有多方面的意义。(1)它是国家科技支撑子课题—HNC机器翻译引擎转换处理研究的组成部分,为研制HNC经贸机器翻译系统创造必需的条件。(2)它构建的商务信函平行语料库为英汉双语商务信函学习者、翻译学习者及工作者的研究与学习起到辅助作用。(3)它构建的商务信函平行语料库中的语块提取方法,为进一步对大规模各种专业的双语语料利用计算机自动提取语块提出思路和设想。(4)语块提取与并列结构处理为英汉统计机器翻译和机器辅助翻译的译准率提高起到重要作用。

[1]Allen,James.Natural Language Understanding[M].The Benjamin/Cummings Publishing Company, Inc.,1995.

[2]Sinclair,J.M.Corpus,concordance,collocation[M]. Oxford: Oxford University Press,1991.

[3]Wray, A. Formulaic Language and the Lexicon[M]. Cambridge:Cambridge University Press,2002.

[4]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司.2004.

[5]濮建忠.英语词汇教学中的类联接、搭配与词块[J].外语教学与研究, 2003,(6).

[6]张新红,李明.商务英语翻译 [M].北京:高等教育出版社.2003.

猜你喜欢
语块信函语料
基于归一化点向互信息的低资源平行语料过滤方法*
小学英语语块教学策略
科技汉语语块的类型和特征
信息化环境下英语语块教学模式在小学英语教学中的运用
语块教学在高中英语教学中的应用分析
一封“署名毛泽东的英文信函”
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
1935年3月24日王守竞致狄拉克的信函原文
1935年4月4日梅贻琦致剑桥大学研究生处的信函