基于匹配模板的术语自动翻译方法

2014-07-23 01:37姜东洋
网络安全技术与应用 2014年2期
关键词:术语语料语料库

姜东洋

(辽宁机电职业技术学院信息工程系 辽宁 118009)

0 引言

近年,随着科技技术的加速发展,人们越来越关注大量专利文献的翻译中,如何将人们从这些烦琐的翻译任务中解脱出来?统计机器翻译技术的迅速发展为人类的辅助翻译提供了强有力的手段。而专利文献的翻译任务中主要以大量的专利术语为主,平衡基于实例与基于统计的翻译的优缺点,本文结合两者之间的优点,提出一种基于匹配模板的术语翻译方法,面向结构单一的专利术语。

1 专利术语

术语是指“专业领域中一般概念的文字指称”[1],《中国大百科全书》中指出,“术语是各门学科中的专门用语,术语可以是词,也可以是词组,用来正确标记生产技术、科学艺术、社会生活等各个专门领域中的事务、现象、特性、关系和过程。术语是科学研究的成果是人类进步历程中知识语言的结晶”。

专利术语主要以名词短语形式存在。因为的翻译是英汉的专利术语翻译。源语言是英文的名词短语,该短语主要由修饰语和中心词构成。修饰语可以是名词、形容词、分词及其短语、介词等的组合。英文专利术语在进行翻译时要注意一些问题:

(1)修饰语与中心词的位置关系也就是我们讲的调序问题,这里我们归纳一部分的具有调序功能的模板,例如专利源语言术语:

A health medicine for protecting liver .

“A##1 for ##2”调序后变为“##2 ##1”.这里的“##1”和“##2”分别指英文名词短语也可以是单纯的名词。

(2)另一类是不用调序的固定翻译结构的模板,可以用来翻译具有多种修饰语的专利术语。

例如:A drastically reduced budget.

翻译后的模板转换为”#1 #2 #3”.该类术语是无须调整语序,直接按顺序翻译。

2 术语模板的匹配算法

我们建立了一定规模的模板库后,设计术语模板的匹配算法成为核心。我们开发了基于中心短语的迭代匹配算法,其匹配过程如下图所示:

图1 术语匹配算法流程图

下面详细讲解该算法的设计,首先对输入的源语言术语进行匹配,匹配时如果有多个模板适用于输入的术语,我们就会选择匹配度最高的模板进行匹配。该匹配度的选择我们通过一个打分机制来选择,对于输入的源术语对比模板库里的术语之间的相似度来获得终结果。当然,在这其中我们也融合了语言模型和翻译模型。

2.1 打分机制

通过模板的相似度计算来选择最佳的匹配模板。模板库的建立是利用 GiZA++词对齐工具训练语料进行词对齐训练,得到双语对齐术语对。从中可以看出其中的对应关系,Giza++训练的时候采用英汉和汉英两个方向训练。通过基于中心词的依存来改善词对齐的关系;英文部分通过parser进行句法分析,最终建立一个53907个模板。大小为5.12Mb.模板的格式如下:

模板 翻译模板 概率(TOP(NP(NP(NN Preparation))(PP(IN of)(NP(NN koujiesu)))))123569 0.491(TOP(NP(CD 12)(NN Direction)(JJ signal)(NN input)(NN device)))134577 0.333(TOP(NP(NP(NN Cutter))(PP(IN of)(NP(NN steel)(NN wire)(NN curtain)(NN cloth)))(PP(IN at)(NP(NP(NN range))(PP(IN of)(NP(CD 15-70)(NNS degrees)))))))186555 0.333_ _ _

2.2 语言模型及翻译模型

本文采用SRILM对10万平行的术语语料训练翻译模型和三元的语言模型。

3 实验及分析

本文所采用的实验语料是面向专利领域的英文术语语料库,语言模型和翻译模型是通过平行的术语语料库,规模为10万句双语术语对。该语料库涵盖了医药、器械、食品及生活等多个领域。为了弥补个别领域的训练语料的不足,我们也加入一些专业的辞典到语料库,训练语料库抽取350句作为开发集,抽取200句作为测试集,开发集,测试集的参考译文都会有两个人工参考译文,下面是实验设计:

实验一:不使用模板,利用开发集进行训练并以此作为baseline。

实验二:使用模板库,实验结果用国际机器测评常用的BLEU方法。

Baseline Template_Matched Increase开发集 32.15% 34.56% 2.41%测试集 29.12% 31.23% 2.11%

BLEU评价方法:

BLEU评测方法是2001年美国IBM公司的研究人员提出来的,利用BLEU方法评估机器翻译质量的关键就是如何定量计算机器译文与一个或多个人工翻译参考答案之间的接近程度。该接近程度采用句子精确度的计算方法,也就是比较系统译文的n元语法与参考译文的n元语法相匹配的个数,这种匹配与位置无关。系统译文与人工参考译文相匹配的n元语法的个数越多,BLEU得分越高。

另外考虑到句子的长度对 BLEU评分也有一定的影响,BLEU的评价标准又对比参考译文更短的句子引入了长度惩罚因子。

在BLEU评测方法中,n的实际取值是1~4。总的评价指标是一元语法到四元语法的几何平均。另外,对于整个语料库而言,BLUE的计算一般是基于词语进行的,而不是基于句子的。也就是说,对于长度不同的句子,要以句子的长度进行加权平均。BLEU 的总体评价公式如下:BLEU=BP×exp(

Wnlogpn)其中,是出现在参考译文中的n 元词组占候选译文中n 元词组总数的比例。

4 总结

本文实现了面向专利领域的英汉翻译系统,通过手工归纳一些模板库来进行翻译当中的模板匹配。因为专利术语本身的特点使翻译术语结构比较单一,形式比较固定,所以非常适用于机器的自动翻译。通过机器翻译不仅节省了大量的物力、人力和财力,同时整体的翻译结果基本上能满足用户需求,尽管有个别结果不尽如人意。系统本身具有可扩展性,通过增加术语语料库可以体改模板匹配机率。

[1]全如碱.什么是术语[J].术语标准化与信息技术,2004(3)18

[2]林晓庆 英文名词短语的翻译[J].计算机工程与设计,2010.4.

猜你喜欢
术语语料语料库
《语料库翻译文体学》评介
基于语料调查的“连……都(也)……”出现的语义背景分析
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
Reliability assessment consideringdependent competing failure process and shifting-threshold
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势