汪美侠
(咸阳师范学院 外国语学院,陕西 咸阳 712000)
基于句法和语义的英汉翻译记忆系统的研究与实现
汪美侠
(咸阳师范学院 外国语学院,陕西 咸阳712000)
由于目前市场所存在的英汉翻译系统不能准确将语句翻译出来,所以仍是辅助工具作为人们工作生活中的翻译手段。但对于资料重复率高的工作,完全可以利用强大的数据库来减少重复工作。基于此,文中提出了一个基于句法和语义的英汉翻译记忆系统。本文首先在分析语句相似度以后,应用WordNet技术对相似度的算法进行了研究,然后对记忆库进行设计,最后对该系统进行了详细研究。将该系统应用于实际实验翻译实践中,结果表明该系统大大避免了对相同句子的翻译过程,提高了翻译速度、节约了时间。
翻译记忆;相似度;WordNet
机器翻译,顾名思义,就是将一种自然语言通过计算机翻译成另一种所要求的目标自然语言。随着现今互联网的快速兴起,让人们看到了机器翻译的未来地位,也更坚定了人们开发机器翻译系统的决心。同时,伴随着现在国家之间的交流逐渐增多,人们相互交流越发的不顺畅,使用先进的、准确的机器翻译系统势在必行。目前,现在流行的机器翻译系统分为两类,一类是基于语法分析、一类是基于语料库,其中,基于语料库技术发展的更好一些。但是,自然语言毕竟是经过长时间发展演化才形成的,同时不同人对语言的理解把握能力也不尽相同,所以,机器翻译对结果的准确性还是有待提高。同时,对于所需翻译文件的重复率较高的工作,若每次都对这些文件进行翻译,大大消耗了人力物力,那么,采用翻译记忆技术来做这些工作的话,大大减少了工作时间、提高了工作效率。文中在句法和语义的基础上,提出了一个英汉翻译记忆系统[1-5]。
翻译记忆技术就是指的是根据之前所翻译任务所获得的经验并将其应用在之后的翻译任务当中,为该翻译任务提供必要的信息,采用该技术的系统就是翻译记忆系统。在翻译过程中,系统会根据所需翻译的内容在本身存在的记忆库中寻找类似的资源,并以此提供参考译文,翻译者可根据这些参考来更改内容,这样可以极大的节省翻译工作,对新内容投入更多精力。对于新内容的翻译,系统将这些新内容与库中数据进行比较匹配,然后提供参考译文,译者根据参考译文可以更改或接受,然后系统就会将新译文保存入数据库中,为以后的翻译工作提供便利,这样累计以后,记忆库中数据变多,就会大大提高翻译效率,避免重复工作。该翻译过程如图1所示[6-8]。
那么在翻译记忆过程中,需要注意的几个关键技术有:
1)相似度计算
图1 翻译记忆的工作流程
2)译文构造
3)记忆库的设计
文中提出的算法是英语句子相似度算法,该算法从句法和语义两方面来考虑。其中,相似度表示的是两个句子是否相似,通常用[0,1]的区间范围来表示,1指的是两个句子无论从句法还是语义都是非常相似的,也就意味着这两个句子都含有相同语义的单词,同时这些单词的排序顺序也是相同的。0指的是两个句子的句法和语义都是完全不同的,两个句子之间不存在任何联系。在0到1之间的不同数值则表示两个句子之间不同的相似度。
对于文中提出的算法,过程如下:首先使用Link Grammar Parser软件对所需计算的句子进行计算,得到各个句子的句法结构,然后再采用算法判定两者句法结构是否相同,若两者结构相同,那么再进一步利用算法来判定两个句子的中的句义是否相似。在判定句义相似度的过程中,要根据句子中各个组成部分的句义相似度来判断,由此可以避免与实际情况不相符的状况发生[9-10]。
3.1翻译记忆库的设计
记忆库是翻译记忆系统的重要组成部分,目前所存在的记忆库主要分为3个级别,分别为句子级、词汇级和更深层级,3个层次的优缺点对比如表1所示。
表1 记忆库方案比较
由表1可看出,对于记忆库的设计而言,若前期加工程度较重,那么后期工作就会变少,但是带来的困难就是管理上较为麻烦;若前期加工较浅,那么随之而来的就是后期译文生成就会繁琐。在翻译的英语句子中,即使是复杂的句子也是由不同的简单句组合而成,也就是说,每个英语句子都会包括主语和谓语,文中所设计的系统就是以句子为单位来进行翻译的[11-12]。
在设计记忆库时,要对系统的检索效率以及对系统的管理相互兼顾,考虑周到才好。文中设计的记忆库的结构如表2所示。
表2 记忆库的结构表
在记忆库的设计过程中,要注意的是,若待译译文是全新的句子,那么需要译者对其进行翻译,然后将翻译的译文存储在记忆系统当中,以便之后对相同句子的翻译;若待译译文与例句仅有部分相似,那么译者对最相似的句子进行修改,并将修改后的译文存储在记忆库当中[13]。
3.2译文生成
文中是针对句子的翻译,所以翻译所用的算法得到的结果在区间[0,1]之间,那对于匹配的类别也就有所不同,匹配类别分类如表3所示[14]。
根据表3的不同情况,也分为3种处理方式,分别为:
1)直接复用译文
2)人工翻译
3)修改译文
句子的译文生成过程如图2所示。
图2 译文的修改
表3 匹配的类别
4.1系统的总体框架
文中所设计的框架如图3所示。
系统的总体流程如下:
1)先输入需要翻译的句子
图3 系统总体框架图
2)通过分析句子的长度以及字符串,在记忆库中找相似的例句,再将两者进行比较
3)如果相等,则给出译文
4)如果不相等,再根据句法找寻相似句法的例句
5)计算两个句子的相似度
6)对最相似的例句通过译文生成方式得到翻译结果
7)若对译文不满意,可以人文进行修改,再将最后修改的译文存储到记忆库中
4.2系统实现
4.2.1翻译记忆库的创建
文中设计的系统的翻译记忆库是利用SQL Sever 2000建立,该库包括3个表,分别是:
Sentence表:该表中显示的是所需翻译的英语句子以及翻译结果的详细信息。
Structure表:该表是用来保存相关句子信息,例如句法结构。
Component表:保存句子的各个部分和译文[15]。
4.2.2相似度计算
相似度的计算流程如图4所示。如图4所示,在开始相似性计算时,先根据句子的字符串进行相似比较,若相似度为1,那么返回相似度。若相似度不完全一致,那么就会再计算句法结构,判断句法结构是否一致,若一致,则对句子中的各个关键词进行抽取计算相似度,然后再返回相似度计算,若句法不一致,那么相似度判定为0,再返回相似度最初端。
图4 相似度的计算流程
4.2.3译文生成
译文生成是以相似度为依据的,通过比较所需翻译的句子与例句,根据相似度来适当进行处理,再利用两者之间的关系生成译文的。图5为译文生成的实例。可以根据生成的译文进行修改,从而得到最后的结果。图中,82%表示相似度,“[]”表示需要修改的译文。
图5 译文修改
为更好表达该系统的高效性,表4列出了部分对比数据。
表4 Navigator 6.0和7.0技术手册的相关数据
由表可看出,该系统大大提高了翻译速度,节省了时间。
文中提出了一个基于句法和语义的英汉翻译记忆系统。本文首先在分析语句相似度以后,应用WordNet技术对相似度的算法进行了研究,然后对记忆库进行设计,最后对该系统进行了详细研究。将该系统应用于实际实验当中,结果表明该系统大大避免了对相同句子的翻译过程,提高了翻译速度、节约了时间。
[1]王金铨.翻译记忆(TM)—计算机翻译技术的新发展[J].现代图书情报技术,2004,2004(5):13-16.
[2]Peter F.Brown,Stephen A,Della Pietra,et al.The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics,1993,19(2):263-311.
[3]Snell-Hornby.Mary.Translation Studies:An Integrated Approach.Revised edition[J].Amsterdam and Philadelphia:John Benjamins Publishing Company,1995:29.
[4]张健.基于实例的机器翻译的泛化方法研究[D].北京:中国科学院计算技术研究所,2001.
[5]Nagao M.A Framework of a Mechanical translation between Japanese and Englishby analogy principle[C]∥In:Elithom A and Banerji R.Artificial and Human Intelligence,Edited ReviewPaperspresentedattheInternationalNATOSymposium.Amsterdam:NATO Publications,1984,173-180.
[6]Timothy Baldwin.A Look under the Hood and Road Test[C]∥In:Proceedings of 15th International Japanese/English Translation Conference.Yokohama,Japan:IEEE Press,2004,29-30.
[7]俞晓峰.面向译文选择的双语语义词典自动构建研究[D].哈尔滨:哈尔滨工业大学计算机科学与技术学院,2005.
[8]王斌.汉英双语语料库自动对齐研究[D].北京:中国科学院计算技术研究所,1999.
[9]安玉璞.自然语言问答系统的设计与实现[D].哈尔滨:哈尔滨工业大学,2003.
[10]张涛,杨尔弘.基于上下文词语同现向量的词语相似度计算[J].电脑开发与应用,2006,18(3):41-43.
[11]鲁松.自然语言中词相关性知识无导获取和均衡分类器的构建[D].北京:中国科学院计算技术研究所,2001.
[12]穗志方,俞士汶.基于骨架依存树的语句相似度计算模型[C]//1998中文信息处理国际会议论文集,北京:清华大学出版社,1998,458-465.
[13]车万翔,刘挺,秦兵等.面向双语句对检索的汉语句子相似度计算[C]∥全国第七届计算语言学联合学术会议论文集.北京:清华大学出版社,2003:81-88.
[14]Hirst G,St-Onge D.Lexical Chains as representations of context for the detection and correction of malapropisms[C]∥In:C.Fellbaum(ed.)WordNet:An Electronic Lexical Database,Cambridge,MA:The MIT Press,1998:305-332.
[15]单玉秋.英汉辅助翻译系统用户需求调查及源语言辅助分析技术[C]∥2002全国机器翻译研讨会论文集,杭州:电子工业出版社,2002:15.
Research and implementation of English and Chinese translation memory system based on syntax and semantics
WANG Mei-xia
(School of Foreign Languages,Xianyang Normal University,Xianyang 712000,China)
As the English and Chinese translation system in the present market cannot translate the words accurately,it still works as a tool for people in their work and life.However,for the high rate of repetitive work,it is desirable to use the powerful database to reduce the burden of theheavy work.Based on this,this paper proposes a translation memory system based on syntax and semantics.Firstly,after analyzing the sentence similarity,this paper studies the algorithm of similarity based on WordNet technology,and then designs the memory database.Finally,it makes a detailed study on the system.This system will be applied to the actual experiment and translation practice,the results show that the system can greatly avoid the process of translation of the same sentence,therefore,improve the speed of translation and savetime.
translation memory;similarity;WordNet
TM933.4
A
1674-6236(2016)21-0024-03
2015-12-18稿件编号:201512201
陕西省社会科学基金项目(13K045);咸阳师范学院2013年专项科研基金项目(13XSYK037);陕西省教育厅专项科研计划项目(14JK1781)。
汪美侠(1977—),女,陕西咸阳人,硕士研究生,讲师。研究方向:英语教学与英语翻译。