互联网机器翻译

2011-06-28 07:23王海峰刘占一
中文信息学报 2011年6期
关键词:语料双语领域

王海峰,吴 华,刘占一

(百度,北京 100085)

1 引言

语言是人类进行交流的工具,而语言不通则阻碍着人们之间的交流。于是,人类在克服语言交流障碍的过程中发展了语言之间的翻译,并产生了翻译学。而用机器来帮助甚至替代人工翻译也是人类长久以来的一个梦想。最原始的机器翻译思想可以追溯到17世纪关于机械词典的构想。Weaver 1949年的著名备忘录则标志基于现代计算机的机器翻译正式登上历史舞台。机器翻译既涉及到人类对自身语言和思维方式的认知,又涉及到人工智能、信息论、知识工程、软件工程等很多技术领域,是一个交叉性很强的学科。机器翻译的发展,既需要基于很多学科的综合发展,同时又有自身的发展规律,形成了独立的学科体系。

随着互联网的发展和经济全球化时代的到来,克服语言障碍、实现跨语言自由沟通的需求日益凸显。而语言障碍使大多数用户从网上获取信息的广度、深度和速度受到严重制约。而研制先进的机器翻译技术,并实现机器翻译产品的规模化应用,对机器翻译技术提出了新的挑战。

本文将在简要回顾机器翻译发展史的基础上,论述现有的机器翻译方法,然后探讨互联网机器翻译的挑战和技术路线。首先结合互联网上双语和单语资源特点和互联网机器翻译的应用需求,提出了互联网混合机器翻译方法、资源挖掘和过滤及分布式处理技术、领域自适应技术,并针对数据稀疏论述枢轴语言技术和新语种快速部署技术;然后结合翻译技术与搜索技术,论述翻译个性化特点和方案。最后,分别论述机器翻译技术和机器翻译产品的应用。

2 机器翻译发展概述

发展至今,机器翻译经历了1954年之前的草创期、1954~1966年的高期望期、1967~1976年的沉寂期、1976~1989年的复苏期、以及1989年之后的发展期等五个不同的历史时期。首先研发的是基于规则的机器翻译技术,包括早期的以词典为驱动,辅以较低层次上的语法分析和语义特征的使用,以及70年代中期开始的面向句法、基于规则的转换策略。80年代末开始,在国际交流日益增多的环境下,在计算机、互联网等相关技术日新月异的基础上,机器翻译技术与应用也取得了蓬勃发展。技术方面,理性主义的基于规则的机器翻译方法仍在不断发展完善,经验主义的基于语料库的机器翻译方法也开始出现并迅速发展。应用方面,随着需求分析的不断深入、产品定位的逐渐明确,机器翻译产品也在不断为更多用户所接受,在很多领域真正走向了实用。我国机器翻译研究始于1957年,并于1959年完成俄汉机译实验。以后20多年时间里,机器翻译研发在我国进展缓慢,直至70年代末开始复苏并逐渐走向繁荣。并同样经过了基于规则方法、基于语料库方法以及多种方法相融合的发展历程。

从90年代中期开始,随着互联网的普及,互联网上多语资源的出现使得用户对机器翻译的需求日益增长,比如早期Google采用了基于规则的Systran系统翻译网页内容,旨在解决用户获取信息的广度。同时随着统计机器翻译技术的发展,以及互联网上双语资源的涌现,使得统计翻译技术得到长足的发展,统计翻译技术以其优越的自动学习能力以及鲁棒性迅速为互联网机器翻译系统所采纳,如百度、Google、Bing、有道等都研发了互联网机器翻译系统以满足用户多语言翻译需求。同时随着SNS(Social Network Service)、电子商务的普及,对互联网机器翻译的需求日益高涨,机器翻译技术和产品也随之蓬勃发展。

3 机器翻译方法

广义地讲,机器翻译涉及自然语言处理技术的方方面面,几乎所有自然语言处理方面的研究成果都可以或直接或间接的应用于机器翻译。狭义地讲,机器翻译方法通常可以分为三类: 基于规则的机器翻译(Rule-Based Machine Translation,RBMT)、基于实例的机器翻译(Example-Based Machine Translation,EBMT)和统计机器翻译(Statistical Machine Translation,SMT),其中后两种方法又可以统称为基于语料库的方法(Corpus-based Machine Translation,CBMT)。

基于规则的翻译方法认为翻译的过程是需要对源语言进行分析并对源语言意义进行表示、然后再生成等价的目标语言的过程,该方法从70年代中期开始到80年代末在机器翻译界一直占有主导地位。一个大型的基于规则的商品化机器翻译系统,不仅要解决机器翻译方法论问题,还要从知识工程和软件工程的角度将系统组织好,其中的规则往往是多层次、细粒度的。规则层次和知识粒度的细化,可以有效控制规则之间的相互影响与冲突,并使规则系统具有良好的可扩展性。

基于实例的机器翻译的本质是“以翻译实例为基础,基于相似原理的机器翻译”。翻译实例可以不经过任何加工以本来面目存储,也可以表示成完全结构化的形式,而近来的研究表明,半结构化的翻译实例表示方法在翻译实例的预处理难度、翻译的时空效率以及翻译质量之间找到了一个良好的平衡点[1]。另一个在原理上与基于实例的机器翻译非常相似的技术是翻译记忆( Translation Memory),该技术看中的是计算机对人的辅助,本质上是一种辅助翻译,它从实例库中检索出相似的翻译实例,以一种友好的形式提交给用户,从而达到帮助用户翻译的目的。近年来,翻译记忆技术也在越来越多的融合各种自动翻译技术[2]。

统计机器翻译也是基于双语语料库的,但与基于实例的方法在翻译过程中直接使用翻译实例不同,统计方法通过事先的训练过程将双语语料库中隐含的翻译知识抽象成统计模型,而翻译过程通常就是基于这些统计模型的解码过程[3]。统计机器翻译中使用的统计模型通常包括翻译模型和语言模型。相比于语言模型和解码,翻译模型是目前统计机器翻译研究中涉及最多的内容。一般的,翻译模型可以分为基于词的模型[3]、基于短语的模型[4]和基于语法的模型[5-6]三种。目前,基于短语和基于语法的模型性能已经明显优于基于词的模型。

虽然统计方法由于其良好的数学模型、无指导的学习能力、良好的鲁棒性等优点而备受重视,但规则方法对语言规律良好的概括和描述能力及实例方法对相似句子相当精确的翻译也无疑是颇有价值的。事实上,多种方法相融合的机器翻译策略正在成为机器翻译发展的重要方向,如规则和统计方法结合[7],实例和统计方法结合[8],基于短语和基于句法统计翻译方法结合[9]等。

图1 互联网机器翻译特点和技术

4 互联网机器翻译

随着互联网的发展,互联网上涌现了海量的双语或多语资源,使得经验主义的翻译方法尤其是统计机器翻译技术得到了迅猛的发展。随着双语资源和单语资源的增加,翻译质量也随着提高,然而互联网上的资源来源非常复杂,质量参差不齐,并且动态更新,因此获得高质量和时效性资源是机器翻译质量的一个保障。此外,尽管互联网上资源丰富,但是领域分布不均,部分领域的双语资源丰富,而有些领域的双语资源缺乏;对于一些语言对来说,同样存在数据稀疏的问题。总体上,互联网上资源具有以下四个特点: 海量、高噪声、稀疏、动态。此外,互联网上翻译需求复杂,有浏览信息、交流信息、发布信息、检索信息等多种需求,而这些需求需要实时快速满足,对机器翻译速度和质量都提出了更高的要求。

针对互联网资源和翻译的特点和挑战,我们从语料处理、模型技术、翻译方法三个方面探讨解决方案,如图1所示。首先,根据互联网机器翻译的特点,论述互联网机器翻译策略;然后针对互联网资源特点,介绍资源挖掘和过滤及分布式处理技术、领域自适应技术、枢轴语言技术和新语种快速部署技术,最后与搜索技术结合,阐述翻译个性化特点和方案。

4.1 互联网机器翻译策略

互联网上海量资源的存在,促进了统计机器翻译技术的发展,使得机器翻译质量得到了提高。由于统计机器翻译技术具有较强的模型学习能力、新语言的快速部署能力、优越的鲁棒性等优点,大多数多语言互联网机器翻译系统都采用统计机器翻译技术,如百度、Google、Bing、有道等。然而统计机器翻译的缺点也很突出,主要体现在两个方面: 长距离调序能力弱和翻译逻辑性差。为了解决以上问题,在基于词和基于短语的统计机器翻译方法的基础上,引入了句法信息[5-6,9-10],旨在解决长距离调序并增加译文可读性。尽管长距离调序得到改善,但是纯粹的基于句法的统计机器翻译方法由于受双源语言和目标语言语法结构不一致性的影响,翻译质量没有大踏步地提高。为了进一步提高机器翻译质量,融合基于句法和基于短语的统计机器翻译方法应运而生[11]。

尽管统计翻译方法在学术界和工业界目前都占有主导位置,但对需要意译的内容或者模式化的翻译,统计机器翻译结果精确度没有基于规则和基于实例翻译结果精度高。比如汉语中的“把”字句,对于“他把房间布置的漂亮极了。”这句话,就很难用统计机器翻译的方法进行完美的翻译,通常情况下,“把”字句中词对齐很混乱,但是用模板或规则的方法就比较容易解决。目前已经有一些研究工作把翻译记忆方法与统计翻译方法进行了有机的结合,提高了翻译质量[12-13]。规则方法和统计翻译方法的结合主要集中在用统计方法对规则翻译方法进行前处理或者后处理[14]以及把规则系统翻译后的资源融入统计翻译系统中[7];而更深次的结合非常必要,如在统计方法中加入结构规则知识、翻译模板等。因此,在互联网环境下,机器翻译需要采用混合翻译技术,以统计翻译为主,基于规则和实例翻译为辅的翻译策略,并进行深度结合,来满足用户多样化的翻译需求。

4.2 互联网翻译资源获取与处理

互联网上双语和多语资源丰富,但格式多样且包含多种噪声,获得高质量的双语资源需要解决以下几个技术: 面向互联网的大规模多语言网页爬行器、高效的双语资源探测技术、面向互联网开放文本的双语多层次的自动对齐技术、面向高噪声双语资源的语料评估和过滤技术。

面向互联网的大规模多语言网页爬行器必须适用于各种类型的网站结构和网页类型的爬取,并行处理并在合理时间内覆盖网络上绝大部分双语资源;高效的双语资源探测技术主要探测双语资源,进行语言识别,并进行基于词典等资源的初步双语资源质量评估。

面向互联网开放文本的双语多层次的自动对齐技术主要解决在高噪声语料中的篇章对齐、段落对齐、句子对齐、和词对齐技术。对于分布于不同网页中的可比语料,首先进行两个或多个篇章的对齐,主要采用的方法有基于跨语言信息检索的网页相似度计算方法、基于主题模型如PLSA(Probabilistic Latent Semantic Analysis)[15]和LDA(Latent Dirichlet Allocation)[16]等的相似度计算方法。篇章对齐以后,需要进行段落对齐和句子对齐,所采用的方法取决于篇章平行程度,对于基本互为对译的网页或文档,可以采用基于动态规划的段落和句对齐方法[17];对于平行程度比较低的篇章,如新闻和百科语料,采用机器学习方法直接进行句对齐[18]。

面向高噪声双语资源的语料评估和过滤技术主要包括双语网站和网页评估、句对评估、语料过滤。在网络上,存在很多高噪声的英汉翻译句对,如“How old are you? 怎么老是你?”,对于这样的句对,用常规的对齐技术和翻译概率方法来衡量,由于其翻译概率很高而不能解决此类问题。另外,对于意译程度比较高的高质量句对如成语、诗词等很容易被视为噪声而被过滤掉。而扩展到网页甚至网站,除了利用翻译概率,可以充分借助搜索技术根据网页结构信息和关键词等信息来判断整个网页或者网站的权威性,从整体上评估语料质量。而句对评估主要是对单个句对进行评估,这些句对来源比较分散,无法通过网页或网站权威性来评估。对于这样分散的句对,除了利用翻译概率、对齐片段信息以外,也可以利用页面信息如标题、正文、来源等特征以及网页评估得到的训练集建立分类模型进行分类,结合规则和机器学习的方法来评估和过滤。

4.3 海量资源计算

针对海量资源的特点,为了提高资源处理和模型的准确性和高效性,可以采用两种不同的方法: 分布式计算和建模、有损建模。机器翻译相关分布式处理工具包括分布式词对齐工具[19]、分布式翻译模型训练如Chaksi[20]、分布式语言模型训练[21]。主要借助MapReduce方法利用机群高效无损的计算,从而提高语料处理精度。Qin Gao在600万双语语料上的实验表明,利用MGIZA++和Chaksi能将速度提高大约8倍。 除了无损建模方法,也可以采用有损建模方法提高处理速度,这种方法在语言模型建模上有过很多尝试,如布隆过滤器(Bloom Filter)[22]和完美哈希(Perfect Hash)[23]。布隆过滤器是一种空间效率很高的随机数据结构,它利用位数组表示一个集合,并能判断一个元素是否属于这个集合.但这种高效是有代价的: 在判断一个元素是否属于某个集合时,有可能会把不属于集合的元素误认为属于,称为单向误识(false positive)。Talbot和Osborne后来又采用了平滑过的Bloom Fliter建立语言模型[24],并用于机器翻译实验中,实验表明在翻译质量没有明显下降的情况下,语言模型可以压缩至少16倍。

当模型训练完成后,为了进一步减少模型体积、加快解码速度,也可对模型进行进一步的压缩和过滤。在语言模型和翻译模型上都有一些有益的尝试,如在语言模型上,采用相对熵裁剪[25]、量化等方法。在翻译模型上,采用互信息、对数似然比、p-value等方法对翻译模型过滤[26],在翻译质量没有明显下降的情况下模型体积缩减80%。

4.4 时效性资源挖掘和模型动态更新

随着社交网络的兴起,跨语言交流也越来越多,如Facebook、Twitter等国际化社交网络上,用户对时效性信息的需求日益增多,如世界性技术动态、社会动态、体育动态等。要准确地翻译这些信息,需要具备以下技术: 时效性话题和资源探测、时效性资源有效挖掘、模型动态更新。

时效性话题或者热点话题可通过互联网或者微博等社交网站获得,如在百度新闻主页和新浪微博就可以获取当天热点或时效性话题,但并不是每个话题都具有翻译需求,如“世界杯”、“iPad2”等话题,这些话题为世界各地的人群所关注,而有些话题则较少为中国之外的人群所关注。对翻译需求的甄别可以同时检测本地化和国际化社交网站热点话题、或从搜索热点中检测,如同时在新浪微博和Twitter中获取热点,共同关注的话题就可被认为有潜在翻译需求的热点,这样也同时获取了时效性双语和单语资源。此外,通过话题本身的性质,如采用基于内容的机器学习方法,借助单语和双语特征来识别一个话题是否具有翻译需求。

时效性资源挖掘方面主要涉及双语词条的获取或者可比语料的有效获取,双语专名词条可以从微博等的热点标题中获得,当获取双语词条后,可以获取热点话题的可比语料,从而采用4.2节描述的方法进行双语句对的挖掘。

模型动态更新涉及在线学习(online learning),在线学习已被应用于机器翻译中,主要用于特征选择和参数训练[27],解决参数的增量式训练问题。此外,在交互式翻译系统中也需要进行在线学习[28],当用户反馈增加一个或一批新的双语句对或短语对时,系统增量式地进行翻译模型和语言模型的训练,以实时反馈用户的需求。然而,以上方法都没有考虑到当时效性资源本身的权重,如何不被已有资源淹没而起到提高翻译质量的作用是一个亟待解决的问题。

4.5 领域自适应

互联网上语料来源复杂,内容上往往属于许多不同的领域,比如政治、经济、医学、日常用语、用户手册等。而且每个领域语料分布不均,有的领域如政治经济、日常用语比较多,其他领域如规章合同等领域的语料规模相对小,因此规模小的语料容易被弱化,体现在增加语料的时候,翻译质量在各个领域的表现不一,此起彼伏,难以控制。同时,同一个词在不同的领域中的翻译不同,如英语中“bank”一词,在经济、金融领域的语料中,大多翻译为汉语的“银行”,然而在地理领域,大多翻译为“河岸”。再如,学术论文在用词和句子结构上往往与口语有较大区别,学术论文使用书面语,句子往往较长,专业词汇较多;而口语句子往往较短,多为常用词。对这些与语料领域相关的信息加以合理利用,能够减少统计机器翻译在学习翻译知识时的噪音,从而提高翻译的质量。

双语语料领域识别的方法主要有无监督聚类、有监督分类、半监督学习等方法。无监督聚类有基于相似度计算的方法如K-means和层次聚类等、基于主题模型的方法如PLSA和LDA等。聚类时,一般事先认为指定类别数,为了解决这个问题,研究者提出了非参数贝叶斯学习方法,可以自动学习类别数量[29]。有监督分类是在有类别标签的语料上训练分类模型;而半监督的学习方法主要结合聚类和分类的思想提高分类或聚类准确率。对于网络上的语料,由于很多本身就已分类,如新闻、政治、经济等,可以采用分类和聚类相结合的方式进行。

然而,特定领域的语料毕竟只是整个双语语料的子集,因此数量相对较少,基于领域的系统往往在覆盖率上逊于通用系统。为了解决这一问题,我们同时融合基于领域的机器翻译系统和通用系统,融合方法可以是基于语料的融合[30],也可以是基于模型的融合如线性或对数线性插值。

在实际翻译过程中,首先需要评定待翻译内容所属的领域,然后调用相应领域的机器翻译系统进行翻译。为了判定待译句子的类别,可以利用聚类或分类的结果训练分类系统,并利用这一分类系统将待译内容划分到某个类别当中,分类方法可以是支持向量机[31]、最大熵[32]、随机森林[33]等等。然后利用领域模型进行翻译,从而提高翻译系统质量。

4.6 枢轴翻译技术和新语种的快速部署

当基本翻译模型和系统建立起来后,需要快速支持多种语言的翻译,这样需要具备如下条件: 翻译系统解码算法与语言无关、双语资源和模型的快速爬取和建模。对于统计翻译而言,解码算法本身与语言无关,快速支持多语言翻译顺理成章。对于语料而言,尽管互联网上存在海量资源,但是对于某些领域或者一些资源稀缺的语言对来说,双语资源并不多见。如对于中语—日语翻译或者汉语—法语来说,相对中英资源,中日双语资源比较缺乏,势必会影响翻译质量。

针对以上数据稀疏的情况,提出了枢轴语言翻译技术[34],此技术采用第三语言作为中间语言,使得源语言—中间语言、中间语言—目标语言双语资源丰富,在此基础上建立源语言—中间语言、中间语言—目标语言翻译模型,从而推导出源语言—目标语言的翻译模型。例如,对于中日翻译,我们可以用英语作为中间语言,从互联网上获取海量的中英和英日资源,从而用英语作为桥梁,建立可靠的中日翻译模型,最终提高翻译质量。此外,还可以利用源语言和目标语言之间的语言特点,如日语和韩语之间、印欧语系之间的相似性,融合规则和统计的方法计算源语言和目标语言之间相似度,从而提高翻译质量[35]。

4.7 翻译个性化

互联网上翻译需求错综复杂,个性化翻译需求很强,90%左右的需求不重复。但是对于个人来说,翻译需求比较固定,比如有的主要用于日常用语的翻译、有的论文写作和翻译、有的是手册翻译等等,总之呈现一定的领域性。针对多样的个性化需求,需要对用户翻译兴趣进行建模。在互联网推荐技术中,研究人员提出了很多对用户兴趣进行建模的方法,从而预测用户兴趣,推荐相关内容,如内容过滤方法[36]、协同过滤方法[37]、基于SNS的社会化过滤(Social Filtering)[38]等,还有根据用户的年龄、性别、职业等做出推荐。在机器翻译个性化中,也可以根据相应的需求,采用类似的方法进行用户建模。对于有翻译历史的用户,可以根据用户的翻译内容进行基于内容的兴趣建模,根据内容识别翻译内容的领域性和翻译类别,翻译类别又可按自动化程度分为辅助翻译和自动翻译等。对于没有翻译历史信息的用户,可以采用协同过滤的方法预测翻译兴趣,从而推荐相关翻译产品和技术,如对于有大量国际化图片和视频搜索需求的用户,可能也有跨语言视频和图片的翻译需求;比如对于有跨语言聊天需求的用户,情感和日常用语的交流相对多,对翻译准确率要求比较高,自动翻译需求多,在这种情况下,需要建立高翻译质量的领域模型。此外,也可通过用户的年龄和身份等信息推断翻译需求,如中小学生有外语学习、双语词典类的需求;硕士和博士研究生有外语论文写作的需求,需要提供辅助论文写作技术;而专业技术人员可能需要翻译技术文档,可采用辅助翻译和自动翻译想结合的方法等等。

5 机器翻译应用

5.1 翻译资源和技术的应用

随着翻译技术的发展,双语资源和翻译模型及系统在自然处理领域或其他相关领域也得到了广泛的应用,下面分别介绍。

双语平行语料在自然语言处理领域得到了广泛的应用,如词性标注[39], 语义消歧[40], 句法分析和依存分析[41-42]、情感分类[43]。在这些应用中,一种语言的人工标注语料比较丰富,而另一种语言的标注语料很少,因此利用词对齐信息,把一种语言的标注信息投射到另外一种语言上,从而提高在目标语言上的性能。有些应用利用双语或者多语平行语料进行无监督学习,并结合机器学习方法,如非参数贝叶斯学习方法[29]、协同训练(Co-Training)[44]等方法,协同提高在多个语言上的性能。此外,双语平行语料、对齐模型和翻译模型也可以用于其他资源的抽取,比如同义词、复述资源的抽取[45];对齐模型还可用于单语搭配资源的抽取[46]、依存树分析[47]等。

双语资源和翻译模型在互联网上也得到了广泛应用,比如用于搜索引擎中Query改写和变化,使得搜索引擎能够猜测用户的意图,更能满足用户的搜索需求,提高搜索的准确率和召回率[48]。此外,在跨语言检索中用于Query翻译或者检索内容的翻译,丰富搜索内容,满足用户的多语言搜索要求[49]。

5.2 翻译产品的应用

随着互联网的发展,机器翻译技术有着广阔的应用需求。按自动化程度,机器翻译可分为自动翻译和辅助翻译。前者由于没有人工参与,难以直接得到很高质量的译文,但可以用于信息的快速浏览和获取。后者通过人机互助,可以得到高质量的译文用于出版、发布等信息传播目的。辅助翻译根据人机分工不同又可分为机助人译和人助机译两种。

根据处理对象不同,机器翻译可以分为文本翻译和语音翻译。前者处理文本输入,而后者处理语音输入。语音翻译需要解决语言识别、机器翻译、语音合成三个主要技术,由于受技术的制约,目前主要应用于受限领域的语音翻译,在移动终端(如手机、iPad等)进行跨语言交流。

根据翻译的复杂程度,可分为词、短语、句子、篇章的翻译,词和短语的翻译通常情况下可以结合双语词典、双语例句和自动翻译三个手段来满足,对于句子和篇章级的翻译,主要通过自动翻译满足。目前机器翻译产品中没有涉及篇章的理解,对于篇章的翻译主要还是把篇章拆解成句子,句子之间相互独立,然后组合翻译结果。

从使用目的角度,机器翻译可以分为四种用途: 传播信息、获取信息、交流信息、和检索信息。一般来说,辅助翻译系统或领域受限的高质量自动翻译系统可以生成高质量译文用于信息传播,如手册和技术文档翻译,个性化的Email翻译等;通用的全自动翻译系统可以生成虽不完美但基本可懂的译文用于信息获取,如网页翻译等;受限领域的口语翻译系统可以帮助人通过语音或即时通讯系统进行信息交流,如网络即时聊天、社区交流、基于位置的移动翻译服务等;跨语言信息检索系统可以帮助人完成不同语言之间的信息检索,丰富检索内容。

机器翻译系统可以有多种产品形态,如独立的在线翻译系统、翻译软件包、翻译引擎授权、翻译服务提供、与硬件捆绑等等。

6 结语

现代的机器翻译研究已有半个多世纪的历史,其间产生过令人振奋的成果,也有过令人沮丧的时候,但无论多么艰深,人类对机器翻译的探索和渴求始终没有停止过。身兼文理、统合技术与艺术的学科魅力吸引了无数的研究者献身其中;促进跨语言交流的显著作用和巨大的应用价值吸引了大量的机构投资其中。互联网的普及和广泛应用进一步推动了机器翻译技术和应用的发展,同时对机器翻译提出了新的要求,必将促使机器翻译研究界和工业界联合在一起推动自动翻译的发展。

作为世界上使用人数最多的语言,中文相关的机器翻译一直广受重视,而开发以中文为核心的多语言互联网机器翻译系统显得尤为重要,从而架起中外互联网用户沟通的桥梁,丰富用户获取和分享信息的广度、深度和速度,进而带来巨大的社会效益和经济效益。

[1] Haifeng Wang, Zhanyi Liu, Hua Wu. Semi-Structured Example Based Machine Translation[M]. Frontiers of Content Computing: Research and Application. Sun Maosong and Chen Quuxiu (Eds.), Tsinghua University Press, 2007: 1-9.

[2] Hua Wu, Haifeng Wang, Zhanyi Liu et al. Improving Translation Memory with Word Alignment Information[C]//Proceedings of MT SUMMIT X. Phuket Island, Thailand, 2005: 313-320.

[3] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin. A Statistical Approach to Machine Translation[J]. Computational Linguistics, 1990, 16(2): 79-85.

[4] Philipp Koehn, Franz Josef Och, Daniel Marcu. Statistical Phrase-Based Translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Edmonton, Canada, 2003: 48-54.

[5] Dekai Wu. Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora[J]. Computational Linguistics, 1997, 23(3): 377-403.

[6] David Chiang. A hierarchical Phrase-based Model for Statistical Machine Translation[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. Ann Arbor, Michigan, 2005: 263-270.

[7] Yu Chen, Andreas Eisele. Hierarchical Hybrid Translation between English and German[C]//Proceedings of the 14th Annual Conference of the European Association for Machine Translation. St. Raphael, France, 2010: 90-97.

[8] Declan Groves, Andy Way. Hybrid Example-Based SMT: the Best of Both Worlds?[C]//Proceedings of ACL 2005 Workshop on Building and Using Parallel Texts: Data-Driven Machine Translation and Beyond. Ann Arbor, Michigan, 2005: 183-190.

[9] K. Yamada, K. Knight. A Decoder for Syntax-Based Statistical MT[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, PA, USA, 2002: 303-310.

[10] Michel Galley, Jonathan Graehl, Kevin Knight. Scalable Inferences and Training of Context-Rich Syntax Translation Models[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL. Sydney, Australia, 2006: 961-968.

[11] Daniel Marcu, Wei Wang, Abdessamad Echihabi et al. SPMT: Statistical Machine Translation with Syntactified Target Language Phraases[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Sydney, Australia, 2006: 44-52.

[12] Philipp Koehn, Jean Senellart. Convergence of translation memory and statistical machine translation[C]//Proceedings of AMTA Workshop on MT Research and the Translation Industry. Denver, CO, 2010: 21-31.

[13] Yanjun Ma, Yifan He, Andy Way et al. Consistent Translation Using Discriminative Learning: A Translation Memory-Inspired Approach[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland, Oregon, 2011: 1239-1248.

[14] Nicola Ueffing, Jens Stephan, Evgeny Matu- sov et al. Tighter Integration of Rule-based and Statistical MT in Serial System Combination[C]//Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, 2008: 913-920.

[15] Thomas Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis[J]. Machine Learning, 2001, 42(2): 177-196.

[16] David M. Blei, Andrew Ng, Michael Jordan. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

[17] Xiaoyi Ma. Champollion: A robust parallel text sentence aligner[C]//Proceedings of LREC-2006: Fifth International Conference on Language Resources and Evaluation. Genoa, Italy, 2006: 489-492.

[18] Dragos Stefan Munteanu, Daniel Marcu. Improving Machine Translation Performance by Exploiting Non-Parallel Corpora[J]. Computational Linguistics, 2005, 31(4): 477-504.

[19] Qin Gao, Stephan Vogel. Parallel Implementations of Word Alignment Tool[C]//Software Engineering, Testing, and Quality Assurance for Natural Language Processing. Columbus, Ohio, USA, 2008: 49-57.

[20] Qin Gao, Stephan Vogel. Training phrase-based machine translation models on the cloud: Open source machine translation toolkit Chaski[C]//The Prague Bulletin of Mathematical Linguistics No 93. 2010: 37-46.

[21] Thorsten Brants, Ashok C. Popat, Peng Xu et al. Large Language Models in Machine Translation[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic, 2007: 858-867.

[22] David Talbot, Miles Osborne. Smoothed Bloom ?lter language models: Tera-scale LMs on the cheap[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic, 2007: 468-476.

[23] David Talbot, Thorsten Brants. Randomized language models via perfect hash functions[C]//Proceedings of ACL-08: HLT. Columbus, Ohio, 2008: 505-513.

[24] David Talbot, Miles Osborne. Smoothed Bloom filter language models: Tera-Scale LMs on the Cheap[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic, 2007: 468-476.

[25] Andreas Stolcke. Entropy-based Pruning of Backoff Language Models[C]//Proceedings of DARPA News Transcription and Understanding Workshop. Lansdowne, VA, 1998: 270-274.

[26] J Howard Johnson, Joel Martin, George Foster et al. Improving Translation Quality by Discarding Most of the Phrase table[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic, 2007: 967-975

[27] David Chiang, Yuval Marton, Philip Resnik. Online Large-Margin Training of Syntactic and Structural Translation Features[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Honolulu, 2008: 224-233.

[28] Daniel Ortiz-Mart′nez, Ismael Garc′a-Varea, Francisco Casacubert. Online Learning for Interactive Statistical Machine Translation[C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL. Los Angeles, 2010: 546-554.

[29] N. Hjort, C. Holmes, P. Mueller et al. Bayesian Nonparametrics Principles and Practice[M]. Cambridge University Press. 2010.

[30] Bulyko, Ivan, Spyros Matsoukas et al. Language Model Adaptation in Machine Translation from Speech[C]//Proceedings of the 32nd International Conference on Acoustics, Speech, and Signal Processing. Hawaii, USA, 2007: 117-120.

[31] V.N. Vapnik. The Nature of Statistical Learning Theory (Second Edition) [M]. New York: Springer, 2001.

[32] Adam L. Berger, Stephen A. Della Pietra et al. A maximum entropy approach to natural language processing[J]. Computational Linguistics, 1996, 21(1): 39-71.

[33] Leo Breiman. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.

[34] Hua Wu, Haifeng Wang. Pivot Language Approach for Phrase-Based Statistical Machin[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic, 2007: 856-863.

[35] Dmitriy Genzel, Klaus Macherey, Jakob Uszkoreit. Creating a High-Quality Machine Translation System for a Low-Resource Language: Yiddish[C]//Proceedings of MT Summit XII. Ottawa, Ontario, Canada, 2009: 41-48.

[36] Michael Sheperd, Carolyn Watters. Content Filtering Technologies and Internet Service Providers: Enabling User Choice[R]. Report for Industry Canada. 2000.

[37] Marko Balabanovic, Yoav Shoham. Fab: content-based, collaborative recommendation[J]. Communications of the ACM, 1997, 40(3): 66-72.

[38] Souvik Debnath, Niloy Ganguly, Pabitra Mitra. Feature Weighting in Content Based Recommendation System Using Social Network Analysis[C]//Proceeding of the 17th international conference on World Wide Web. Beijing, 2008: 1041-1042.

[39] Benjamin Snyder, Tahira Naseem, Jacob Eisenstein et al. Adding More Languages Improves Unsupervised Multilingual Part-of-Speech Tagging: a Bayesian Non-Parametric Approach[C]//Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the ACL. Boulder, Colorado, 2009: 83-91.

[40] David Yarowsky, Grace Ngai, Richard Wicentowski. Inducing multilingual text analysis tools via robust projection across aligned corpora[C]//Proceedings of the first international conference on Human language technology research. Morristown, NJ, USA, 2001: 1-8.

[41] Rebecca Hwa, Philip Resnik, Amy Weinberg et al. Bootstrapping Parsers via Syntactic Projection Across Parallel Texts[J]. Natural Language Engineering, 2005, 11(3): 311-325.

[42] Kuzman Ganchev, Jennifer Gillenwater, Ben Taskar. Dependency Grammar Induction via Bitext Projection Constraints[C]//Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP. Morristown, NJ, USA, 2009: 369-377.

[43] Bin Lu, Chenhao Tan, Claire Cardie et al. Tsou. Joint Bilingual Sentiment Classification with Unlabeled Parallel Corpora[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland, Oregon, 2011: 320-330.

[44] A. Blum, T. Mitchell. Combining Labeled and Unlabeled Data with Co-training[C]//Proceedings of the eleventh annual conference on Computational learning theory. Madison, Wisconsin, 1998: 92-100.

[45] Juri Ganitkevitch, Chris Callison-Burch, Courtney Napoles et al. Learning Sentential Paraphrases from Bilingual Parallel Corpora for Text-to-Text Generation[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK, 2011: 1168-1179.

[46] Zhanyi Liu, Haifeng Wang, Hua Wu et al. Collocation Extraction Using Monolingual Word Alignment Method[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing 2009. Singapore, 2009: 487-495.

[47] Samuel Brody. It Depends on the Translation: Unsupervised Dependency Parsing via Word Alignment[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Massachusetts, USA, 2010: 1214-1222.

[48] Stefan Riezler, Yi Liu. Query Rewriting using Monolingual Statistical Machine Translation[J]. Computational Linguistics, 2010, 36(3): 569-582.

[49] Jianfeng Gao, Xiaodong He, Jian-Yun Nie. Clickthrough-based translation models for web search: from word models to phrase models[C]//Proceedings of the 19th ACM international conference on Information and knowledge management. Toronto, Canada, 2010: 1139-1148.

猜你喜欢
语料双语领域
基于归一化点向互信息的低资源平行语料过滤方法*
2020 IT领域大事记
领域·对峙
新常态下推动多层次多领域依法治理初探
《苗防备览》中的湘西语料
快乐双语
快乐双语
快乐双语
国内外语用学实证研究比较:语料类型与收集方法
肯定与质疑:“慕课”在基础教育领域的应用