机器翻译的发展历史及其应用

2021-12-02 17:55朱世卫
科学与生活 2021年25期
关键词:机器翻译神经网络深度学习

摘要:简要述评了机器翻译的起源和发展,实现机器翻译的原理方法分类,包括基于规则、基于统计法、基于实例、混合法等。同时介绍了机器翻译应用的主要场合和应用的前提条件。

关键词:机器翻译;神经网络;深度学习

机器翻译Machine Translation(简称为MT)属于计算语言学的分支,主要是研究如何使用计算机软件将一种语言文本或语音从翻译成另一种语言。

一般来讲,机器翻译指的是使用计算机软件机械地用将某种语言的词汇替换成另一种语言(比如,“dog”转为“狗”),但是,不难想象,仅凭这种方式很难产生好的翻译,因为计算机还需要能够识别目标语中的整个短语、句子甚至是语篇,然后找出最接近的意思。比如“luckydog”直接翻译成“幸运的狗”难免让人啼笑皆非。

1. 发展历程

机器翻译渊源可以追溯到9世纪一位叫Al-Kindi的阿拉伯密码学家的研究,他开发的一些技术可以用于系统语言翻译,包括密码分析、频度分析、概率和统计,这些技术后来被用于机器翻译。而机器翻译的想法则出现在17世纪。在1629年,René Descartes提出了一种通用语—在不同的语言中,相同的思想用同一个符号来表示。

早在1946年就由洛克菲勒基金會的A.D. Booth和Warren Weaver就同时提出了使用数字计算机翻译自然语言的想法。“Warren Weaver在1949年撰写的备忘录,可能是机器翻译早期最具影响力的出版物。” 1954年,ji在伦敦大学伯克贝克学院的APEXC机器上进行了英语翻译的初步演示。

Yehoshua Bar-Hillel于1951年在麻省理工学院开始了机器翻译的研究。由Michael Zarechnak教授领导的MT研究小组,随后也开始了研究,并在在1954年公开展示了其Georgetown-IBM翻译实验系统。MT研究项目随后在日本和俄罗斯出现(1955年),并于1956年第一次在伦敦举行MT会议。David G. Hays早在1957年就写了关于计算机辅助语言处理的文章,他于1955年到1968年作为Rand公司计算语言学的项目负责人。

在1962年,机器翻译和计算语言学协会在美国成立。1964年美国国家科学院成立自动语言处理咨询委员会(ALPAC)来研究机器翻译。随后,越来越多的研究人员继续加入该领域。虽如此,该领域真正的进展要慢得多。在1966年,据ALPAC报告称,长达10年的研究未能达到预期,随后,资金大大减少。但并非一无所获,根据国防研究和工程主任1972年的一份报告,Logos MT系统成功地将军事手册翻译成越南语,从而重新确立了大规模MT的可行性。在1970年,法国纺织学会也使用机器翻译将摘要翻译成法语、英语、德语和西班牙语);杨百翰大学(Brigham Young University)启动了一个自动翻译摩门教文本的项目。

SYSTRAN在1978年被施乐公司用来翻译技术手册。从20世纪80年代末开始,随着计算能力的提高和成本的降低,人们对机器翻译的统计模型表现出了更多的兴趣。计算机出现后使得MT变得更受欢迎。SYSTRAN的第一个应用案例是在1988年由法国邮政提供的的Minitel在线服务。逐渐出现了各种以计算机为基础的翻译公司,比如Trados。

到1998年,“只要29.95美元”,就可以“买到一个程序,让你迅速在英语和主要欧洲语言之间实现单向翻译”。

网络上的MT始于SYSTRAN在1996年提供小文本的免费翻译,它是通过AltaVista Babelfish提供这一服务的,每天累积了50万次请求。网上第二个免费翻译服务是Lerout 和 Hauspie的GlobaLink.

Franz Josef Och (谷歌未来的翻译开发负责人)在2003年赢得了DARPA的速度MT竞赛。在2007年出现了MOSES,一种开源统计MT引擎。在2008年在日本出现了手机文本/短信翻译服务,以及2009年出现的内置英语、日语和中文语音转换功能的手机。2012年,谷歌宣布谷歌Translate在一天内翻译的文本大约足够填满100万本书。

2. 方法原理

机器翻译可以使用基于语言规则linguistic rules的方法,这意味着单词将以语言的方式进行翻译—目标语言中最合适的单词将取代源语言中的单词。

基于规则rule-based的机器翻译模式包括基于迁移transfer-based的机器翻译、语际interlingual机器翻译和基于词典dictionary-based的机器翻译。这种类型的翻译主要依靠词典和语法程序的创建。

统计Statistical机器翻译尝试使用基于双语文本语料库的统计方法生成翻译,如加拿大Hansard语料库、加拿大议会的英法记录和欧洲议会的EUROPARL记录。如果有这样的语料库,可以在翻译相似文本时取得良好的效果,但在其他许多语言对中,这样的语料库仍然很少。

基于实例example-based的机器翻译(EBMT)方法是由Makoto Nagao于1984年提出的。基于实例的机器翻译是基于类比的思想。在这种方法中,所使用的语料库包含已经翻译过的文本。

混合机器翻译(HMT)利用了统计和基于规则的翻译方法的优势,一些MT组织提出了一种混合的方法,它同时使用了规则和统计数据。

神经机器翻译是一种基于深度学习的MT方法,近年来取得了快速进展,谷歌宣布其翻译服务现在优先使用该技术,而不是以前的统计方法。

3. 应用领域

虽然还没有任何翻译系统能够完成随意文本的高质量自动翻译,但许多自动翻译系统能够已经能够完成合理的翻译任务。如果对源文本进行适当的限制和控制,机器翻译的质量将大大提高。

所以,MT翻译程序在世界各地都在使用。这其中最大的机构使用者可能是欧盟委员会。例如,由哥德堡大学参与的MOLTO项目从欧盟获得了237.5万欧元的项目支持,用以创建一个涵盖欧盟大多数语言的可靠翻译工具机器翻译系统。人工翻译预算的削减可能增加欧盟对优秀机器翻译程序的依赖。欧盟委员会(通过ISA计划)出资307.2万欧元创建MT@EC,这是一个为欧盟管理需求量身定制的统计机器翻译程序,以取代以前基于规则的机器翻译系统。

机器翻译在社交网络上也有用武之地,在诸如Facebook等社交软件或像Skype,Google Talk,MSN等的即时通讯软件在,机器翻译程序允许用户用不同的语言相互交流。另外,机器翻译应用程序也已经部署到大多数移动设备上,包括移动电话、掌上电脑、PDA等。由于它们的便携性,这些工具已被作为移动翻译工具来使用,允许使用不同语言的合作伙伴之间可以移动网络进行交流,也促进外语学习和无需人工翻译的出国旅行。

目前的机器翻译软件大多被用于按领域进行定制翻译,如天气报告,通过控制输入语言的范围来提高输出质量。这种技术在使用正式语言或公式化语言的领域尤其有效。因此,机器翻译比较擅长翻译在政府和法律文件。

4. 结语

随着计算机技术和大数据的发展以及深度学习和神经网络技术的成熟,机器翻译会越来越智能。在学校教育中,也可以利用机器翻译促进教育工作的开展。

参考文献

[1]林倩,刘庆,苏劲松,林欢,杨静,罗斌.神经网络机器翻译研究热点与前沿趋势分析[J].中文信息学报,2019,33(11):1-14.

[2]侯强,侯瑞丽.机器翻译方法研究与发展综述[J].计算机工程与应用,2019,55(10):30-35+66.

[3]胡开宝,李翼.机器翻译特征及其与人工翻译关系的研究[J].中国翻译,2016,37(05):10-14.

[4]蒋锐滢,崔磊,何晶,周明,潘志庚.基于主题模型和统计机器翻译方法的中文格律诗自动生成[J].计算机学报,2015,38(12):2426-2436.

[5]楊南. 基于神经网络学习的统计机器翻译研究[D].中国科学技术大学,2014.

作者简介

朱世卫(1990—),男,汉族,河南汝阳人,研究生学历,广东信息工程职业学院专任教师。研究方向:英语教育,翻译教学等。

猜你喜欢
机器翻译神经网络深度学习
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
基于自适应神经网络的电网稳定性预测
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
MOOC与翻转课堂融合的深度学习场域建构
大数据背景下石油科技翻译
大数据背景下石油科技翻译
大数据技术在反恐怖主义中的应用展望