国际机器翻译近十年的动态演进
——基于CiteSpace和VOSviewer的可视化分析

2022-12-01 10:15:38穆军芳张丽鑫

沈阳大学学报(社会科学版) 2022年6期

穆军芳, 张丽鑫

(河北大学外国语学院, 河北保定 071002)

机器翻译也被称作自动翻译,指利用计算机将一种语言文本(源语言:Source Language)转换为另一种语言文本(目标语言:Target Language)的翻译过程[1]。自德国学者里格将数学语法与词典结合首次提出“机器翻译”这一概念以来,机器翻译经过初创期、萌芽期、平台期、繁荣期和新热潮阶段,如今已取得显著成果[2]。随着主流翻译技术的进步,机器翻译在提高翻译效率、提升翻译品质、推动翻译智能化,以及促进语言服务行业发展中发挥了至关重要作用;同时,机器翻译作为典型的跨学科和超学科研究,涉及语言学、翻译学、数学、工程学和计算机科学等学科,拓宽了传统翻译的研究领域和研究视野[3],助推了机器翻译在日常翻译领域的普及和优化。

随着科技的进步,近10年来,机器翻译研究不仅在传统研究课题上拓展深化,同时其翻译方法、翻译技术也在不断革新。从最初基于规则的机器翻译,到基于统计的机器翻译,再到今天基于深度学习的神经机器翻译,翻译技术与翻译模型的优化使机器翻译领域焕然一新[4]。

一、文献回顾

近年来,国际学术领域关于机器翻译呈现多种视角,总体可分为语言学角度和非语言学角度。首先,就语言学角度而言,研究多聚焦于机器翻译技术的落地应用,如Bowker、Ciro基于机器翻译的视角,通过系统评估、社区调查和受众评估,深入探究了渥太华西班牙移民对渥太华公共图书馆网站4种翻译文本所持的态度,研究表明机器翻译和译后编辑的结合更易被移民言语社区认同[5];同时随着机器翻译技术的革新,机器翻译在语言教育中的应用愈加普遍,Kelly、Hou聚焦于北爱尔兰5所中学的EAL学生(English as an additional language,英语作为附加语言),通过小组访谈深入探究了机器翻译对EAL学生学习和生活的影响,研究发现机器翻译可用于跨语言教学中,如指导EAL学习者参与日常学习和交际互动[6]。其次,就非语言学视角而言,国际研究立足于机器翻译技术的优化对机器翻译展开探究,如Zhang、Zong立足于神经机器翻译(Neural Machine Translation,简称为NMT)视角,深入剖析了其基本框架架构、最新进展、面临挑战与未来研究趋势,对于挖掘NMT的知识基础具有建设性意义[7]。此外,双语翻译实践的实证研究逐步成为国际学者的研究热点,如Tran、Huang等为提升中越机器翻译质量,基于词语对齐、词语的从属关系对汉语进行预排序、构建算法模型,极大优化了传统的基于短语的统计机器翻译(Statistical Machine Translation,简称为SMT)质量[8];Jassem、Dwojak围绕着具体领域建构的英、波双语语料库,分别评估了NMT和SMT两种模型在处理翻译文本、输出流畅度的特性[9]。

由此可见,就研究方法而言,国际学者对机器翻译的探究更倾向于实证研究,就将科学计量法用于综述机器翻译研究历程而言,鲜有国外学者立足于此;但国内不少学者作出尝试,如刁洪基于CNKI关于翻译技术研究的文献,运用数据统计和CiteSpace对国内该领域的发展脉络、研究现状及未来研究走向进行可视化分析,系统梳理了国内翻译技术研究的进展[10];李晗佶、陈海庆借助CiteSpace深度剖析了国内有关机器翻译的两类期刊2007—2016年收录的文献,并基于生成的知识图谱,分别指出了语言学界和计算机科学界在机器翻译领域研究的异同[11]。

总体来讲,目前关于机器翻译的研究仍存在两方面局限性:一是大多数研究聚焦于微观或中观角度,未能从宏观上审视机器翻译的现状及发展走向;二是国内学者的研究语料数据多源于中文数据库,视角聚焦于国内机器翻译的研究动态,难以洞察国际机器翻译的研究进程。

目前,机器翻译已经成为国际前沿研究热点,逐渐拓展出本领域的专业期刊,如:ComputerSpeechandLanguage,ComputationalLinguistics,NaturalLanguageEngineering。此外,国际计算语言学协会每年举办WMT国际机器翻译大赛,欧洲机器翻译协会、中国机器翻译大会及国际顶级口语机器翻译评测等机构持续召开年度峰会,国际机器翻译会议的增多显示出机器翻译在国际上获得了更广泛的关注。为深入探究国际机器翻译的研究动态,本文综合科学计量法和文本分析法,系统梳理2012—2021年Web of Science核心数据库中有关机器翻译的文献,对整体发文趋势、核心作者、研究机构、作者共被引分析、高频关键词共现及关键词突现进行可视化分析,以期为国内学者探索国际机器翻译研究历程提供参考。

二、研究方法

1. 研究问题

通过对Web of Science核心数据库中的数据进行计量可视化分析,本研究将具体回答以下问题:①近10年国际机器翻译研究整体呈现什么态势?②分别从微观和中观角度探究国际机器翻译研究高产作者与科研结构分布显现出什么特征?③国际机器翻译研究主要围绕哪些研究议题展开?④国际机器翻译未来研究走向呈现出怎样的特点?

2. 数据来源

为了获得全面、准确且权威性的语料,本研究数据来源于Web of Science核心合集(简称为WOS),同时设置精确检索主题为“machine translation”。自定义检索公式为: Keyword=“machine translation”;Time=2012.01.01—2021.12.31;Access Dataspace=SCI:SSCI:A&HCI:CPCI-S:CPCI-SSH;将语种定义为“English”,文献的检索类型限定为Article、Review与Proceeding paper3类。经筛选后共得到有效文献4 469篇。

3. 分析工具

本文基于可视化分析软件呈现科学知识图谱,并辅以文本分析,揭示国际机器翻译研究的动态进程。科学知识图谱侧重知识的可视化,兼具图和谱的双重特性,既显示了知识聚类间的网络、结构、互动、交叉、演化或衍生等关系,也揭示出复杂的知识关系孕育的前沿知识[12]242。具体而言,本文分别以CiteSpace[13]与VOSviewer[14]软件作为分析工具。二者的交叉使用互为补充,一方面,CiteSpace可利用名词性术语找出文献中的突现词,洞察学科在一段时间内呈现的变化和动态趋势,探索学科领域的研究热点与未来发展趋势[13];另一方面,VOSviewer基于关联强度的算法,通过标签视图、密度视图与集群密度视图可以处理大量语料,清晰展现大型图谱网络[14]。因此,本文将两者结合,以期更好地厘清近10年国际机器翻译的研究动态。

三、高产作者与研究结构分析

1. 年度发文趋势

某一领域的发文数量是判断其发展趋势的重要指标, 能直观反映出该领域在不同阶段的研究态势与研究热度[15]。根据近10年国际机器翻译研究成果的发表情况, 国际机器翻译领域年度发文量趋势见图1。

图1 国际机器翻译研究年度发文量趋势图(2012—2021)

从图1可知,近10年国际机器翻译研究整体呈现出波动式上升、稳中求进的发展态势,可以看出近年来国际学界对机器翻译的研究热度、关注度持续上升,机器翻译成为学界的热门研究领域,并且该领域的研究步入成熟阶段。具体而言,可分为3个阶段:波动发展阶段(2012—2017)、快速发展阶段(2017—2019)和稳步发展阶段(2019—2021)。值得注意的是,自2017年以来,国际机器翻译研究发文量显著增加,这与机器翻译技术的优化、人工智能的快速发展及国际学界对机器翻译的关注密切相关。例如,谷歌于2016年基于人的神经网络开发出Google神经机器翻译系统(简称为GNMT),实现机器翻译技术的重大突破。新的机器翻译技术路径带来2017年之后研究的快速发展,其中2019年,发文量达到近10年峰值,研究文献高达700篇,2020年和2021年分别产出论文651和515篇,相较于2019年的发文数量,虽有小幅下滑,但文章基数大,研究热度仍保持高涨。

2. 高产作者分析

系统分析施引文献的作者不仅能了解该学科领域的核心研究者、基础文献的组成与学科前沿发展趋势,也有助于基于作者共现图谱揭示不同作者之间的合作关系。通过VOSviewer可视化分析软件,本文将发文数量的阈值设为10,经筛选后,共有119位作者满足既定阈值条件。基于VOSviewer的聚类功能,近10年在国际机器翻译领域有较高影响力的作者合作网络图谱见图2。

图2 国际机器翻译研究作者合作网络图(2012—2021)

图中节点及字体大小与作者发文量呈正向相关关系,节点越大,代表该作者在国际机器翻译领域影响力越高;节点间的线条粗细与机构之间的合作发文量也呈正比关系,线条越粗,反映出学者之间的合作程度越紧密[16]。

由图2可知,国际机器翻译研究形成了显著合作群体,整体科研合作紧密,显现出了四大紧密合作的学术共同体。首先是以日本情报通信研究机构Sumita及其团队成员Utiyama,上海交通大学的王瑞、赵海,哈尔滨工业大学的赵铁军和杨沐昀等学者为代表的合作圈,该合作群体由中国和日本学者构成,科研产出成果多,在自然语言处理(Natural Language Processing,简称为NLP)和机器翻译模型改进研究中构成了稳固、紧密的学术共同体。第二大合作团队是以清华大学学者刘洋为核心的合作团队,具体而言,该学术共同体还包括中国科学院学者宗成庆和张家俊、清华大学的张敏、天津大学学者熊德意、厦门大学的苏劲松、澳门大学学者Wong与Chao等。该合作团队主要由中国学者构成,科研力量雄厚且研究结构多为国内高等研究所、高校的重点NLP实验室,同时从图2节点的连线可见,该合作团队中高校学者间的合作极其频繁。第三大研究团队是围绕着美国卡内基·梅隆大学学者Neubig建构起学术合作圈,与日本学者 Nakamura、Utiyama也开展学术合作,同时该合作群体还包含爱丁堡大学NLP研究学者Heafield,第三大研究团体以日本学者为主,美国、英国与日本科研机构就机器翻译展开了密切合作。此外,西班牙加泰罗尼亚理工大学机器翻译研究者Costa-Jussà与爱沙尼亚塔尔图大学的Mark、捷克布拉格查理大学的Ondej及德国人工智能研究中心的Van Genabith等学者也共同组成共现网络。

国际机器翻译研究领域十大高产作者(见表1)多来自上述四大合作群体,整体而言,从作者合作网络图谱与高产作者发文表可以看出,一方面,国际机器翻译研究呈现积极发展态势,科研机构间作者合作密切,合作程度高,愈加趋向形成一种长期稳定且紧密的合作关系;另一方面,不同的学术团队已经形成了以某一领军人物为核心的学术架构,学术团队中既有引领发展的中坚力量也有不断创新的青年团队,团队可塑性和创造力不断提升。

表1 国际机器翻译研究前10位高产作者(2012—2021)

3. 研究机构分析

本节将从中观层面对所选语料的发文机构进行探究,详细分析不同国家研究机构在机器翻译这一学科领域的研究能力。在生成图谱时,利用VOSviewer将阈值设为30,展现当前国际机器翻译研究的主要研究力量,经统计分析,国际机器翻译研究发文前20的研究机构主要集中在中国、美国、英国、日本、印度、德国、西班牙与瑞士等国家,具体分布见表2。

表2 国际机器翻译研究发文前20位科研机构(2012—2021)

根据表2可得,国际从事机器翻译研究的中国科研机构,节点显著性较强的有中国科学院、中国科学院大学、苏州大学、北京大学、清华大学、哈尔滨工业大学、上海交通大学等高等院校。此外,处于前沿科技领域的NLP实验室也与部分高校开展合作,如华为诺亚方舟实验室、腾讯人工智能实验室、百度研究院和阿里巴巴人工实验室等。

与此同时,美国高校卡内基·梅隆大学、斯坦福大学、约翰斯·霍普金斯大学、华盛顿大学、宾西法尼亚大学及谷歌的人工智能实验室、微软亚洲研究院等科研机构也处在机器翻译前沿研究领域;爱尔兰的都柏林城市大学、英国的爱丁堡大学、谢菲尔德大学与日本情报通信研究机构、京都大学,还有印度理工学院在机器翻译领域收获颇丰,且跨学科、跨校、跨地域与跨国的合作趋势日益显著。

从研究机构性质来看,在机器翻译领域取得重大进展的多为理工类科研院校的NLP实验室或综合类院校的计算机学院、人工智能学院或信息学院,院校的相互合作更易于开展对机器翻译的多领域、多角度和多学科的探究与应用。前沿科技公司微软、谷歌、Facebook、腾讯、阿里及百度在机器NLP层面已经有所建树,研究热度持续高涨,如谷歌于2016年基于人的神经网络推出的GNMT系统,大大提高了翻译的流畅度和准确性,提升了机器翻译的质量,并引发机器翻译领域的新一轮革新。

整体而言,基于微观与中观角度,学界在机器翻译领域已经形成了稳定的合作团队,核心作者、领军机构共现知识网络密度较高;且研究多以机构某一代表性人物为核心组建团队、成立科研实验室进而展开团队合作,规模较大、学术底蕴深厚的科研机构更易于开展跨学科、跨校与跨区域的项目研究,这与国家的政策导向、信息化建设的战略定位、人工智能的发展、科研结构的优化合作及人才的聚集有密切关联。同时,需要注意的是,机器翻译虽为热点研究领域,但仍有不少科研结构处于自创自研的初级阶段,还未形成紧密的合作团队,它们的进一步发展,仍需充足时间和空间来推动合作,以此深化机器翻译研究的广度。

四、研究热点分析

1. 作者共被引分析

就被引文献而言,作者共被引分析能够揭示该学科领域具有核心影响力的奠基者及该领域学科知识基础的构成。具体而言,通过追踪相关被引文献作者,可以厘清机器翻译研究的整体进程与核心人物。将语料导入CiteSpace,阈值设为200,即检索出文献共被引次数大于200的作者,绘制的作者共被引共现网络图谱见图3。

图3 国际机器翻译研究作者共被引网络图(2012—2021)

基于生成的网络图谱,研究发现共被引频次位居前列的学者包含Papineni(1 463次)、Koehn(1 450次)、Vaswani(895次),以及Sennrich(753次)等,这些国际学者在机器翻译研究领域具有强大的影响力,某种程度上奠定了机器翻译产生的知识基础。

在图3中,Sennrich作为NMT的领军人物,主要研究高质量机器翻译,包括基于语法的SMT和NMT,于2016年率先提出运用分析算法构建双字节编码将单词分割成子词单元序列;Koehn作为约翰斯·霍普金斯大学的教授,早年提出的基于短语的统计翻译模型极大促进了SMT领域的发展,同时又助推学界开启了NMT的研究历程,成为国际机器翻译研究的奠基人物,其经典论文ConvergenceofTranslationMemoryandStatisticalMachineTranslation及著作StatisticalMachineTranslation、NeuralMachineTranslation已经成为研究者探索机器翻译的必备读物。

除了高校学者外,不少科研机构的研究人员在NMT领域也取得了突破性进展,例如谷歌公司的研究人员Vaswani及其同事在2017年发表论文AllAttentionisAllYouNeed,首次提出运用基于自注意力机制的Transformer模型代替传统RNN模型(Recurrent neural network,循环神经网络)来建构序列数据,这一深度学习模型的革新引发国际学界的轰动。至今,Transformer模型仍在NLP领域占有举足轻重的位置。先后在谷歌、微软任职的科研专家Papineni提出的基于特征的自然语言理解方法及用于评估翻译文本质量的Bleu评分,直接影响了SMT模型的产生。

表3 国际机器翻译研究高频被引作者热点研究议题(2012—2021)

高频次被引学者的研究关注点主要聚焦于机器翻译的编码与解码、翻译质量的评估与优化、注意力机制、预训练语言模型Bert、双重语料对比以及多模态翻译如discourse(话语)、speech translation(语音翻译)和image captioning(图像翻译)等方面(见表3)。通过将被引作者的热点研究进一步归类可以发现,国际学界对机器翻译的关注呈现以下特点: ①关注翻译模型的改善以优化翻译质量; ②聚焦时代需求,着力探索融合图像、文本、口语、音频与视频等模态信息的多模态机器翻译; ③多语种机器翻译得到重视,尤其是多语言翻译能力的提升。

2. 关键词共现分析

关键词共现作为文献计量的重要研究方法,常用以剖析某领域的研究热点与前沿,尽管这种基于单词的孤立分析会破坏原有的知识结构,但关键词共现分析能够高度显现某一动态研究领域的研究议题[17]。通过VOSviewer对关键词进行统计,将关键词共现次数阈值设为15,为保证分析结果的准确性,对提取的高频关键词进行二次检索,去除重复词汇(首字母缩略词与单复数同现词)及频率最高但无意义的关键词machine translation,共得到83个共现关键词,共现网络图谱如图4所示。

通过对比呈现的关键词频次和连接强度,发现近10年国际机器翻译研究主要聚焦在以下4个研究议题。

研究热点1: 自然语言处理

NLP作为计算机科学与语言学的交叉研究领域,它的兴起与机器翻译息息相关,主要通过计算机来处理、理解及运用人类语言。由图4可见,图中左侧节点围绕着NLP组成了第一大聚类,从该聚类的共现关键词recognition(识别)、bleu(自动评估机器翻译的方法)、hybrid machine translation(混合机器翻译)及computational linguistics(计算语言学)等可以看出,NLP近年来主要致力于通过bleu算法提高翻译质量,同时也借助多种翻译策略如混合翻译策略提升译文结果的准确性。此外,NLP展开多语种的翻译实践研究并显现出学科交叉融合的研究趋势。

研究热点2: 统计机器翻译

SMT基于规模宏大的语料库,用统计学方法建立机器自动翻译系统,一方面有效减少了对人工的依赖;另一方面,可以借助形式化语法的翻译模型灵活处理语言结构。图4中下方节点以SMT为核心主题形成了第二大聚类,该聚类还包括lexicon(词汇)、parallel corpus(平行语料库)、multilingual(多语言的)和domain adaptation(领域自适应)等词。由此可见,在SMT研究领域,学界充分利用双语平行语料库资源,从基于单词的机器翻译逐步过渡到基于短语的翻译;如何提高SMT系统的领域自适应能力也一度成为学界的研究热点。

研究热点3: 神经机器翻译

NMT是近年来一种新兴的机器翻译技术,随着翻译模型的不断发展,逐渐成为语言翻译行业的主流翻译技术。作为一种全新机器翻译模型,NMT通过使用深度学习神经网络获取自然语言之间的映射关系,实现源语言到目标语言的直接翻译[18],有效避免了传统SMT翻译中繁杂的转化过程,NMT也因其简洁、高质高效和良好翻译性能得到学界广泛认可。

从NMT为核心聚类共现的高频词quality estimation(质量评估)、reinforcement learning(强化学习)、low resource language(低资源语言)、post-editing(译后编辑)与translation technology(翻译技术)等可以看出,NMT的近年研究进展侧重于翻译质量的提升、人机交互尤其是译后编辑的交替应用、提高NMT在目标域数据准确性和性能等方面。随着NMT在高资源语言翻译任务(如英法翻译、英汉翻译)取得的突破性进展,学界还将关注点聚焦在如何提升低资源语言情况下机器翻译的任务,例如加泰隆语—汉语翻译实践的质量[19]。

研究热点4: 深度学习

深度学习凭借庞大的数据集和强大的计算能力建立深层神经网络,并基于其深度、隐性学习与算法正则化的显性特征模拟人脑机制完成对数据的分析,进而提高不同层次上对数据的解释能力[20]。为了进一步提高传统机器翻译的质量,深度学习广泛应用于机器翻译语言处理中,深度学习基于Seq2Seq(序列到序列)模型,由encoder和decoder(编码器和解码器)及连接二者的向量组成。由图4可知,该聚类围绕着深度学习,从多角度展开对语言模型的研究,如解码器和编码器依托的RNN模型和long short-term memory(长短时记忆神经网络);利用Transformer模型推广attention mechanism(注意力机制)以得到更优质的翻译成果;通过convolutional neural networks(卷积神经网络)和RNN模型提升的潜在翻译效果。同时,深度学习也被用于多模态翻译实践中,如speech recognition(声音识别)。

综上所述,国际机器翻译的研究热点主要聚焦于机器翻译技术的革新、语言模型的研究、翻译质量的提升、高资源和低资源语言翻译任务的执行等方面,这些研究热点凸显了机器翻译跨学科的研究趋势。同时,研究热点与被引文献的作者共被引分析显现的知识基础具有一致性。由此可见,随着人工智能的迭代发展,机器翻译技术、模型与质量等将在批判的继承中不断优化,推动NLP的革新。

3. 机器翻译前沿趋势

突现词检索(Burst words detection,简称为BWD)逐渐成为内容分析的重要途径,在CiteSpace中陈超美引入Kleinberg的BWD算法以期探索学科领域的前沿发展趋势与交互关系[13]。具体而言,突现词是指一个变量在某一时间发生显著变化(如图5所示),其中的起始年份和突现强度可以直观展示出研究前沿之间的变化路径。通过CiteSpace对关键词进行分析得到近10年国际机器翻译研究突现的关键词分布。

突现关键词揭示了近10年国际机器翻译领域的演进路径,凸显了不同阶段机器翻译研究主题的变化情况及该领域研究的前沿趋势。在波动发展阶段(2012—2017),SMT成为该阶段的研究热点,研究成果主要围绕着SMT模型参数的设置、翻译质量的提升及翻译技术的优化展开;而在快速发展阶段(2017—2019),突现的关键词为image captioning(图像描述或看图说话)、low-resource language pair(低资源语言配对),体现了机器翻译中人机交互和多模态机器翻译得到突破性进展;在稳定发展阶段(2019—2021),学界研究的着力点聚焦于NMT、Transformer模型、迁移学习及无监督机器翻译。

图5 国际机器翻译研究突现关键词检测图(2012—2021)

五、结语

本研究借助科学计量软件CiteSpace和VOSviewer呈现的知识图谱对WOS核心数据库中2012—2021年10年间以“机器翻译”为主题的文献进行可视化分析,研究发现:①近年来国际机器翻译研究呈现出波动式上升、稳中求进的发展态势,研究热度、学界关注度稳步上升,国际机器翻译研究步入成熟发展阶段;②从微观和中观视角探究施引文献学科力量分布,可以得出,国际机器翻译研究形成了四大显著的合作群体,科研高产结构集中分布在中国、美国、英国、日本、印度、德国、西班牙和瑞士等国家。总体而言,机器翻译的整体科研合作紧密,已经形成了规模化的合作团队,规模较大、学术底蕴深厚的科研机构更易于开展跨学科、跨校、跨区域与跨国合作研究;③国际机器翻译研究热点主要集中在NLP、SMT、NMT与Deep learning的深度研究上,这些议题凸显了机器翻译研究跨学科的趋势,融合了计算机科学、翻译学、语言学及工程学等知识;④机器翻译的前沿趋势主要集中在计算机视觉和自然语言处理的有机融合、NMT、无监督翻译与基于Transformer模型的神经网络结构。

随着人工智能的快速发展,2012—2021年10年间国际机器翻译研究取得了丰硕成果,中国、美国、英国、日本和西班牙等国家形成了稳固的学术共同体,国际合作密切,但还有待提高;部分科研机构形成了以学术领军人物为中心的单核心发展模式,新兴科研力量势单力薄。因此,未来应该更加侧重研发结构之间的合作及新兴研发人才的培养,从而助推科研创新并拓宽机器翻译的内核研究。

国际机器翻译近十年的动态演进——基于CiteSpace和VOSviewer的可视化分析

一、 文献回顾

二、 研究方法

三、 高产作者与研究结构分析