文/郑州轻工业大学 戎璐
2022年是“十四五”规划和向第二个百年奋斗目标前进的关键之年,我国正处于科技飞速发展的关键时期,也是大数据产业迅速发展的时期。大数据产业的快速发展与数据的不断积累,引起了数据驱动方式与算法范式的变革热潮,以机器学习、深度学习为支撑的人工智能技术发展得如火如荼,已经广泛应用到社会生活的各个领域,引发各行各业向自动化、智能化改革。对图书馆而言,借助人工智能技术的有效应用,推进传统服务模式创新发展,构建智慧图书馆,不但能够确保馆藏资源的有效传播与利用,还可以为广大读者带来更加便捷、智能、精准的服务。
机器翻译是人工智能的终极目标之一,被学术界视为人工智能研究皇冠上最耀眼的一颗明珠。机器翻译肩负着架起语言沟通桥梁的重任,在促进图书馆自动化、智慧化、未来化建设中具有重要实用价值。因而,越来越多的研究者纷纷将目光转向机器翻译在图书馆领域的研究,他们在跨语言检索、多语言服务等方面展开研究,并取得阶段性进展。例如刘莉等人采用文献分析法、案例分析法和网络调查法等梳理机器翻译在图书馆领域的发展现状,并进一步提出未来的应用趋势。同时还讨论了机器翻译研究的局限性,并立足于不同角度,试图提出多语言自动翻译平台的构建策略。
此外,就机器翻译在图书馆的应用现状而言,国内许多图书馆如南京图书馆、浙江大学图书馆、云南高校图书馆、江苏大学图书馆都在探索机器翻译在信息检索、文献翻译等方面的优化。但是通过反馈调查,发现仍然存在对缩写词、新生词以及长难句等翻译效果不佳的情况。就郑州轻工业大学图书馆而言,网上图书馆已经能够进行中英文检索,构建起了图书双语检索平台,这一点极大地方便了师生对馆藏资源的利用。但是,如何将图书馆内的数字资源与机器翻译更好地结合,在搜索的同时还能准确地对文献进行自动实时翻译,以便能够同时服务于不同专业学生的借阅需求、满足不同层次学生的文献检索查阅需要,实现馆藏资源的最大利用,还有待进一步挖掘与探索。此外,机器翻译在现有图书馆中应用范围与广度的潜力还有待开发。
上述研究成果与应用现状推动了机器翻译在图书馆中的研究,也鼓励了本文的开展。但是,现有研究因其学科视角与切入点不同,导致其对机器翻译的理解各异,尚未形成全面的视野。
针对此,本文立足于大数据时代背景,首先归纳机器翻译的内涵和发展脉络,梳理机器翻译在图书馆领域的国内外研究现状。其次分析了领域内主流研究方法的优势与不足,剖析目前存在的研究问题,并提出简单的解决方案。最后展望未来可能的研究方向与设想,以期对机器翻译在图书馆的应用路径提供新思考与启发。
(一)机器翻译的内涵与发展。机器翻译是人工智能的重要分支之一,旨在通过计算机与领域知识将一种语言自动转换成另一种语言。机器翻译综合了计算机科学、信息学、语言学、统计学、社会学等各个学科知识,研究领域覆盖深度学习、语法规则、俚语文化等多个主题,内含多学科视角与跨学科本质。机器翻译的起源可以追溯至公元前8到9世纪的古希腊时期,Al-Kindi最早萌生语言翻译的灵感,开发出系统语言翻译技术,包括机器翻译中使用的密码分析、概率和统计等规则。随后,机器翻译的概念出现于17世纪,法国哲学家、数学家René Descartes提出一种设想:创建一种通用语言,使得不同语言的相同思想共享一个符号。
随着科技与文明的不断前进,自50年代至60年代,前苏联与美国纷纷加大对机器翻译项目的资金支持,展现出一时的繁荣。受限于当时计算机硬件水平,机器翻译无法达到成熟且可被人接受的语言翻译质量,与人工翻译标准相去甚远,其经历短暂的繁荣期后进入萧条期。步入80年代后,随着计算机硬件水平的提高和成本的降低,研究者对机器翻译的统计模型表现出更多兴趣并进入实用化阶段。自此,随着计算机硬件与软件的不断提升,社交网络的流行与数据量的激增,对机器翻译的研究如火如荼。特别是深度学习提出以来,基于深度学习的机器翻译更是势如破竹,不仅质量达到人工翻译的水平,而且效率远超人工。机器翻译真正走向实用,成功应用到政治、文化、经济等各行各业。
据《2022中国翻译及语言服务行业发展报告》统计显示,语言服务提供商和服务需求方均认为机器翻译前景广阔,89%的语言服务企业希望投入更多的资金以支持本企业在机器翻译领域的发展,92.9%的翻译语言服务需求方认为机器翻译技术的使用可以提高翻译质量。此外,机器翻译的研究成果也不断涌现,例如NiuTrans支持300种语言互译,是全球支持语种对最多的供应商。澜舟科技在“汉语与15种语言”的机器翻译上达到了世界领先水平。谷歌推出“一千种语言计划”以支持全球1000种常用的语言模型。
(二)机器翻译在图书馆的应用研究现状。随着机器翻译技术在图书馆自动化、智慧化、未来化建设方面展现的广阔前景,越来越多的国内外研究学者将目光聚焦于研究机器翻译在图书馆中的应用,本文将概述与总结目前国内外本领域研究现状。
1.国内研究现状。国内主要以知网数据库为文献数据源,搜集了2012年至2022年近10年的相关研究。通过对文献的梳理与分析,本文将目前的研究分为四个方面,分别是机器翻译与跨语言服务、机器翻译案例研究、机器翻译与检索模型构建以及多语言翻译平台构建。
在机器翻译与跨语言服务方面,司莉等人立足于调研跨语言检索视角,采用文献调研法和网络调研法,选取11个国内外典型的跨语言检索平台进行研究,提出多语种翻译型数据库的跨语言检索功能开发策略;针对机器翻译案例研究,陈江萍等以德州历史数字图书馆作为研究案例,通过Google、Systran和Bing三个在线翻译系统进行人工评价,得出Google和Bing在未经过任何语料库训练情境下翻译效果更好的结论,讨论了借助Google翻译融入数字化图书馆建设;对于机器翻译与检索模型构建,余如等针对传统数字图书馆跨语言检索的问题,提出了一种新颖的图书馆汉英跨语言信息检索模型,该模型构建了汉英查询词互译关联规则,最后改进了现有图书检索系统的全面性与准确性;对于多语言翻译平台构建,徐莉等提出以机器翻译技术为核心,将其融入智慧图书馆建设,构建一个多语言自动翻译平台,以服务于图书馆多语言检索、多语言信息共享等。
2.国外研究现状。国外主要以谷歌学术(Google scholar)和Scopus数据库为文献数据源,搜集了2012年至2022年近10年的相关外文文献,通过对文献整合分析、归纳梳理,将其分为针对发展意义和问题探讨两类研究。针对机器翻译在图书馆的发展意义研究,Bowker等将渥太华公共图书馆的借阅服务翻译成西班牙语以满足西班牙语新用户的需求,他们通过对四个翻译版本,分别是基础机器翻译、快速编辑的机器翻译、最大限度人工编辑的机器翻译和专业人工翻译进行人工评估,结果显示,基础机器翻译无法满足用户的需求与标准,但是经过快速编辑后的机器翻译已经可以基本满足用户的查阅需求。他们认为机器翻译在图书馆中的研究可以有效提升图书馆自动化水平,提升不同语种用户的满意度,对新时代图书馆建设的发展路径具有重要研究意义。针对机器翻译在图书馆的问题研究,Bowker抛出机器翻译在图书馆应用的新问题:如何基于机器翻译技术提升图书馆员翻译素养,以提升自身工作能力,满足工作需要。对此问题,他们也给出了自己的答案,即与翻译专家、语言学专家合作,请专家参与培训图书馆员以及定时改进机器翻译技术。他们同样认为机器翻译是一把“双刃剑”,翻译人员有责任帮助非语言专业人员掌握机器翻译,而与图书馆合作就是非常有效的一种方法,达到了普及机器翻译的目的;Tripathi等则立足于社会伦理,提出独特的社会问题:如何评判图书馆管理人员与机器翻译技术的依赖关系?针对此问题,他们认为图书管理人员和其他信息专业人员对于现有的机器翻译工具不可过分依赖,可以借助工具进行初始分类,但对于文档内容分析,仍需要在语言专家的帮助下对内容进行分类或提供给用户。
结合笔者日常工作而言,机器翻译在图书馆中具有多方面的影响。首先,对信息资源智能化建设影响较为显著,主要体现在可以基于查询人员(一般是借阅者)的查询词精准分析他们的需求,自动完成在线精确检索多语种文献资源,智能多语种标引、智能多语种摘要、多语种学科导航、构建多语种知识库等知识组织工作。其次,是对图书馆服务的影响较为显著。机器翻译可以有效协助留学生、外籍人士等自助办理借阅证、馆内导航、选座定座、检索、借还,提高服务效率,降低人工成本,也可以基于机器翻译技术举办多语种阅读推广、阅读交流、多语种讲座、展览、文化休闲等活动。笔者所在的大学图书馆更是正在筹备实施馆外智能中英文快递文献服务,延伸服务范围,服务于中文、英文借阅者。此外,机器翻译对图书馆员的影响较为显著,可以协助图书馆员完成多语种图书咨询,提升工作效率与质量。但是机器翻译的普及,也给图书馆员带来压力,使得馆员也需要同时学习外语以及相应的翻译技巧,转向学习型人才。
基于上述研究现状与实际应用分析,机器翻译在图书馆中的应用研究目前主要围绕跨语言服务、机器翻译质量评估、解决对策设想等方面展开。其中仍然存在若干问题有待解决。
(一)机器翻译技术适用范围的局限性。首先,是机器翻译和翻译技术适用范围有限,对文献题材翻译质量良莠不齐,主要体现在对专业性较高的文档,如新闻或者科技文献等翻译效果尚佳,对文学性、风俗性题材则不尽人意。目前最先进的神经机器翻译系统也只在对话和新闻翻译方面取得较好效果。其次,是机器翻译缺乏形象思维能力。翻译作为人类最复杂的认知活动之一,不仅需要逻辑思维能力,形象思维能力也必不可少,机器翻译可以通过数据训练学习逻辑思维能力,但无法学习人类的形象思维,所以在处理文学性较强的文档时翻译效果较差。再次,机器翻译对长句、难句翻译会出现逻辑混乱的情况。机器翻译以语句为单位进行输入,同样以语句为单位进行输出。实验证明,当语句单词数超过60个词时,机器翻译就很难厘清语句内部的逻辑关系。最后,机器翻译对文本的深层含义难以准确翻译,特别是一些隐晦性表达,机器翻译往往难以传其神。
(二)机器翻译数据库建设规模不足。数据库建设对机器翻译的长期发展意义重大,是机器翻译发展的驱动与保障,调查显示语料库规模需达到1500万语句时,基于神经网络的机器翻译性能才优于统计翻译。但在实际中发现,主流语言如中文、英语、日语等数据库资源比较丰富,而其他小语种资源则难以达到此规模。此外,主流语种之间的互译也主要集中在新闻和科技文本数据库中,其他领域例如文化类文档语料库相对缺乏。
(三)对最新成果关注度以及与图书馆发展契合度欠缺。《2020中国语言服务行业发展报告》显示,语言服务研究大多关注学科前沿热点,但对行业实际问题关注不足。虽然机器翻译目前应用到各个领域,但在图书馆应用方面模式较为单一,图书馆其他方面的应用还有待探索。此外,机器翻译主要应用于文本翻译任务,而语音翻译方面则鲜有涉及。随着图书馆智慧化建设,如何将机器翻译应用到图书馆适合的应用场景中还有待进一步探索与发现。
(四)缺乏完善的理论指导。机器翻译并没有一种完善的方法或者成熟的理论去指导机器翻译在图书馆中的发展与应用。此外,在专业人员方面,图书馆缺乏具有机器翻译素养的人才,导致机器翻译在实际应用中无法做到物尽其用,这些都将影响机器翻译在图书馆的应用潜力。
(一)人机合作新模式,提升翻译质量。据《2022中国翻译及语言服务行业发展报告》统计显示,91%的语言服务企业认为采用“机器翻译+译后编辑”模式提高了翻译效率。针对机器翻译译文本身质量而言,采用人机合作可以更好地提升机器翻译质量,给用户带来更好的体验。对译文质量要求不高的文本如网页信息、邮件等可以采用机器翻译;对译文质量要求适中的文本如法律文献、医学著作等可以采用人机结合的方式;对译文要求质量较高的文本如文学、哲学等文本则仍需要专业人工处理。针对不同的文本选择不同的人机合作模式可以有效提升翻译质量,节省人力物力,促进图书馆智慧化转型。
(二)加强多语种数据库构建,推动多语言翻译平台建设。据《2022中国翻译及语言服务行业发展报告》统计显示,近年来,语言服务企业翻译语种主要集中在英语、法语、日语等常用语种,但主要语种的业务比重明显下降,其他小语种有所上升。总体而言,语言服务企业语种业务呈多元化发展趋势。加快构建多语种数据库对于机器翻译的速度和质量有着重要意义。此外,多语言翻译平台的构建也势在必行,越来越多的研究者试图提出信息检索模型和多语言自动翻译平台的设计构想,以期推动多语言翻译平台的创建。
(三)加强最新成果转化,寻求机器翻译与图书馆的契合点。大数据背景下,图书馆正面临从传统图书馆向数字图书馆再到智慧图书馆的转型,图书馆的服务内容和服务方式正面临重大的变革,图书馆不应只将关注点放在跨语言服务中,还需要随时关注机器翻译的最新成果,例如将语音翻译应用到图书馆中以此来提高翻译效率。此外,一些新型技术在图书馆中的应用已经取得一些成果,如AR和VR技术等,图书馆可以将机器翻译与AR、VR技术结合使用,进一步提升读者的阅读体验。此外,机器翻译在图书排序、图书组织、索引等方面的应用也亟待探索。
(四)加大对机器翻译理论的研究力度。单靠数据驱动的机器翻译方式难以同时做到“信、达、雅”,本质上还是要推动对语言翻译、语言规则的研究,创建机器翻译的理论体系,进而衍生出机器翻译在图书馆的理论指导,例如图书馆文档规则下的机器翻译偏好等。应当以理论指导应用,促使机器翻译在图书馆发展中更完善、更严谨。
机器翻译在推动图书馆向智慧化转型方面的重要性已经被各行各业所认识,其在图书馆中的应用已经成为图书馆建设中的核心研究课题,受到学术界与工业界的共同关注。本文在上述章节中详细描述了机器翻译的各个方面,通过这些描述,对机器翻译的研究背景、问题定义、发展脉络与最新现状、相关性工作及已存在的科学问题具备清晰的了解。针对现有工作的不足,试图提出若干策略与设想。例如通过人机合作来提升翻译质量、提高效率、节约成本,推动多语言数据库的建设,加快多语言翻译平台的构建,关注机器翻译技术的最新成果,寻求在图书馆应用中的契合点等。虽然机器翻译在图书馆的应用已经取得阶段性成果,但未来机器翻译领域的发展还有待进一步探索与研究。