突发公共事件中机器翻译辅助应急语言服务的问题与对策

2022-02-14 04:27滕延江
现代语文 2022年12期
关键词:译文应急语言

滕延江

(鲁东大学 外国语学院,山东 烟台 264025)

一、引言

当前,随着全球化及城市化进程的加速推进,人口流动日趋频繁,多元人群融合聚居,多语社区日益增多。在这一背景下,一旦发生突发公共事件,克服语言障碍,保持信息畅通乃是生命攸关之事[1](P305)。自2020 年初新冠肺炎疫情发生以来,语言学人勇于担当,以“语”抗疫,应急语言服务顺势而为,在传播疫情防控动态、普及疫情防控知识、监控网络信息舆情、疏导公众心理等方面,作出了重要贡献[2]、[3]。不过,由于应急信息专业领域强,信息指令变化快,仅靠人工译员已难以满足复杂的语言现实需求,应急语言服务中的信息技术支持日益受到重视[4]。学界围绕应急语言服务的各个层面展开了讨论,如应急语言服务基础设施建设[3],应急语言数据库、人才库筹建[5],应急语言服务技术产品研发[6],应急语言服务技术培训等[7]。然而,由于现代技术应用于应急语言服务的历史较短,在实践中仍然存在着诸多不足之处[1]、[4]、[8]。

以机器翻译为例,借助该技术可以实现两种语言间的自动转换,极大地提升了信息产出的效率。与此同时,由于应急信息具有特殊的专业属性,机器翻译后的译文并非直接“拿来”就能运用,因此,还需要译后编辑及审核等环节[1](P310)。换言之,在当前阶段,机器翻译仍不能完全脱离人工辅助,人机互动是必不可少的[9](P319)。就目前的研究来看,学界针对机器翻译与应急语言服务的探讨还不够深入。饶高琦曾指出,2020 年,机器翻译技术已经应用于新冠肺炎疫情期间的应急语言服务工作,但也仅仅局限于外语与汉语之间的语言转换层面,诸多新领域尚待开发[10]。至于机器翻译辅助应急语言服务实践中面临哪些问题与挑战,如何做好译文质量评估,如何提升客户满意度等问题,并没有展开系统讨论。有鉴于此,本文梳理了机器翻译应用于应急语言服务的研究现状,指出了该领域所面临的问题与挑战,并提出了相应对策,以期突破质量瓶颈,进一步提升应急语言服务的效能。

二、机器翻译与应急语言服务研究现状回顾

机器翻译是一种自动生成的语言转换活动,具有速度快、效率高的特征,可以瞬间完成大量词汇的翻译工作。同时,机器翻译可以支持多种语言的大规模翻译,减少人力劳动付出与成本,对于跨语言信息传递及产品推广具有无可比拟的优势。了解机器翻译的发展历史及工作原理,对于更好发挥其优势,扩大其应用场景,特别是针对应急语言服务的实践,均具有重要的现实意义。

(一)机器翻译的本质

机器翻译是借助高科技手段将一种语言自动转换成另外一种语言的行为。译文质量是机器翻译的核心环节,需要确保内容准确,表达自然流畅,符合目的语的表达习惯。机器翻译自动生成的文本,既可以不作修饰直接采用,也可以进行译后编辑(postediting)再使用。能否进行译后编辑则取决于多种因素,如翻译机构是否具备双语(或单语)人才,对译文质量的认可程度,对受众的重视程度等。机器翻译并不是一个新的概念,根据Melby 的观点,机器翻译自20 世纪40 年代萌芽以来,先后经历了三个范式的演进。一是规则机器翻译范式(rule-based machine translation,简称“RBMT”):基于词汇结构、语法规则分析,依靠词汇、句法的对应关系及简单的语义分析进行文本转换;二是统计机器翻译范式(statistical machine translation,简称“SMT”):基于训练数据自动分析,借助双语平行语料库内的源语文本及其参考译文,进行数据驱动的文本转换;三是神经机器翻译范式(neural machine translation,简称“NMT”):基于机器学习原理,模拟人的神经元机制,开展信息的编码与解码,进行语言的映射转换[11](P419)。

上述三个范式在不同语言信息处理上的准确度、流利度并不相同,这主要取决于译入语文本数据库的规模与机器学习的能力。例如:有些小语种,由于数据存储数量有限,可资参考的平行语料库源语言数量不足,或许只能进行基于规则的机器翻译。反之,如果现有数据庞大,译文的翻译记忆库资源丰富,翻译引擎系统信息完备,便可采用基于神经机制的机器翻译实践。其中,机器记忆(machine memory)是决定译文质量高低的主导因素:前期收集的语料数据库越大,专业性越强,术语翻译的一致性越高,其产出的译文速度越快,质量也更好。因此,扩大语料库规模,做好平行语料库建设,归类总结常用术语表达方式,增加翻译记忆库容,引领机器不断学习新知识,改进机器翻译引擎,是十分必要的。唯有如此,才能做到“平时备急,急时不急”,从而有效提升应急语言服务的译文质量水平。

(二)机器翻译与应急语言服务实践

机器翻译大规模应用于突发公共事件救援实践,只是最近十年以来的事情[8]。就国外方面来说,O’Brien指出,在机器翻译辅助应急语言服务中,译后编辑不可或缺,“机器翻译+译后编辑”是应急语言服务需要遵循的基本原则[1](P307)。事实上,应急语言服务中机器翻译的作用不仅仅局限于不同语言间的转换,还包括收集相关危机报道、社交媒体公众态度、官方应对指南等信息,以此来扩容翻译记忆库[12](P501)。据此,Lewis 团队提出了“机器翻译危机食谱(machine translation crisis cookbook)”这一概念,认为该“食谱”包括内容与基础设施两个层面:前者指的是与危机有关的词汇、句子、术语、表达方式;后者指的是救援人员、突发事件受害者、援助机构等信息利害相关者。二者需要密切配合,无缝衔接,才能提升应急语言服务的效能[12](P501)。此外,一些非营利组织也将机器翻译应用于应急语言服务实践。“无国界翻译员(TWB)”以援助遭受突发公共事件影响的语言弱势群体为使命,该组织曾为罗兴亚人开发了罗兴亚语(Rohingya)的语音和文本数据库。由于罗兴亚语只有口头语言,而没有标准化的文字,这就给机器翻译技术带来很大挑战。TWB 人员基于语音和文本的数据、技术,为该边缘化语言建立了可复制且可扩展的机器翻译引擎,确保他们可以使用自己所理解的语言来获取应急信息,增强了他们对政府发布信息的信任程度[13]。这是因为公众对信息的理解程度决定着对信息发布者的信任程度,经过译后编辑的信息,因其流畅度、准确度高,更容易获得居民的信任[14](P12)。

就国内方面来说,我国一直高度重视应急语言服务机制体制建设。2021 年,国务院印发的《“十四五”国家应急体系规划》中明确提出:“提升应急救援人员的多言多语能力,依托高校、科研院所、医疗机构、志愿服务组织等力量建设专业化应急语言服务队伍。”这为应急语言服务能力的提升迎来来了新的发展契机。不过,探讨机器翻译与应急语言服务应用的论著还不多见。孙逸群针对不同类型抗疫文本,对比分析了机器翻译与人工翻译的译文质量,认为译者需要进行译前核查、译后编辑,以此来提高器翻译的效率和质量[15]。曾江霞以新冠肺炎和新冠病毒术语翻译为例,讨论了机器翻译中术语优化和科技名词规范等翻译标准化工作[16]。有些研究虽然不是以突发公共事件为例,但也涉及到译后编辑或英汉平行语料库的设计与研制工作,这些探讨对机器翻译的实际应用提供了有益的启示[17]、[18]。在语言产品研发方面,科大讯飞所开发的中文与多语种外语之间的翻译产品,助力基层工作人员与外籍人士的对话交流,消除了信息沟通之间的障碍,受到使用者的普遍好评。

三、机器翻译与应急语言服务面临的问题和挑战

在现实实践中,机器翻译一方面提升了应急语言服务的速度,可以迅速地将相关信息传递给那些具有迫切需求的受众,以方便他们采取行动,及时获得救助。另一方面,这些信息有可能会存在译文不得当、术语不准确乃至伦理失范等问题,如果在机器翻译之后不加编辑、甄别地使用与发布,有时甚至会产生适得其反的严重后果。

(一)文本挑战

可以说,机器翻译能够有效提升翻译的产出效率。尽管应急语言服务对信息的准确度要求较高,但是由于专业人员十分短缺,应急信息不加译后编辑就发布的情况时有发生。例如,在2022 年疫情防控期间,上海市某居民小区的社区工作人员在发布应急信息时,利用微信给住户群发消息,并附上了系统自带的机器翻译文本内容:

(1)各位宝宝们下午好!

明天下午1 点公寓会安排消杀工作,如果有需要入户消杀的宝宝们请微信与我们沟通哈。

Good afternoon:

Tomorrow afternoon at 1:00 apartment will arrangement the killing work,if there is a need to kill the baby in the house,please communicate with us through WeChat.

该通知中的“宝宝”是一种淘宝体,作为一种网络社交媒体用语,类似于“亲”“亲们”的用法,以此来表达一种亲近感。对于熟悉社交媒体的当地人而言,并不突兀。不过,译文中的“baby”却与原文的含义相距甚远,这里应该采用“neighbors”或者“residents”。不仅如此,通知中“消杀”的对象是病毒,而非baby。对于不熟悉中国网络文化的外籍人士,万一家中有儿童的话,会不会产生误解呢?

同样这句话,谷歌翻译于2022 年6 月1 日所给出的译文,里面也包含“kill the baby”的信息,甚至表达得更为直接:“Good afternoon,babies.The apartment will arrange killing work at 1:00 pm tomorrow.If there are babies who need to be killed at home,please communicate with us on WeChat.”同一文本,百度翻译的译文质量则有所改进(2022 年6 月1 日):“Good afternoon,babies.If there is someone who needs disinfection and sterilization in the house,we will arrange for disinfection and sterilization at 1 p.m.tomorrow.Please let WeChat communicate with us.”此处“消杀”的意思虽然翻译准确了,但还是把“宝宝”译为“baby”。就此而言,仅仅依靠机器翻译不加审核就发布的做法是不可取的。试想一下,如果这些信息被别有用心的人拿到境外传播,在缺乏具体语境的情况下,很可能就会产生误解,至少是拉低了对上海这个国际大都市的印象,直接影响到城市的形象。

根据这一通知的语境,我们需要在机器翻译的基础上进行译后编辑加工,可以将“宝宝”调整为“everyone/residents”,或者更为口语化的“guys”;将“killing work”“kill the baby” 修改 为“disinfection work” 或 者“disinfection services”,以消除误解。这样一来,经过译后编辑的通知就是:“Good afternoon,everyone!The apartment will arrange disinfection work at 1 o’clock tomorrow afternoon.If there’s anyone who needs disinfection service,please communicate with us on WeChat.”

需要指出的是,机器翻译文本的人情味也不能缺失。在文本翻译时,要提前做好文化适应工作,应充分考虑到多元文化人群的适应能力,如他们的文化水平、生活习惯以及在突发事件的应急反应方式上的差异等。同时,发布的信息不能过于书面化,应尽量减少行话术语,可以采用图片、图示、漫画、语音等多模态形式。对于一些使用群体较少的低源语言(lowsource language)居民,更要多加关爱,与内部人士提前做好沟通,邀请他们帮助审核内容,避免产生文化上的误解与冲突,防止信息的二次伤害。

(二)术语挑战

专业术语翻译一直是应急语言服务中的难点,如果处理不当,不但受众不知所云,甚至会造成不良影响。例如,我们所常见的“讲好中国故事”这一译文,百度翻译与谷歌翻译给出的译文并不相同,其含义也大相径庭。百度在2022年6月2日给出的译文是:“Tell a good Chinese story.”而谷歌2022 年6 月2 日的译文则是:“Tell Chinese stories well.”百度译文容易使外国人士感觉我们只是选择好的故事进行传播,而有意掩盖一些非主流的故事,宣传的痕迹较为明显。谷歌译文则使用了“well”一词,并放置于句尾,它带给受众的直接感受是:我们只是进行文体修辞上的斟酌,并不涉及故事选择本身,这一效果无疑要好很多。目前,官方给出的译文为:“Tell China’s story well.”

在新冠疫情防控中,会涉及到很多医学、生物学方面的专有名词,如果翻译出现偏差或失误,很有可能会误导他人。例如,“外防输入、内防反弹”涉及“输入病例”这个表达,其英文翻译也有值得商榷的地方。2022 年3 月31 日,“上海市委市政府致全市人民的一封信”中将其译为:“controlling imported COVID-19 cases and preventing the existing infections from rebounding.”世界卫生组织也采用了import 这个词语,将其译为“imported cases”。值得注意的是,import 意味着一种主动行为,即进口自己所需要的产品、技术或服务,而病例显然并不是我们所需要的。正如黄友义所指出的,翻译的本能就是咬文嚼字,咬得越准,嚼得越细,越能精准把握文化信息的转达[19]。下面一句话的译文中并没有出现import 这个词,但所要传递的信息已经充分表达出来:

(2)卫生官员表示,本土传播感染35 例,境外输入病例7 例。

Health officials say the total includes 35 local transmissions and 7 originating from overseas.

这里需要指出的是,“隔离”这个术语有isolation 和quarantine 两个表达,其含义是不同的:“isolation”特指将患有传染病的病人与没有生病的人分开;“quarantine”则指的是限制密接患者的行动,以观察他们是否生病。因此,我们需要根据具体场合、个人情况,慎重选择相应的词语。再如,关于“致境外来京人员的一封信”的翻译,谷歌给出的译文是:“A letter to foreigners coming to Beijing.”百度给出的译文则是:“A letter to foreign personnel in Beijing.”可以看出,这两种译文版本都将这句话中的“境外人员”译为了外国人,实际上,境外来京人员也包括从境外返回的华人同胞。相比而言,官方的译文就得体很多:“Message for inbound travelers”。

(三)技术挑战

当今世界,重大突发公共事件往往会涉及语言问题,借助高科技智能技术寻求语言解决方案、提升救援效率十分必要。就技术层面而言,机器翻译的最大挑战是在于现有语言数据的储存数量限制了译文质量。2010 年1 月,海地发生强烈地震之后,大批国际志愿者与专业救援人员进入震区,由于他们不懂当地的克里奥语,于是便采用机器翻译在英语与克里奥语之间进行语言转换。不过,因为之前的翻译记忆数据储备不足,所收集到的克里奥语语料有限,所以译文质量无法满足需求,难以胜任工作[12](P503)。事实上,除了现有的数据库之外,成功的机器翻译还离不开大量的动态数据的支持。例如,抗击新冠肺炎疫情期间,智能语言工具平台YEEKIT 通过收集、整理、分析与病毒有关的新词汇、新术语的表达方式,经过资深专业领域人士审核后,组建专业疫情信息语料库,改进翻译引擎,更新翻译记忆库,提高了应急医学信息的译文质量。

在突发公共事件中,各种情况难以预测,如果出现停电、断网的情况,高科技产品及服务能否正常开展工作,能否保障译文的质量及译后编辑水平,这也是应急语言服务必须面临的技术挑战。以科大讯飞的机器翻译为例,第一代翻译机产品对网络要求较高,而国外不同场景网络覆盖情况差别很大,网络问题遂成为机器翻译推广的一大障碍。科研团队为此不断加大攻关力度,研发出离线翻译应用技术,实现了翻译技术层面的重大突破。

(四)伦理挑战

众所周知,应急语言服务是一项人际服务,只要是涉及人与人之间的交互,就会有伦理问题[20]。机器翻译尽管是由系统自动生成文本,但也面临着个人隐私、信息的所有权、归属权问题。在具体实践中,如何保护客户隐私安全,防止人为泄漏个人信息,需要采取积极有效的措施。在有些情况下,虽然对相关数据进行了匿名处理,但仍有可能通过其他途径而推断出当事人的信息,从而造成潜在的数据泄露。就译文层面而言,仅仅依据于机器软件而不进行译后编辑或者审核是根本靠不住的,在自媒体时代,稍有不慎就会引发舆情关注。比如,最近合肥市一则通告的英文翻译就上了热搜,该通告将“境外来(返)肥人员及时向社区报告”翻译为:“Foreign(back)fat people timely report to your local community.”原文中的“肥”字本是合肥市的简称,一个城市名被译为“fat”,成了以体重区分人群、带有歧视现象的表达,引发了网友的调侃与不满。更为可笑的是,同一表达,谷歌与百度的译文更是不着边际:合肥这座城市一个成了化肥(fertilizer),一个则成了化肥工人(fertilizer workers)。

(3)Persons from overseas(returning)to fertilizer report to the community in a timely manner.(谷歌,2022-06-02)

(4)Foreign(returning)fertilizer workers shall report to the community in time.(百度,2022-06-02)

可见,机器翻译只能是辅助工具,其译文需要专业人员审核后方可发布。再如,据澳大利亚广播公司(ABC)中文网报道,澳洲政府防疫信息的译文错误连篇,令人不知所云:对多元文化社区而言,一方面,容易引发多语群体的担忧;另一方面,则会对政府失去信任,破坏了信息的权威性。就伦理层面来说,多言多语群体往往是突发公共事件中的弱势群体,政府及社会团体平时要加强与他们的沟通交流,不能仅在危机时刻才想到他们。只有平时备急,才会在危机时刻赢得居民的充分信任。

四、机器翻译与应急语言服务的应对策略

今后,突发公共事件中机器翻译应用于应急语言服务会愈加普遍,我们有理由相信,随着人工智能技术的突破、云端大数据共享机制的建立,机器翻译文本的质量也会得到显著改进。因此,我们需要在专业领域数据库筹建、译后编辑人才培养、机器翻译译文质量评估等方面加大力度,做到信息的个性化、精准化投放,从而有效提升应急语言服务效能。

(一)建立专业领域的数据语料库

机器翻译已经成为突发公共事件中应急响应的组成要素之一,其译文质量的高低主要取决于现有数据库的规模。今后,我们需要进一步做好数据规划工作。首先,应加强平行语料库建设,为翻译引擎扩容,增强机器学习能力。比如,收集公共卫生领域中的疫病防控及病毒语料库(术语、医学概念、防控词汇等),极端天气(干旱、洪水、严寒)领域的专有表达,民航业安全生产方面的专业词汇(呼叫信息、救生指南)等。其次,积极收集与之相关的衍生信息,打造信息聚合系统。这方面主要包括来自全球对特定突发公共事件的新闻报道,对经济领域的影响,甚至是不同国家对于戴口罩、隔离政策的反应等。在这一基础上,做好数据的分门别类工作,并提供主题、关键词等主要信息,以方便检索获取。当然,这些专业领域数据库并不局限于文本信息,图片、语音、视频信息等多模态形式都可录入。再次,将数据库信息应用于语言产品,设计能够随身携带的智能手机应用(APP),随时在移动设备上更新术语、专业词汇,方便使用者获取最新内容。

(二)加大译后编辑人才培养力度

当前的翻译工作越来越多地使用和依赖数字技术,而高校人才培养机构要确保他们的课程与技术保持同步是一个挑战,机器翻译与译后编辑尚未完全纳入本科和研究生培养计划[21]。机器翻译如果脱离了人工的编辑与审核,所翻译出来的内容可能会既缺乏语感,也缺乏人情味,特别是在突发公共事件的情境下,对信息的准确性要求更高;一旦信息不准确,不符合受众的文化习惯,会影响居民对政府的信任度。可以说,“机器翻译+译后编辑”势必会成为应急语言服务的常态形式,这就对人才队伍建设提出了更高要求。第一,改革课程培养体系,围绕机器翻译可能出现的问题、译后编辑需要具备的能力,制定人才培养方案,专门开设译后编辑相关课程,增加学生的实训机会,锻炼学生的实际操作能力。第二,开展译后编辑专业技能培训,提升应急语言服务能力,应急语言服务人才队伍中的部分志愿者可能对机器翻译并不熟悉,可以对他们进行业务培训,编写适合短期学习的专业手册与辅导资料,使他们也能独立开展工作。第三,加大跨学科团队协同机制,与其他相关技术人员密切配合,做好研发工作。Lewis 等学者曾提及,微软团队与相关专业技术人员通力合作,2010 年为海地地震后的应急语言援助工作研发了一套机器翻译系统,涉及语音标注、句法结构、语法规则等语言学信息[12](P504-505)。今后,技术人员与语言服务工作者要多开展对话,获得反馈,从而提高后期编辑的效率。

(三)开展机器翻译译文质量评估

在应急语言服务中,信息准确是第一位的,今后需要充分重视译文质量的评价研究。我们可以从可理解度(understandability)、准确度(accuracy)和贴切度(appropriateness)三个维度,来衡量译文质量。第一,积极发挥社区和个体的能动性,加强专家学者与普通民众的沟通、合作。相关领域的专家应深入社区,采用“语言好客(language hospitality)”的理念与社区居民互动,邀请多言多语社区居民评价机器翻译译文,并提出改进意见,共同提高译文质量[22](P23)。第二,做好分场景的译文评价与训练,提升译文的情景化识别能力。机器翻译的难点之一是在于机器并不知晓原文信息的语境,无法体会到用户的实际需求。而做好分场景译文评价,一方面,可以解决机器翻译应用场景中的痛点问题;另一方面,也能够切实推动相关用户的亲身体验。以科大讯飞为例,他们依托用户使用场景洞察,探索出一套面向用户的评价标准:听得清、听得懂、译得准、表达美,做到可用、可读和可理解[23]。第三,采用众包翻译与机器翻译相结合的方式,切实提升译文质量。众包翻译(crowdsourced translation)是近些年来兴起的新型翻译业态,它能够充分发挥集体的智慧,群策群力,共同为专有名词、特定领域表达提供思路及创新性建议[24]。今后需要将机器翻译、众包翻译与译后编辑相结合,发挥团队优势,打造高质量译文。

五、结语

综上所述,本文首先回顾了机器翻译在应急语言服务领域中的研究现状,从中找出所存在的主要问题,并提出了具有可操作性的应对策略:加大资源建设力度,培养相关领域人才,开发相关技术产品,有针对性地开展应用实践训练,提升各类突发事件的应急响应能力。总之,突发公共事件不仅会给社会的正常运转造成强烈的冲击、给国家的经济发展造成巨大的损失,也会对社会公众的身体健康和生命安全构成严重的危害。语言是沟通的工具与桥梁,在突发公共事件中,信息沟通的清晰、准确、及时是至关重要乃至生命攸关的。突发公共事件的信息需求是即时的,机器翻译作为一种新型的信息处理工具,为消除沟通障碍、提升信息的准确传递发挥了重要作用[24]、[25]。可以说,现代高科技与人工智能的发展,催生了机器翻译在突发公共事件中的应用,应急语言服务也越来越依赖于机器翻译的效能。不过,由于机器翻译质量的高低主要是取决于翻译记忆、翻译引擎、平行数据语料库的建设与资源的可及程度,由机器所生成的译文仍然存在着不够精确甚至失范等现象。今后,我们需要着重做好突发公共事件之后数据的消化与分析工作,挖掘整理有关话语类型的数字化内容,扩容翻译引擎规模,为预防和应对突发公共事件提供信息与决策依据,为全面加强应急语言服务体系建设、切实提升国家应急管理能力作出自己的贡献。

猜你喜欢
译文应急语言
人民的期盼就是应急青年的使命
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
语言是刀
应急救援要诀“少 快 短”
应急管理部6个“怎么看”
让语言描写摇曳多姿
弟子规
弟子规
国际新应急标准《核或辐射应急的准备与响应》的释疑
我有我语言