基于多模态术语知识库的译者知识获取

2022-07-08 13:32宁海霖

中国科技术语 2022年3期

摘要：掌握翻译实践所涉及的专业领域知识以及获取相关知识的方法，是译者应具备的职业素养，也是提升翻译服务质量的必然要求。多模态术语知识库整合语料库、术语库、关系库等语言知识素材，建立面向译者需求的数据分析机制与知识获取机制，并以可视化的人机交互手段优化知识的表示与利用环节，降低专业领域的知识壁垒。基于此，译者能够从中高效地获取和习得翻译过程中不可或缺的语言类与专业类知识，包括术语知识、搭配知识、概念实体知识与逻辑关系知识。

关键词：译者知识体系;术语知识库;知识获取;多模态;人机交互

中图分类号：H083; H059 文献标识码：A DOI：10.12339/j.issn.1673-8578.2022.03.005

Translators’ Knowledge Discovery through Multimodal Terminological Knowledge Bases//NING Hailin

Abstract： The mastery of specific-domain knowledge and the relevant knowledge-discovery methods in translation processes is an indispensable condition for the enhancement of translators’ expertise and translation-service assessment.The multimodal terminological knowledge base （TKD） is a systematic integration of diverse elementary digitalized constituents， representatively corpora， term banks and ontological knowledge bases. Through TKD， effective data analysis mechanism and knowledge discovery mechanism are introduced for translators’ deep leverage of these language resources. As for the methodological part， visualized man-machine interactive channels are embedded to optimize knowledge representation and application， thus the threshold of specific-domain knowledge is lowered as a whole. By the assistance of TKD， translators get an easier access to the linguistic and specific knowledge， including terminological knowledge， collocational knowledge， conceptual knowledge and logical knowledge essentially applied to the translation process.

Keywords： translators’ knowledge system; terminological knowledge base; knowledge discovery; multimodality; man-machine interaction

收稿日期：2022-01-10 修回日期：2022-04-07

基金項目：教育部人文社会科学研究青年基金项目“翻译技术的知识化演进模式研究” （18YJC740067）

引言

翻译是将一种符号中的语义以另一种符号进行传达的符际传播行为。在翻译过程中，译者通常需要借助各类语言资源来获取自身不具备的必要知识，进而实现对语义的解析、组织、重构与表示。目前，集成了语料库、术语库、关系库的多模态术语知识库已经广泛应用于翻译的教学、研究、实践、服务等主体环节，大幅提高了译者的知识积累和译作产出的效率。对于译者而言，准确、高效地从该类语言服务平台中获取相关知识的能力已成为其职业技能体系的必要组成部分。欧洲翻译硕士联盟（European Master’s in Translation，EMT）发布的2009版翻译能力框架将翻译服务能力、语言能力、主题能力、技术能力、信息挖掘能力与跨文化能力纳入译者能力体系[1]，而在其发布的新版（2017）翻译能力框架中，更明确将专业知识的获取能力归为译者能力范畴：“译者在实际工作中将面对不同的领域、媒介与场景，所以应具备获取、积累、运用与翻译相关的专业领域知识的能力，该能力主要包括对专业领域的概念系统、逻辑推理方法、知识表示规范、术语和行业用语、知识获取途径等方面的掌握。”[2]为了适应社会生产部门和语言服务市场对译者职业能力的要求，译者有必要不断提升借助信息手段进行知识获取的水平与意识。王少爽认为职业化时代的译者应具备信息意识，即“译者为解决翻译相关问题而获取、评价、使用、管理信息并进行知识创新的自主意识”[3];王华树认为“搜索智力”是译者能力的重要组成部分，并将翻译背景知识、人名地名、术语、文本真实性验证等内容纳入翻译实践过程的常用检索范畴[4]。格拉纳达大学语言学家、术语学家帕米拉·法贝尔（Pamela Faber）将“专业领域的知识获取能力”列为译者的关键职业能力之一，但同时指出“由于实用的专业领域知识资源匮乏，加之对认知思维过程缺乏了解，译者往往会遇到较高的知识壁垒”[5]。多模态术语知识库将特定领域或多个领域的资源整合加工，具有专业化、系统化、多模态化的特点，这样的特性虽然为自动化数据分析和知识抽取提供了保障和依据，但同时也制造了大量的信息负载，增加了知识精准定位的难度和译者的学习成本。因此，从大规模术语知识库中获取知识的能力，是译者应当具备的职业素养。

1 术语知识库的本质特征与主要功能

术语知识库（terminological knowledge base， TKD）是知识本体在语言服务领域的适应性变体，其概念最早由加拿大渥太华大学信息技术与工程学院的英格丽·迈尔（Ingrid Meyer）于1992年提出[6]。迈尔论述了术语知识库的基本结构与主要功能，并设计了名为COGNITERM的术语知识库雏形。随着语言学、术语学、自然语言处理与人工智能等理论方法的深度交融创新，术语知识库在理论基础、构建手段、平台应用等层面不断发展演进，已成为语言服务、医疗卫生、环境气象、航空航天、军事国防等领域的专业人员进行信息检索、数据分析与知识挖掘的重要依据。

术语知识库是语言知识与专业知识的共同载体，集成了语料库、术语库、关系库等翻译技术资源，在此基础上对基础语言素材进行系统而直观的描写，提取重要语言特征与知识要点，建立知识系统，并通过可视化手段对描述的结果进行形象化表征，提高认知效率与工作效率。从功能层次的角度，术语知识库可分为基础层、分析层与应用层三部分，其中基础层提供底层语言素材（已加工），分析层提供数据统计与分析机制，应用层提供用于人机交互的各种手段。与一般的本体知识库相比，术语知识库更侧重于强化平台的语言能力以满足语言工作者的使用需求，它所包含的语料库、术语库、关系库三个核心模块既关联统一又相互独立，各自承载着不同的语言服务功能。目前，由格拉纳达大学（University of Granada）团队开发的EcoLexicon環境工程术语知识库①更是该领域最具代表性的成果之一。EcoLexicon是面向翻译初学者、职业译者和技术写作人员的综合性知识服务平台，支持英语、法语、德语、西班牙语、希腊语、荷兰语6个语种，包含18 875个术语、3547个概念以及17类环境工程领域的概念关系，同时嵌入导航、检索、抽取、推理等重要的知识获取功能，并以多模态手段对各类知识进行可视化呈现。

作为语言类多学科交叉研究的热点领域，近年来术语知识库也受到诸多国内学者关注。例如，梁爱林较早地将“术语知识库”的概念引入国内并介绍了迈尔主持的COGNITERM项目的基本理念与设计方案[7]。贾君枝等分析了美国加州大学词典编纂工程FrameNet的典型核心框架元素关系与变化规律[8]。宋培彦等论述了术语知识库的构建方法和应用模式，指出术语知识库能够以统一的描述框架对语言知识、概念知识、关联知识进行细粒度的微观描述[9]。苗菊等论述了双语术语知识库的主要特征、构建流程与应用范围[10]，并提出了政治话语术语知识库构建的谱系方法[11]。综合上述已发布的实例与研究成果可知，术语知识库能够以多模态的可视化手段直观形象地展示特定领域的知识网络系统，且提供了便于译者使用的多语种词条信息与概念关系知识。总体而言，为了满足该平台目标用户的应用需求，术语知识库至少要具备专业化、系统化、多模态化三个本质特征。专业化是指术语知识库所包含的内容是特定领域的语言和知识系统，而非普通语言或常识，所以它服务的对象是专业领域的从业人士（包括译员），这样不仅有利于用户获取标准、可靠的专业知识，更便于用户快速定位所需知识。系统化是指术语知识库是包括语料库、术语库、关系库在内的多种语言资源的有机结合体，这些语言资源相互联系且协调统一，形成了数据分析、信息检索、知识导航、知识挖掘等术语知识库的主要功能模块，使之成为能够满足译者学习、研究与工作实践需求的综合型、智能型知识服务平台。多模态化是指术语知识库应用文字、语音、公式、图形、影像多种符号形式作为展示知识系统的手段，这种多维度、全方位的知识表示方法符合译者的认知思维习惯，能够显著提高译者对于专业领域概念和概念关系认知的准确性与全面性[12]。具备这三个基本特征是确保译者能够借助该平台获取各类知识的前提条件。

以翻译的认知维度而言，整个翻译实践过程是译者基于自身对于某一领域的认知将原文所包含的知识进行抽取、解析并转码为另一种符号的过程，即翻译本质上属于以译者思维为主体的知识处理活动，而掌握翻译实践中所需的各类知识、强化译者的语言认知度和领域认知度，将对翻译质量的提升产生重要影响。知识是一个复合的系统，一个基本知识单位一般由两个概念和概念之间的逻辑关系构成，多个基本知识单位组合而成的逻辑句子系统即为知识[13]。在翻译实践中，概念、概念关系、逻辑句子系统分别承载于术语、句子（蕴含术语关系）和篇章等原文符号中。可见，译者要准确理解原文，首先要掌握与原文密切相关的术语的含义、该领域的概念体系和基本概念关系，这是译前准备工作的主要内容[12]，也是翻译实践活动最为关键的环节。由前文所述，术语知识库提供专业化的术语、概念系统和语境，且以直观的多模态方法对其进行呈现，符合译者的认知思维方式及其在翻译中的实际知识需求，具有很高的可行性与有效性。

2 面向翻译实践的知识获取方法

认知术语学认为，概念是思维对客体进行范畴化而形成的知识节点，对专业领域知识的认知即为对概念与概念关系的系统化认知[12]。术语知识库对知识的表示方法与认知术语学理论对知识的描述具有高度的相似性。吉尔博洛兹佩（Gil-Berrozpe）指出，术语知识库包括语言与认知两个层面的内容，能够体现概念网络在思维中的形成过程，其设计与构建须以特定用户群体的应用需求为导向[14]。基于术语知识库的内容构成，它能够提供给译者相关的语言符号知识和专业领域知识，其中语言符号知识包含术语知识与搭配知识，专业领域知识包含概念实体知识与逻辑关系知识，这两大知识范畴也覆盖了翻译实践活动所涉及知识的主体内容。为了更加准确、高效地对特定领域文本进行解析，译者在具备扎实语言功底的前提下，应在可行的范围内掌握基础程度的专业领域概念与逻辑关系知识，但各类领域知识一般宽泛复杂，且专业壁垒较高，译者有必要掌握在相应的翻译实践场景中借助术语知识库平台获取上述知识类型的有效途径。下文以EcoLexicon环境工程术语知识库为例，详细论述基于该多模态知识平台的译者知识获取方法。

2.1 术语知识获取

作为表示专业领域概念的语言符号，术语是整个知识系统中关键节点的符号载体，所以术语知识是实现文本语义传递、达成翻译交际目标的重要条件。相比于普通语词，术语包含更多的专业领域语义信息，译者一般需要消耗更多的时间成本来处理术语问题，术语知识的获取效率是影响整体翻译效率的关键因素;同时，术语的命名、翻译和应用对语言的专业性、准确性与一致性有较高程度的要求，且需要对其所在的源语言上下文语境的领域知识进行考量[15]，因此译者应借助专业知识平台对相关词条信息进行严格的核实与筛选。交际术语学派代表人物特蕾莎·卡布雷（Teresa Cabré）指出，术语是受词法、句法、认知、语用等多种因素影响的语言符号，其存在形式遵循棱镜理论，棱镜的每个侧面都代表了术语的一个维度，要获取较为完整准确的术语知识，必须从不同的角度对术语的各个侧面进行独立的认知分析[16]。依据棱镜规则，多模态术语知识库中的一个术语词条一般以高粒度原则被划分为多个层面的内容[17]，包括词条翻译、多语种例句、缩略语、可靠度、来源、关联术语、发布日期等，不同的平台也会根据目标用户的需求设置相应的重点词条信息。以“hydrodynamics（水动力学）”一词为例（图1），在EcoLexicon用户界面中，区域1～3分别展示了该词条的多语种翻译（英、西等4个语种）、来源文献与文本语境，同时也在左上方的定义区域对该词条与“fluid dynamics（流体力学）”的区别进行了标注，为译者获取标准化术语知识提供了准确而有效的途径。

2.2 搭配知识获取

搭配是指文本中距离较近的多个语素符号的共现或连用规律，这一概念最早由英国利兹大学语言学家弗斯（John Rupert Firth）于1957年提出[18]。搭配包括语义和语法两个方面的内容[19]：语义搭配是指多个语素通过共有的语义联系形成的搭配，属于认知范畴;语法搭配是指多个语素通过一定的语法规则形成的搭配，属于措辞或习惯范畴。搭配知识是多模态术语知识库提供的基本信息类型之一，其运用程度体现了译者对目标语语体规范的掌握程度，是影响译文精确度与流畅度的重要因素。但受认知范围所限，译者通常会在词语筛选与匹配的过程中遇到较大困难。以物流术语“海洋运输”一词的翻译为例，关于“海洋”这个定语有“marine”和“maritime”两个近义词可选，根据普林斯顿大学WordNet②的检索结果，两词均可释义为“海洋的、海运的、航海的”，在使用中极易混淆。EcoLexicon为该类搭配问题提供了有效的解决方案：借助该知识库的语料库模块对二者作为修饰语与名词进行搭配的情况进行分析（见表1，F=frequency，R=relevance，分析结果依搭配强度从高至低排列），可知“maritime”与“运输（transportation）”共现频次为12次，且搭配强度值较高，而“marine”与“transportation”无共现频次，据此基本可以判断“maritime transportation”为正确译文。进一步观察表中搭配可以发现，两个词均具备明显的语义倾向性：“maritime”倾向于修饰“海面及以上空间，或者海岸周边空间”中存在的无机物或抽象事物，而“marine”更倾向于修饰“海面以下空间”中存在的有机生物。可见，基于该类平台的统计分析不仅能成为选择正确译文的依据，还有助于译者掌握相关词汇的搭配规则。

2.3 概念实体知识获取

概念是译者对原文知识内容进行认知的起点，对概念的理解将直接影响术语翻译的质量和译者对整个原文知识体系的把握程度。概念实体本质上是一个思维实体，它是现实客体或观念客体本质特征的集合，可以说概念实体是人类思维对客体进行区分与归类的产物，构成概念的本质特征也称为区分特征[20]，是一个概念区分于其他概念的标志。区分特征包括多个方面的内容，如颜色、大小、形状、结构、材料、功能等，这些抽象化的思维构成物需要通过符号的形式才能在客观世界得以表示。符号是一个个体事物，它与另一种个体事物、概念或者事态长期相互对应，是语义的载体[21]。用于概念表示的符号一般呈现多模态形式，包括文字、声音、动作、图示、影像、数字、表情等，而概念实体知识获取的主要目标就是以多模态符号为媒介获得特定概念蕴含的区分特征。

概念实体知识的表示同样遵循棱镜原则，需要将特定概念划分为多个维度后进行独立分析，这些维度包括概念的定义、所属领域、动静态展示、数学公式、原理备注等。多维度概念实体知识表示方法的优势在于：一、检索效率层面。每个维度标签都能作为概念检索过程中的关键词或筛选条件，从而提高检索的效率与精确度。比如以概念“所属领域”为检索的筛选条件，就能规避同样的术语存在于不同领域的情况，减少无效结果。二、概念认知层面。每个维度标签都体现了与概念相关的某个侧面的内容，多个侧面内容共同构成译者对概念的系统化认知。以词条“estuary（河口）”为例（图2），左上方区域明确了该词条的定义并对关联性术语

进行了标注，文献来源区域不仅提供了词条出处，还以文字图示相结合的方式具体描述了河口形态和纳潮量（tidal prism）之间的关系，凸显了河口地形的功能性特征，也有助于译者对“河口”这一概念形成直观、全面的把握。

2.4 逻辑关系知识获取

对逻辑关系知识的掌握是译者对相关领域知识体系形成深度认知的标志，直接影响译者对原文所蕴含的知识单位与复杂知识体系的理解。逻辑关系是概念实体间的连通路径，能反映出概念实体之间的语义关系[23]。逻辑关系知识包含两个方面的内容：关系和语境。关系是指连接实体的各类概念关系，如属种关系、整体部分关系、位置关系、功能关系、材料关系、属性关系等，诸多关系类型将领域中的概念相互串联，生成基本知识单位，进而形成完整的知识网络系统，译者对专业领域文本的解析也就是对知识网络系统的一个片段进行认知的过程;语境是特定语义场内关联因素的组合，包括时间、空间、领域、主题、参与者、社会关系、文化诗学等多种影响语义生成的控制因素。由于控制因素的数量、程度与组合方式的理论取值（如参与者的数量、社会关系的种类、时间长短、空间大小等）是无穷大，所以语境的内涵也存在无穷多种可能性，这也决定了文本的语义是多样的、不可预测的，即译者必须在明确特定文本语境的前提下解读语义。多模态术语知识库的检索模块能够清晰地定位知识节点在专业领域知识体系中的位置，译者在深入学习某个知识点的同时，还能对以该点为中心的知识网络产生宏观认知[24]。数据挖掘功能用于对双语术语、逻辑关系和知识链进行自动抽取。例如，数据挖掘机制至少要具备两个功能：一是与术语库对接，读取术语库中存储的知识节点信息，包括前文提及的定义、语境、关联概念等;二是从大规模主题图中抽取一部分由若干概念与概念关系组成的知识链进行独立展示或分析，以满足译者在译前准备过程中对特定知识点及其关联知识点的学习需求。例如，在词条“海蚀（sea erosion）”中（图3），译者不仅可以從界面左半部分获取该词条的概念定义以及英、西、德、俄等6个不同语种的译文，还可以在相关知识路径中获取以下逻辑关系知识：（1）海蚀现象是风化岩（detritus）、海岬（promontry）、海湾（creek）的成因（result of）之一;（2）该词条有“coast erosion”等多个同义词（equal to，图中灰色虚线部分）;（3）冲裂现象（avulsion）也是海蚀现象的一种（type of）。由图示可知，围绕“海蚀”的所有逻辑关系与概念实体共同构成了该词条的语境信息（EcoLexicon中所有概念与概念关系均抽取自实际语料，故该语境信息在真实文本翻译中具备参考价值），这种直观而全面的词条语境表示方式是译者正确辨析专业领域文本语义的重要保证。

3 结语

综上所述，专业化、系统化、多模态化的术语知识库的核心功能在于为译者提供在翻译实践的各重要环节中的必要知识，同时为译者进一步构建符合自身认知思维习惯和工作实践需求的高效个体化知识习得途径建立基础条件。术语知识库是集知识存储、表示、获取为一体的语言知识服务平台，其所有的功能模块都将以用户需求为导向不断演进完善。另一方面，对于处在语言服务行业生态链枢纽位置的译者而言，语言知识服务平台的发展也将推动其技术应用能力与知识获取能力的提升，人机二者也将形成协同共进的正向循环。在信息技术迭代、学科交叉互融、领域合作深化等要素的共同作用下[25]，术语知识库平台必然在技术标准、功能结构、应用方式等维度不断演进发展，以满足职业译者日益多样化的知识需求。

注释

① https：//ecolexicon.ugr.es/visual/index_en.html.

② http：//wordnetweb.princeton.edu/perl/webwn.

参考文献

[1] EMT Expert Group.Competences for Professional Translators， Experts in Multilingual and Multimedia Communication[EB/OL]. [2021-01-18]. https：//ec.europa.eu /info/sites/info /files/emt_competences_translators_en.pdf.

[2] EMT Expert Group. EMT Competence Framework 2017 [EB/OL]. [2021-01-18]. https：//ec.europa.eu/info/sites/info/files/emt_competence_fwk_2017_en_web.pdf.

[3] 王少爽.职业化时代译者信息素养研究：需求分析、概念阐释与模型构建[J].外语界， 2017（1）：55-63.

[4] 王华树，张成智.大数据时代译者的搜索能力探究[J]. 中国科技翻译， 2018（4）：26-29.

[5] FABER P. Knowledge Acquisition：A Key Competence in Translation [C]//Conference： IX Leipzig. International Conference on Translation & Interpretation Studies， Volume： Translationsforschung， 2010：1-14.

[6] MEYER I，BOWKER L，ECK K. COGNITERM： An Experiment in Building a Terminological Knowledge Base[C]//EURALEX 1992 Proceedings， 1992： 159-172.

[7] 梁爱林. 论术语知识工程学的发展[J]. 术语标准化与信息技术，2007（2）：4-10，15.

[8] 贾君枝，董文清，邰杨芳. Framenet核心框架元素间关系研究[J]. 情报理论与实践，2010，33（1）：105-108.

[9] 宋培彦，王星，李俊莉.术语知识库的构建与服务研究[J].情报理论与实践，2014，37（11）：110-113.

[10] 苗菊，宁海霖. 翻译技术的知识体系化演进：以双语术语知识库建设与应用为例[J]. 中国翻译，2016（6）：60-64.

[11] 苗菊，牛军. 政治话语双语术语知识库的谱系法构建：以“一带一路”倡议相关术语体系为例 [J]. 中国翻译，2020，41（2）：99-106.

[12] 宁海霖.译者专业领域知识的多模态习得研究[J]. 中国科技术语，2021（3）：42-48.

[13] 宁海霖.专业领域知识单位的结构化认知：理论分析与应用范畴[J].中国科技术语，2021（2）：27-31.

[14] GIL-BERROZPE J， FABER P. Refining hyponymy in a terminological knowledge base [C]//Proceedings of the 2nd Joint Workshop on Language and Ontology （LangOnto2） & Terminology and Knowledge Structures （TermiKS） at the 10th edition of the Language Resources and Evaluation Conference （LREC 2016）. 2016： 8-15.

[15] 孙玥莹，何彦青，吴广印.基于领域知识库的科技术语信息匹配模型研究[J].情报科学，2019，37（8）：16-21.

[16] CABR， T. Theories of terminology： Their Description， Prescription and Explanation [J]. Terminology， 2003 （2）： 163-199.

[17] BUDIN G， KABAS H，MORTH K. Towards Finer Granularity in Metadata-Analyzing the Contents of Digitised Periodicals [J]. Journal of the Text Encoding Initiative， 2012 （2）： 1-8.

[18] FIRTH J. Modes of meaning [C]// FIRTH J（ed.）. Papers in Linguistics 1934-51. Oxford： OUP， 1957： 190-215.

[19] XU R， LU Q， WONG K F， et al. Building a Chinese Collocation Bank [J]. International Journal of Computer Processing of Languages， 2009， 22 （1）： 21-47.

[20] 冯志伟. 现代术语学引论[M]. 增订本. 北京：商务印书馆，2011：99.

[21] 维斯特.普通术语学和术语词典编纂学导论[M]. 邱碧华，译. 北京：商务印书馆，2011：100.

[22] LexiCon Research Group. About EcoLexicon[EB/OL].[2021-08-07].http：//ecolexicon.ugr.es/en/aboutecolexicon.htm.

[23] 宁海霖.面向汽车工程翻译的可视化知识服务系统构建[J]. 中國科技术语， 2020（1）：21-25.

[24] 林泽斐，欧石燕. 融合结构与文本特征的知识图谱关系预测方法研究[J].图书情报工作，2020（21）：99-110.

[25] 宁海霖.论翻译技术研究的知识维度[J]. 外语学刊，2021（5）：66-71.

作者简介：宁海霖（1982—），男，博士，天津商业大学外国语学院讲师，研究方向为术语翻译技术。2016 年维也纳国际术语学暑期学校学员，教育部人文社会科学基金项目主持人，参与国家社会科学基金重大项目、全国翻译专业学位研究生教育研究项目各1 项，在《中国翻译》《中国科技翻译》《翻译界》《中国科技术语》等期刊发表论文10 余篇。通信方式： computerherald@163.com。