“一带一路”倡议专题双语术语知识库本体构建方法演绎

2022-09-26 01:41吴聪聪
中国科技术语 2022年4期
关键词:知识库术语双语

吴聪聪 苗 菊

(南开大学外国语学院,天津 300071)

引言

在经济全球化、世界多极化进程不断加快的背景下,全球经济格局随之发生深刻变化,由此给各国的持续发展带来难得的机遇与严峻的挑战。共建“一带一路”(即“新丝绸之路经济带”与“21世纪海上丝绸之路”)正是顺应时势之举。“一带一路”倡议是习近平总书记于2013年提出的国家顶层合作倡议,该倡议秉承开放、公平、共赢的合作精神,基于我国与沿线国家既有的邦交关系,打造高质量、深层次的区域经济合作机制与平台,旨在建设政治、经济、文化互融互通的合作共同体,进而推动全球贸易的良性运转。

“一带一路”倡议的实施需要畅通的支持环境与渠道,而建设完善的语言基础设施则是联通中外的有力保障。语言基础设施建设是国家综合实力的体现,作为社会服务系统,它为国家发展和社会进步提供知识生产、知识更新和知识传播等知识服务。

语言基础设施是多层次的架构,其中的术语知识库是一种升级的术语管理工具、知识管理工具和翻译技术工具,在信息传播技术更新迭代所形成的新型传播环境中,可应用于对外传播、教育科研、语言规划战略及知识服务体系,是传播领域知识和构建对外话语体系的重要技术支持,有助于促进中国的经济文化走向世界,实现经济文化的中外共赢。然而,当前我国的语言基础设施建设中缺乏以“一带一路”倡议为专题的术语知识库。鉴于此,建设该专题的术语知识库是落实“一带一路”倡议的工作之一,构建方法的研究则是值得学界深入开展的相关课题。

1 知识本体的概念与内涵

术语知识库的中枢是知识本体(下文简称为“本体”)。所谓本体(Ontology),即“对概念体系明确且详细的规范说明”[1]。在术语知识库中,本体以专业领域中的术语集为基础,以信息技术为手段,通过形式化、结构化的方式形象地组织、描述、表征该领域术语所对应的概念、概念属性及概念间的相互关系,而以专业领域相关术语为载体的概念所构成的关系网正是知识体系的原型,因此,本体又是抽象化领域知识体系的具现化模型。

本体所呈现的是逻辑清晰的专业领域知识结构,为术语知识库提供了概念信息与概念间知识关系的支撑,从而使传统的术语库实现升级,解决了术语库无法明示专业领域概念关系的缺陷。术语知识库通过本体“模拟领域专家对概念与相应术语的认知模式”[2],以组织包括术语在内的知识资源,使之以有序、明晰、可视的方式呈现该领域的知识体系,术语管理也由此走向知识管理。

2 术语知识库本体构建的理论基础

本体构建的方法因术语所属的自然语言系统、领域知识结构的特异性而有所不同,但术语知识库本体构建都以知识组织理论、术语学理论及本体论为理论基础,为本体构建提供理论性的指导、依据和支撑。

2.1 知识组织理论——本体构建的理论指导

知识组织理论是统领全局的建库指导理论,贯穿本体构建的全过程,该理论聚焦于“知识获取、知识表示及知识运用”[3]三个层面的探索。在知识获取层面,知识组织理论可用于指导建库者挖掘知识资源,包括如何利用现代化的信息技术手段搜集所需的素材、如何从素材中提取有效数据等;在知识表示层面,知识组织理论旨在探究如何描述专业领域中术语系统所代表的概念网络,以表征该领域的基本知识结构;在知识运用层面,知识组织理论又可指导研发者为术语知识库建立高效、便捷的人机交互机制,开拓术语知识库的应用路径,并根据实际效果与用户反馈不断更新完善。

2.2 术语学理论——本体构建的理论依据

在取得知识资源后,建库者需以术语学理论为处理术语数据的理论依据,对采集所得的术语数据进行规范化管理:设计者应依据普通术语学理论,分析术语的定义、特性、内涵、外延、语义关系等,并根据分析结果对术语素材进行规范化处理,如筛除伪术语,订正术语定义,设定术语粒度、分词、标注等;而交际术语学、认知术语学、社会认知术语学等认知流派的术语学理论则是术语翻译实践的理论依据,建库者可据此对术语译名进行校正,并对术语进行双语对齐;计算术语学理论可从技术层面引导开发者运用信息技术对术语数据进行自然语言处理并以规范化的格式加以存储,使之适用于数据库建设或本体建模。

2.3本体论——本体构建的理论支撑

术语知识库的核心是本体,而本体论正是本体构建的理论支撑。在不同领域中,本体论的研究对象与研究内容各异,对于术语知识库的构建实践而言,本体论是研究如何用形式化语言定义抽象化概念及概念体系的理论,相比于宏观的知识组织理论,它更像是一种具体的操作指南。在本体论的指引下,建库者可按特定方式将领域知识形式化,一则便于计算机处理,二则有利于抽象知识具象化。本体主要由“领域主题图和计算机语义识别”[3]构成。领域主题图是概念关系的框架式表征,是对知识体系的形式化描述,而所谓的计算机语义识别,即对领域主题图中的概念关系进行编码,以供计算机读取,从而建立智能化的人机交互界面。

3 “一带一路”倡议专题双语术语知识库本体构建的相关问题

关于术语知识库的本体构建方法这一理论范畴,其内涵不仅指本体构建的操作流程这一方面,而且还包括其他相关的理论问题,需要开展研究,在本体构建之前和之后都需要进行理论思考。本文提出以下五方面问题作为本体构建方法的理论内涵。

3.1 本体构建的术语资源

正因为术语是所属领域知识资源的基本内容,所以本体的构建需要以特定的术语资源为素材。本研究所致力构建的本体以中国外文出版发行事业局、当代中国与世界研究院和中国翻译研究院联合编著,由新世界出版社出版的《中国关键词——“一带一路”篇》为素材来源。该书是“中国关键词多语对外传播平台”项目成果之一,是对“一带一路”倡议体系核心术语的总结,书中所有术语皆附有定义,且术语词条及其定义均为中英文对照版。书中词条虽数量有限,但作为官方发布的标准术语,其表达精准、明晰,整套术语集是“一带一路”倡议领域基本知识系统的缩影,因此,可作为“一带一路”倡议专题汉英双语术语知识库本体建设的语料素材。

3.2 本体编辑的技术工具

本体编辑的技术工具,即本体编辑器,是用以构建、存储、管理本体的应用软件。本研究所选用的本体编辑器是由斯坦福大学医学院生物信息研究中心面向社会大众开发的Protégé5.5.0版本。Protégé是以Java语言和Open Source而设计的本体编辑软件,使用者可利用该软件定义专业领域概念的类与层级关系、概念的属性(如物质属性与数据属性),并创建本体实例。Protégé “屏蔽了具体的本体描述语言,用户只需在概念层次上进行专业领域本体模型的构建,其内部表示可被转制成XML、RDF(S)、OIL、ADML、DAML+OIL、OWL等本体语言表示的文本格式”[4]。此外,Protégé5.5.0版中还搭配多种辅助性功能插件,如Hermit,该插件是使用OWL(网络本体语言)描写本体的推理机,可用于检查本体的一致性、识别类之间的相互关系等。

3.3 本体构建的基本原则

无论采用何种方法,本体的构建都应遵循科学化的原则,方能确保所建本体能够被最大限度地应用于各领域。本研究在借鉴已有术语知识库的结构、特征及设计理念的基础上,设定以下本体构建的基本原则:

(1)准确性:本体应以自然语言准确描述术语的概念,并表征概念间的确切关系。

(2)可编辑性:本体应与其所属领域的知识保持动态一致,并允许设计者在专业领域知识演进的情况下,对本体进行相应的编辑,或修订原有术语信息,或添加新术语等。

(3)可推理性:本体中各术语间的确切关系可通过一定的推理规则而展现,且推理规则应易于理解。

(4)普适性:所建本体应具有一定的复用性,即可用于不同数据库的构建。

3.4 本体构建的概念系统

本体的创建,首先需要确立所属领域术语资源的概念系统,以表征本体创建所遵循的术语概念之间的语义、逻辑关系,本体的创建即依据这一概念系统而延伸开拓。概念系统是“通过概念与概念之间的关系联系起来的概念集合”[5]。概念系统反映出所属领域的知识体系,合理、有序的概念组织方式影响着知识的传承、传播,乃至相关话语体系的构建。据此,专业领域概念系统的确立需以知识为导向,划分概念范畴,并为概念系统设立逻辑框架,以明确该领域概念范畴间的语义关联。术语是表征专业概念的语言符号,术语系统是对应概念系统的表现形式,因此,确立专业领域的概念系统实际上是对其术语系统进行范畴的划分与定位。

本研究中,“一带一路”倡议概念系统是以《中国关键词——“一带一路”篇》一书的术语资源为素材,笔者在充分了解“一带一路”倡议的内容、宗旨、意义、影响等后,重新规划概念范畴:以“一带一路”倡议为上位概念集,下分“基本概念”“合作机制”“合作目标”“合作理念”“合作举措”“合作案例”六大子类,另有“其他国家或组织的倡议”范畴为“一带一路”倡议的平行概念集。每个范畴都是“一带一路”倡议知识体系不可或缺的要素,各范畴中的术语皆为所属范畴的下位概念。其中,“基本概念”范畴是“一带一路”倡议中最为核心的概念,是其他范畴的中心,体现了“一带一路”倡议的基本架构;“合作机制”范畴涵盖了各类合作主体、合作方式、合作内容;“合作目标”范畴是“一带一路”倡议号召沿线国家实现的共同目标,体现了“一带一路”倡议互惠互利、共同繁荣、造福民生的宗旨;“合作理念”范畴是“一带一路”倡议所秉承的理念,也是“一带一路”沿线国家互联互通的具体内涵;“合作举措”范畴指代六大经济走廊,即中国与“一带一路”沿线其他国家共同筹划开发的交通要道和经济带,是实现“一带一路”倡议的重要基础与保障;“合作案例”范畴指代包括我国在内的沿线国家的合作成果或正在实施的具体项目内容;作为“一带一路”倡议范畴的平行概念范畴,“其他国家或组织的倡议”中包含了其他国家或组织所提出的区域合作主张或计划,如图1所示。

图1 “一带一路”倡议的专题领域概念范畴

确立专业领域中概念范畴间的具体关系,需设立合适的逻辑框架,在该框架中,各范畴以不同的方式相关联、互动,勾勒出所属领域的概念系统,进而映现出该领域的知识体系。本研究为“一带一路”倡议体系设定如下基本逻辑框架,以描述其知识脉络:“一带一路”倡议中,沿线诸国依靠各种合作机制相联合,以“利益共同体、责任共同体、命运共同体、绿色丝绸之路、健康丝绸之路、智力丝绸之路、和平丝绸之路”为建设目标,秉承“五通”的合作理念,通过建设六大经济走廊的举措实现双/多边合作,而各大合作案例则是合作目标与合作理念的印证;其他国家或组织倡议与“一带一路”倡议并置,形成鲜明对照,从而突出世界各国对区域合作的重视,突显我国“一带一路”倡议的独特性。如图2所示。

图2 “一带一路”倡议专题领域概念系统逻辑框架

3.5 本体构建的效益测评

本体构建的效益测评是对所建本体的有效性和实用性分三步进行检查。在本体创建之后,即进入本体构建的效益测评环节。首先,利用Protégé自带的Hermit推理机检验概念间的语义关系是否与所定义的属性保持一致;然后,由术语学家与领域专家鉴定该本体的组织结构是否准确、合理,是否能够明确反映所属领域的基本知识体系;最后,将本体投至相关的科学研究、专业教学与翻译实践等具体应用中,以检验其效能。

4 “一带一路”倡议专题双语术语知识库本体构建的流程

本体的构建流程是本体构建方法的演绎。本研究采用斯坦福大学医学院所设计的七步法作为“一带一路”倡议专题双语术语知识库的本体构建方法:确定本体所属领域→考察是否存在可供复用的本体→列出本体中的重要术语→定义类和层级结构→定义类的属性→定义属性的分面→创建本体实例[5]。

4.1 确定本体所属领域

本研究所创建的本体属于中国特色话语体系中的“一带一路”倡议专题,是中国特色思想文化的重要组成部分,体现了我国特有的先进经济主张、政治主张及文化主张。

4.2 考察是否存在可供复用的本体

为避免重复劳动,减少成本投入,同时也为提高知识资源的复用率,在构建本体前,需要考察是否存在可复用的本体。为此,笔者以“一带一路”与“本体”为关键词,分别于中国知网、中国国家图书馆官网数据库中对相关文献与专著进行检索,并考查了现有可及的开放性网络术语数据库(如中国特色话语对外翻译标准化术语库、中华思想文化术语库、中国核心词汇、术语在线等),终未发现可为本次研究复用的本体。

4.3 列出本体中的重要术语

该步骤为专业领域知识资源的获取环节,其目的在于为本体构建准备规范化语料。首先,借助迅捷PDF在线转换器将《中国关键词——“一带一路”篇》由PDF格式转换成docx文档格式,再对文档中的语料进行清洗与梳理,以去除无关内容,在完成语料清理工作后,使用Tmxmall在线智能翻译管理平台中的语料对齐功能对语料进行汉英双语对齐并做进一步的语料调整。在此之后,借助Tmxmall的术语提取功能抽取术语,再辅之以人工干预——根据相关的术语学理论,对双语术语信息进行校验、核对,以确保其规范化、标准化。经处理后,最终获取附带定义的中英术语各85条,这些术语所表征的概念正是“一带一路”倡议知识体系的高度浓缩与映射。如图3所示。

图3 “一带一路”倡议专题领域的主要术语数据范畴

4.4 定义类和层级结构

构建逻辑清晰的本体,关键在于明确各术语于概念系统中的具体位置,为此,需要定义术语的类及层级结构,或确定概念间的语义关系类型。定义类与层级结构的常用方法有三种: 自上而下法、自下而上法和混合法;自上而下法,即先定义最宽泛的上位概念,再逐级细化至最小的下位概念;自下而上法的定义方式与前者相反;混合法则是由前两种方法结合而成[6]。本研究以“一带一路”倡议的发展历程及其实践模式为依据,按照上文所确立的概念系统,采用自上而下的方法对术语的类与层级结构进行定义。

4.5 定义类的属性

概念系统网纵横交错,仅通过划分术语的类别与层级结构,不足以明示概念间的确切关系,故另需定义类的属性。具体操作是:在本体编辑器Protégé中,对类进行对象属性(Object properties)的定义,即说明类与类之间的具体语义关系。根据上文所设定的概念系统结构,可对类的对象属性进行如下定义:

将“一带一路”倡议与其下位概念集“合作目标”间的对象属性定义为“致力于”,并将定义域(Domains)设为“一带一路”倡议,值域(Ranges)为“合作目标”,使该关系由“一带一路”倡议指向“合作目标”,以表示“一带一路”倡议致力于达到该目标;将“合作机制”与“一带一路”倡议的对象属性设置为“服务于”,并以“合作机制”为定义域、“一带一路”倡议为值域,代表“合作机制”为“一带一路”倡议而服务;将“合作理念”与“一带一路”倡议的对象属性定义为“秉承”,其中“一带一路”倡议是定义域,“合作理念”是值域,意为“一带一路”倡议秉承“五通”的“合作理念”而号召双/多边合作;“合作举措”与“一带一路”倡议的对象属性可定义为“通过”,并设定“一带一路”倡议为定义域,“合作举措”为值域,表明“一带一路”倡议通过共建六大经济走廊的举措推进双/多边合作;在“合作案例”的“描述(Description)”界面中选中“例子(Instances)”,再将上位概念“一带一路”倡议与“合作案例”的对象属性定义为“体现”,且定义域为“合作案例”、值域为“一带一路”倡议,以此说明“合作案例”是“一带一路”倡议的体现。而“一带一路”倡议与“其他国家或组织倡议”两个平行的上位概念集之间是一种对比参照关系,故可将二者间的对象属性设定为“对照”,并使二者互为定义域和值域,意为“一带一路”倡议与其他国家或组织倡议互为对照。在完成对“一带一路”倡议与其下位概念范畴的关系定义后,还需确定下位概念范畴间的语义关系——将“合作机制”与“合作目标”及“合作理念”间的对象属性分别定义为“致力于”和“秉承”,定义域为“合作机制”,“合作目标”与“合作理念”均为值域,使表征语义关系的箭头由“合作机制”指向“合作理念”与“合作目标”;将“合作机制”与“合作举措”的对象属性设定为“通过”,并设定“合作机制”为定义域,“合作举措”为值域,令语义关系由前者指向后者;将“合作案例”与“合作理念”及“合作目标”的对象属性定义为“印证”,定义域为“合作案例”,值域为“合作理念”与“合作目标”,表示“合作案例”是对“合作目标”与“合作理念”的印证。

4.6 定义属性的分面

属性的分面包括“取值的类型(Value Type)、容许的取值(Allowed Values)、取值的个数(Cardinality集的势,基数)以及有关属性取值的其他特征”[7]。在本研究中定义属性的分面,即对本体中术语属性的取值类型进行说明。Protégé所提供的属性类型众多,如字符型(string)、日期时间型(dateTime)、字节型(byte)、枚举型(enumerated)、数字型(number)、整数型(int)、小数型(decimal)、布尔型(boolean)、浮点型(float)等,而“一带一路”倡议专题中的数据主要为字符型数据,因此只需在Protégé中选中各术语的数据属性(Data properties),再在界面的注解(Annotations)→属性值(Property values)→类型(Types)→数据约束说明(Data restriction creator)中选择字符型(string)即可。

4.7 创建本体实例

使用Protégé对选用的自然语言资源依次按照上述六步骤进行形式编码,对所有实例进行注释、分类、双语对齐、属性设置,再根据语义关系设定对应的推理规则,以完成“一带一路”倡议专题双语术语知识库本体的创建。最后,通过启动Protégé 中的视图插件Ontograph,可将最终成果以知识图谱的形式展示出来。所建的本体实例是开放式的,允许后期进行必要的编辑,如添加术语、修改定义等,如图4所示。

图4 本体实例图中的概念关系

5 “一带一路”倡议专题双语术语知识库的应用与意义

“一带一路”倡议专题双语术语知识库体现了对“一带一路”领域知识的组织与管理,以领域知识为主体,其双语术语为知识表征,形成了中国话语体系建设的部分资源,为用户的知识利用与再创造提供帮助,具有广阔的应用前景,对同类术语知识库的构建也具有一定的指导意义,有利于语言基础设施建设的可持续发展。

在人文社科研究中,“一带一路”倡议专题双语术语知识库为相关的科学研究提供基础性的数字化知识资源。互联网时代的人文社科研究已发生数字转向,需要数字化的科研服务体系予以支持。术语知识库本体是基于信息技术而建成的知识体系模型,适用于数字环境中的知识传播、知识管理和知识应用,因此,“一带一路”倡议专题双语术语知识库可从技术层面推动相关学术科研的发展,为科研工作者的知识生产活动提供便捷服务。在对外宣传中,“一带一路”倡议专题双语术语知识库是提升对外传播效力和完善数字化时代语言基础设施的有益成果。中国特色术语凝聚着我国独有的思想、文化、知识,其翻译是对外宣传中的重点和难点。“一带一路”倡议专题双语术语知识库所表征的知识体系迎合了数字时代用户的认知方式,它对概念系统的逻辑化组织更有利于外宣译者准确把握术语的语义内涵、避免表象层面的意义解读,为对外译介当代中国特色社会主义思想文化、构建对外政治话语体系提供平台支撑。在翻译教学中,“一带一路”倡议专题双语术语知识库是重要的教学设施。现代化的翻译教学需要数字化的教学环境,语言服务业要求职业译者具备一定的术语素养和技术能力,术语知识库是兼具术语管理与知识管理功能的翻译技术工具,在翻译教学中能够训练学生进行信息检索和术语数据管理的能力。此外,本研究所构建的本体,可作为翻译教学中的重要素材,为翻译训练提供术语资源。

作为语言基础设施的范例,“一带一路”倡议专题双语术语知识库对同类术语知识库的建设具有重要的指导意义。本研究提出的本体构建方法及流程为同类术语知识库的构建提供遵循的依据,为相关领域术语知识库的建设提供本体架构设置的参照。“一带一路”倡议专题双语术语知识库本体可作为构建相关主题的术语知识库的复用本体。建立数据库的目的之一是最大程度地实现数据资源的复用,资源复用有助于降低成本消耗、提高建库效率,同时也是数据稳定性的重要指标。本研究所构建的本体以网络本体语言编写而成,适用于大部分本体编辑工具,且本体中的术语信息来源权威、可靠,知识体系表征清晰明确,可复用于创建同类术语知识库,是语言基础设施可持续发展的资源基础。

6 结语

术语是专业领域知识体系的核心、知识网络的节点、知识传播的重要载体。术语知识库是信息技术与知识资源的有机结合所实现的知识服务体系,成为信息传播技术时代语言基础设施的组成部分。建立“一带一路”倡议专题的双语术语知识库,关键在于其本体的构建。

本研究以 “一带一路”倡议领域的术语资源为知识素材,构建了该领域的语义关系概念体系,探讨了本体表征与构建的相关问题,进而展示了“一带一路”倡议专题双语术语知识库本体构建的全过程,旨在以科学的方式优化整合“一带一路”专题内的术语数据及相关知识资源,以逻辑化、可视化的形式展现该领域的知识体系,从而为相关的学术科研、对外信息知识传播、区域经济合作提供必要的借鉴参考,支持我国的语言基础设施建设,以利于加强国际交流与互利、争取国际认同与支持、营造良好的国际关系环境,促进我国与“一带一路”沿线国家的经济往来与区域合作,助力中国经济文化走向世界。

猜你喜欢
知识库术语双语
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
快乐双语
快乐双语
快乐双语
位置与方向测试题
双语秀