面向术语翻译的南海领域本体知识库设计及构建研究

2018-10-10 07:53祁琪张克亮
中国科技术语 2018年4期
关键词:术语

祁琪 张克亮

摘要:现代术语学的奠基人维斯特(E. Wüster)在其专著《普通术语学和术语词典编纂学导论》(Einführung in die Allgemeine Terminologie und Terminologische Lexikographie)[1]中定义“术语是一个专业领域的概念指称系统,它包括了所有的专业表达,这些表达是一般的、常见的”。传统的术语学研究局限于对词汇的研究,然而随着计算机技术的发展,对术语的抽取和标注更多地来自真实文本,特别是更加依赖于知识库的构建。本研究重点在于以越南为例构建南海领域汉英本体知识库,对领域相关术语及术语间的关系进行描述,以实现对南海领域知识的系统组织,更好地服务领域术语研究和基于知识本体的术语翻译。

关键词:术语,知识本体,知识库构建,南海领域

中图分类号:H059;H083文献标识码:ADOI:10.3969/j.issn.1673-8578.2018.04.004

Abstract: E. Wüster, the founder of modern terminology, expounded comprehensively the basic theories of terminology in his treatise Einführung in die Allgemeine Terminologie und Terminologische Lexikographie. The traditional study of terminology was confined to the study of lexicons,but as the development of computer technologies, the extraction and annotation of terms are more and more depended on the real texts, especially the knowledge base. An ontology knowledge base on South China Sea was built to describe the related terms and the relations between terms in this filed, which could work for the study of terminology and terminology translation in this field.

Keywords: terminology, knowledge ontology, construction of knowledge base, South China Sea

引言

术语学是一门更新速度很快的综合学科,其研究范围逐渐超越了语言学范畴,更多地转向术语的社会功能、术语与科技结合、术语的形式与内涵分析、术语翻译等跨学科问题。随着计算机技术的发展,术语的应用范围也从纯语言学研究拓展到机器翻译、信息检索、数据挖掘等领域。

对术语进行抽取和标注首先需要构建语料库。语料库的构建主要有4种方法:1)基于聚类方法的知识库构建;2)基于可拓知识表示的知识库构建;3)基于神经网络的知识库构建;4)基于本体的知识库构建。其中以本体与术语学的结合最为密切。本体是一种共享的概念定义集,能够描述语义层面概念及概念间的关系,以最大程度地实现知识共享与重用。对于术语研究而言,通过本体知识库能够描述各术语的属性信息及术语间关系,将某一领域的术语系统合理地整合起来。

本研究将构建以越南为样本的南海领域汉英本体知识库,对南海领域相关术语及术语间的关系进行描述,以实现对南海领域知识的系统组织,更好地服务领域术语研究和基于知识本体的术语翻译。

一 本体基本概述

1. 相关概念

“本体”的概念起源于哲学领域,人工智能专家将其引入计算机科学。人工智能领域中最早给本体下定义的是Neches等人,他们认为本体定义了组成相关领域词汇的基本术语及关系,并利用这些术语和关系来定义词汇外延的规则[2]。之后,Studer[3]等人在Neches、Gruber[4]等人的研究之上提出“本体是共享概念模型的明确的形式化规范说明”,这个定义较为全面地包含了本体的四大特征——概念模型、明确、形式化和共享,是目前被广泛接受的一个定义。

2. 主要技术方法

本体构建是一项庞大的工程,研究人员需要合适的本体编辑工具来高效地完成开发任务。借助这些本体编辑工具,研究人员可以把精力集中在本体的内容组织上,而不必考虑本体描述语言和描述方式等细节问题,极大地方便了本體的构建[5]。

目前已广泛使用的本体编辑工具有Protégé、Ontolingua、WebOnto、KAON(已推出KAON2)、OntoEdit以及 WebODE等。本研究选用Protégé作为编辑工具。Protégé是由美国斯坦福大学医学院开发的本体编辑工具,由Java语言编写,集本体编辑和知识库编辑为一体,支持中文输入法,支持多种应用插件,如可视化插件、本体整合插件、语言转换等[6]。

为了使本体构建方法更加科学合理,不少研究者从实践出发提出了有益于构建本体的标准,最具影响力的是Gruber提出的5条标准:明确性、一致性、可扩展性、最小编码偏好和最小承诺[4]。基于上述的标准,研究者提出了多种构建本体的方法,其中比较著名的有KACTUS法、七步法、“骨架法”、TOVE法及MethOntology方法等。

二 南海领域本体知识库设计

1. 南海领域知识来源

在设计本体知识库的类和属性时主要参考了李伟刚[7-8]构建的航空领域本体知识库和陈欣[9]构建的英汉军事本体知识库,前者对航空领域中飞机、航空机构和组织等知识进行了详细的描述,后者描述了飞机、舰船、军事基地和军事情报等方面的英汉双语知识。

南海领域本体知识库的设计以越南为例进行说明,关于越南国情的资料一方面来源于专业书籍,如《东南亚研究丛书:东南亚概论》[10]《东南亚国家军事地理》[11]《越南概论》[12]《越南:历史 国情 前瞻》[13]等,这些书籍对越南及东南亚其他国家的政治、经济、地理、军事等方面的知识进行了大致的梳理;另一方面资料来源于互联网,通过维基百科、百度百科、互动百科等网站进一步获取关于越南岛屿岛礁、港口、海上军事实力等方面的详细信息。术语对应的英文翻译参照了《英汉军事大词典》[14]《英汉军事术语大词典》[15]《英汉汉英词典》[16]及Wikipedia的相关信息。

2. 定义类及类的层级结构

通过合理地定义类,建立类之间清晰的层次关系,使类之间的语义关系更加明确,从而可以准确定位领域概念框架中各个概念的位置,为概念进行语义限定和语义扩展奠定基础。本研究以“南海军情”(military situation of South China Sea)作为根节点,根节点下添加“越南军情”(military situation of Vietnam)节点,其下分为“地理环境”(geographic condition)、“国力资源”(national resources)和“国家安全环境”(national security)3个大类。

第一大类“地理环境”(geographic condition)分为“地形地貌”(geomorphology)和“国家战略空间”(strategic geography)2个小类。地形地貌包括“陆地环境”(terrestrial condition)、“大陆水系”(river system)和“海洋环境”(oceanography),“陆地环境”(terrestrial condition)又细分为“山地”(mountain)、“平原”(plain)和“高原”(plateau),“大陆水系”主要描述的是“河流”(river),海洋环境则包括“岛屿岛礁”(island)和“海岸线”(coastline)。其中,“岛屿岛礁”类下添加了“争议岛礁”(controversial island)这一小类,包含越南占领我国的29个南海岛礁的具体信息。“国家战略空间”主要包括“行政区划分”(administrative region)及“人员兵员”(personnel& troop)情况。

本体编辑工具Protégé5.2.0自带的插件Jambalaya能够将本体知识库中的层级结构可视化。图1和图2即为Jambalaya展示的“地理環境”大类的层级结构图。

第二大类“国力资源”(national resources)分为“经济布局”(economic distribution)、“战略资源”(strategic resources)、“重要经济行业”(economic industry)和“交通运输”(transportation)4个类。“战略资源”包括“煤”(coal)、“钢铁”(steel)、“石油”(petroleum)和“天然气”(natural gas)3个方面;“重要经济行业”下分为“农业”(agriculture)和“工业”(industry),“农业”细分为“经济作物”(industrial crop)和“粮食作物”(gain crop);“交通运输”分为“公路运输”(road transport)、“铁路运输”(railway transport)、“航空运输”(air transport)和“水路运输”(waterway transport)。“国力资源”类的层级结构可以由图3来表示。

第三大类“国家安全环境”(national security)包含“外部安全环境”(external security environment)、“内部安全环境”(internal security environment)和“军事力量”(military power)3个子类,其中以“军事力量”内容最为丰富,包括“国防政策”(national defense policy)、“国防战略”(national defense strategy)、“军事战略”(military strategy)和“国防体制”

(defense system)4个方面。“国防体制”下分为“国防与安全委员会”(national defense and security council,NDSC)、“国防部”(ministry of defense)和“武装力量”(armed forces)3个部分。“国防部”分为“总部局”和“直属单位”两部分,这两部分之下还有细分。

“武装力量”(armed forces)包括“正规军”(regular army)、“地方部队”(local forces)、“民兵自卫队”(selfdefense unit)和“预备役部队”(reserve service)4个子类, “正规军”分为“陆军”(army)、“海军”(navy)、“空军”(air force)和“防空军”(air defense force)3个兵种,在越南本体知识库分别对这3个兵种的“编制”(establishment)、“装备”(equipment)和“部署情况”(deployment)进行了详细的分类。“正规军”子类的层级结构分别如图4 所示。

正规军中“海军”这一类下分为“海军编制”(establishment of navy)、“海军装备”(equipment of navy)和“海军部署情况”(deployment of navy)3个类,其中,“海军部署情况”下分为“海军基地”(navy base)和“海区”(sea area)2个类,“海军装备”下分为“导弹艇”(missile boat)、“巡逻艇”(patrol boat)、“护卫舰”(frigate)、“登陆舰”(landing ship)等16个类。

“陆军”类同样分为编制、装备和部署情况3个方面,“陆军装备”(equipment of army)下细分为“主战坦克”(battle tank)、“地空导弹”(surfacetoair missile)、“反坦克导弹”(antitank missile)等13个类, “陆军部署情况”(deployment of army)下分为“司令部”(headquarters)、“軍区”(military region)、“集团军”(army group)和“师级单位”(division)4个小类。

越南空军和防空军的信息合并在类“空军和防空军”(air force& air defense force)中,包括“空军装备”(equipment of army)、“空军编制”(establishment of air force)和“空军部署情况”(deployment of air force)3个方面。“空军编制”中分为“空军学校”(air force academy)、“航空师”(air division)、“飞行团”(air division)、“训飞团”(fly training division)等7个小类。“空军部署情况”中主要是关于“空军基地”(air base)的知识。“空军装备”则细分为“战斗机”(fighter)、“直升机”(helicopter)、“教练机”(trainer aircraft)、“巡逻机”(patrol aircraft)和“无人机”(drone)等12个小类。

目前在“越南军情”节点下,“地理环境”类共分为29个类,“国力资源”下共有22个类,“国家安全环境”中包括96个小类。

3. 属性的设计

为了更全面、准确地描述领域本体知识,还需要定义类的属性,将隐性的语义知识显性地表现出来。类的属性包括对象属性和数据属性两方面。

(1)对象属性(Object property)

对象属性是指从文献中归纳出的概念之间的关系。对于每种对象属性,需要设置它们的定义域和值域,属性间可以设置互逆(inverse)的关系,对于意义相近的两个对象属性,可以采用“owl: equivalentProperty”将两者等同起来。

南海领域本体知识库中有一部分是关于地理、经济和政治方面的知识,这方面知识以描述性为主,彼此关联较少,因此对象属性偏少。在“国家安全环境”中的军事部分涉及陆军、海军、空军和防空军的编制、部署和装备,类之间的联系相对较多。本研究从专业文献中总结出对象属性共25个,选取部分对象属性具体说明如下:

“下辖”(have jurisdiction over)用来说明军队编制中上级单位所管辖的下级单位,以及行政区划中各省份中的主要城市,同时,与“下辖”意义相近的“管辖”(govern),可以采用“owl: equivalentProperty”将两者等同起来。

“隶属”(be subordinated to)是“下辖”的逆属性,用来表示下级单位所隶属的上级单位,城市所位于的省。

“产自”(be made in),在“战略资源”类中说明作物及战略资源的产地,其逆属性为“生产”(produce);“流经”(flow through),用于描述水系河流经过的省份和城市。

“位于”(be located in),等同于“坐落/在/处于”(be situated in),用来说明省的首府所在,或表示军区或海区的司令部所在的城市或基地。

“经过”(go through),用来描述铁路和公路途经的省份或城市。

“负责”(be responsible for),说明陆军军区负责的区域。

“装备”(be equipped with),用来说明部队配备了哪些武器,“服役于”(be served in)是“装备”的逆属性,用来说明武器具体配置到哪些单位。

(2)数据属性(Datatype property)

数据属性指概念的具体参数。上文通过定义类的对象属性,将领域内隐含的语义信息显性地表现出来,但仅有类之间的语义关系无法完整描述类本身的特性,还需要定义类的数据属性。根据已有的文献资料,从中总结出61个数据属性,基本上能够描写越南各方面的知识。下面选取部分数据属性进行说明:

“地理位置”(location),用来描绘山川、河流、岛屿等自然地理事物的自然地理位置,即坐标信息,以及城市、港口等人造地理事物的相对地理位置,比如富国岛位于越南南部泰国湾尖端,海防港的地理坐标是北纬20°52

SymbolbB@ 13

SymbolrB@ ,东经106°39

SymbolrB@ 20

SymbolrB@ 。

“水深”(depth),主要描述河流、港口和海军基地的平均水深,对于海岸线的水深,还细分有近岸水深、距岸1000米水深等数据属性。比如,太平河水深为5~15米。

“人口”(population),用于说明城市和一些有居民的岛屿上的常住人口数。比如,富国岛的人口是7万。

“流域面积”(drainage area),描述河流地表水的集水面积,一般流域面积越大的地区,河流的水量越丰富。例如,湄公河的流域面积是4900平方公里。

“水域面积”(water area),用以描述海军基地内港口表面的集水面积。比如,芽庄港的水域面积是50平方公里。

“海拔”(altitude),说明高原、山地等地形高出海平面的垂直距离。比如,番西邦的海拔是3143米。

“容机量”(capacity),用来描述机场容纳飞机的最大值。比如,新山一机场的容机量是150架。

“舷号”(side number),描述船只和舰艇上标注在两舷水线以上的编号。比如,越南“猎豹”导弹护卫舰的舷号是HQ011。

在定义数据属性时,还需要为数据属性选择合适的数据类型。在Protégé 3.5中,提供了6种数据类型,分别是boolean(布尔型)、int(整数型)、float(单精度浮点型)、string(字符型)、date(时间型)和date Time(日期时间型)。为数据属性选择数据类型的目的是限定数据函数的类型,对属性值的格式进行规范,避免在输入时出错。

三 领域本体知识库构建及编码实现

1. 类和类的层级结构的创建

在完成了对本体中类的层级结构的设计以及属性的设计之后,要对本体知识库进行编码实现,主要步骤是创建类、添加子类、创建属性并为类添加实例。在Protégé 3.5的图形界面中,利用OWL Classes选项卡来创建类及其子类。

类的创建界面主要分为四个部分:第一部分“For Class”(类),用来显示类的表达式,即为本体知识库的URL加上类名;第二部分是“Annotations”(注释),包括对类的描述、解释说明等信息;第三部分是“Asserted conditions”(断言),包括类的父类的说明,以及对类的约束条件(分为充分必要条件和必要条件);第四部分是“Disjoins”(不相交),表示类之间的相互独立,相互不影响。

2. 属性的创建

在Protégé 3.5中,Property的选项卡下包含对象属性(Object)、数据属性(Datatype)、注释属性(Annotation)和全部属性(All)四个小窗口,需要分别在Object和Datatype小窗口中为已設计好的类创建对象属性和数据属性,创建方法与类的创建方法类似。

3. 添加实例

在定义了本体中的类和属性之后,就建立了领域本体的知识描述体系,接下来通过为类添加实例,并为其属性赋值加以约束,完善领域本体知识库的构建。

在Protégé 3.5的界面下,通过“Individuals”(实例)选项卡添加实例及其属性值。图5为添加实例的界面。

以添加“军区”类中的实例“第一军区”为例,之前创建属性的时候,已经为“军区”类设计了“负责内容”等数据属性,以及对象属性“下辖”“负责”和“司令部位于”,输入属性内容时需与已设定的属性数据类型相符。在对实例进行描述的时候,还可通过“rdfs: comment”为实例添加详细注释,以及通过“owl: sameAs”添加实例的别名,比如“红河”在越南又被称为“珥河”,可以通过“owl: sameAs”将表示同一概念的不同表述等价起来。

4. 本体的形式化

设计了领域本体的基本框架之后,需要借助本体构建工具Protégé 3.5和本体描述语言OWL DL对领域本体知识进行形式化的描述,将领域本体保存为owl格式的文件,后续研究可通过调用owl文件对领域本体知识库进行处理。

5. 一致性检查

本体构建是一个逐步完善、精益求精的过程,对本体的评价包括衡量本体的正确性、一致性和可扩展性。作为一项重要衡量指标,一致性检查旨在考察类和类之间的逻辑关系设计是否正确。

Protégé 3.5自带有推理机(Reasoning)Pellet 1.5.2,可用于本体的一致性检查。Pellet 1.5.2的功能有Check consistency(检查一致性)、Classify taxonomy(分类检查)和Computing inferred types(计算推导类型)等。常利用Check consistency和Classify taxonomy对本体的一致性进行检查,结果窗口中被标红的类说明在创建时存在逻辑错误,需要找出这些错误来保证整个本体的一致性。

四 结语

本研究主要围绕面向术语翻译的南海领域汉英本体知识库的设计及构建。首先对本体相关概念进行综述,然后依据已获取的南海领域资料,选择本体编辑工具Protégé 3.5及半自动构建方式对南海领域本体知识库中的类、类的层级结构和属性进行详细的设计,构建以越南为例的南海领域本体知识库并编码实现,创建类的属性,为类添加具体实例。之后对本体知识进行形式化的描述,将其转化为计算机可以处理的信息,并在构建过程中对本体知识库进行一致性检查,确保本体知识库逻辑正确、结构清晰。

目前南海领域本体知识库已初具规模,尽可能充分地描述南海领域相关术语及术语间的关系,能够在一定程度上满足该领域的信息查询要求,同时为领域术语研究及基于本体知识库的术语翻译打下基础。

参考文献

[1] Wüster E. Einführung in die Allgemeine Terminologielehre und Terminologische Lexikographie[M]. Wien/New York:Springer, 1979.

[2] Neches R, Fikes R E, Finin T, et al. Enabling technology for knowledge sharing[J]. AI magazine, 1991, 12(3): 36.

[3] Studer R, Benjamins V R, Fensel D. Knowledge engineering: principles and methods [J]. Data & knowledge engineering, 1998, 25(1): 161-197.

[4] Gruber T R. Toward principles for the design of ontologies used for knowledge sharing [J]. International journal of humancomputer studies, 1995, 43(5): 907-928.

[5] 刘宇松.本体构建方法和工具研究[J].现代情报,2009,29(9):21.

[6] 杜文华,董慧.本体建设工具比较研究[J].情报杂志,2005(2):11-14.

[7] 李伟刚,张克亮,王慧兰.基于航空领域本体知识库的语义检索研究 [J].中国计算语言学研究前沿进展(2009-2011),2011:419-424.

[8] 李伟刚.基于本体知识库和FAQ的多策略问答系统研究[D].洛阳:解放军外国语学院,2013.

[9] 陈欣.基于军事领域本体的跨语言知识查询研究与系统实现[D].洛阳:解放军外国语学院,2011.

[10] 祁广谋,钟智翔.东南亚概论[M].广州:世界图书出版社,2013.

[11] 钟智翔,陈扬.东南亚国家军事地理[M].北京:军事谊文出版社,2009.

[12] 兰强,徐方宇,李华杰.越南概论[M].北京:世界图书出版公司,2012.

[13] 古小松.越南:历史 国情 前瞻[M].北京:中国社会科学出版社,2016.

[14] 李公昭.英汉军事大词典[M].上海:上海外语教育出版社,2006.

[15] 潘永樑.英汉军事术语大词典[M].北京:外文出版社,2007.

[16] 吕微,汪川.英汉汉英词典[M].北京:商务印书馆,2009.

猜你喜欢
术语
疫情报道高频术语(十一)
《道藏》中的音乐表演术语考释
贸易术语修改适用问题探讨
“文字学”术语的早期使用
术语索引
科技术语中“副”字翻译补遗
翻译适应选择论下中医术语翻译探讨
语言中术语的非术语化现象