基于Protégé的人工影响天气术语本体知识库设计与实现

2019-01-30 02:22刘志郝克俊
中国科技术语 2019年6期

刘志 郝克俊

摘 要:基于本体编辑工具Protégé,设计了人工影响天气术语本体知识库。按照本体构造的“七步法”,定义了术语类,明确了术语类层次关系,定义了术语类的对象属性和数据属性;基于自定义的对象属性,利用HermiT推理机对本体进行了一致性检查。文章系统组织了人工影响天气领域的专业术语,为该领域术语研究、人机翻译、基于语义的信息检索奠定了基础。

关键词:人工影响天气术语;本体知识库;本体一致性;Protégé

中图分类号:H083;P48文献标识码:ADOI:10.3969/j.issn.1673-8578.2019.06.003

Abstract:Based on the edit tool Protégé, we designed the ontology knowledge base of weather modification terminology. According to the “seven-step” method of ontology construction, we defined the term class, the hierarchical relationship, the object properties, and data properties. Based on the custom object properties, we used HermiT Reasoner to check the ontology consistency. The terms in the field of weather modification were organized, which could provide a basis for the term research, human-computer translation and semantic-based information retrieval in this field.

Keywords:weather modification terminology;knowledge ontology base;ontology consistency;Protégé

本体又称为“实体”[1],源于哲学概念,用于研究客观事物的抽象本质,本体的作用是表达知识,方便知识的重用和交互。在本体中,知识可以被正式地表达为一系列的领域相关概念,以及这些概念之间的相互关系。本体组织结构是层次结构化的,Gruber提出 “本体是概念模型的明确的规范说明” [2]。本体可以当作某个领域内不同主体(人、机器等)之间进行交流的一种语义基础[3],即由本体提供明确定义的词汇表,描述概念和概念之间的关系,作为使用者之间达成的共识。

本体可以被用来为一个知识领域建立模型,并且支持对这个模型中的实体进行推理。目前,本体已经被广泛应用于知识工程、自然语言处理、数字图书馆、信息检索和Web异构信息的处理、软件复用、面向对象技术和语义Web等领域。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统中使用[4]。

目前术语的应用范围从纯语言学研究拓展到机器翻译、信息检索、数据挖掘等领域[2]。对术语进行抽取和标注需要构建语料库。本体描述概念和概念之间的关系,通过本体知识库,能够描述术语间关系和术语的属性信息,将某一领域的术语系统合理整合起来。

一 人工影响天气术语本体知识库

人工影响天气是指在一定的有利时机和条件下,通过人工催化等技术手段,对局部区域内大气中的物理过程施加影响,使其发生某种变化,从而达到减轻或避免气象灾害目的的一种科技措施[5]。例如,在我国很多地区利用飞机或高炮、火箭等运载工具向云中播撒碘化银、干冰等催化剂进行的人工增雨、防雹作业。目前,中国还没有人工影响天气术语本体知识库,本文尝试利用专业资料构建该领域的术语本体知识库,对人工影响天气领域相关术语及术语间的关系进行描述,以实现对人工影响天气领域知识的系统组织,为该领域术语研究、人机翻译、基于语义的信息检索提供基础。

1.本体知识库构建方法

本体知识库的构造过程称为“本体工程”,需要完整的工程化、系统化的方法来支持,Gruber从实践出发提出了有益于构建本体的标准:明确性、一致性、可扩展性、最小编码偏好和最小承诺[6],基于该标准,研究者提出了多种构建本体的方法,有KACTUS法、七步法、“骨架”法、TOVE法、MethOntolog法。其中美国斯坦福大学医学院提出的七步法[7]应用最广泛,基本流程见图1。

本文设计的本体知识库的领域术语部分参考了气象行业标准《人工影响天气作业术语》(QX/T 151-2012),部分来源于从文献、专业书籍中抽取的术语。

2.本体编辑工具

Protégé软件[8]是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑工具,提供了本体概念类、关系、属性和实例的构建界面,屏蔽了具体的本体描述语言,用户只需在概念层次上进行领域本体模型的构建。有可自行设置的数据输入模式,可以将Protégé的内部表示转制成多种形式的文本表示格式,如:XML、RDF(S)、OIL、DAML、DAML+OIL、OWL等系统语言。Protégé 工具本身没有嵌入推理工具,不能实现推理,但它具有很强的可扩展性,可以插入插件来扩展一些特殊的功能,如推理、提问、XML转换等。目前最新版本是Protégé 5.5.0 beta 8[8]。

3.本体描述语言

本体描述语言通过定义类以及类的属性来形式化某个领域,并说明它们之间的属性,以便对类和个体进行推理。本体描述语言有RDFS、OWL,都是W3C(World Wide Web Consortium)的推荐标准[9],用于对本体进行语义描述。资源描述框架(Resource Description Framework,RDF)[10]使用XML语法和RDF Schema(RDFS)将元数据描述成为数据模型。 通过RDF,人们可以使用自己的词汇表描述任何资源。一个RDF文件包含多个资源描述,而一个资源描述是由多个语句构成,一个语句是由资源、属性类型、属性值组成的三元组,表示资源具有的一个属性。RDFS,即“Resource Description Framework Schema”,是最基礎的模式语言,RDFS本质上就是RDF词汇的一个扩展。RDFS比较重要的词汇见表1。

OWL(Ontology Web Language)[11]是一种本体语言,是RDFS的一个扩展,其添加了额外的预定义词汇, 常用的词汇见表2。

二 术语类设计及编码

1.类及其层级

为了准确定义人工影响天气领域中各个术语的位置,为术语进行语义限定和语义扩展奠定基础,需要明确术语层次关系,就是明确类的层次关系,使类之间的语义关系更加清晰。本文以人工影响天气(weather_modification)作为根节点,根节点下添加雷达观测(radar_meteorology_observation)、作业监测(operation_monitor)、作业装备(operation_equipment)、作业技术(operation_technology)、地面作业(ground_operation)、飞机作业(plane_operation)、催化技术(seeding_technology)、效果评估(performance_evaluation)、业务管理(business_management)、技术研发(technology_development)10个大类。作业装备分为飞机(plane)、高炮(antiaircraft_gun)、火箭(rocket)、发生器(ground_generator)4个类,业務管理类下面又分作业人员(operator)、作业设施(facility)、相关机构(institution)、规章制度(regulations)4个类。其中,相关机构下面分为业务管理机构(business_management_organization)、作业指挥机构(operation_command_organization)、空域申报部门(airspace_declare_organization)、民爆物品管理部门(industrial_explosive_management_organization)4个类;作业设施下面分作业点(operating_spot)、硬件设施(hardware_facility)、软件条件(software_conditon)3个类。硬件设施下面分休息室(waiting_room)、值班室(duty_room)、射击平台(fire_platform)、弹药库(ammunition_depot)、装备库(equipment_dept)5个类。软件条件下面分作业点编码(code)、安全射界图(safety_shot_chart_cartographic)2个类。Protégé可以将层级结构可视化,图2为上述部分的层次结构。

2.对象属性

除了明确类之间的层级,还需要限定类之间的关系,将类之间的语义信息显性地表现出来。对象属性就是指类之间的关系,对象属性是自行定义的,属性与属性之间的关系由本体描述语言词汇限定。

对前文描述的术语部分,定义“装备配备”(be equipped with),说明作业点配备了哪些作业装备。该属性是属于作业点(rdfs:domain),取值范围(rdf:range)是装备。

定义“强制性具备”(mandatory),说明作业点必须配备硬件设施。该属性是属于固定作业点(rdfs:domain),取值范围(rdf:range)是硬件设施。

定义“下辖”(have jurisdiction over),说明管理部门管辖的业务管理部门或作业指挥部门或作业点,该属性具有传递性(owl:TransitiveProperty):若A下辖B,B下辖C,那么A肯定下辖C。

定义“隶属”(be subordinated to),说明管理部门或作业点的上级机构,该属性与“下辖”是相反的(owl:inverseOf)。

“业务往来”(related)是指业务管理部门与相关机构之间有业务往来关系,说明管理部门下辖所有作业点都向某个空域管制部门申请作业空域,下辖所有作业点都向某个民爆物品部门申请弹药储运许可。定义对象属性见图3,“related”属性的参数设置见图4。

“related”属性设置对应的OWL描述为:

rdf:resource="….#operating_spot"/>

根据自定义的对象属性,部分类的关系结构见图5。

3.数据属性

要完整描述类本身的特性,还需要定义类的数据属性。为了对数据属性的属性值进行规范,Protégé提供了6种数据类型,分别是布尔型(boolean)、整数型(int)、单精度浮点型(float)、字符型(string)、时间型(date)、日期时间型(date Time)。