基于本体的沉积相领域知识库构建∗

2020-10-09 02:47陆智卿李学强
计算机与数字工程 2020年7期
关键词:知识库本体语义

陆智卿 袁 翔 何 旭 李学强

(中国石油大学(华东)计算机与通信工程学院 青岛 266580)

1 引言

随着领域本体和语义网[1]的快速发展,人们对高效组织与获取领域知识提出了更高的要求。在多个领域,相关人员构建了各种专题知识库[2]来对领域知识进行组织与利用。然而,基于传统的数据库构建的专题知识库的实质只是一种资源库,对领域知识的揭示极其有限。因而,无法实现知识检索、推理等更高层次的知识服务。近年来,在语义网描述语义的推动下,越来越多的描述不同领域的本体产生了[3]。利用本体思想从不同角度对信息集合进行标引,表示信息内容与知识组织体系之间的链接关系,可以将本体与信息系统进行链接,从而使用户在使用信息的过程中更加便捷地浏览和理解相关概念和资源,还可以利用本体中的语义关系及推理规则集合进行推理[4~5]。

2 研究背景

领域本体是用于描述指定领域知识的一种专门本体[6]。目前,各种领域都开发应用了本体[7~8]。利用本体可快速构建的设计模式和易于信息共享平台的优势已经被许多基于领域知识的研究所证明[9]。专家们开发了本体建设的各种方法和工具,如Methontology,On-To-Knowledge,UPON 和NEON[10~14],这些都是本体模型在不同科学领域的应用。为了消除知识概念设计中的盲目性,使此过程更有效率,从而缩短整体设计的周期。从这个角度来看,单独使用本体是不够的,因为它提供的层次结构在相当静态或准静态描述中是有限的。在哲学本体论中,认识论与实现和正确理解所使用的知识的方法有关。因此,认识论必须与动态意识或信息流的建模以及设计思想中涉及的认知过程相结合。此外,由于计算机的内在缺陷,人的经验和知识仍然是决策和评估的必要条件。因此,基于图像思维理论[15]提出了人机界面,为统一机器逻辑思维和人的直觉思维提供了基础。这个理论可以在指导推理过程中辅助决策。

沉积相是地质学中重要的一个研究领域。沉积相,指沉积环境及其产物,也专指环境的“物质表现”,是反映一定自然环境特征,具有特定岩性和古生物标志的地质单元。依据沉积相能够了解沉积环境、储集岩成因及其分布规律,揭示了沉积相和微相对储集岩及其物性的控制关系,进而帮助油藏工程师建立油藏地质概念模型,指导油藏开发。因此,沉积相的研究对油气勘探具有重要意义。

本文的目的是提出一种基于本体的概念设计方法,用于对地质学中的沉积相的领域知识进行建模,并建立一个知识库作为知识搜索的平台,并在引导设计过程中对沉积相进行标准化。基于想象思维理论,将搜索结果和指导以图像的形式呈现,以促进决策和概念的可视化。整个方法通过沉积相本体知识库的设计案例来验证。

3 沉积相本体建模

本体明确了领域内共同认可的概念术语,利用领域知识的语义模型表达了概念含义,并在内部层次当中规定了这些概念之间的关系,为知识获取以及表示奠定了基础。通过本体的无歧义性描述语言OWL2(用特定的形式化语言对本体模型进行描述)可以使机器和用户都能达到统一的理解。TOVE 法、ENTERPRISE 法、METHONTOLOGY 法以及斯坦福大学开发的七步法是主流的领域本体构建方法。因此,本文综合上述几种方法的优缺点,通过Protégé对沉积相领域知识和知识体系,构建沉积相本体。领域本体是一个五元组,记作O={C,A,R,I,M}[16]。其中,C 是概念集,指特定领域中属于概念的集合;A 是属性集,主要用来表现概念自身的特征;R是关系,指领域中概念间的相互作用;I为实例集;M是实例与概念之间的映射关系集合。

本体建模实现过程如下。

1)确定沉积相本体的知识范畴,划分出一个能够清楚表达和解释沉积相内各类现象与专业术语的知识范围。

2)列出沉积相本体中的重要术语,主要包括相、相标志、沉积类型、沉积岩类型以及各类测井方法和特征。

3)定义各类相和相之间的等级体系,采用目前公认度最高的“相-亚相-微相”三级体系。以海相组、陆相组、海陆过渡相组为三个组,然后根据陆相、海相和海陆交互相中的次级环境及沉积物特征,建立相级别的沉积相类型。进而,根据各相级别类型中亚环境、微环境及相应沉积物特征,建立对应的沉积亚相和微相。

4)定义沉积相的属性,包括岩性特征,测井响应特征(自然伽马,电阻率,自然电位)等,定义属性之间的关系和分面,各个特征之间的相互独立,且规定属性特征取值范围。

5)创建实例,将已知划分好的沉积相实例加入到沉积相本体。

图1 沉积相本体示意图

建立的沉积相本体如图1 所示,展示了本体所包含的相一级别的沉积相类型,箭头代表分属关系,其中OWL:THING是所有事物的父集。

4 知识库设计与实现

在建立的沉积相本体基础上,开始构建沉积相知识库。整个知识库基本结构如图2 所示,其中,知识库划分为两层:知识层和图片层。

知识层主要包含语义识别与知识查询两个功能部分。语义识别部分是通过建立的沉积相本体,通过语义相似度计算的识别算法,实现沉积相的语义识别。

知识查询部分以建立的沉积相本体为基础,通过Jena 技术[17]和SPARQL[18]查询语言,实现对本体模型的沉积相知识查询。其中,由于SPARQL 查询语句属于主谓宾结构,查询语句如下所示。

1)SELECT ?A WHERE ?A rdfs:subClassOf?B

2)SELECT ?A WHERE?B rdfs:coment?B

其中,rdfs:subClassOf和rdfs:coment为OWL语言中RDFS 的构造子。A 代表已知项,B 为查询项,问号?代表查询占位符。语句1代表求B(沉积相)的所有亚相和微相。语句2 代表求B 相的相关特征和知识描述。

沉积相本体模型是使用OWL 语言建立的,利用Jena技术,可以实现本体模型映射到数据库的过程。Jena 将本体模型中的OWL 语句表示为一组陈述,会在模型Model 中新增一个与原有陈述有着相同的主体,谓词和客体的陈述。Jena 中表示资源、属性和文本的接口为Resource、Property 和Literal,所包含的知识与数据封装在内存存储的模型Model里。

图片层主要包括图片查询与自动扩充两个功能部分。图片层是以地质领域专业图片库为基础,该图片库主要以沉积相领域内垂向序列图、沉积模式图和测井响应图三大类图片构成。

图2 沉积相知识库结构图

图片查询通过查询MySQL 数据库里存放的专业图片的相对路径查询图片库里的图片。对应沉积相类型与图片的相对路径类型相关联。

图片层的自动扩充功能通过爬虫技术实现,在百度等大型图片网站以及地质领域专业的图片网站爬取相关的专业图片。以每种沉积相类型作为关键词,生成一个关键词列表,进而,对每个搜索结果页面,根据广度优先策略,将图片下载到图片库对应的沉积相类型的路径下。然而,由于百度等大型图片网站不是专业的地质图片库,所以可能会出现很多杂乱且不相关的图片。因此,在爬虫的爬取算法中,将引入Trie树。Trie树[19~20],又称单词查找树,利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率较高。使用Trie 树以过滤不相关的图片。过滤功能实现如下。

1)根据所建立的沉积相本体,提取其中重要的概念名词作为关键词,主要包括各个沉积相类型,各种属性特征以及地质专有名词等;

2)根据关键词建立Trie 树,建立的Trie 树合并化简,组成Trie树森林;

3)在爬取每张图片的URL 地址时,将图片相对应的图片名称(在百度网站中是pageTitle 属性)抓取下来;

4)将图片名称与建立的Trie 树森林进行搜索匹配。若匹配成功,则返回成功并且下载该图片。若匹配失败,则跳过该图片;

5)重复上述1)~4)过程,直到图片搜索深度达到预设值。

5 结语

本文基于本体技术建立了沉积相知识库,为领域本体知识库构建方面提供了参考和借鉴经验。该知识库分为图片层和知识层,包含知识查询、语义识别、图片查询和自动扩充四大功能,主要用到本体、SPARQL 和Trie 树等技术。所建立的沉积相知识库包含大部分常用的沉积相知识与专业图片,可以服务于相关地质研究人员的日常工作研究。考虑到知识库的智能化与自动化问题,可以在已构建的知识库上添加相应图像识别与OCR 文字识别的功能部分。总之,该沉积相知识库对地质沉积学方面的研究发展提供新的思路和方法。

猜你喜欢
知识库本体语义
真实场景水下语义分割方法及数据集
继齐韵往昔,以今声开来——思考自五音戏主奏乐器的演变、本体及延伸
汉语近义词辨析知识库构建研究
眼睛是“本体”
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比
专题
Care about the virtue moral education
位置与方向测试题