秦鹏
摘要:构建本体是一项重要而十分繁重的工作。为了提高构建领域本体的效率,该文提出利用爬虫技术从互联网中自动获取相关领域知识,重用WordNet的结构并从中获取领域知识,半自动构建领域本体。
关键词:WordNet;重用;领域本体;爬虫技术
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)27-0180-02
1 概述
互联网技术高速发展的今天,网络信息急剧膨胀,用户在浩瀚的互联网中获取需要的数据,主要还是依靠传统的搜索引擎,然而通用搜索引擎也存在很多弊端和局限:搜索引擎根据用户提供的关键字返回一条条链接,而这些链接包含大量用户并不需要的网页,并且通过关键字搜索的技术难以支持根据语义信息进行的查询;通用搜索引擎力求搜索面更加广泛,而服务器资源有限,这两者之间矛盾将日益凸显;信息形式不断丰富,传统搜索引擎对图片、音频、视频等多媒体形式还不能很好的发现和支持。
信息技术朝着智能化发展,因此信息和数据的表示不能像以往那样仅仅停留在语法层面,更应该聚焦在语义层面。本体是一种概念模型建模工具,是语义网络的核心技术,它能在语义和知识层面上描述信息和数据,为解决上述问题提供了一种良好途径,已经在很多领域得到广泛应用,引起了国内外很多研究人员的关注。在基于本体的应用中,最基础和核心的工作是构建领域本体。然而本体构建是一项基础却不简单的工作,目前很多领域本体的构建普遍面临几大困难:缺乏领域内专家的支持,基本都是靠计算机人员根据自身理解建立本体概念和属性,很难达到共同认可的知识水平;本体构建基本上以人工处理为主,这样的构建效率难以适应目前信息爆炸的互联网时代;构建出来的本体得不到重用,基本上一个本体的构建都是从头开始,不能很好地利用已有本体。因此,如何高效的构建本体是本体研究中一个迫切需要解决的难题。
2 本体简介
本体(ontology)最早是一个哲学概念,意思是对本质和存在的一个系统的描述[1]。而本体在人工智能界有其新的定义,对本体的理解也在逐步发展并趋于成熟。在文献[2]中提到本体的定义有以下几种:
(1)1991年,Neches 等人,将本体(ontology)定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。这是本体在AI领域中的第一个定义。
(2)1993年,Gruber,将本体(ontology)定义为“概念模型的明确的规范说明”。这是关于本体的一个最为流行的定义。
(3) 1997年,Borst,将本体(ontology)定义为“共享概念模型的形式化规范说明”。这是在Gruber定义的基础上给出的另一种定义。
(4)1998年,Studer,将本体(ontology)定义为“共享概念模型的明确的形式化规范说明”。这是Studer等人对(2)(3)两个定义进行了深入的研究,提出的本体的新定义。
在这些定义中,Studer提出的定义是最为著名和引用最为广泛的,这个定义指出了本体的4层含义:共享、概念模型、明确和形式化[3],其具体含义如图1所示:
目前领域本体的构建方法各有不同,但是无论如何构建本体是一项非常繁重的工作,尽管出现了一些自动、半自动的手段,在构建效率上取得了一定的进步,但是要实现全自动构建本体是非常困难的,因此,如何快速构建本体成为一个热点研究问题。针对以上不足,本文提出利用爬虫技术和基于WordNet重用的领域本体构建方法。该方法利用爬虫技术把一系列含有共同主题的网页都关联到一个文档或一个文档集中,有选择的从互联网上获取到领域内相关信息。以WordNet为源本体,分析领域内术语结构和语义关系,从WordNet中抽取出相关领域的本体,得到一个领域子本体,重用WordNet的结构,并从中获取领域知识,从而半自动地快速构建特定领域的本体。
3 网络爬虫技术
网络爬虫意思是Spider,另外Crawler,robots也有此意。网络爬虫是从互联网上自动抓取网页的程序,在本体系统运行,不断向互联网服务器发送读取网页的请求。根据特定目标或主题,事先把重要的链接加入队列,然后遍历这些链接,读取这些网页的内容,并从这些网页中提取出新的网页链接,把这些新提取的链接加入遍历队列,不断重复这个过程直到满足一定停止条件。一个爬虫过程中可概括为下面几个步骤:
(1) 对抓取目标或主题进行描述,确定目标;
(2) 根据已完成的主题描述进行分析和过滤,确定要保留的网页和数据;
(3) 根据特定算法预测下一步要访问的网页链接;
(4) 对链接队列进行先后排序,优先爬取相关度较高的链接。
在设计爬虫时要考虑很多方面,最重要的是怎样从众多链接中选择下载重要的网页,而不是下载全部网页,因此在队列中排列链接的优先级十分重要,在这方面国内外研究人员已经做了很多工作,最著名的是PageRank算法和HITS算法,PageRank算法已经成功应用于Google搜索引擎中,这两个算法都是基于链接分析的方法,缺乏语义层面上的分析,因此利用本体技术,结合网页链接和语义层面的爬虫搜索技术仍有很大的提高空间。
4 WordNet
WordNet是由Princeton 大学(普林斯顿大学)的认知科学实验室在心理学教授乔治·A·米勒的指导下建立的一種基于认知语言学的英语词典。WordNet不像普通的英语字典那样,仅仅依照字母的顺序将单词排列并解释其词义,而是构建了一个语义网络,这是与传统词典的一个最明显的区别。在这个语义网络中,一个个的名词、动词、形容词、副词按照其语义被分成不同的词组,这些词组具有相同含义,一定程度上就是同义词集合,被称作synset,每一个synset都有自己的注释和定义,用来代表概念(concept)。不同的synsets之间的关系也有注释和分析,表达上下位、同义反义、整体与部分、继承等不同语义关系,经过这样的过程,原本抽象的概念变得具体而且可以通过词汇意义加以操作,概念节点之间建立起具有语义关系的复杂语义网络。所以说WordNet是刻画本体的一个字典。
领域术语词典中的内容都是标准化的术语,可看作是领域专家对领域知识的一个浓缩,我们选取现有的领域术语词典作为领域术语集,并以之为依据从源本体中抽取特定领域的子本体。这样不仅节省大量的时间和精力,更重要的是不需要领域专家的过多支持,就可以获得高精度和标准化的领域知识。
在抽取过程中有很多问题需要注意,比如从源本体中删除领域无关的概念时,若直接删除,则该概念原来的下位概念和上位概念就失去了联系,这使得抽取出的子本体中出现过多孤立的节点。这个问题可以利用WordNet 中的传递性关系解决。
综上所述,本体构建方法仍有很多提高的空间,利用爬虫技术获取相关网页知识,重用已有的标准化本体中的部分知识,是提高本体构建效率的可行之法。
参考文献:
[1] MaedcheAlexander,StaabSteffen.OniologyLearningfortheSemantieWeb[M].Norwell:KluwerAeademiePublishers,2002.
[2] 邓志鸿,唐世渭,张铭,等.Ontology 研究综述[J].北京大学学报(自然科学版),2002(5).
[3] Studer R,Benjamins V R,Fensel D.Knowledge Engineering,Principles and Methods[J].Data and Knowledge Engineering,1998,25(1-2):16l-197.
[4] 王庆连. 基于本体的交通导航数据语义查询研究[D].大连海事大学,2009.
[5] 刘臣. 组织内部知识网络的结构及知识共享博弈研究[D]. 哈尔滨工业大学,2010.