刘琪 王小正 王磊
摘要:该文对基于本体的语义检索涉及的几个关键技术进行了深入探究,包括教育资源本体的构建、本体数据的存储等。 并在此基础上设计出基于本体的自适应Web信息抽取模型和本体数据及实例数据存储模型。
关键词:教育资源;本体;语义;检索;数据存储
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)16-3872-04
Abstract: This paper studies Ontology-Based of Semantic Retrieval Key Technology of Educational Resources, which includes ontology of educational resources construction and ontology data storage. Finally, the designs of adaptive web information extraction model based on ontology and ontology data and instance data storage model are described.
Key words: Ontology; Semantic; Retrieval
1 概述
目前的搜索系统远不够智能,仍然需要大量的用户交互才能获得期望的搜索结果。研究并设计基于语义的垂直搜索引擎,其目标就是对搜索结果进行系统的知识整理,使每个用户查询的关键词都能映射到知识库的概念上。
搜索引擎开发涉及到多个关键技术,随着Hadoop和Nutch等开源技术的发展,可以解决分布式搜索引擎开发中的站点爬行、内容解析等问题。该文则主要从以下几个方面研究基于本体的教育资源语义检索涉及的关键技术,包括教育资源本体的构建技术、本体数据的存储、语义相似度算法等。
2 基本概念
语义搜索对网页文档信息所蕴含的语义信息进行充分挖掘,同时把用户的检索要求转换成相应的语义表示,基于领域本体对其进行辨别和推理,从语义层面理解用户查询,并将基于本体推理的结果返回给用户。语义信息,从广义上讲,包括语义实体、语法关系、实体上下文特征、文本的结构特征等等,语义搜索引擎不仅给出了相关网络文档作为查询结果,而且在本体中查询推理的相关资源也可以同时被给出,语义搜索引擎作为一个新的网络信息学研究热点,已经在国内外迅速展开。
本体概念本是来源于哲学,最早只是一个哲学概念。古希腊哲学家亚里士多德是最早对本体进行解释和研究的。哲学领域对本体的定义为“对世界上客观存在物的系统地描述,即存在论”,是对客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。
本体具有良好的概念层次结构和对逻辑推理的支持,通过对概念的严格定义和概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识,其木质就是领域知识的共享和复用。本体作为一种能在语义和知识层次上描述信息系统的类模型建模工具,可以在相对独立构建和管理的服务之间提供可重用性和互操作性。因此,基于本体技术可以解决教育资源在语义层次的检索问题。在此基础上实现的基于本体的教育领域语义搜检索,结合语义Web技术,使用领域本体元数据模型对用户的查询进行语义化规范,依据领域本体模式抽取文档中的知识,准确地表达了用户的查询语义和作为被查询对象的文档语义,可以大大提高检索的准确性和检索效率。
3 关键技术研究
3.1 教育资源本体的构建技术
本体提供了关于某领域的通用的术语和概念,并对术语的含义以及术语间的关系进行了描述。本体在信总检索、信息管理、自然语言理解和问答系统等方面都有着重要的应用。
人工构述例典是最简单的方法,其中典型的有WordNet和HowNet。人工构建词典的优点在于词典的质量高。缺点在于人工构建词典是非常耗时的,而且更新维护的代价非常高。为解决这个问题,科研人员展开众多本体自动构建的研究工作。我们根据知识来源的结构化程度,将本体的自动构建方法分为三类:基于文本的(无结构)、基于数据库的(结构化的),和基于Web的(半结构化的),该文提出了一个半自动构建教育资源本体库模型。具体流程如下:
首先,根据教育领域的各种权威性的词表来构建领域本体,既可以根据词表中概念间存在的简单语义关系构建轻量级的本体,这种本体语义简单但优点是容易通过编写程序实现大批量的自动转化。可以选择《教育资源建设技术规范》(CELTS-41)作为元数据方案,基于此定义出教育资源本体的核心类。具体实现可使用Protégé软件进行本体的构造,使用Protégé提供的OWLvizTal插件,这个插件可以通过图形的形式显示构建的教育资源本体中各子类的层次关系。在建立了教育领域本体的核心类之后,要确定本体概念间的属性关系。Protégé中到的属性关系包括两种属性:关系属性与数值属性。关系属性表示概念间的逻辑关系,如前驱关系(hasPrecursor)、后继关系(hasSuccessor)、包含关系(is_part_of)等,关系属性有定义域与值域,即指明这一关系的方向。本体的类、关系属性和数字属性设计完成后,教育资源领域本体的总体架构设计就完成了,之后要录入教育资源信息,即实例信息数据。
在已有的本体库基础上,设计了基于本体的自适应Web信息抽取平台的模型视图,该模型视图如图1所示:
其中,Web领域资源发现模块:该模块的功能是实现面向不同网页类型的网络爬虫,定向获取与教育领域相关的资源,通过机器学习技术,对所获得的网页数据进行过滤,将获得到的教育相关数据提交给基于本体的自适应信息抽取模块。
基于本体的自适应Web信息抽取模块:接收来自Web领域资源发现模块的信息,结合相应的抽取任务描述信息,调用相应的抽取方法,完成不同类型数据的抽取工作。endprint
输出模块:对经过验证后的输出结果进行输出,写入特定的数据库或知识库中,同时建立将抽取结果与相应的本体之间的关系,实现本体的扩充。
本体知识模块:该模块包含与待抽取目标相关的本体知识,涉及不同的教育领域本体、数据库描述本体、交互关系本体以及各种知识库资源等。
3.2 本体数据及实例数据存储模型
HBase是构建在Apache Hadoop之上的稀疏的、面向列的分布式数据库,是Google BigTable的开源实现。Hbase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务,具有高可靠性、可伸缩性等特性,能够对海量数据提供随机、实时的读写访问。HBase是目前流行的一种NoSQL数据库,已经得到了广泛的应用。
HBase以HTable数据表形式存储数据,但是不同于关系型数据库的基于行存储,HTable是基于列存储。在物理存储上,HTable按照列族存储,并且不存放空值,只存放有内容的表格单元(cell),逻辑上值为空的列并不占用存储空间,因此,表可以设计的非常稀疏。HTable的稀疏性非常适合用来存储稀疏的OWL及RDF数据。
现有的OWL数据管理系统大都采用XML文件或传统的关系型数据库来存储OWL数据,这种方式已难以高效地管理海量OWL数据。该文结合关系型OWL数据存储模式以及分布式系统平台,提出一种基于分布式数据库HBase的OWL数据存储模型构思。
图2为OWL课程本体信息,接着创建元数据表来保存这些本体信息。
HBClass表存储本体定义中的类信息,类名为row-key,包含两个列族:properties、subClass,分别存储类包含的属性信息和子类信息,用列族的列标签存储值,通过动态地增加列来存储多值,cell值均为“1”。具体存储结构如表1所示:
HBProperty表存储本体定义中的属性信息,属性名为row-key,包含四个列族:subProperty、inverseProperty、domain 和 range,分别存储属性的子属性、逆属性、定义域和值域信息,与HBClass表一样用列族的列标签存储值,通过动态地增加列来存储多值,cell值均为“1”。具体存储结构如表2所示:
创建HBInstance表用于记录每个类所拥有的实例,该表以类名作为row-key,只有一个列族instances,用列标签存储该类所拥有的实例URI,通过动态地增加列来存储多值,cell值均为“1”。
4 结束语
为了提高信息检索的准确性和高效性,该文主要结合教育资源本体构建及本体分布式存储技术对语义查询进行了探究。教育资源本体库的构建是一项系统工程,本体与语义网技术也还不完善,同时本人对本体领域的相关知识有限,所以本文所提出的教育资源语义检索相关技术的合理性还有待验证。
参考文献:
[1] 冯桂尔. 基于本体的教育资源探究[J].上海: 计算机教育,2007.
[2] 胡宜敏. 农业垂直搜索引擎语义化若干问题的研究与实现[D].合肥:中国科学技术大学,2012 .
[3] 李传席. 基于本体的自动Web信息抽取方法研究[D].合肥:中国科技技术大学,2012.
[4] 郭仲毅. 基于本体的教育资源个性化语义检索研究[D].呼和浩特:内蒙古大学, 2012 .
[5] 张静,唐杰. 下一代搜索引擎的焦点:知识图谱[J]. 北京: 中国计算机学会通讯, 2013, 9(4).
[6] 郑文良. 基于简单本体的农业P2P搜索引擎关键技术研究[D]. 沈阳:沈阳农业大学, 2013.
[7 ] Song R, Liu H, Wen J, et al. Learning block importance models for web pages[C]. Proceedings of the 13th international conference on World Wide Web, NY, USA. ACM, 203-211. 2004.
[8] 田鹿. 基于语义Web技术的教育资源元数据方案的研究[D].呼和浩特:内蒙古大学, 2008.
[9] 林培光, 康海燕. 面向Web的个性化语义信息检索技术[M]. 北京:中国财政经济出版社, 2009.
[10] 武成岗,焦文品,田启家等. 基于本体论和多主体的信息检索服务器[J]. 计算机研究与发展,2001, 36(6): 641-647.
[11] Berners-Lee, Tim. The Semantic Web. Scienti?c American. Retrieved March 13, 2008.
[12] Cheng T, K.C. Chang. Entity Search Engine: Towards Agile Best-Effort Information Integration over the Web. In Proc. CIDR, 2007,108-113.
[13] Ulanoff, Lance. Google Knowledge Graph Could Change Search Forever. http://mashable.com/2012/02/13/google-knowledge-graph-change-search
[14] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.
[15] 朱敏. 基于HBase的RDF数据存储与查询研究[D].南京:南京大学, 2013.
[16] White T. Hadoop: The Definitive Guide[M]. O'Reilly Media, Inc., 2012.
[17] Ghemawat S, Gobioff H, Leung S T. The Google file system[C]. ACM SIGOPS Operating Systems Review. ACM, 2003,37(5): 29-43.
[18] George L. HBase: The Definitive Guide[M]. O'Reilly Media, Incorporated, 2011.endprint
输出模块:对经过验证后的输出结果进行输出,写入特定的数据库或知识库中,同时建立将抽取结果与相应的本体之间的关系,实现本体的扩充。
本体知识模块:该模块包含与待抽取目标相关的本体知识,涉及不同的教育领域本体、数据库描述本体、交互关系本体以及各种知识库资源等。
3.2 本体数据及实例数据存储模型
HBase是构建在Apache Hadoop之上的稀疏的、面向列的分布式数据库,是Google BigTable的开源实现。Hbase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务,具有高可靠性、可伸缩性等特性,能够对海量数据提供随机、实时的读写访问。HBase是目前流行的一种NoSQL数据库,已经得到了广泛的应用。
HBase以HTable数据表形式存储数据,但是不同于关系型数据库的基于行存储,HTable是基于列存储。在物理存储上,HTable按照列族存储,并且不存放空值,只存放有内容的表格单元(cell),逻辑上值为空的列并不占用存储空间,因此,表可以设计的非常稀疏。HTable的稀疏性非常适合用来存储稀疏的OWL及RDF数据。
现有的OWL数据管理系统大都采用XML文件或传统的关系型数据库来存储OWL数据,这种方式已难以高效地管理海量OWL数据。该文结合关系型OWL数据存储模式以及分布式系统平台,提出一种基于分布式数据库HBase的OWL数据存储模型构思。
图2为OWL课程本体信息,接着创建元数据表来保存这些本体信息。
HBClass表存储本体定义中的类信息,类名为row-key,包含两个列族:properties、subClass,分别存储类包含的属性信息和子类信息,用列族的列标签存储值,通过动态地增加列来存储多值,cell值均为“1”。具体存储结构如表1所示:
HBProperty表存储本体定义中的属性信息,属性名为row-key,包含四个列族:subProperty、inverseProperty、domain 和 range,分别存储属性的子属性、逆属性、定义域和值域信息,与HBClass表一样用列族的列标签存储值,通过动态地增加列来存储多值,cell值均为“1”。具体存储结构如表2所示:
创建HBInstance表用于记录每个类所拥有的实例,该表以类名作为row-key,只有一个列族instances,用列标签存储该类所拥有的实例URI,通过动态地增加列来存储多值,cell值均为“1”。
4 结束语
为了提高信息检索的准确性和高效性,该文主要结合教育资源本体构建及本体分布式存储技术对语义查询进行了探究。教育资源本体库的构建是一项系统工程,本体与语义网技术也还不完善,同时本人对本体领域的相关知识有限,所以本文所提出的教育资源语义检索相关技术的合理性还有待验证。
参考文献:
[1] 冯桂尔. 基于本体的教育资源探究[J].上海: 计算机教育,2007.
[2] 胡宜敏. 农业垂直搜索引擎语义化若干问题的研究与实现[D].合肥:中国科学技术大学,2012 .
[3] 李传席. 基于本体的自动Web信息抽取方法研究[D].合肥:中国科技技术大学,2012.
[4] 郭仲毅. 基于本体的教育资源个性化语义检索研究[D].呼和浩特:内蒙古大学, 2012 .
[5] 张静,唐杰. 下一代搜索引擎的焦点:知识图谱[J]. 北京: 中国计算机学会通讯, 2013, 9(4).
[6] 郑文良. 基于简单本体的农业P2P搜索引擎关键技术研究[D]. 沈阳:沈阳农业大学, 2013.
[7 ] Song R, Liu H, Wen J, et al. Learning block importance models for web pages[C]. Proceedings of the 13th international conference on World Wide Web, NY, USA. ACM, 203-211. 2004.
[8] 田鹿. 基于语义Web技术的教育资源元数据方案的研究[D].呼和浩特:内蒙古大学, 2008.
[9] 林培光, 康海燕. 面向Web的个性化语义信息检索技术[M]. 北京:中国财政经济出版社, 2009.
[10] 武成岗,焦文品,田启家等. 基于本体论和多主体的信息检索服务器[J]. 计算机研究与发展,2001, 36(6): 641-647.
[11] Berners-Lee, Tim. The Semantic Web. Scienti?c American. Retrieved March 13, 2008.
[12] Cheng T, K.C. Chang. Entity Search Engine: Towards Agile Best-Effort Information Integration over the Web. In Proc. CIDR, 2007,108-113.
[13] Ulanoff, Lance. Google Knowledge Graph Could Change Search Forever. http://mashable.com/2012/02/13/google-knowledge-graph-change-search
[14] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.
[15] 朱敏. 基于HBase的RDF数据存储与查询研究[D].南京:南京大学, 2013.
[16] White T. Hadoop: The Definitive Guide[M]. O'Reilly Media, Inc., 2012.
[17] Ghemawat S, Gobioff H, Leung S T. The Google file system[C]. ACM SIGOPS Operating Systems Review. ACM, 2003,37(5): 29-43.
[18] George L. HBase: The Definitive Guide[M]. O'Reilly Media, Incorporated, 2011.endprint
输出模块:对经过验证后的输出结果进行输出,写入特定的数据库或知识库中,同时建立将抽取结果与相应的本体之间的关系,实现本体的扩充。
本体知识模块:该模块包含与待抽取目标相关的本体知识,涉及不同的教育领域本体、数据库描述本体、交互关系本体以及各种知识库资源等。
3.2 本体数据及实例数据存储模型
HBase是构建在Apache Hadoop之上的稀疏的、面向列的分布式数据库,是Google BigTable的开源实现。Hbase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务,具有高可靠性、可伸缩性等特性,能够对海量数据提供随机、实时的读写访问。HBase是目前流行的一种NoSQL数据库,已经得到了广泛的应用。
HBase以HTable数据表形式存储数据,但是不同于关系型数据库的基于行存储,HTable是基于列存储。在物理存储上,HTable按照列族存储,并且不存放空值,只存放有内容的表格单元(cell),逻辑上值为空的列并不占用存储空间,因此,表可以设计的非常稀疏。HTable的稀疏性非常适合用来存储稀疏的OWL及RDF数据。
现有的OWL数据管理系统大都采用XML文件或传统的关系型数据库来存储OWL数据,这种方式已难以高效地管理海量OWL数据。该文结合关系型OWL数据存储模式以及分布式系统平台,提出一种基于分布式数据库HBase的OWL数据存储模型构思。
图2为OWL课程本体信息,接着创建元数据表来保存这些本体信息。
HBClass表存储本体定义中的类信息,类名为row-key,包含两个列族:properties、subClass,分别存储类包含的属性信息和子类信息,用列族的列标签存储值,通过动态地增加列来存储多值,cell值均为“1”。具体存储结构如表1所示:
HBProperty表存储本体定义中的属性信息,属性名为row-key,包含四个列族:subProperty、inverseProperty、domain 和 range,分别存储属性的子属性、逆属性、定义域和值域信息,与HBClass表一样用列族的列标签存储值,通过动态地增加列来存储多值,cell值均为“1”。具体存储结构如表2所示:
创建HBInstance表用于记录每个类所拥有的实例,该表以类名作为row-key,只有一个列族instances,用列标签存储该类所拥有的实例URI,通过动态地增加列来存储多值,cell值均为“1”。
4 结束语
为了提高信息检索的准确性和高效性,该文主要结合教育资源本体构建及本体分布式存储技术对语义查询进行了探究。教育资源本体库的构建是一项系统工程,本体与语义网技术也还不完善,同时本人对本体领域的相关知识有限,所以本文所提出的教育资源语义检索相关技术的合理性还有待验证。
参考文献:
[1] 冯桂尔. 基于本体的教育资源探究[J].上海: 计算机教育,2007.
[2] 胡宜敏. 农业垂直搜索引擎语义化若干问题的研究与实现[D].合肥:中国科学技术大学,2012 .
[3] 李传席. 基于本体的自动Web信息抽取方法研究[D].合肥:中国科技技术大学,2012.
[4] 郭仲毅. 基于本体的教育资源个性化语义检索研究[D].呼和浩特:内蒙古大学, 2012 .
[5] 张静,唐杰. 下一代搜索引擎的焦点:知识图谱[J]. 北京: 中国计算机学会通讯, 2013, 9(4).
[6] 郑文良. 基于简单本体的农业P2P搜索引擎关键技术研究[D]. 沈阳:沈阳农业大学, 2013.
[7 ] Song R, Liu H, Wen J, et al. Learning block importance models for web pages[C]. Proceedings of the 13th international conference on World Wide Web, NY, USA. ACM, 203-211. 2004.
[8] 田鹿. 基于语义Web技术的教育资源元数据方案的研究[D].呼和浩特:内蒙古大学, 2008.
[9] 林培光, 康海燕. 面向Web的个性化语义信息检索技术[M]. 北京:中国财政经济出版社, 2009.
[10] 武成岗,焦文品,田启家等. 基于本体论和多主体的信息检索服务器[J]. 计算机研究与发展,2001, 36(6): 641-647.
[11] Berners-Lee, Tim. The Semantic Web. Scienti?c American. Retrieved March 13, 2008.
[12] Cheng T, K.C. Chang. Entity Search Engine: Towards Agile Best-Effort Information Integration over the Web. In Proc. CIDR, 2007,108-113.
[13] Ulanoff, Lance. Google Knowledge Graph Could Change Search Forever. http://mashable.com/2012/02/13/google-knowledge-graph-change-search
[14] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.
[15] 朱敏. 基于HBase的RDF数据存储与查询研究[D].南京:南京大学, 2013.
[16] White T. Hadoop: The Definitive Guide[M]. O'Reilly Media, Inc., 2012.
[17] Ghemawat S, Gobioff H, Leung S T. The Google file system[C]. ACM SIGOPS Operating Systems Review. ACM, 2003,37(5): 29-43.
[18] George L. HBase: The Definitive Guide[M]. O'Reilly Media, Incorporated, 2011.endprint