裴厚伟 丁冲冲
摘要:本体在处理海量异构信息,实现知识的共享和复用,更好的实现语义的推理有着天然的优越性,然而目前本体构建的过程仍然需要大量的人工参与,因此如何实现本体的自动构建正成为学术界研究的热点问题。该文提出了一种改进的基于词语共现的领域本体构建方法,实验表明,该构建方法对于解决本体构建问题有着较好的可信度。
关键词:领域本体;自动构建;词语共现
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)32-7562-05
本体这一概念最早起源于哲学领域,其最初出现是为了回答万物本质问题,后被引入计算机领域。目前针对本体尚无一种统一的定义,Gruber认为本体是形式化的,对于共享概念体系的明确而又详细的说明[1]。Studer扩展了此概念,他认为本体是共享概念模型的明确的形式化规范说明[2]。作为一种能在语义和知识层次上描述领域知识的有效工具,本体在知识表示、电子商务、人工智能、图书情报上有着广泛的应用价值。但是目前真正投入使用的本体还很少。其主要原因是本体大多依靠领域专家参与手动构建,费时费力,因此如何利用现有技术,实现本体的自动构建越来越受到人们的关注。
目前针对本体自动构建主要有两种方法:第一种是利用现成的语料库进行概念及关系获取,如Philipp Cimiano[3],Roberto Navigli[4]等利用领域词典WordNet获取概念以及概念之间关系,其本体构建结果往往高度依赖于词典本身,国内刘柏嵩[5],肖奎[6]等也针对此方法进行了相关研究。另一种方法直接从信息源进行抽取,具体方法主要可分为:基于统计学方法、基于规则匹配方法、基于关联规则方法。其中前两种方法较为主流,其主要原因是基于关联规则方法往往具有较高的时间复杂度,同时构建结果亦不理想。Navigli R[7]、Dan Crow [8]使用预定义的规则,针对非结构数据进行规则匹配,以此实现本体自动构建。耿骞[9]利用词语共现获取领域概念,是该方法仍然需要利用词典进行分词,同时对字典的层次结构有严格的要求。
本文提出了一种改进的本体构建方法,从图情文献数据库抽取领域知识,利用词语共现以及改进的有向亲和系数实现领域本体的自动构建,并给出了可视化实验结果。
1 基本思路
本体自动构建主要包括术语的自动抽取及术语关系的获取。
术语的抽取的研究方法有基于规则[10]、基于统计学[11]以及二者融合的方法[12]。对于情报领域领等专业学科领域,关键词是较为有效地本体术语。然而一篇学术文献的关键词往往较少,这对于构建术语关系远远不够,因此必须设计出一种关键词扩展方法用以获得更多的关键词信息。
术语关系抽取是指从一定规模的语料库中抽取出反应某一领域文本特征的两两词语间的语义关系。目前,针对术语关系抽取方法,总体上可以分为3种:手工获取方法、模版匹配方法、统计学方法。手工获取方法需要大量专家参与,效率低。模版匹配方法需要提前定义好一组通用性较强并且要求模版无歧义,对模版依赖性强。统计学方法是目前主流的术语关系抽取方法,根据一些经典的统计分布方法,给出术语之间的语义关系。词语共现指词与词之间在同一种语境中同时出现的组合关系,如果两个词语在文献中共现的次数越频繁,则说明这两个词语之间越可能具有亲密的关系,即两个词语共现频率越大,这两个词语越相关。在一个本体模型中,层次关系是最为重要的组成部分,我们认为语义层次高的关键词往往频率较高,语义层次低的关键词往往频率较低,可以借此构造层次语义模型。同时对于两个不同的关键词术语,如果两术语拥有相同的术语部件,并且前者拥有的术语部件少于后者,那么我们认为后者是前者的下位词[13],如图书馆、高校图书馆,显而易见,图书馆是高校图书馆的上位词。
2 具体算法
3.3 本体的可视化结果
本体的可视化是反映本体层次结构、属性关系最直观、最简洁的方式,可以为用户提供最直观的推理结果,笔者利用prefuse开源包,给出了本体的可视化结果,实验证明,该方法具有较好的效果。为了确保共现关系的有效性,我们只取和关键词共现强度最大的十个相关关键词,通过调节节点相关度以及节点频率,以寻求相关关键词的共现关系。如图1所示,可以通过调节节点相关度、文档频率发现共现词之间的共现关系。实验结果较为理想,概念以图书馆为中心,向外扩散。我们根据2.2.3节所介绍本体层次模型构建方法,构建结果如图2,通过此方法,我们可以很直观的看出本体间概念以及概念之间的关系。
4 总结
本文针对本体自动构建开展了全面的剖析与研究,首先分析了目前本体自动构建的相关方法,并提出了一种基于词语共现的改进的本体构建方法,同时给出了本体可视化结果,实验证明,该方法是有效的。
参考文献:
[1] Tom Gruber.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993(5):199-220.
[2] Studer R,Benjamins V R,Fensel D.Knowledge Engineering:Principles and Methods [J].Data and Knowledge Engineering,1998(1-2):161-197.
[3] Philipp Cimiano,J V?lker.Text2Onto - A Framework for Ontology Learning and Data-driven Change Discovery.Natural Language Processing and Information Systems[C].10th International Conference on Applications of Natural Language to Information Systems,Alicante,Spain,NLDB 2005: 227—238.
[4] Roberto Navigli,Paola Velardi.Learning domain ontologies from document warehouses and dedicated web sites[J]. Association for Computational Linguistics, 2004(2):151-179.
[5] Liu Baisong,Gao ji.General ontology learning framework[J].Journal of Southeast University (English Edition),2006,22(3):381 -384.
[6] 肖奎,谭小虎,吴天吉,等.一种面向领域的本体自动构建方法[J].小型微型计算机系统,2013,34(7):14-17.
[7] Navigli R,Velardi P,Gangemi.A Ontology learning and its application to automated terminology translation[J].Intelligent Systems,IEEE ,2003(1):22-31.
[8] Dan Crow,John DeSanto. A hybrid approach to concept extraction and recognition-based matching in the domain of human resources[C].6th IEEE International Conference,2004:535- 541.
[9] 耿骞,耿崇.利用词语共现进行Ontology的概念获取[J].现代图书情报技术,2006, 1(2) :43-45.
[10] Gacitua R,Sawyer P,Rayson P.A flexible framework to experiment with ontology learning techniques[M].Research and Development in Intelligent Systems XXIV,2008:153-166.
[11] 孙继鹏,贾民,刘增宝,等.一种面向文本的概念抽取方法的研究[J].计算机应用与软件,2009,26(9):28-30.
[12] 张雷瀚,吕学强,李卓,等.领域本体术语的抽取方法研究[J].情报学报,2014,33(2):167-174.
[13] 唐晓波.肖璐.基于词语共现的多用户兴趣本体构建研究[J].情报理论与实践,2012(5):99-102.
[4] Roberto Navigli,Paola Velardi.Learning domain ontologies from document warehouses and dedicated web sites[J]. Association for Computational Linguistics, 2004(2):151-179.
[5] Liu Baisong,Gao ji.General ontology learning framework[J].Journal of Southeast University (English Edition),2006,22(3):381 -384.
[6] 肖奎,谭小虎,吴天吉,等.一种面向领域的本体自动构建方法[J].小型微型计算机系统,2013,34(7):14-17.
[7] Navigli R,Velardi P,Gangemi.A Ontology learning and its application to automated terminology translation[J].Intelligent Systems,IEEE ,2003(1):22-31.
[8] Dan Crow,John DeSanto. A hybrid approach to concept extraction and recognition-based matching in the domain of human resources[C].6th IEEE International Conference,2004:535- 541.
[9] 耿骞,耿崇.利用词语共现进行Ontology的概念获取[J].现代图书情报技术,2006, 1(2) :43-45.
[10] Gacitua R,Sawyer P,Rayson P.A flexible framework to experiment with ontology learning techniques[M].Research and Development in Intelligent Systems XXIV,2008:153-166.
[11] 孙继鹏,贾民,刘增宝,等.一种面向文本的概念抽取方法的研究[J].计算机应用与软件,2009,26(9):28-30.
[12] 张雷瀚,吕学强,李卓,等.领域本体术语的抽取方法研究[J].情报学报,2014,33(2):167-174.
[13] 唐晓波.肖璐.基于词语共现的多用户兴趣本体构建研究[J].情报理论与实践,2012(5):99-102.
[4] Roberto Navigli,Paola Velardi.Learning domain ontologies from document warehouses and dedicated web sites[J]. Association for Computational Linguistics, 2004(2):151-179.
[5] Liu Baisong,Gao ji.General ontology learning framework[J].Journal of Southeast University (English Edition),2006,22(3):381 -384.
[6] 肖奎,谭小虎,吴天吉,等.一种面向领域的本体自动构建方法[J].小型微型计算机系统,2013,34(7):14-17.
[7] Navigli R,Velardi P,Gangemi.A Ontology learning and its application to automated terminology translation[J].Intelligent Systems,IEEE ,2003(1):22-31.
[8] Dan Crow,John DeSanto. A hybrid approach to concept extraction and recognition-based matching in the domain of human resources[C].6th IEEE International Conference,2004:535- 541.
[9] 耿骞,耿崇.利用词语共现进行Ontology的概念获取[J].现代图书情报技术,2006, 1(2) :43-45.
[10] Gacitua R,Sawyer P,Rayson P.A flexible framework to experiment with ontology learning techniques[M].Research and Development in Intelligent Systems XXIV,2008:153-166.
[11] 孙继鹏,贾民,刘增宝,等.一种面向文本的概念抽取方法的研究[J].计算机应用与软件,2009,26(9):28-30.
[12] 张雷瀚,吕学强,李卓,等.领域本体术语的抽取方法研究[J].情报学报,2014,33(2):167-174.
[13] 唐晓波.肖璐.基于词语共现的多用户兴趣本体构建研究[J].情报理论与实践,2012(5):99-102.