李 勇(解放军外国语学院,洛阳471003)
基于维基百科的本体构建研究
李勇
(解放军外国语学院,洛阳471003)
维基百科作为一个多语种的大型知识库,正逐渐被人们应用于不同的领域。剖析维基百科的基本结构,分析对从信息盒、类别结构和定义句中获取本体概念和实例的相关原理和方法,阐述利用维基百科获取本体关系的原理,分析基于规则匹配、机器学习和认知科学的关系抽取方法。
本体构建;维基百科;概念;关系
本体(Ontology)在哲学上是对客观存在事物的系统解释和说明。在计算机科学中的定义是由Gruber提出的,他认为本体是概念模型的明确的规范说明,即本体实际上是对相关领域中的概念及相互之间关系的明确定义,并提供人们对该领域知识的共同认可和理解[1]。近些年来,本体在信息检索、知识表示、问答系统、信息抽取等方面都有广泛的应用。本体的构建是本体研究和应用的基础和前提,因此首先成为了人们研究的重点。早期本体的构建以手工为主,虽然内容和分类比较准确,但是知识扩充和更新很难及时。虽然可以借助一些本体构建工具(如Protégé),但是其中概念、属性、关系等内容通常要靠相关领域的专家完成,并通过手工输入相关的数值,开销较大。因此,近些年兴起的针对结构化和半结构化的数据进行本体的自动和半自动构建,并通过利用知识获取技术降低本体构建开销、提高构建效率成为了研究热点问题。
维基百科(Wikipedia)自诞生之时起就备受知识库自动构建者的关注,主要由于其自身所具有的半结构化、词条更新速度快等特点。在维基百科中,词条正文和词条中所包含的各类链接、子标题、分类、模板和信息盒等要素,都可看成是对语义信息的一种半结构化组织[2]。同普通网页相比,维基百科词条质量高、内部的知识挖据难度低,词条分类清晰,同时维基百科的时间演化特点,充分避免了挖掘的本体知识库更新滞后。因此,将在剖析维基百科结构的基础上,进行本体概念、实例以及关系抽取的原理和方法进行分析和比较。
维基百科创建于2001年,是一个基于Wiki技术的多语言百科全书协作计划,同时也是一个动态的、可自由访问和编辑的全球知识库,其目标是为全人类提供各种语言的自由百科全书。维基百科已经成为内容最多、范围最广、更新最快的开放型网络百科全书。截止2014年7月,维基百科一共有285种语言版本,其中英文版本的条目已经超过400万条,中文版本的条目超过80万条。维基百科的结构主要由条目(Entry)、信息盒(Information Box)、类别(Category)和超级链接(Hyperlinks)等构成。
1.1条目
条目是维基百科中最基本的信息单元。每篇条目就某一百科内容来描述一个主题,并表现该主题与其他相关主题的联系。条目首先要对所描述内容进行基本的解释,所以第一句也称为定义句。然后是该条目的目录,目录说明了该条目的不同方面,后续内容是对这些方面的具体阐述。如图1为“2012 London Olympicgames”条目所示。
图1 “2012 London Olympic Games”条目
1.2信息盒
信息盒是维基百科中一种特殊类型的模板结构,主要包括当前条目的一些基本属性和重要信息。此外,信息盒中也含有丰富的结构化和语义信息。图1最右边的矩形区域是信息盒,包括诸如主办城市、参赛国家和地区、运动员数量、比赛项目、开闭幕时间等属性信息。这些属性的一部分可以表示为当前条目和其他条目之间的语义关系,当前条目作为主语,其他条目作为宾语,并且通过信息盒属性的超链接能够直接访问百科中的其他实体。例如2012年夏季奥运会和伦敦之间具有语义关系“举办城市”。这些信息可以看成是对整个百科知识的摘要,便于用户的访问和浏览,维基百科的信息盒仅仅是部分条目含有。
1.3类别
在每篇百科的底部是类别信息,每篇百科隶属于一个类别。维基百科中的类别页面主要包括两种:Topic Categories表示与特定主题相关的类别和条目;List Categories表示通过列表列出该概念所包含的实例。用户需要为自己撰写的条目进行归类,并且指定该条目在类别体系中的父类和子类。例如:条目“北京大学”就被包含在类别“北京的大学和学院”和“211工程”等类别里。而在类别里不仅有条目,还会有子类别。其分类体系类似于C++面向对象编程理论中的类继承体系,整个结构层次不是树形结构,而是网络图结构,每个类别可能有多个父类和子类,如图2所示。由于维基百科的类别体系是图结构,所有信息可以使用图论中的理论来进行导航,从方便用户的角度进行深度优先和广度有限搜索,由于所有的类别缺乏一致性,所以不可避免出现冗余。
图2 类别结构图
1.4超链接
维基百科中除了信息盒及类别系统等较为显式的语义信息,还有一些隐式的语义信息,例如大量的超链接,包括内部链接和外部链接。前者是维基百科内部的条目之间的链接,后者是从维基百科内部链接到外部网页。用户在维基百科里面用得最为广泛的结构信息就是内部链接,这些链接构建了维基百科的隐含语义关系网络。通过点击链接,我们可以从一个条目转换到另一个和原条目有一定联系的或相同主题的条目,因此链接可看作是条目描述的实体之间的某种关系。至2014年,英文版的维基百科已包含超过90M的超链接,构成了一个强大的链接体系。
2.1基本信息盒
本体的概念又可以称为类(Class),可以指任何具体的或抽象的事物,如工作描述、功能、行为、策略和推理过程等。本体的实例表示概念的具体化过程。由于维基百科具有丰富的知识,通过维基百科能获得丰富的结构化数据,继而来抽取本体的概念和实例。信息的抽取过程不需要利用传统的词频统计、词法结构等特征来区分普通条目和术语概念,通过维基百科的类别体系和超级链接构建网络图来抽取本体概念和实例。主要的方法可通过信息盒、类别结构和定义句来完成。
每种条目的信息盒拥有条目的众多属性,其中信息盒对应着概念,标题对应着概念的实例。例如:{Infobox University}对应概念“大学(University)”,信息盒标题〈Beijing University>对应此概念的一个实例。如果多个条目的信息盒都指向一个概念,例如:〈Nanjing U-niversity>也指向{Infobox University},则表示这些条目是这个概念的不同实例。如果一篇条目中有多个不同的信息盒,表示这个实例隶属于多个概念。上述充分地说明了概念和实例之间是多对多的关系。基于信息盒的抽取方法充分利用了维基百科信息盒模板中的属性和值。虽然维基百科中并不是所有条目都有信息盒,导致应用范围较窄,但是抽取的结果十分准确。
2.2基本类型结构图
相对于从信息盒里的抽取,维基百科的类别结构具有更高的覆盖度。因此,从类别结构图抽取实例和概念,具有更广泛的应用。由于维基百科的类别含有非常好的特性,是一个复杂的网络结构,并具有丰富的语义,反映了实例和概念之间的分属关系或者概念和概念之间的上下位关系。维基百科的类别是用来定义特征、帮助用户通过多重分类视角浏览维基百科的,被包含在一个类别里的条目常具有特定的属性和值,这些属性和值提供了信息抽取的良好条件。概念的抽取过程需要深入地分析类别结构图。文献[3]提出首先统计类别结构图中当前概念到不同领域的路径长度、路径数目因素,然后根据隶属度函数计算概念向量的每个分量值,判断概念所属领域,抽取本体概念。
2.3基本定义句
在规范的维基百科条目中,一般都有定义句。定义句一般出现在条目的开头,对条目内容进行简要的描述。例如,在条目“奥运会(Olympic Games)”中,第一句为“The Olympic Games is a major international event featuring summer and winter sports,in which thousands of athletes participate in a variety of competitions.”。该句对奥运会进行了基本定义。通常情况下,定义句中隐含了概念之间的上下位关系或实例-概念关系。例如,在上述定义句中,可以得到概念“奥运会(Olympic Games)”是概念“international event”的一个实例。通过对定义句中隐含的概念上下位关系和实例-概念关系进行分析,可以获取相关概念与实例。这种方法直接利用定义句中的动词来判断概念和实例,操作比较简单,但准确率不够高。
在本体知识库的构建过程中,不仅要识别本体概念,还要确定这些本体之间的关系(两个实体之间的关系),因此需要进行本体关系抽取。本体关系的抽取需要预先定义抽取类型,本体关系有一些常用的关系,也有根据实际情况产生的关系类型。例如:地理位置关系(PHYS)、雇佣关系(EMP-ORG),等等[4]。例如,如果文本中出现“The CEO of Alibaba…”,其中“The CEO of Alibaba”和“Alibaba”分别可表示成人物(Person)类型和组织(Organization)类型的实体。两种实体类型之间构成了一种雇佣关系(EMP-ORG),即“The CEO of Alibaba”受雇于“Alibaba”。当然可以是没有定义的,例如在一句话中出现没有定义在上述关系范畴内的关系。
本体关系反映了本体概念、实例之间的相互联系,在语义检索、问答系统等应用方面具有重要的作用。Maedche和Staab将本体关系分为分类关系(Taxonomy Relation)和非分类关系(Non Taxonomy Relation)[5]。分类关系又称为IsA关系,包括上下位关系(Hyponymy)、实例关系(Instance Of)以及部分整体关系(Part Of)等。上下位关系类似于面向对象理论中父类和子类之间的关系,表示概念之间的继承关系,如“大学生”与“学生”之间则是这种关系。实例关系表示实例和它所对应的概念之间的关系,如“iphone”是“手机”这个概念的实例。部分整体关系表示一个概念“有”另外一个概念,如:“汽车”有“车轮”。非分类关系主要包括同义词关系(Synonymy)、反义词关系(antonym)等,即除了IsA关系外的概念间的任何关系。在本体关系的抽取中,主要通过基于传统的规则匹配方法、基于机器学习方法和基于认知科学的方法来完成[6]。
3.1规则匹配方法
使用规则匹配方法在维基百科中获取本体之间的关系是指通过条目、信息盒、类别结构等相关内容的分析,并且识别出的规则语言模型,然后将待处理的语料与规则模型进行匹配,从而识别本体概念间的关系[7]。例如,通过判断维基百科的条目Member和CEO之间蕴含的关系是Members-Of关系,因此可以指定规则模型“A is the CEO of B→Members-Of(A,B)”,并将该规则模型应用于待处理的语料,可以得到更多的关系实例。
基于规则的关系抽取首先制定规则,然后进行模式匹配,如果在百科中能够找到满足约束条件的规则,说明该规则就是抽取到的关系。所以基于规则的匹配方法的关键问题是规则本身的学习和抽取,在此基础上考虑目标关系的抽取等问题。例如,利用信息盒结构对非分类关系中的属性关系进行提取。在信息盒中,每行的字段域对应着一种属性,对同一概念中所有实例的字段域进行归纳和筛选,可以获得概念的主要属性。例如,某条目Produced By字段域对应着属性“制造者(Producer)”,属性值为“微软公司(Microsoft)”。可以利用三元组(Office,designed by,Microsoft)来表示这种类型的属性关系。然后对概念“软件产品”中所有实例(Photoshop、Dreamweaver等)的字段域进行归纳,可以得到“制造者”是概念“软件产品”的一个重要属性,即存在语义关系“Distribute-Of(Producer,Software)”。虽然不是所有的维基百科条目都能用规则关系匹配,但是匹配上的规则抽取准确率很高。除了可以信息盒中的属性来提取关系,也可以根据一些词典或者知识库中已经定义的同义、反义和上下位关系来提取,例如通过WordNet、HowNet等知识库来进行规则匹配。
3.2机器学习方法
使用机器学习方法从维基百科中获取本体关系,需要充分利用百科条目中的词法、句法、语义、语用和内部结构等特征,根据选定的统计模型对归纳和总结训练数据,学习所应用统计模型的相关参数,然后用训练好的模型和这些参数处理语料完成本体概念之间关系的抽取。相对于基于规则的关系抽取,机器学习方法主要是使用统计方法,基于概率的非确定性抽取,根据是否引入监督学习,可以将其分为有监督的分类方法和无监督的聚类方法[8~9]。聚类方法首先计算概念间的语义距离,将距离大于一定阈值的概念聚集到同一类簇中,聚类的结果就是概念的类别。分类方法首先需要人工指定或者利用通用类别来构造分类器,然后对训练语料进行学习,将学习到的统计模型处理语料,然后来确定概念之间的关系。本体关系的识别可以使用聚类或者分类方法进行,在完成百科知识的预处理后,选择具有较强区分度的特征项来决定本体关系识别的效果。基于机器学习的关系抽取是一种概率性的非确定性的抽取模型,如果语料库的规模比较大,通常会有比较好的效果。
依据选择特征项选择的方法不同,维基百科关系的机器学习方法可以通过统计文本特征和结构特征的方法来实现。文本特征主要学习词性、特殊字符、属性名、句法等文本的表层特征和语义等文本的深层特征,继而计算特征项的权值构建特征向量,使用K近邻、支持向量机等方法学习概念间的关系。由于准确率和召回率受特征选择的影响较大,所以结果普遍较低。维基百科的数据具有半结构化的特点,所以其结构特征根据不同的抽取需要,可以提取定义句动词特征、类别中心词特征、内外链接特征等多种,根据这些特征进行统计学习。由于考虑了抽取的需求,所以该方法具有非常高的准确率和召回率。
3.3认知科学方法
认知科学主要研究生物智能的结构、功能和工作原理,用信息加工的方法来研究认知结构和过程。基于认知科学的关系抽取通过建立计算机模型,来模拟人类认知过程,是一种研究人思维处理机制,并结合人工智能来完成信息抽取的方法。例如概念层次网络HNC。认知科学的模型是建立在人工智能的基础上,但是人类对于自身的认知过程的认识有限并且起步较晚,所以效率的提高还需要进行研究。
维基百科具有庞大的知识覆盖体系以及丰富的结构特征,通过采用当前基于规则匹配、机器学习、认知科学的方法和手段,可以自动获得本体的概念元素和各种关系,大大提高了本体构建的效率,利用维基百科进行信息抽取、本体学习和开发利用已经成为当前研究的一个热点。
[1]朱姗.基于规则和本体的实体关系抽取系统研究[J].情报杂志,2010(12):142~143
[2]张海粟,马大明,邓智龙.基于维基百科的语义知识库及其构建方法研究[J].计算机应用研究.2011(8):7~11
[3]Cui G Y,Lu Q,Li W J,et al.Corpus Exploitation from Wikipedia for Ontology Construction[C].Proceedings of the Sixth International Language Resources and Evaluation(LREC-08).Marrakech:ELRA,2008:2125~2132
[4]车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报.2005(2):7~9
[5]Miller G A,WordNet a Lexical Database for the English Language[J].Communications of the ACM,1995(38):39-41.
[6]Faure D,Nedellec C.A Corpus-based Conceptual Clustering Method for Verb Frames and Ontology Acquisition[C].Proceedings of the LREC Workshop on Adapting Lexical and Corpus Resources to Sublanguages and Applications.Granada:LREC,1998:5~12
[7]Papatheodorou C,Vassiliou A,Simon B.Discovery of Ontologies for Learning Resources Using Word-Based Clustering[C].Kommers P, Richards G.Proceedings of the World Conference on Educational Multimedia,Hypermedia and Telecommunications.Chesapeake: AACE,2002:1523~1528
[8]Nguyen D P T,Matsuo Y,Ishizuka M.Relation Extraction from Wikipedia Using Subtree Mining[C].Proceedings of the AAAI'07 Conference.Vancouver:AAAI Press,2007:1414~1420
[9]Wang G,Yu Y,Zhu H.PORE:Positive-Only Relation Extraction from Wikipedia Text[C].Proceedings of the Sixth International Semantic Web Conference and Second Asian Semantic Web Conference(ISWC/ASWC'07).Berlin,Heidelberg:Springer-Verlag,2007: 7580~7594
Research on the Ontology Construction Based on Wikipedia
LI Yong
(PLA University of Foreign Languages,Luoyang 471003)
Wikipedia as a large knowledge base of more than one language is gradually to be applied to different areas.Analyses the basic structure of Wikipedia,and compares the principles and methods to obtain the ontology concepts and instances from the category structure,information boxes,and the definition of sentence on the principle of the use of Wikipedia for ontological relations,analyzes rule-based matching and statistical learning methods and cognitive science.
Ontology Construction;Wikipedia;Concepts;Relationships
1007-1423(2015)11-0053-05
10.3969/j.issn.1007-1423.2015.11.010
李勇(1978-),男,吉林长春人,在读博士研究生,研究方向为数据挖掘、自然语言处理2015-02-10
2015-03-17