邱聃
(北京工业大学 软件学院,北京 100022)
基于思维导图的小学教育语义本体库构建
邱聃
(北京工业大学 软件学院,北京100022)
针对小学教育领域知识的特点,以利用小学教育语义本体创建思维导图为应用目的,本文提出了一种基于思维导图层次结构的本体库创建方法。该方法通过对本体的需求分析,应用逻辑描述对本体提供了语义定义;从信息收集、概念选择、属性关系的建立和语义标签的添加等方面描述了本体的创建过程;最后,利用经过改进的满足标签层次结构属性的相似度计算方法来完成标签比对过程,将不同本体关联形成本体库。
思维导图;小学教育;语义本体;标签;相似度计算
思维导图是一种思维工具,呈现的是一个思维过程,它的应用大体可概括在教学领域、企业管理领域、个人知识管理领域这3个方面。思维导图呈现的思维过程,是信息组织与共享的关键环节[1],在教学环节的设计中引入思维导图辅助,不仅能够充分发挥学生左右脑的作用,提高学生的学习效率,而且能够学生的思维能力,形成适合自己的思维方式。同时,思维导图所呈现出的清晰的关系结构,可以作为语义本体结构层次的参考和依据。
教育资源的本体化,能为学习内容构造清晰的知识体系结构,方便学习资源的组织管理;为学习资源的共享和应用协作提供了保障;为教学活动提供依据并优化其过程,极大地提高教育资源的重用率。虽然教育资源本体化的应用研究已经成为研究的热点,受到学者们的广泛关注,并取得了一定的研究成果,但其发展特别是在小学教育领域还是不够成熟,主要表现在以下几个方面:1)能够实用且广泛应用的本体库较少;2)本体库模型的共享性和重用性不够,且所构建的本体库多根据开发者的主观经验来构建;3)自动获取本体及扩展的相关技术仍不成熟,领域本体的获取、组织、处理主要以手工的方式;4)没有形成统一的标准化的本体建模方法,缺乏相应的本体评价标准。
文中首先对小学教育本体进行了需求分析,介绍了小学教育本体库所需包含的内容;其次介绍小学教育本体的构建思路、创建方法,介绍小学教育本体库中小学教育领域知识的获取、概念定义,属性关系的建立和语义标签的添加;最后介绍相应的扩展方法。
从思维导图的基本图形来看,它的层次结构可以看作是个从中心向四周发散的“树状”结构:有一个中心结点,四周包围着发散的子结点,中心结点和子结点是继承关系、包含关系,整体与部分关系或属性关系,子结点之间是并列的关系。这种“树状”的结构,基本上满足本体的原始层次结构定义。文中对于小学教育语义本体的定义就是基于思维导图的层次结构,同时附加上了标签的概念。这种形式有利于加强本体与本体之间的联系,形成本体库。
1.1本体的需求分析
一个知识点通常包括概念、概念的性质、概念之间的关系、概念之间的一般规律等。因此,对小学教育本体的研究就需要根据概念之间的类属关系显式地建立概念之间的联系,明确定义概念所具有的属性、属性的取值约束、处理过程、概念之间的关系等;使得看来一目了然的概念和概念之间的关系都形式化地加以描述,使概念之间的各种规律、联系和假设都显式地描述出来,通过研究确立概念之间的本质联系和隶属关系,建立小学教育领域概念的完整结构,这有利于全面地获取、分析及利用知识。
本文中,我们将小学教育本体定义为一个五元组{N,F,A,R,T}。其中N是教育本体的名字;F是N的父本体名,A是本体的属性集合,R是本体网络,由本体间的基本关系组成;T是附加到该本体的标签集合。
1.2本体的需求获取
本文在构建小学教育本体时,借鉴了教育主题词表的分类体系,从小学教育本体的自身需求出发设计本体的结构,将小学教育本体分为教育活动、教育学科、教育体系结构3个大类。对大类概念再进行二级划分,例如,教育活动可分为教育管理活动、教学活动等;教育学科再分为语文、数学、英语、思想品德等分支学科;教育体系结构分为各类教育、各级教育等。以此类推,可以继续逐级对概念进行细分,从而形成了小学教育本体的概念层次。小学教育本体的概念层次如图1所示。
图1 小学教育本体结构Fig.1 Primary education ontology structure
从现有信息源获取领域知识、以自动方式构建或扩充本体,即所谓的本体学习[2]。
机器学习和统计技术是本体学习使用的主要自动化手段,通过这些手段对结构化、半结构化或非结构化的数据进行处理,从中收集获取领域知识。对于结构化数据的处理,主要采取将结构化所使用的模型映射到本体结构上的手段[3];对于半结构化或非结构化数据,利用机器学习及自然语言分析来获取隐含的领域知识。
对于小学教育语义本体的构建,较便捷的方式是使用教育主题词表、教育辞典以及小学教育领域的语料集进行机器学习,来获取本体构建所需要的知识,然后用手工方式构建小学教育本体。具体的构建流程如图2所示。
2.1小学教育领域知识的收集与获取
图2 小学教育语义本体库构建流程Fig.2 Flow chart of construct primary education semantic ontology
小学教育领域所涉及的知识虽然浅显易懂,但是知识内容丰富,涉及面广。构建小学教育本体前需要搜集有关小学教育领域的知识。教育主题词表的部分概念以及词间分面分类关系是本文研究的一些依据;小学教育学方面的基础知识是重要补充;小学教育领域的权威专家的隐性知识是小学教育本体概念群选取和关系圈定的关键。另外,构建领域知识本体所用的相关文档和现有的规章制度、网络中使用的小学教育专业文献、小学的课本书籍都是小学教育领域知识收集与获取的对象。
2.2选择概念
这一步骤的主要任务是选择小学教育领域的基本词汇术语,准确定义词汇的概念。在核心概念的基础上自上而下进行扩展,形成合理完整的概念层次。选择小学教育词汇和定义层次时,通常需要借鉴已有的主题词表、专业词典、字典、小学教育专业书籍、术语等。已有的专业叙词表的词汇分类及定义比较标准,其中所包含的丰富的领域概念和一定的语义关系在表达概念结构上与本体有着紧密联系[4],可以作为有效的参考。此外,还可以通过中文分词切分,得到原始概念。例如,对于平行四边形的一种定义:对角线互相平分的四边形是平行四边形,通过中文分词切分可得到如下字符串:“对角线/互相平分/的/四边形/是/平行四边形”;其中,“的”、“是”这种停用词舍去,保留“对角线”、“互相平分”、“四边形”、“平行四边形”四个短语,亦即原始概念。
2.3建立属性关系
属性和关系是构建小学教育本体的基础[5]。在这一步骤中,需对所选概念词汇按照上文提到基本关系进行规范化定义,明确概念之间的关系,这些逻辑关系纵横交错,从而形成一个立体的、直观的语义关系网。在对小学教育领域进行分类时,从教育知识全局内采用继承关系,尽可能地减少冗余。例如,“对角线”、“互相平分”、“四边形”、“平行四边形”这四个概念,它们之间的关系如表1所示。
通过这些属性关系,可以简单明了地构建出四边形下的平行四边形的部分本体关系。
2.4语义标签的添加
本文使用标签这一富含语义的信息来表示本体之间的相似度,需要利用这些信息形成基于本体层次的标签相似度计算方法。
表1 概念间关系举例Tab.1 Example of the relationship between the concepts
在下文中,在不出现歧义的情况下我们把上位本体产生的标签统称为标签,即用上位本体的标签对下位本体做一个标注。例如,在图3中f是a的上位本体,a是f的下位本体,那么f对a做了一个标注。
图3以立体图形为例,展示了本体和标签的多层次结构。
图3 标签层次结构Fig.3 Hierarchical structure of tags
由于标签的层次性和本体的多标签性,在利用标签层次结构度量两个本体之间的相似性还应满足一些性质,在本文中,我们用sim来表示相似性。
性质1:扩张性。如果两个本体只共享一个标签,那么这个标签所标注的本体越多,两个本体的相似性越低。直观地举例来说,在图3中的a和b只共享标签f,b和e只共享标签g,其中有3个项目被标注了f,但是有4个项目被标注了标签g,因此可以有这个结论:sim(a,b)>sim(b,e)。
性质2:距离性。两个本体的共同标签如果离他们很近,那么这两个本体的相似性就比公共标签离得远的相似性要大。如图3所示,本体a和b的共同标签f是本体b和c的共同标签h的子孙节点,那么可得sim(a,b)>sim(b,c)。
性质3:结合性。如果两个本体拥有多个共同标签,那么这两个本体的相似性比拥有单个共同标签的相似性要大,比在每个共同标签下的相似性之和要小。如图3所示,本体b 和c有共同标签g和h,因此max sim(b,c|T)≤sim(b,c)≤∑Tsim(b,c|T),这里的T指的是共同的标签集合{g,h}。标签可以视作本体中某些属性的简要描述,拥有共同标签,就说明两个本体之间有某些属性是相同的,而拥有越多共同标签说明两个本体之间的相同属性越多,因此有用多个共同标签的本体比拥有单个标签的本体要更为相似。但是,每个标签所在的属性可能重复,实际相似程度比计算单个标签的相似度之和要小。
在这里,分两步进行来建立标签的层次结构。
第一步,以进行了部分标注的本体标签为基础,对标签近邻进行扩展。其基本思想是:基于关联规则[6],把拥有共同标签的本体视作为关联本体,并为其标注关联本体的标签。这一步的标签标注需采用一定的置信度。
第二步,主要是对进行第一步后仍没有标注的本体进行标签扩展,标注依据为本体之间的相似度。它的基本思想是采用余弦距离计算本体之间的相似度,利用前N个最近邻本体的标签对未标注本体的标签进行扩展。
本体库在构建期间或构建完成之后,会有较大的补充和完善的空间。快速增加的新词汇与术语,以及随着对语义相关技术的不断探索,小学教育领域本体涉及的本体类型不断地细分扩展,都要求我们在构建语义本体的时候,要随时对本体库进行扩展。
3.1关键词抽取
构成新语料的文本词汇非常多,如果不加区分把所有的词汇都作为关键词,则表示文本的向量空间维数就非常大,这样不仅会对运算效率有影响,而且还使得关键特征被淹没在非关键词中。因此,可以通过机器学习这种方法来获取类别的关键词,以增加区分度,同时达到降维的目的。
关键词的提取,可以借助词频统计的方法获得[7]。首先,选取符合主题特征的文本作为语料,从中随机选取一部分为训练样本集,其余作为测试样本集;然后对训练样本集进行中文分词,并对训练样本中的词频进行统计。对于绝大多数文本来说,其中都可能出现停用词,它会对文本自动分类产生“噪音”影响。所以,需要在预处理阶段对停用词进行过滤处理。对训练样本进行词频统计并去除停用词后,就可以用TF.IDF方法计算词汇的权重。最后,按照TF.IDF的计算结果对词频进行排序,选取权重值比较高的部分词汇作为关键词。关键词的选取数量先预设初始值,然后用测试样本进行测试,根据反复的实验结果选取最佳值。
3.2标签比对
把通过关键词抽取形成的语料集,经过知识获取、概念选择、建立属性关系、语义标签的添加之后,行成了一个新的本体。这时,本体往本体库中的添加就需要通过标签的比对来完成。
文献[8]中提出了能近乎满足2.4中提出的3种性质的计算方法,这种计算方法基于一种本体的概念相似度计算方法[9]。这种本体的概念相似度计算方法公式如下,假设节点c在本体中的父节点是p,那么节点c和节点p之间的距离计
其中,d(p)表示节点p在层次结构中的深度,E(p)表示子节点的连接数,E表示整个层次结构中节点的平均子链接数,T(c,p)表示连接类型,参数α,β控制节点深度和节点的局部密度对边权值的影响。每一个节点的信息熵计算公式为IC(c)=-logP(c),其中P(c)指的是节点c及其所有子节点出现的概率。
文献[8]提出将本体c1和c2的相似度通过共同标签的最短距离的倒数来表示,即sim(c1,c2)=1/minpdt(c1,p,c2)。相似度的取值范围在[0,1]之间。
在本文中,标签的比对通过计算标签的相似度来完成。当两个标签的相似度大于0.7时,我们认为这两个标签相似,进而这两个标签所在的本体相似。在实际情况中,一个本体包含多个标签,所以我们需要对所有标签进行相似度计算,然后将所得的值再进行方差运算来判断。算为:
本体的构建和完善是一个反复迭代的过程,一个成熟易用的建模和扩展方法能对本体库的构建起到指导作用,文中在分析小学教育领域知识特点基础上,以思维导图的层次结构为模型,依据和参考现有的本体构建方法,同时借助《教育主题词表》的一些概念关系,提出构建小学教育语义本体库的方法。该方法能够将小学教育领域内的知识概念词汇及相互关系以本体库的形式展现出来。当然,任何一个本体库构建成功之后,都会有较大的补充和完善的空间。总之,对小学教育本体库的建设是一项巨大而繁琐的任务,有效的构建方法和扩展规则也有待进一步研究完善。
[1]Anonymous.Maricl,Inc.;Cutting-Edge Social Mind Mapping Web Site Marici.com Launches[J].China Weekly News,2008 (1):121-122.
[2]刘柏嵩.基于Web的通用本体学习研究[D].浙江:浙江大学,2007.
[3]车成逸,马宗民,焦晓龙.基于结构化信息源的本体构建方法综述[J].计算机应用研究,2012,29(7):2407.
[4]丁晟春,李岳盟,甘利人.基于顶层本体的领域本体综合构建方法研究[J].情报理论与实践,2007,30(2):2.
[5]韩韧,黄永忠,刘振林,等.OWL本体构建方法的研究[J].计算机工程与设计,2008,29(6):1398.
[6]王爱平,王占凤,陶嗣干,等.数据挖掘中常用的关联规则挖掘算法[J].计算机技术与发展,2010,20(4):105.
[7]杨颖,戴彬.基于多特征的中文关键词抽取方法[J].计算机应用与软件,2014,31(11):110.
[8]孙远帅.基于大数据的推荐算法研究[D].福建:厦门大学,2014.
[9]Jiang J,Conrath D.Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy[C].In Proceedings of ROCLING'1997.New York:ACM Press,1997:19-33.
Construct primary education semantic ontology library based mind mapping
QIU Dan
(School of Software Engineering,Beijing University of Technology,Beijing 100022,China)
Researches conducted for Mind mapping application in primary education semantic ontology,while considering unique characteristics of primary education,paper proposed a solution based on cluster structure derived from mind mapping. The method provided a logical description of the ontologies to precisely define semantics by analyzing requirement;The process of constructing ontology is described from information collection,concept selection,establishment of attribute relationship and adjunction of semantic tags;Finally,similarity calculation method that improved and meet the hierarchical structure of tags were completed the process of tag comparison and adapted to associate different ontologies to form ontology library.
mind mapping;primary education;semantic;ontology;tag;similarity
TN709
A
1674-6236(2016)03-0053-04
2015-03-26稿件编号:201503366
邱 聃(1986—),男,浙江临安人,硕士研究生。研究方向:软件工程。