张兰芳,年梅
新疆师范大学网络信息安全与舆情分析重点实验室,乌鲁木齐830054
互联网技术的飞速发展促使教育教学要面向信息化、现代化,基于网络的在线学习(E-Learning)成为一种新的学习方式[1],它是自主学习、终身学习的有利工具。但是随着网络资源的迅速膨胀,基于关键字简单匹配的搜索引擎在查找教学资源时,找到的大量链接与学习者的查询需求无关,不能满足学习者网上资源查询的需要,降低了学习者在线学习的效率,也困扰了学习者利用网络学习的创造性和积极性。近年来,一些学者提出采用概念语义查询扩展的方法来检索教学资源,这样可以从语义层面理解学习者的需求,把握学习者检索的真实意图,为学习者提供语义相近和相关的知识内容,以提高在线学习的效率。
概念语义查询扩展是在语义词典/领域本体的基础上构建概念语义空间,对原查询进行扩展。该方法需要首先提取概念语义空间中的各种概念及其隐含的各种语义关联,建立一个概念语义网络知识库;然后将查询概念与概念语义网络知识库中的概念匹配,生成查询语义的关联概念树;从关联概念树中提取与原查询语义相关的概念,通过一定阈值与规则的没定,选出扩展概念,实现基于概念的扩展检索[2]。概念语义扩展检索能够实现语义的同义扩展、蕴含扩展、外延扩展、并列扩展和相关扩展[3]。
基于概念语义网络能提高教学资源检索的查全率和查准率,并为学习者提供所查询知识点相关领域的导引学习,是目前教学资源查询的主流途径。近年来本体技术颇受学者们的青睐,成来教学领域概念语义网络的研究热点。他们采用本体技术构建某一学科领域的知识库,从而实现该领域知识的查询扩展,以帮助学习者更全面、准确地了解所查询知识点的相关内容。
本文提出教学资源概念扩展思想,以《计算机网络》第五版为依据,采用文献[3]提出的文档抽取方法,抽取出《计算机网络》主要知识点中的术语作为《计算机网络》概念语义网络的概念词和扩展概念词,构建概念语义网络,设计概念语义查询扩展检索系统;将学习者查询计算机网络领域的查询词在《计算机网络》概念语义网络中进行语义扩展,并向上拓展抽取完整的关联概念树,不仅充分挖掘出每个查询词的语义概念,而且通过向上拓展至各个查询词的公共祖先节点,将各查询词的原始语义关系联接起来。其解决了查询词之间缺乏联系的问题,从而较全面地进行答案搜索,提高学习资源的查全率和查准率,为学生在线学习效率的提高奠定基础。
查询扩展是在原查询词的基础上加入与用户用词相关的词或者词组,组成新的、更准确的查询序列,使扩展后的查询序列能更清晰地表达用户的查询意愿[2]。传统的查询扩展技术主要有全局分析、局部分析,以及基于用户查询日志[4]和基于关联规则挖掘[5]的查询扩展[2]。其中局部分析中的伪相关性反馈PRF(Pseudo-Relevance Feedback)技术[6-7]是使用较多的方法。该方法主要利用查询时返回的top-N支持文档来扩展原始查询语句。但是这些查询扩展方法的效果并不稳定。
目前,基于概念语义的查询扩展检索已经成为信息检索的发展趋势。国外较著名的项目有Swoogle、KIM平台、FINDUR系统,其中Swoogle是由美国马里兰大学开发的针对语义网的搜索引擎,其处理的数据对象是RDF元数据及本体术语。Swoogle借助Google等通用搜索引擎为其搜索博客、新闻种子、数字图书馆、版权元数据、软件配置和词典(如WordNet)等语义数据,其目的是推动语义网数据的获取[1]。国内在概念语义检索方面的研究起步较晚,目前还没有真正能得到大范围应用且用户认可的检索系统或搜索引擎。中科院计算所诸葛海等[8]提出的知识网络通过采用新的计算模式和新的资源组织与管理模型,能有效地辅助用户进行资源的查询、获取、共享等工作。
国内外在概念语义网络方面的研究已初具成果。例如斯担福大学的Infomap Search Engine,通过选用不同的训练语料,测试生成的概念语义网络对查询效果的影响,并在此基础上,利用医学相关语料和双语词典生成一个概念网络,建立医学文档检索的示范应用[9]。国内较典型的相关研究有:中国科学院计算技术研究所用共现分析以及Hopfield网络概念空间,从而实现了基于概念空间的扩展检索[10];北京邮电大学针对计算机及其应用领域,手工创建了一个含有500多个概念节点,包括一个分类体系和近300种概念相关关系的语义网络,初步实现了特定领域的概念检索[11];中国科学技术大学和中国科学院计算技术研究所联合研究开发的基于概念语义空间的联想检索系统,通过共现分析建立概念语义空间,并借助于大型语义词典《知网》,为用户提供了一个智能检索接口[12]。
通过对自然语言网络答疑语料库(即问题答案库)的分析,以《计算机网络》(第五版)为依据,总结出《计算机网络》的关键知识点,从这些关键知识点中抽取出概念词。
概念语义网络是本文实现教学资源概念查询扩展的关键部分。含有概念词间概念关系的概念语义网络实际上就是一个知识库,基于该知识库可以实现特定领域信息的智能检索。本文基于《计算机网络》概念语义网络,实现《计算机网络》教学资源领域Web页面的概念检索。
在概念语义网络中每个节点表示一个概念词,有向边表示概念词之间的某种关系。概念语义网络具有纵向层次关系,不同层次表明概念间的抽象程度不同,层次越高其概念概括性越强,包含的子概念越多。父概念由一组子概念组成,是子概念的抽象、概括表示,子概念是父概念的属性、特征表示,是对父概念的细化。概念语义网络还有横向关系,包括同义概念关系和兄弟概念关系,这样就可以把不同层的具有同义概念关系和兄弟概念关系的任意节点联系起来,构成一个概念语义网。
图1 概念语义网络构造示意图
以《计算机网络》第五版教材为依据构建《计算机网络》概念语义网络。参考文献[3]提出的概念语义网络的自动生成方法,抽取出概念词的同义概念词、子概念词,然后对子概念关系进行角色转换,得到父概念词和兄弟概念词。这样以各个概念词为中心依托各种概念关系构造出它的概念语义网,各概念词之间通过各种概念关系相互关联,从而生成一个有着各种概念关系的语义网络。概念网络中每个节点代表一个元概念,节点间的连线表示概念间的各种语义关联和继承关系。具体构建时采用如下的方法:
(1)用分类树的方法构建概念词间的纵向层次关系。第一层是最高层,用来描述最具概括性的概念,定义为“计算机网络”;第二层细化为网络参考模型、网络安全、无线网络、因特网多媒体信息服务、下一代因特网五个主题领域;第三层对第二层的概念再进行细化,如:第二层中网络参考模型再细化分为物理层、数据链路层、网络层、运输层、应用层五个主题领域。在这里并非所有的概念都要进行细化,可以根据概念词间的关系进行细化,这样建成的分类树在深度和广度上自由扩展,易于操做。
(2)在分类树的基础上添加横向的同义概念关系和兄弟概念关系,实现不同层次上同义概念词和兄弟概念词的联系,构成一个概念语义网络。
图1是《计算机网络》概念语义网络的构造示意图。
图1中每个节点代表一个概念词,括号里是它的同义概念词,主要是英文简写和全称。单向箭头表示所连接的两个概念词是父子概念关系,实曲线所连接的两个概念词是兄弟概念关系。
《计算机网络》概念语义网络表示为SN={N,E},其中N是概念节点的集合,描述了该节点的各种属性值,E是联接N中节点的带标识的有向边的集合,描述了有向边所代表的概念关系。定义如下的概念关系:
概念关系::=<同义概念关系A>|<父概念关系F>|
<子概念关系S>|<兄弟概念关系B>
针对概念语义网络的实际需求,设计如下实体和属性:
概念词(概念词编号{PK},概念词名,父概念词编号)
同义概念词(同义概念词编号{PK},概念词编号{FK},同义概念词描述)
父概念词(父概念词编号{PK},概念词编号{FK},父概念词描述)
子概念词(子概念词编号{PK},概念词编号{FK},子概念词描述)
兄弟概念词(兄弟概念词编号{PK},概念词编号{FK},兄弟概念词描述)
学习者查询语义的提取策略:如果学习者输入的《计算机网络》领域的查询概念与《计算机网络》概念语义网络中的概念词精确匹配,将提取每一个查询概念的关联概念。关联概念包括同义概念词、父概念词、子概念词和兄弟概念词,这些概念词组合在一起其实就是一棵与查询概念关联的概念语义树,称它为关联概念树。学习者查询概念的扩展其实就是关联概念树的提取过程。在提取过程中给每个概念设定相关的权重,就可以完成学习者查询语义的提取。
步骤1学习者输入查询的概念,系统调用预处理模块对其进行处理生成查询向量Q(q1,q2,…,qn),将初始查询向量放入到《计算机网络》概念语义网络中进行概念节点匹配,匹配原则是概念词名称的精确匹配,如果在概念语义网络中精确匹配到查询向量Q,就把匹配到的概念节点定义为元概念节点O(o1,o2,…,on)。
步骤2以元概念节点O(o1,o2,…,on)为基点提取关联概念树T(t1,t2,…,tn)。
步骤3以元概念节点O(o1,o2,…,on)为基点搜索它们的共同祖先概念节点,可能存在多个共同祖先概念节点,把离元概念节点最近的共同祖先概念节点定义为最近祖先概念节点Root,它将成为关联概念树T(t1,t2,…,tn)根节点。把元概念节点及其下面的子概念集、最近祖先概念节点及其到元概念节点的路径概念节点,连同它们的树状结构及元概念节点的同义概念节点、兄弟概念节点一起裁剪复制一份出来,生成一个符合学习者查询意愿的关联概念树。
步骤4查询语义的提取及扩展词的确定。在关联概念树中,查询语义是以元概念节点为中心,向上向下延伸,离元概念节点越远的节点,其概念语义与查询语义相关程度就越小。元概念节点上层语义边界是其最近祖先概念节点,也就是关联概念树的根节点。以元概念节点为根节点向下延伸到子树,这里引入参数L定义为子树层数,确定查询语义的下层语义边界。关联概念树的语义范围确定就是查询语义的提取,以元概念节点O(o1,o2,…,on)为基点向上延伸至最近祖先概念节点Root,向下延伸至所有元概念节点的子概念节点,横向延伸至元概念节点的同义概念节点和兄弟概念节点,除元概念节点外,关联概念树中其余的概念节点都将作为查询概念的扩展词。
如图2是查询词关联概念树的提取示意图。
图2中实心圆点为元概念节点,“查询语义的关联概念树”中的空心圆点就是扩展的概念节点,它们将与元概念节点一起组成查询序列以表示学习者的查询意愿。
在查询词的关联概念树中,各概念节点对初始查询的权重是不同的,元概念节点是初始查询词,其权重最高,规定其权重WC=1;元概念节点的同义概念词与初始查询词语义相同,规定其权重WCO=1;元概念节点扩展子概念节点的语义范围属于其父概念,它的权重应该要小一些,规定WCS=B-L,B为常数,L为子概念节点与其对应的元概念节点的距离,即层数L=1;父概念节点是元概念节点语义的向上泛化,因而其权重应该较小些,规定父概念节点的权重WCF=B-2L;根据分析,兄弟概念节点的权重应该更小一些,规定其权重WCB=B-3L。元概念节点的最近祖先概念节点Root的权重等于与它直接相连的子节点的权重之和,如图2“查询语义的关联概念树”中最近祖先节点Root的权重是与它直接相连的子节点B1、C1、D1节点的权重之和,即WRoot=B-4+B-4+B-4,它表明最近祖先概念节点和与之相联的所有元概念节点的关联程度。图2中的“查询语义的关联概念树”标出了各节点的权重。
定义查询词序列Qe以及阈值变量λ,遍历查询词的关联概念树的所有节点CI,如果W(CI)>λ,就将节点CI插入查询词序列Qe,通过对阈值变量l的调整,可以控制查询序列Qe中扩展词的数量。
将查询序列Qe中的词送入检索系统进行检索,实现概念扩展检索。
本文设计的概念查询扩展是基于《计算机网络》概念语义网络的检索系统,这种查询方式能够帮助学习者快速、准确地定位到所要查找的知识点,同时还为学习者提供所要查找知识点的上下位概念和兄弟概念,以帮助学习者拓展延伸所要查询的知识点,从而极大地方便了学习者的查询需求。
图2 查询语义关联树提取示意图
由于本文设计的概念语义网络是《计算机网络》教学资源领域的,所以要求学习者限定所要查询的领域。对于学习者输入的查询,系统同时进行三种处理。
关键词同义扩展搜索:当学习者输入查询词时,检索模块从概念语义网络中抽取出查询词的同义概念词,并直接把同意概念词和原查询词一起作为检索条件在索引数据库中查询,利用倒排索引,返回《计算机网络》领域的文档。
学习者选择相关概念扩展查询,当学习者输入查询词时,如果所输入的查询词在概念语义网络中能匹配到,系统在概念语义网络中激活查询词的关联语义树,提取查询词的扩展查询序列反馈给学习者,由学习者选择相关概念词进行概念扩展查询。同时,系统将学习者的选择输入和该领域下文档聚类所生成的各个类别的文档进行匹配,找出和这个关键词最为相关的文档,返回给学习者。
如果学习者在关键词同义扩展搜索方式中找到所要查询的文档,则查询结束。如果用户对“关键词同义扩展搜索”返回的文档不满意,学习者可以选择相关概念扩展查询,这样系统只返回相应类别的文档。
学习者选择相近概念精确查询,如果学习者在“关键词同义扩展搜索”返回的文档集合中找不到所需的文档,则有可能是学习者输入的查询词有误,学习者可以通过系统,利用概念语义网络搜索返回相近概念来进行查询。图3为查询处理流程图。
教学资源概念查询扩展的主要目的在于通过概念语义的扩展提高查询的查全率和查准率,并向学习者提供所查询知识点的上、下位延伸知识,方便学习者掌握所查询的知识内容。
采用本系统查询《计算机网络》教学资源,当学习者提交“OSPF协议”时,系统会扩展“OSPF协议”的同义概念词“开放式最短路径优先协议”和“Open Shortest Path First”,将其作为检索条件查询出更全、更准的“OSPF协议”内容;除此之外,系统还可以通过扩展“OSPF协议”的父概念,检索到“内部网关协议”的内容,扩展子概念,检索到“OSPFv2”和“OSPFv3”的内容,扩展兄弟概念,检索到“路由信息协议”的内容,从而增加了检索到相关教学资源的数目,提高了学习者在线学习的效率。
评价检索系统的重要指标是查全率和查准率。查全率用于衡量检索系统从资源中检索出相关资源成功度的一项指标,即检索出的资源和应得到的全部相关资源的百分比。查准率是用于衡量检索系统的信号噪声比的一种指标,即检出的相关文档与检出的全部文档的百分比,是衡量信息检索系统检出资源准确度的尺度。
本检索实验基于Google搜索引擎,模拟学习者初始查询请求和扩展同义概念查询请求提交给Google,实验过程不涉及搜索引擎实现的细节。由于涉及到具体搜索引擎的网页数据库,并考虑在线学习者查看搜索结果的习惯,对查全率、查准率的比较做了重新定义,即查全率的比较是把常规查询查到的链接网页数与概念扩展查询查到链接网页数进行比较;查准率的比较只考虑前50条搜索结果,设学习者检索信息为Q,针对Q检索出的资源总数为B,其中与Q相关的资源总数为A,则检索系统针对Q的查准率P的计算公式是:在这里由于只对前50条链接做统计,所以
为了测试本文所构建的《计算机网络》概念语义网络和检索系统,对《计算机网络》领域的1 600个问题答案进行检索,对随机输入的9个学习者提问进行以下两种检索方法的测试。
学生测试采用如下两种方法:
(1)常规查询,没有使用概念语义网络进行扩展的方法;
(2)概念扩展查询,使用概念语义网络进行扩展的查询的方法。
比较结果如表1所示。
图3 查询处理流程图
表1 两种查询方法比较
实验结果表明,基于《计算机网络》概念语义网络的查询扩展检索在智能水平上较现有的搜索引擎有很大的提高,其主要特色有以下方面:
(1)实现了对学习者检索请求的知识联想,层次清楚地给出查询知识点相关的领域内概念,学习者可以根据系统提供的概念次层把握知识点的框架结构,更加全面、准确地掌握计算机网络领域内查询知识点的相关内容。
(2)扩展概念词不仅限于中文语种,可以在一定程度上实现计算机网络领域跨语种检索的功能。
(3)概念语义网络的概念词、扩展概念词可以实现增量化管理,具有良好的可扩展性。
(4)本研究的概念语义网络生成方法具有普适性,可以在此研究的基础上生成其他学科教学资源的概念语义网络,并基于其进行相关领域知识的查询扩展检索。它将概念查询扩展引入教育资源的查询中,为教学系统中自动问答系统的实现提供了技术前提。
依据《计算机网络》第五版教材,建立了《计算机网络》概念语义网络,描述了关联概念树的提取方法和概念查询扩展检索计算机实现的流程,并分析了该系统的特色。今后,将结合机器学习技术不断完善教学资源领域概念语义网络的增量化管理,并在检索结果的处理方面做更多的研究,在保证查全率的同时提高查准率。本文所阐述的概念语义网络生成算法和查询扩展检索系统有着广阔的应用前景,可以为教学资源领域的在线学习提供强大的技术支持。
[1]胡川洌.基于本体的教学资源语义检索研究[D].重庆:重庆大学,2011:1-2.
[2]王磊,黄广君.结合概念语义空间的语义扩展技术研究[J].计算机工程与应用,2012,48(35):106-109.
[3]郑庆华,王朝静,孙霞.一种基于结化语料库的概念语义网络自动生成算法[J].计算机研究与发展,2005,42(3):478-485.
[4]Cui Hang,Wen Jirong,Nie Jianyun,et al.Query expansion by Mining user logs[J].IEEE Transactions on Know ledge and Data Engineering,2003,15(4):829-839.
[5]Zhang Chengqi,Qin Zhenxing,Yan Xiaow ei.Associationbased segmentation for Chinese-crossed query expansion[J].IEEE Intelligent Informatics Bulletin,2005,5(1):18-25.
[6]Macdonald C,Ounis I.Using relevance feedback in expert search[C]//Proc of the 29th European Conference on IR Research.Berlin:Springer,2007:431-443.
[7]陈志敏,姜艺,赵耀.基于用户查询扩展的自动摘要技术[J].计算机应用研究,2011,28(6):2188-2190.
[8]Zhuge H.The know ledge grid[M].New Jersey:World Scientific Publishing,2004.
[9]Information mapping project[EB/OL].(2003)[2013-06-01].http://www-csli.stanford.edu/sem lab/infomap.htm l.
[10]郑毅,吴斌,史忠植.基于概念空间的文本检索系统[J].计算机工程与应用,2002,38(12):67-69.
[11]李蕾,王楠,钟义信.基于语义网络的概念检索研究与实现[J].情报学报,2000,19(5):525-531.
[12]李源,何清,史忠植.基于概念语义空间的联想检索[J].北京科技大学学报,2001,23(6):577-580.
[13]唐成.答疑系统中基于概念的搜索引擎的设计与实现[D].长沙:国防科学技术大学,2007:25-41.
[14]黄名选,严小卫,张师超,等.关联语义的概念查询扩展模型[J].情报杂志,2007(8):92-95.
[15]李海芳,史俊冰,段利国,等.一种基于含糊同义词的查询扩展方法[J].计算机应用与软件,2011,28(12):41-43.
[16]谢希仁.计算机网络[M].北京:电子工业出版社,2008.