吴雷
安徽教育网络出版有限公司
基于增量AHP的学习资源多标签标注研究
吴雷
安徽教育网络出版有限公司
学习资源标注是我们根据需要知识准确获取相关学习资源的基础。然而目前大多数资源标注方法仅局限于单标签以及缺乏关联度信息,给用户精确获取学习资源带来困难。为解决此问题,本文提出一种基于增量AHP的学习资源多标签标注方法,首先根据标签-资源信息构建学习资源多标签标注模型,然后利用层次分析法定性与定量分析相结合的特点进行关联程度值处理,选取出与学习资源相关程度最大的若干个标签作为标注标签,从而支持用户方便获得与学习资源相关的知识点以及关联程度值。此外,针对初始成对比较矩阵随时间变化导致更新的情况,本文对传统AHP算法进行改进,提出增量AHP算法实现学习资源关联程度值更新。实验结果表明本文提出的方法具有良好的实用价值。
多标签标注模型 关联程度值 增量AHP
随着信息技术的飞速发展,我们可以方便的获取海量文档、图像、视频等跨媒体学习资源。然而 这些学习资源在给我们带来丰富信息的同时,也造成了资源信息杂乱以及检索困难现象的出现,即大量无用信息和有用信息掺合在一起,给我们迅速获取所需信息资源带来极大困难。这就需要我们采取有效的学习资源标注方法,从而方便消费者迅速获 取其需要的各种知识资源。语义网[1]技术的出现为实现知识的高效管理提 供了新的方向,目前实现学习资源有效管理的方法主要有两种,分别是构建学习资源库模型和资源标注。构建学习资源库模型的方法源初始关联知识点:主要是通过分析学习资源的空间特征以及语义特征并生成资源的语义元数据对资源进行规范化描述,进而将学习资源组织起来构建学习资源库模型。张沪寅等将语义特征引入到电子学习资源模型库的构建之中,通过构建电子学习资源库本体并生成相应的语义元数据,规范地描述资源,将资源以机器可理解的方式组织起来实现资源的有效管理,进而提出了一种基于本体描述的电子学习资源库模型LMOD。资源标注方法主要是通过分析学习资源的语义特征,并完成学习资源与标注标签的映射,从而实验资源的有效检索。陈叶旺等通过分析领域本体知识的语义环境和资源文档结构两方面信息,利用领域本体所表达的丰富语义环境信息,实现对农业领域中各类文档资源的语义标注提出了一种基于本体的文档语义标注改进方法;李宏言等引入了针对语音数据标注的六元组模型,将语音资源的自身特征考虑进去,并将标签对象扩展为更为广义的标记,提出基于 “兴趣+收获+报酬”的标注模式实现了大数据语音语料库的社会标注。
尽管这些方法在一定程度上实现了基于语义的资源标注,提高了用户的资源检索效率,然而这些方法依然存在下述不足:
(1)他们只是给某一资源进行简单的贴上一个标 签,而没有考虑与该资源有关标签可能不止一个, 比如资源《名师解读立体几何问题》不仅仅是讲解 立体几何问题,该资源还关联到坐标与图形运动的问题。
(2)现存的标注方法只是给予资源某个标签,仅仅完成定性分析,而没有对资源与标签的关联度进 行定量研究。本文针对以上问题,以教育领域学习资源标注为研究对象,通过分析学习资源空间特征与语义特征完成学习资源信息与标签信息的映射构造标注信息,从而完成学习资源多标签标注模型构建,利用层次分析法进行相关程度值处理,提出了关联程度值增量更新方法进行标注信息更新,并由此提出基于增量AHP的学习资源多标签标注方法。 本文的其余章节安排如下:第2节介绍学习资源多标签标注模型构建,第3节介绍基于增量AHP 的学习资源多标签标注方法,第4节主要针对本文提出的方法进行试验以及结果分析,最后一节是本文结束语以及未来工作展望。
本文针对通常的学习资源标注出现的资源信息丢失以及不能定量分析标签的关联度等问题,通过构建学习资源多标签标注模型来解决以上问题。本文提出的学习资源多标签标注模型。R1、R2…Rn是不同学习资源,包括视 频、图片、文档等类型的学习资源,首先在资源入库时抽取资源信息(包括资源名称、格式、主题等)构建学习资源库。然后根据学科标准(如学习大纲、主题分类词表等)构建标签库。最后对于学习资源库中的某一资源Rk,通过学习资源信息与关联标签形成映射构建标注信息,并将标注信息存储于标注信息库中。看出,本文提出的标注方法主要包括三个方面的内容,分别是标签库构建、标注信息表示以及资源标注。
2.1标签库构建
本文构建的标签库是利用本体构建工具Protégé 根据《中国分类主题词表》创建的学科领域本体OWL文件。
定义1 领域本体是描述某一领域知识的概念或术语以及它们之间关系的集合,因此领域本体可以用一个五元组表示,记作O=<C,R,F,A,I>,其中 C、F、A、I和R分别是领域本体中的概念、关系、函数、公理和实例,其中概念(Concepts)是一类对象的集合的抽象描述,C={O1,O2,…},Oi是领域中的对象;关系(Relations)是在领域中概念之间的交互作用,形式上定义为n维笛卡儿积的子集;函数(Functions)则是元知识对规则与操作的一种映射关系;公理(Axioms)公理是一种无需证明的永真断言;实例(Instances)是类中的知识具体化表示。本文构建的标签库有3个优势,分别是:
权威性和规范性,《中国分类主题词表》是在《中国图书分类办法》编委会的主持下,由全国40个图书情报单位共同参加编制的一部大型文献标引工具书,这使得本文构建的标签库具有权威性和规范性。
操作简单,考虑到《中国分类主题词表》需要维护变动,我们对标签库进行单独存储,从而便于对标签库进行修改。
实用性强,本体构建工具Protégé是基于Java语言开发的开源本体编辑和知识获取软件,可以免费下载,并且具有良好的扩展性,更为可贵的是它支持中文的输入,具有很强的实用性。因此,本文选用 Protégé4.2[9]作为本体开发工具用来构建标签库。
2.2标注信息表示
定义2这里将标注信息(Informat ion of Annotation,IA)定义为一个三元组,IA=(R,L,β)。其中,R代表学习资源,实际上是资源的抽取信息;L代表标注标签,即是由领域本体抽取出的元知识点;β代表标签L 与该资源R的关联程度。标注信息即资源标注的结果,标注信息表示是决定资源标注成功与否的关键因素。标注信息按保存形式分为内嵌式和非内嵌式两种,其中内嵌式是把标注信息作为本体内容一起存储,而非内嵌式是把标注信息独立存储于数据库中。由于学科知识具有相对不变性,也就意味着知识本体不需经常维护,而教育资源需要根据实际情况进行经常性的增删改查。因此,本文标注信息选择非内嵌式的保存形式具有以下三个方面好处:
1)可以减少对标签库的操作,保持标签库的稳定性,节省部分不必要的系统开销。
2)在教育资源改变时,不需要对标签库进行操作与维护,只需对标注信息库进行相应的增删修改即可,可减少系统的维护开销。
3)在进行资源标注时,由于不需要针对标签库和资源本身进行操作,可以很容易地实现跨媒体资源标注。
2.3多标签资源标注
之前学者研究的资源标注方法都是单一标签标注,然而很多资源并不是仅关于单一主题的,这就使得在使用单一标签标注资源时不能充分描述资源信息而造成资源信息的丢失。为解决这个问题,本文提出了学习资源多标签资源标注模型。多标签标注模型就是利用多个知识点作为标签去标注同一个资源,从而尽可能准确完整的描述资源信息。在对资源完成标注之后,即在标注信息库中构造了该资源的标注信息组。
AHP的多标签标注方法学习资源多标签标注模型建立后,一个重要的问题是如何确定关联程度值。对于某一学习资源,可能包含的多个标签与资源的关联程度值可能不同,而且随着资源信息的丰富,关联程度值也需要进行更新维护。基于以上问题,本文提出了基于增量 AHP的多标签标注方法。
3.1层次分析法
层次分析法(AHP方法)是美国著名运筹学家 T.L.Saaty[10]提出的一种定性分析与定量分析相结合的系统分析方法,它充分利用了人的分析、判断和综合能力,能够有效分析目标准则体系层次间的非序列关系,有效地综合测度决策者的判断和比较。
层次分析法的基本思想是:首先根据多目标评价问题的性质和总目标将复杂的问题按层次进行分解,形成阶梯层次结构,通过两两比较的方式确定层次中影响因素的相对重要性,然后综合领域专家的主观判断,对层次结构中影响因素的相对重要性进行排序。
3.2基于增量AHP的学习资源多标签标注
本文资源标注主要分为三个阶段完成,分别是初始关联确定、关联程度值处理和关联程度值更新。 初始关联确定阶段主要由学科老师根据以往的教学经验分析教学资源并给出与教学资源相关的知识点以及相应的相对关联程度。关联程度值处理阶段主要是利用层次分析法对初始标注结果进行处理,获得资源与相关知识点的关联程度值。在完成资源标注后,还需要对资源标注信息进行维护更新以保持标注信息的准确性以及稳定性,关联程度值增量更新阶段是系统根据用户评价增量完成关联程度值的更新。
3.2.1初始关联确定
由多位领域专家对学习资源进行分析,判断矩阵指标评分标准标示出与资源相对应的知识点,然后综合领域专家的初始标注,获得与资源相对关联程度最大的若干个知识点作为资源的 标注标签并依照相对关联程度进行排序,进而可以获得资源。
3.2.2关联程度值处理
本文采用层次分析法来处理关联程度值,重点是如何构建阶梯层次结构。这一步需要认真分析资源与标签的关联确定问题,充分考虑问题的影响因素,根据层次分析法原理构造如下:第一层:目标层只有一个元素,就是问题的实现目标,即确定资源与标签的关联程度值。
第二层:准则层包括所有实现目标所涉及的资源与标签关联程度的评价问题,考虑到不同领域专 家的知识深度及广度的差异性,由此考虑以不同领域专家作为准则层。
第三层:方案层包括实现目标的方案,即与资源相关的标签的确定。
3.2.3关联程度值增量更新
在资源使用过程中,需要对资源标注信息时时维护以保证资源标注信息的准确性。这就要求系统能够定期对用户投诉较多的资源重新进行标注并对资源标注信息进行更新,由此本文提出了关联程度值增量AHP更新方法。
首先,邀请新一批领域专家针对该资源Rk进行初始标注,获得资源Rk的C-P判断矩阵E’。 然后,分析比较历史标注权向量与重新标注权 向量的差异,可得出权向量增量值, 其中β’k为更新后的权向量。最后,在构建更新规则的过程中,既要考虑到重新标注的信息,也要考虑历史标注信息。
本文提出的基于增量AHP的学习资源多标签标注方法同时考虑了资源的多关联性以及标签贡献度的问题,很好地解决了资源标注过程中信息丢失的问题,同时完成了对学习资源的精确标注,能够使用户快速准确地检索到所需的资源,从而可以极大地提高用户的检索效率。进一步的研究中,我们将会深入研究并改进增量更新算法并在资源标注中尽可能的减少主观因素对关联程度值的影响。
[1]Tim Berners-Lee, Hendler James and Ora Lassila. The Semant ic Web [J]. Scientif ic Amer ican, 2001, 284(5):28-37
[2]张沪寅,张铭洋,李鑫.基于领域本体的电子学习资源库模型[J].计算机应用,2012,32(1):191-195
[3]张沪寅,李鑫,陆春涛,等.LMOD:一种基于本体描述的电子学习资源库模型[J].计算机应用研究, 2011,28(4):1001-3695
[4]伍春香,陈世鸿.多媒体教育资源库层次索引模型[J].武汉大学学报(理学版),2007,53(5): 553-557
[5]陈叶旺,李文,彭鑫,等.基于本体的文档语义标注改进方法[J].东南大学学报:自然科学版, 2009,39(6):1109-1113