摘 要: 教学资源缺少开发规范和语义信息,导致其可共享性差、检索查全率或查准率不高。探讨教学资源语义系统的设计,基于本体实现教学资源的语义信息,并通过Jena实现语义扩展,结合语义相关度和相似度,有效提高教学资源检索的有效性和精确度。
关键词: 本体;Jena;教学资源;语义
中图分类号: G633 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.04.040
本文著录格式:黄以宝. 基于本体和Jena模块的教学资源语义系统设计研究[J]. 软件,2019,40(4):186189
【Abstract】: Lacking development norms and semantic information, teaching resources may have disadvantages of poor sharing and low retrieval accuracy. The paper discusses design of semantic system of teaching resources, improve effectiveness and accuracy of teaching resources retrieval effectively based on noumenon semantic information of teaching resources, and Jena semantic expansion and semantic relevance and similarity.
【Key words】: Noumenon; Jena; Teaching resources; Semantics
0 引言
互聯网技术的发展与普及,促使网络学习成为了一种越来越多人选择的新型的学习方式,因此网络教学资源展开了大规模的建设。然而,正是教学资源量的日益庞大,暴露出了一些亟待解决的问题,主要是:基于关键字匹配的传统检索技术导致查全率和查准率不高、没有统一的元数据标准描述教学资源导致教学资源的可共享性差。近年,研究将在语义描述方面有较强能力的本体引入到了教学资源建设中,得以提高了教学资源的统一描述能力和语义检索能力。本体是实现语义Web的重要基础和技术,广泛应用于知识表示、知识共享与重用、逻辑推理等领域。本文提出了一个基于本体和Jena模块技术的教学资源语义系统模型,它结合课程知识点本体和教学资源元数据标准以构建教学资源本体作为资源语义描述基础,并通过Jena模块技术进行知识点推理、语义扩展等,为教学资源的语义检索提供了语义上的支持,还通过筛选排序返回更合理更有效检索的教学资源集[1]。
1 系统设计目标
根据教学资源语义系统目前面临的问题,结合本体技术和语义检索技术,在进行本系统问题分析的基础上,基于本体和Jena模块技术的教学资源语义系统需要实现的设计目标主要包括如下几个方面:
(1)语义扩展,提高隐性知识的发现能力。传统检索只是以关键词机械的进行字符串式的扩展,无法表达关键词的语义信息,所以语义的扩展能力有限。由于本体能全面的、精确地描述和定义概念及概念之间的关系,具有较强的语义表达能力,能较好的理解用户的语义意图。因此,充分利用本体处理相关技术对关键词进行语义扩展[2]。
(2)语义推理,增强系统的智能特性。Jena自身包含了一系列针对本体的特点而定义的默认通用推理规则,用于检查概念的可满足性,不同类之间的关系,以及属性的传递、互逆、不相交等[3],能运用本体查询语言进行解析本体库中的知识概念,并且根据推理规则推理出新的概念。
(3)元数据标注,解决异构资源共享问题。元数据是“关于数据的数据”,是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能[4]。
(4)合理有效的语义检索,提高检索的查全率和查准率。
(5)用户查询度排序,使检索结果符合用户 要求。
(6)常查资源索引库,提高检索的效率。
2 系统设计思路
2.1 教学资源语义化
结合教学资源元数据的统一规范标准和本体的语义能力,对教学资源实现语义标注及格式化存储,形式化了教学资源的语义信息,达成计算机理解的目标,以实现教学资源的共享和复用。
2.2 检索语义化
在本体技术的基础上,结合逻辑推理能力,对用户的检索请求加以扩展,既使用户能清晰的表达检索需求,又使机器更好的理解用户检索需求。
2.3 检索流程
①在结合了教学资源元数据标准和课程知识点本体的教学资源本体支持下,对用户检索要求进行语义分析的分词处理和语义扩展的规则推理得到查询概念集,使计算机明确用户检索内容;②根据查询概念集进行检索;③根据相关度排序检索结构,返回有效的结果。
3 系统模型设计
根据结合本体技术和语义检索技术而提出的系统设计目标和系统设计思路,设计基于本体和Jena模块技术的教学资源语义系统模型共分为三层:查询应用层、检索处理层、资源本体层,而主要的功能模块包括有:语义标注模块、语义扩展模块、检索操作模块、排序优化模块、常查资源索引库模块,系统模型设计如图1所示。
基于本系统模型,语义检索的流程是:用户输入查询请求的查询问题,系统判断查询问题是否是常查问题,如果是直接从常查资源索引库中返回检索结果;如果不是则需要进行查询处理。查询处理,先是根据核心概念词库利用IKAnalyzer对查询问题进行分词操作以实现概念的抽取得到查询概念集,然后将查询概念集根据Jena定义的推理规则进行语义扩展得到扩展查询概念集,将扩展查询概念集中每个概念利用SPARQL语言进行教学资源查询,将符合要求的元数据文档集排序优化返回给用户,用户根据元数据文档查看教学资源信息,并提供教学资源下载。语义检索流程如图2所示。
4 系统模块功能
4.1 语义标注模块
语义标注模块的功能,一方面是利用教学资源元数据规范对教学资源进行相关属性的描述,有利于扩展到其他标准的学习平台,促进资源的共享和重用;另一方面,在内容组合中还存在诸如异构资源组合等方面的困难,可借助于本体在语义和知识层次上描述资源[5],将教学资源与课程本体知识点概念关联,可有效的利用本体概念推理出隐含的信息资源,提高教学资源检索的高效性、准确性。
语义标注的流程:上传教学资源归入教学资源文档集,然后解析课程知识本体供用户选择标注知识点,再根据用户上传教学资源提交的教学资源描述信息表单来进行教学资源的元数据标注,根据标注的内容生成相对应的教学资源元数据文档,并将相关元数据信息填充到教学资源本体。由于教学资源一般是多媒体文档,目前只能采用人工方式对教学资源整体标注,当教学资源涉及多个知识点时,还不能分割知识点处理,只能使用最大相关度的知识点进行语义标注。语义标注流程如图3所示。
4.2 语义扩展模块
众所周知,在自然语言中,一个词语可能表达几种意义,同样几个不同的词语可能表达相同的意义[6]。使用自然语言作为关键词进行检索,常常会遇到两个问题:①同义词问题,即一个意思可以有不同的词语表达;还有多义词问题,即同一个词在不同的语境中有不同的含义。②隐含关系问题,关键词的查询无法找到存在语义上或逻辑上的隐含关系。语义扩展是解决这些问题的一个有效方法,把原查询看作一系列的概念(而不是一系列字符串),从建好的概念语义结构中提取查询语义及语义关联关系,实现语义概念扩展[7]。其中作为语义检索重要部分的语义扩展主要是通过查询扩展(Query Expansion)来实现,查询扩展是指利用统计学、语言学等方法,找出与原查询词的相关扩展词并加入原查询组成新的查询,使其更清楚地表达用户的查询意愿,以改善信息检索性能[8]。
语义扩展模块的功能,主要是通过对用户的查询问题的基础上,通过推理机按照同位和下位等逻辑关系,对建立好的领域本体库进行语义推理,进而对查询条件进行语义扩展[9],以此得到更全面、更准确的查询概念集,实现查询既能检索到字面之间显式的语义关系的资源,又能检索到隐含的语义关系的资源。
语义扩展的流程:根据用户输入的查询问题,利用分词获得查询概念集,先对查询概念集结合课程本体中概念间的显性语义联系进行直接扩展,再结合Jena推理规则推理隐性语义联系进行推理扩展,从而实现用户查询问题的语义扩展,获取一组符合用户查询需求的具有语义联系的查询概念集。经过语义扩展后的查询概念集,可能涉及到的查询概念很多,要对查询概念集进行概念筛选,以防止“概念漂移”,主要工作是将查询概念集中的概念与用户查询进行相似度和相关度的计算,然后根据语义相似度计算以排序,以筛选更符合用户意图的概念集进行检索。
4.3 排序优化模块
语义扩展在一定程度上解決了用户查询表达不明确的问题,使机器更好的理解用户的查询意图,但也带来了“查询漂移”问题:语义扩展有可能导致查询关键词过多,使得检索结果出现大量与查询无关的结果,从而降低了检索的精度,也就是满足了查全率而忽略了查准率。为了有限控制结果的数量和质量,有必要对语义扩展得到的结果进行二次筛选。
排序优化模块的功能,是对语义检索的结果进行排序和优化返回,主要工作是进行检索结果的二次处理,目的过滤一些与用户查询要求“漂移”过大的结果,并按查询相似度由高到低的排序,从而实现检索结果在语义上更接近用户的查询需求。
排序优化主要考虑因素:首先对教学资源中的关联知识点从相关度和相似度上执行进一步的语义处理,主要对知识点的匹配、包含等关系推理,如一个教学资源包含多个知识点,查询其中一个知识时,根据语义标注中其占用的份量考虑;接着考虑教学资源的选择率,即用户使用相同查询问题时,选择检索结果中的某教学资源的次数;国家《网络教育资源建设技术规范》规定网络教育资源主要包含以下9类:媒体素材、课件、案例、常见问题、文献资料、网络课程、试卷、试题、资源目录索引 等[10],根据这些分类以确定其占用权值,如课件是比较详细的内容可优先考虑,而习题只是辅助教学资源可相应延迟考虑;最后,对教学资源的文件类型归类,主要考虑用户喜好,有些喜欢教学视频,也有些喜欢教学PPT课件等。
4.4 常查资源索引库模块
常查资源索引库模块功能,主要是针对相同查询问题时直接获得检索结果,避免同一查询问题多次进行本体解析、语义扩展、检索操作、排序优化等操作,从而减少系统的响应时间和提高查询的效率。所以,常查资源索引库主要存储了查询问题、分词得到的查询概念集、语义扩展得到的扩展查询概念集、排序优化后的检索结果、用户选择次数。
5 结束语
教学资源语义系统是利用本体和Jena模块技术实现具有语义的教学资源管理系统,从而解决教学资源标准不统一的异构难以共享或互操作问题和基于关键字匹配检索技术的误检或漏检问题。本系统主要通过结合CELTS元数据的教学资源本体的语义表达、Jena推理机自定义规则的语义推理扩展、基于课程知识本体的语义相似度计算方法、教学资源实体信息抽取标注的元数据文档,从而提高资源的共享性和检索的查全率、查准率。但系统还有问题需要进一步的研究解决,如本体构建对开发者的领域专业性要求过高和语义相似度的主观性太强等。
参考文献
[1] 冯瑶, 冯锡炜. 面向教学资源查询的语义相似度和相关度算法[J]. 计算机应用与软件, 2016, 33(10): 275-278.
[2] 曾维明. 基于领域本体的语义检索及个性化推荐算法研究[D]. 南京理工大学, 2010.
[3] Kim J Y, Jeong D W, Balk D-K. Ontology-based semantic recommendation system in home network environment[J]. IEEE Transactions on Consumer Electronics, 2009, 55 (3) : 1178-1184.
[4] 王小梦, 郭爽. 数字教学资源的语义标记系统设计研究[J]. 中国教育信息化, 2017(13): 40-44.
[5] 黄洋, 宋俊德, 宋美娜, 等. 基于本体与SSH架构的异构数据集成框架的研究[J]. 软件, 2014, 35(11): 36-41.
[6] 刘欣, 席耀一, 王波, 等. WordNet和词向量相结合的句子检索方法[J]. 信息工程大学学报, 2017, 18(04): 486-491.
[7] 崔航, 文继荣, 李敏强. 基于用户日志的查询扩展统计模型[J]. 软件学报. 2003(09)
[8] 李卫疆, 王胜, 余正涛. 基于深度学习的概念语义空间查询扩展研究[J]. 软件导刊, 2018, 17(05): 26-30.
[9] 于超, 王璐, 程道文. 基于本体的教育资源语义检索系统研究[J]. 吉林大学学报(信息科学版), 2018, 36(02): 207- 212.
[10] 教育部教育信息化技术标准委员会. CELTS-41. 1. 网络教育资源建设技术规范[EB/OL]. [2018-04-15]. http://www. celtsc.edu.cn/.