基于教育大数据的智慧图书馆学科资源库建设研究

2020-11-29 05:03:57
科技传播 2020年19期
关键词:词库资源库样本

陈 微

智慧图书馆在教育大数据的环境下开展学科服务,以大数据建立智能化数据采集系统——学科资源库,以支持智慧图书馆的决策、实施、评价等过程。目前我国高校的学科资源库相对缺乏,教育资源库在数量、规模、标准化等方面存在一定不足,需要根据不同学科制定出一套自扩充式和以用户为中心的完备的资源库以供智慧图书馆使用,满足学习者智慧化需求,为高校师生建立一套精准的服务模式,具有个性推送、智慧交互等功能。

1 国内外研究现状

1.1 教育大数据现状

2008年,《科学》杂志发表文章“Big Data:Science in the Petabyte Era”,“大 数据”一词开始广泛传播[1]。联合国在 2012 年发布的大数据白皮书《Big Data for Development:Challenges & Opportunities》中指出大数据的出现将会对社会各个领域产生深刻影响[2]。关于数据驱动教育的理念,美国早在60年代就开始尝试采用,直到2012年10月,美国教育部发布了《通过教育数据挖掘和学习分析促进教与学》的教育大数据报告,这份报告对美国教育界应用大数据的进行教育大数据挖掘的案例以及面临的问题做了详细介绍[3]。

我国有关教育大数据的研究紧随其后,2012年10月,我国成立了中国通信学会大数据专家委员会,这是国内第一个专门研究大数据应用和发展的学术组织。大数据研究应用到教育领域是在2012年,王震一指出教育数据同样是形式多样的海量数据,需要有一套全面的方案来管理教育大数据,形成信息化教育[4]。2014年,教育部办公厅《2014年教育信息化工作要点》中指出:加强对教育预测等相关数据资源的整合与集成,为教育决策提供及时和准确的数据支持,推动共享全国基础教育数据[5]。

1.2 智慧图书馆现状

2003年,“智慧图书馆”的概念首先由Aittola等人在《智慧图书馆:基于位置感知的移动图书馆服务》一文中提出[6]。随后,学者们先后结合RFID、云计算、大数据和物联网等先进技术对智慧图书馆的实现途径进行了研究。对智慧图书馆学科资源库的建设是构建智慧图书馆的重要前提和保障。利用教育大数据对学科资源库进行智慧个性化推送的实现需要多种环境的支持,多种技术的支撑,多种业务的集成,但其中最基础也最核心的应属教育资源库或关键词库的构建。

目前关键词库在智慧图书馆方面的应用比较少。学科关键词库数量较少,规模小,资源结构单一,利用率低,资源重复建设和标准化等问题完全阻碍了智慧个性化推送的发展。而学科关键词库的建立可以为教育大数据环境下的智慧学科知识服务的发展建立新的理论基础、提供新的指导思路。所以本文将在大数据的背景下,探讨关键词库在智慧教育中的应用,并建立教育资源库或关键词库,来驱动智慧教育,使智慧教育做到个性精准的服务于各种类型的用户,从而使其到达更好的效果。

2 学科关键词库在智慧图书馆中的作用

学科关键词库应用于智慧图书馆将主要在以下几个方面发挥作用:

建立词库对知识管理具有指导作用。一般来说知识管理过程包括知识获取、知识整合和知识应用。知识获取阶段,词库可以帮助研究者更好的识别语义;知识整合阶段,词库可以帮助研究者对内容进行分解和抽取;知识应用阶段,词库可以帮助研究者描述资源,开展标引工作。因此关键词词库在整个知识管理过程中发挥的作用十分重要。

建立词库对学科服务的指导作用。关键词词库是一个同时具有标准规范语言和自然语言的词库,多是以学科概念为主线组库,词和词之间是基于学科有上下位关系、关联关系以及交叉关系。这种词库既可对已有的学科名词进行规范管理,又给学科发展中出现的新概念、新词汇保留一定空间扩充。因此,关键词词库对学科服务具有指导作用。

3 学科关键词词库的建立

关键词词库是特定领域关键词的合集,关键词和关键词词库的优劣对各类检索系统、搜索引擎的性能有着重要影响[7]。建立词库也就是把某一个学科里边的关键词使用各种可能的方法都挖掘出来,从而对智慧图书馆的知识服务做一个科学的指导,词库是非常重要的,它基本上代表了本专业中用户所要搜索的词语,也就是说,词库代表着需求。所以关键词库应用十分广泛,特别是具体学科领域的关键词库可以使本学科的学习者可以更快速、科学的发现专业的信息。对于关键词库的建立主要方法有:1)利用统计分析的方法,如对大量相关文献进行提取及频率的统计;2)利用词语网络的方法,即将相关文档依据一定规则映射为词语网络,并对词语进行相关性的计算[8]。3)利用词语语义的方法,即根据词语的语义特征提取关键词[9]。因为本文选取“远程教育”这一较小的学科进行关键词库的建立,其特征词汇较少,所以本文将主要使用传统的统计方法对关键词进行提取。

本节将以“远程教育”这一学科为例,建立一个以“远程教育”为主题面向特定学科的关键词库,旨在为学习和研究远程教育的学者提供一个全面的术语资源库,从而为读者提供更加专业、更加个性化的学科服务。为了使词库更加权威且具有时效性,笔者将分四个步骤对词库进行建立,其中包括:一是关键词库的样本获取;二是关键词提取与优化;三是关键词库的建立;四是对词库进行维护。

3.1 关键词库的样本获取

建立词库的首要任务是获取关键词库的样本。本文关键词库样本主要有两个来源:

1)由专业文献数据库获取。科学文献往往能够反映一个学科的研究热点和趋势,作者选定的关键词是其研究的高度概括,所以科学文献中的关键词是一个学科或领域的学术资源的浓缩,是构建词库的重要来源之一。首先,我们将利用中国知网对远程教育的相关文献进行检索。为了保证搜集的术语的全面性,还将对“远程教育”进行扩展,以期更全面的获得相关文献信息。百度搜索是目前国内应用最为广泛的搜索引擎,其拥有巨大的数据库,可以较全面的覆盖与“远程教育”相关的关键词。所以我们利用引擎平台挖掘扩展工具百度推广账号中的“关键词规划师”来进行关键词的挖掘与扩展。通过扩展可以得到与“远程教育”语义相似的主题词13个,其中包括:“虚拟教育”“智慧教育”“数字教育”“移动教育”“网络教育”“远程网络教育”“在线教育”“远程成人教育”“虚拟现实教育”“虚拟教学”“虚拟培训”“教育虚拟仿真”“三维虚拟教学”。在中国知网的高级检索中,以主题为内容检索条件,在检索框中依次输入这14个主题词,精确检索,共检索出85 315篇文献。其中最早一篇关于远程教育的文献是在1951年发表的,随后在1982年才再次出现在研究者的视野中,并且研究者越来越多,从2000年到2016年每一年都有数以千计的文章发表。随后,导出这些文献的关键词导入到BICOMB中进行提取、统计,共获得96 558个关键词。这些关键词是建立词库的重要来源之一。

2)基于社交网络扩展关键词库。社交网络为人们提供了一个更为广阔的信息发表与交流的空间,其明显区别与传统的网站,具有个性化、交互性等特色。目前,大量互联网用户包括许多科研人员通过网络社区进行正式或非正式的交流。社交网络俨然已经成为许多新型信息及词汇的集会地,对其进行挖掘是十分重要的。所以,仅对专业文献数据库进行关键词的挖掘,远不能满足词库使用者对专业词汇的需求。为了使关键词库更加贴合时代的发展,包容更多更全面的信息,笔者还利用社交网络社区进行关键词库的扩展。由于目前中国缺乏综合教育类的社交平台,仅存的粉笔网等教育类平台仅提供职业考试培训等业务,较少有学术方面的交流。所以笔者选择了我国较多使用社交网络社区,包括:新浪博客、天涯、知乎、果壳等进行关键词样本的获取。具体方法如下:(1)样本的选取。利用社交网络平台自身检索功能中,对扩展的14个关键词汇进行检索,得到关于“远程教育”的相关页面。(2)样本信息的获得。利用八爪鱼等网络爬虫软件爬取具有代表性的关于“远程教育”页面的信息。其中,关于“远程教育”页面的信息只选择题目和标签进行获取。因为题目和标签信息可以高度概括文本信息的内容,具有代表性。八爪鱼网路采集器是一款可以从网络中快速便捷的获取客户所需要的信息的网络信息采集工具,可以实现数据自动化采集。(3)网络关键词库样本的获得。利用分词软件对步骤2得到的样本信息进行分词,得到网络关键词库的样本。目前,国内有许多比较成熟的针对中文的分词软件,常用的分词工具有:中国科学院开发的利用的ICTCLAS、庖丁解牛分词及盘古分词等。

3.2 关键词提取与优化

由于获取关键词样本多有重复或明显与“远程教育”主题无关,且特别是通过社交网络社区提取的词汇多参差不齐,所以笔者将对得到词汇进行提取优化,只保留有价值的信息。对关键词提取与优化,即对采集的词库样本进行初步的过滤,筛选。将从专业文献中获取的关键词和从社交网络中获取的关键词整合,作为一个样本进行过滤、筛选。对关键词的提取和过滤采用如下步骤:1)去重,将相同的关键词去除,只保留一个。2)去除无意义的关键词,例如:策略、研究等。3)去除意思相同但表述不同的词,例如:慕课、大规模在线课程与MOOCs,网络、Web与Internet等,只保留其中之一。4)去除意思相近,表述不同的词,例如:大数据分析与大数据研究,远程教育与远程教学等,只保留一个。5)去除小类,保留其大类,例如,若有高校图书馆,则将××高校图书馆去除。按上述五个步骤对关键词进行过滤、筛选之后,获得关键词包括:远程教育、党员干部、实况录像、慕课、认知风格、师生素质等传统主题词汇,还有自媒体、教育品牌、教育直播等新型的网络关键词。这些关键词就构成了远程教育词库的所有术语。

3.3 关键词库的建立

采用一定方法对提取的关于“远程教育”的关键词进行合并,构建关键词库;一般建立关键词库都采用分类的方法。分类是词库建设的核心,分类就是为了能够实现快速布局。我们根据远程教育不同的意图及其特征等,对远程教育词库进行分类,共分为七类。一是远程教育的主体,包括学习者、教育者、专家、机构等。例如,党员干部、大中小学教师、何克抗教授、××高校、××培训机构等。二是远程教育相关的概念术语,包括理论概念、技术概念等。例如:远程教育、虚拟教育、XML、云计算、自媒体等。三是教育相关的术语。包括情感认知、参与式教学、情景教学、目标式导学、构建主义等。四是远程教育相关的资源与工具。例如:微视频、慕课、资源库建设、在线学习系统、移动终端、卫星设备等。五是涉及远程教育相关的评价。例如:发展性评价、能力评价、课程质量评估、评价体系创新、评价质量标准等。六是远程教育的研究方法。包括神经网络、因子分析、文献计量、支持向量机等。最后一类是其他。包括师德建设、人才队伍建设、资金投入等。之后对于每一类术语进行排序,我们按照汉语拼音的前后顺序排序,这种顺序在词典中广泛使用,方便使用者进行查询。

3.4 词库维护与更新

一个领域的术语并不是一成不变的,科学概念会随时间进行演化,不断的消亡或者产生新的关键词。所以对词库进行维护是至关重要的,衡量一个词库好坏的关键之一是它的与时俱进性,维护可以保证一个词库的有效性。对于词库的维护,需要不断地进行上述三个步骤,首先定期查阅文献和检索相关社交网站,提取出其关键词。然后,在提取的关键词间,以及关键词与原词库间进行去重、过滤、筛选等工作。最后,根据原词库的类别划分,将新加入的术语分门别类,并按顺序排列。这是一个重复的工作,是保证一个词库能永葆价值的关键。

4 结语

学科知识词库是智慧图书馆向内容延伸的实践。本文建立的“远程教育”关键词库,只是在某一学科的简单试探,更多的学科领域还亟待建立自己的学科知识词库,并在这些词库的基础上,利用个性化推送、大数据和云计算等技术实现进一步的精准服务,完善自扩充式词库,以用户为中心,真正做到智慧服务、智慧学习、智慧搜索等,使智慧图书馆一步一步走向实践。

猜你喜欢
词库资源库样本
健身气功开放课程资源库建设研究
武术研究(2021年2期)2021-03-29 02:28:28
用样本估计总体复习点拨
贵州●石斛种质资源库
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计
高中历史信息化教育资源库应用探索
词库音系学的几个理论问题刍议
英语知识(2016年1期)2016-11-11 07:07:54
福建基础教育教学资源库建设研究——以福建基础教育网资源库为例
村企共赢的样本
环境变了,词库别变
电脑迷(2014年14期)2014-04-29 00:44:03