大数据环境下学习资源元模型的研究与应用

2015-07-08 08:58张吉先单永刚虞江锋陈东毅尹学松
中国电化教育 2015年9期
关键词:元数据学习资源大数据

张吉先 单永刚 虞江锋 陈东毅 尹学松

摘要:为解决大数据环境下学习资源的描述困难,文章提出了基于元模型的学习资源描述体系,即在资源库平台中建立一套既符合学习资源著录标准的、又具有可扩展性的元数据模型定义模式。通过向通用元模型元素集引用或映射,获取各类资源的元数据模型的元素,以此實现不同元数据模型之间的相互兼容。元模型支持在实际应用中逐渐形成一套约束和推理规范,以实现元模型的自我建设和自我完善。论述了学习资源元模型的基本原理、创建过程、运行流程和存储方法,并对其实际应用的情况做了介绍和分析。

关键词:元模型;元数据;元数据模型;学习资源;大数据

中图分类号:G434

文献标识码:A

一、引言

大数据包括数据的结构形式、数据的规模和数据的处理技术[1]。大数据级的学习资源库囊括了各学科、各专业、各类型的海量资源,是一个综合型教学资源仓库,它一方面能保障学习资源库资源的完整性,通过数据分析,有助于开展“个性化白适应”式学习资源服务[2],另一方面能提高对学习资源库的数据分析的实用性,有助于引导使用者的教学、科研活动。在实际应用中,大数据学习资源库所包含的各种资源之间在分类体系、文件格式、支撑平台、基本属性等方面都存在固有的差异,且各自的资源描述标准不尽相同,这直接导致学习资源库在现有的信息技术条件下和合理的时间内,无法完成撷取、管理和重用学习资源的任务,因此,必须寻找一种高效的处理数据方法提升学习资源库平台对大数据资源的处理能力。

学习资源的建设和研究者们也察觉到了这些弊端的存在,并在努力消除它,如江苏省精品课程教学资源数据库系统采用了“LOM+DC”元数据的方式来描述精品课程[3],在简化精品课程描述体系方面取得了显著的效果,提高了资源获取的效率;有学者也提出了用本体来描述和组织学习资源的设想,如曾玲等提出的学习资源的元数据的“本体”组织(封装)方式[4],这种方式可以保证知识本身的内在逻辑,且使得知识具备可重用性。

这两种方法前者是针对重组后的学习资源群体,后者是针对某个知识领域的资源群体,具有明显的代表性,它们都从组织学习元数据方面人手,给出了完美的学习资源描述、组织方案,在特定的资源群体中能发挥积极的作用。对于大数据级学习资源库而言,一方面资源数量庞大、分类(主题)复杂,另一方面支持不同颗粒程度的学习资源之间的互操作,显然,以上两种方式无法应对大数据级学习资源库的描述。

为此,本文提出了一种基于元模型的资源描述方法,即在资源库平台中建立一套既符合学习资源著录标准、义具有可扩展性的元数据模型定义模式,即元模型。元模型是元数据模型建立的基本依据:通过向通用元模型元素集引用或映射,获取各类资源的元数据模型的元素,以此解决不同元数据模型之间的兼容问题,实现异构资源的整合。元模型支持在实际应用中逐渐形成一套约束和推理规范,以实现元模型的自我建设和自我完善。

二、学习资源元模型的构成

(一)学习资源元模型的层次结构

20世纪70年代末,D R Hofstad ter提出了元模型的基本思想,即元模型、模型和实例都是以实例化为基础的相对概念之间的关系,但该文献仅论述了同构关系框架的基本原则,并没有涉及到如何构建可复用的元模型建模框架[5]。2002年4月以来OMG共发布了五个版本的MOF(Meta Object Fa-cility)16j,MOF提出了四层元建模架构,包括数据层(MO)、模型层(MI)、元模型层(M2)和元元模型层(M3),四层结构之间的关系如图1所示。其中每相邻两层之间遵循“模型”与“实例”的关系,子层元素是父层实例的子集,MOF模式实际上可以超越四层架构,但受人类的思维能力及实际应用范畴的限制,MOF四层结构足以满足绝大部分事物元建模的需求。

图1的MO层是描述资源实体的数据,它是学习资源库直接操作的对象;M1层是定义描述某类资源所有规则的集合,它包括属性、约束、关系、结构,Ml层统称为元数据模型(如视频资源元数据模型);M2层即元模型,是学习资源描述体系的最底层,用来定义、规划和控制元数据模型,元模型层相对比较抽象,它可以被理解为是创建元数据模型的环境;学习资源描述体系没有涉及到M3层。

(二)学习资源元模型的元素来源

学习对象元数据规范(Learning Object Meta-data,LOM)定义了学习对象属性描述的“最小集合”,它包括9个大类(含48个子项)能描述学习对象的各种核心属性[7],LOM是学习资源元模型的元素的重要来源之一。

在实际应用中,全部引用LOM元数据元素,会使得描述体系显得过于庞大,而部分引用LOM元数据元素,由于资源之间本身存在的属性差别,难以做到属性描述的统一性。而且,新型学习资源会随着信息技术的革新而陆续_Ln现,LOM标准无法对新资源的新属性做出及时的响应。如MOOC课程,除一般网络课程的基本特征之外,还有其自身的特征[8]:课程设计强调“关联主义学习理论”,包括学习者与学习者之间关联、知识于知识之间的关联;作为生成式课程,MOOC课程内容随课程的进展而扩充和延伸;课程的教育内容呈非结构化,所以在传统网络课程的元数据基础上,需要为MOOC课程的属性描述做“课程内容的语义关联”“课程内容扩充方式”“课程结构的限制”等方面的扩展。

因此,在LOM元数据规范之外,还需建立一个扩展元数据规范,它是学习资源元模型元素的另一个来源,是对LOM元数据元素的补充,扩展元数据规范是可编辑的。

三、学习资源元模型的构建

(一)学习对象语义词典

元模型元素之间的关系代表着实体元数据之间的关系,元素之间的关系是模型之间的相互引用、相互映射的基本条件,而元素之间的关系需要通过为元素预设语义来建立。语义是知识工程领域的一个核心概念,通过语义推理、语义相似度计算,可使计算机能具备类似于人类的“联想”思维。在学习资源元模型层创建一个学习对象语义词典(Learn-ing Object Semantic Dictionary, LOSD), LOSD可以理解为是关联数据(LinkData)[9],它本身不是语义,但可以在数据层面建立语义关联。LOSD包括统一的类术语、属性术语、关系术语等。同时,LOSD预定义一系列元模型的基本数据类型集合(DThasic)和枚举数据类型(DTeⅢenum),学习资源元模型在新建元数据模型时与LOSD构成语义依赖关系,这使元数据元素在语义上取得了一致,不仅消除了由于人为理解或数据异构等因素对元素表示所造成的影响,而且可使元数据模型之间的信息交换和复杂元数据模型的设计在语义上保持了高度的一致,解决了数字资源元数据一致性与资源信息共享问题。

(二)通用元模型属性集

LOM元数据规范和扩展元数据规范是学习资源元模型元素的来源,学习资源元模型包括全集元数据和核心元数据两个层次,其中全集元数据是对数据集进行的全面描述,它所包含的描述元素(及元素子集)繁多、描述结构复杂,全集元数据用于描述资源的个性化属性。核心元数据是表示信息单元基本属性所需要的最少数量的元数据元素和元数据实体,是元数据子集和实体中必选的元数据实体和元数据元素[10],各类资源核心元数据的交集构成资源库通用元数据元素集,即通用元模型属性集(Share Meta-model Attribute, SMA)。

(三)学习资源元模型结构

定义:学习资源元模型的逻辑描述式可以定义为一个六元组:学习资源元。模型定义为一个六元组MetaModel

A:兀模型基本元素集合:A=MlomU Mext,其中M.。。是学习对象模型LOM,Mex,是元模型扩展元素集,A是元数据模型元素的命名域A∈LOSD。

V:值域V=DThasic U DTenum,其中DTbasic为基本数据类型,DTenum为枚举数据类型,V∈LOSD。Vv∈V,]r∈R,r=(vl,v2)。

R:兀模型元素之间基本的语义关系集合,元素之间基本关系有R={xlx∈is-a,part-of,is,composed-of,have})等,R∈LOSD。

E:元数据模型的集合,Ve∈E,Va∈A,Vv∈V,e=(ae,ve),ae为元模型e的命名域,ve为元模型e的值域。设SMA为Msl…,MS11are= aeln ae2n…n a“(n如果过大影响M Shar。的通用性,事实上在学习资源元模型中n值不会很大,而且对于个别带有特异元素的元数据模型,可以选择局部或全部舍弃)。

F:元模型函数集合,即对元模型的操作方法,主要有:(1)编辑Edit():包括增加、删除、修改、查询元素集等基本操作;(2)映射Mapping0:异构元数据模型的元素与LOSD中预设的MShare的元素建立映射;(3)引用QuoLe():元数据模型对其它元数据模型的元素的调用(一般是作为子集整体调用);(4)推理Reasoning0:依据LOSD中各类元素之间的关系数据,对元素进行基于关系集r的推理(r∈R,r為R的非空子集);(5)筛选Filter():从LOSD中筛选需要的元素,用于建立通用元模型属性集(SMA)以及选取个性化元数据元素。

P:规则集合,元模型背景下,所有元数据模型、基本元素以及元素子集在取值、运算、应用时都受集合P的子集的约束,P由设计者预先设定。网络课程元数据模型的UML类图如图2所示。

(四)基于元模型的元数据模型的创建

如下页图3所示,箭头实线表示流程,箭头虚线表示数据流。图中包括以下几个数据库:(I)LOM元数据规范数据库:学习对象元数据规则,除版本整体升级之外不支持局部编辑;(2)扩展元数据规范数据库:扩展元数据规范是白定义元数据规范,是对LOM的扩展,支持编辑;(3)通用元模型属性数据库(SMA);(4)学习对象语义词典数据库(LOSD);(5)元数据模型数据库:对单项资源元数据模型的记录,元数据模型数据库有多个,每个数据库可以接收其它元数据模型的整体调用。其中,(1)(2)是元模型的元素来源,(1)(2)(3)(4)共同构成学习资源描述体系的元模型层(与图2区域A相对应),(5)处于模型层,是元模型作用的结果,它的对象是描述数据(与图2区域B相对应)。当某资源描述的属性集确定时,进入循环逐个获取对应的元数据元素。查询通用元模型属性(SMA),若存在,则直接引用加载到元数据模型,若不存在则转到步骤(2)。查询元模型的元素(LOM元数据规范、扩展元数据规范),若存在加载到元数据模型,若不存在转到(3)。由于建立元数据模型有“最小”原则和“统一”原则,元素尽可能在SMA中获取,因此,步骤(1)和步骤(2)不能颠倒。扩展一个相应的元素到扩展元数据规范中,并将其加载到元数据模型数据库中。在扩展过程中,为保障元模型元素集的普适性,LOSD须发挥其对新建元素的语义推理和命名约束的作用。如在扩展一个“微课类型”元素时,LOSD要求采用“MicroClass_Type”的格式命名,根据分类元素的特性给出新元素MicroClass_Type的描述建议,包括该类型的常规值预设、关联元素的选择等。完成预定目标,退出循环,结束流程。

四、元数据模型获取元数据的方法

(一)元数据模型元数据著录格式

元数据模型的元数据著录格式主要有两种:一种是RDF/XML文件格式,RDF是一个用于描述Weh上的资源的框架,它被设计为提供一种描述信息的通用方法,RDF作为一个元数据的描述方式,依赖XML来编码和传送元数据,RDF/XML描述方式以RDF Schema(RDFS)来规范描述对象所蕴含的二元关系ll儿12J;另一种是关系数据库格式,关系数据库(Relational Database)是以关系模型为基础的数据库,关系模型的数据结构、操作集合和完整性约束决定了关系数据库具备强大的数据描述和处理能力,对资源元数据而言,最常见的表现方式为数据表,以及表与表之间的关联。RDF/XML格式擅长于数据的保存和传递,关系数据库格式擅长于数据描述和实时处理,两种格式是一种优势互补的关系。

(二)元数据模型中的存储元数据

向元数据模型存储元数据,即是把不规则的原始元数据文件导人到既定模式的关系数据库表中。

(1)通过遍历把RDF/XML文件存入到关系数据库

RDF/XML文件按元数据模型的定义转换成关系数据表,需遵守以下三个规则:

规则1:RDF的一个类转换为关系数据一个表,RDF的资源类名为表名,属性(定义域)为表列,属性值(值域)为数据值。

规则2:RDF父子类关系,子类数据表的主键作为父类数据表的外键。

规则3:RDF元数据文件,呈多叉树型结构,转换函数按广度优先遍历的策略执行。

(2)关系数据库文件导入到关系数据库

关系数据库格式元数据文件有两种类型:一种是单表形式(所有数据在同一个表上),另一种是多表形式(多个表格之间通过外键建立关系1。由于单表形式的数据库不符合关系数据库的基本范式,无法对一项资源进行全面地描述,因此,实际应用中,第一手原始元数据往往是带有关系的多表形式的关系数据库。多表形式的数据文件(下称源数据)导入到元数据模型的步骤如下:a.把数据文件导人到关系数据库;b.打开元数据模型,建立模型中的数据表和源数据的数据表之间的对应关系,复制数据;c.根据源数据中的关系创建元数据模型中表的主键和外键,复制关系。

五、学习资源元模型的应用

(一)应用背景

2012年,浙江广播电视大学组织实施浙江省教育信息化十二五规划项目“浙江省终身学习数字化资源库(以下简称‘资源库’)”建设项目[13],2015年4月资源库系统项目顺利通过验收。该资源库是集高等教育、继续教育、职业教育和社区教育等多层次、多类型资源的管理、共享、应用于一体,面向省内教育机构提供资源公共服务的终身学习数字化资源库;资源库的资源群以《教育资源建设技术规范CELTS41》为基础,共分为14类,包括媒体素材(文本、图形/图像、视频、音频、动画)、试题、试卷、课件、案例、文献资料、网络课程、常见问题解答、资源目录索引、图书等。多层次、多类型的特征决定了源库是一个大数据级别的综合性信息共享、整合平台。本文所提出的大数据背景下的学习资源元模型,正是为该资源库提供一个高效的资源描述方案。

(二)应用实例

图2区域B(虚线部分)是网络课程元数据模型的UML类图限(于篇幅作了简化)。由图2可知网络课程元数据模型的元素来源包括:(1)筛选学习资源元模型元素,通过Filter()操作,向元模型选取所需的元素,由于常用元素从通用元模型属性集合获取,且元数据模型可随时扩展,为减少服务端系统开支,系统默认约定从元模型中筛选的结果是网络课程个性化元素的最小集合(即:用多少取多少)。在这个过程中LOSD通过元模型对元素的选择起到规范作用;(2)映射通用元模型属性:通过Mapping0操作,与通用元模型屬性建立元素映射关系;(3)引用其它的元数据模型:通过Quote()操作,把相关资源的元数据模型作为元素子集引用过来,如视频元数据模型、文档元数据模型。资源库的网络课程元数据模型(如下表所示)完全是按本文所述的基于元模型环境及流程创建,使资源库在面对于不同来源的网络课程时,具有最大的包容性。事实上,如前文所述,模型的层次总是相对的,元模型的思想也可用于元数据模型以派生出它自己的对象,对上述图2所示的网络课程元数据模型而言,它可以生成动态网络课程、静态网络课程、微课、MOOC等元数据模型。

(三)应用分析

学习资源平台各项资源元数据模型的每个元素来自于高度规范的元模型,这一方面决定了整个资源平台元数据的统一性,为资源平台实施稳定的统一管理、统一检索、统一调用、协同应用等功能奠定了坚实基础(基于元数据的资源整合,是最稳定的资源整合方法),另一方面,各类资源的元数据模型的元素集是由小到大、按需获取的,这节省了系统的开支,增强了数据渎写效率。值得一提的是,上述两点优势将随着资源数量的递增而更加显现出来,因此,该描述体系对于大数据环境下学习资源的实用意义可想而知。

LOM是权威的、通用的学习对象元数据规范,当扩展元素参与到学习资源的描述之后,资源元数据模型便具有了个性化特征,这样的元数据在与其它资源系统进行互操作时会遇到瓶颈。另外,学习资源建设者们受其自身专业、工作等的影响对语义的理解会有差别,元模型扩展元素的语义关联如何得到合理的定义,这也是一个亟待解决的问题。

六、小结

大数据环境下的学习资源库,必须能够胜任资源重组和教学引导的双重服务,而要承担这些任务须有一个高效、灵活的资源描述体系,传统的面向局部资源群体的描述体系显然已无法承担这些任务。本文提出了一种基于元模型的学习资源描述体系,元模型的元素由LOM元数据规范和扩展元数据规范提供,元模型通过学习对象语义词典(LOSD).通用元模型属性集(SMA),用以建立最合理的资源元数据模型。描述体系获取元模型元素的原则是“按需引用、自主扩展”,允许接受LOM之外的其它学习资源标准与规范的元素,且经过LOSD和SMA的约束和规范,可以解决不同标准与规范之间的兼容性问题。文章详细阐述了描述体系的工作原理、通过元模型创建元数据模型的过程以及元数据模型获取元数据的方法。最后,通过应用实例,分析了描述体系的应用前瞻,提出了描述体系在实际应用中存在的局限性。

参考文献:

[1]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014,31(2):10-17

[2]姜强,赵蔚,王朋娇,王丽萍.基于大数据的个性化自适应在线学习分析模型及实现[J].中国电化教育,2015,(1):85-91.

[3]包平,胡以涛,高宏,刘磊.精品课程“LOM+Dc”元数据应用方案的设计与实现[J]现代教育技术,2010,20(6):103-107.

[4]曾玲,丁新.学习资源的封装及其本体描述研究[J]电化教育研究,2010,(1):60-64.

[5] DR Hofstadter. CodeLEscher, Bach: An Eternal Colden Braid[Ml.NewYork:V in tage Books,1979.

[6] OMG formally Released Versions of MOF[EB/OL]. http://www.omg.org/spec/MOF/,2014-12-20.

[7]余胜泉,朱凌云.教育资源建设技术规范简介[J].中小学信息技术教育,2002,(22):80-84.

[8]李华,龚艺,纪娟,谭明杰,方佳明.面向MOOC的学习管理系统框架设计[J]现代远程教育研究,2013,(3):28-33

[9] Tim Berners-Lee.Linked Data[EB/OL]. http://www.w3.org/Designlssues/LinkedData.html,2015-05-02.

[10]孟令奎,李三霞,张文,张东映.面向水文数据共享的水文核心元数据模型研究及应用[J]水文,2012,32(1):1-5.

[Il] Resource Description Framework (RDF).Concepts and AbstractSyntax(W3C Recommendation 10 Fehruary 2004)[EB/OL]. http://wwN'.w3.org/'l'R/2004/REC-rflf-concepts-20040210,2015-02-26.

[12]陆建江,张亚非,苗壮.语义网原理与技术[M].北京:科学出版社,2007.32.

[13]浙江省终身学习数字化资源库[EB/OL].http://www.zjerc.cn/Web,2015-04-25.

作者简介:

张吉先:研究员,硕士,研究方向为远程教育(zhangjx@zjtvu.edu.cn).

单永刚:高级工程师,硕士,研究方向为数字图书馆、学习资源建设(shanyg@zjtvu.edu.cn)。

虞江锋:副教授,硕士,研究方向为远程教育与远程教育技术(yujf@zjtvu.edu.cn)。

陈东毅:工程师,硕士,研究方向为教育技术(chendy@zjtvu.edu.cn).

尹学松:教授,博士,研究方向为机器学习、模式识别(yinxs@zjtvu.edu.cn).

The Research and Application of Learning Resources MetaModelin the Big Data Environment

Zhang Jixian, Shan Yonggang, Yu Jiangfeng, Chen Dongyi, Yin Xuesong

(Zhejiang Radio & TV University, Hangzhou Zhejiang 310030)Abstract:ln order to solve the difficulty ofresource description in the Big Data environment, the research creates a description systemoflearning resources based on the MOF's MetaModel. That is, creating MetaDataModel wluch meets learning resources description standard, and can be expanded in the resource pool platform. It obtains the MetaData model elements of all kinds of resource by reference or mapping from the MetaModel in order to realize the compatibility between different MetaDataModels. The MetaModel Form supports to create a set of constraints and inference rules in practical application to realize self construction and self perfection. The paper discusses the Learning Resources MetaModel's principle, constructive process, operation process and storage method. It also introduces and analyzes the application situation of the learning resources MetaModel. Keywords: MetaModel; MetaData;MetaDataModel; Learning Resources; Big Data

收稿日期: 2015年6月27日

责任编辑:赵兴龙

简讯

第五届中日教育技术学研究与发展论坛暨中国教育技术协会信息技术教育专业委员会第十一届学术年会在上海召开

2015年7月11日至12日,第五届中日教育技术学研究与发展论坛暨中国教育技术协会信息技术教育专业委员会第十一届学术年会在上海市实验学校召开。论坛由巾国教育技术协会、日本教育T学会联合主办,年会由巾国教育技术协会信息技术教育专业委员会主办,会议由上海师范大学承办。

上海师范大学副校长高建华教授,中国教育技术协会常务副会长、巾央电教馆馆长王珠珠研究员,中国教育技术协会秘书长刘雍潜研究员,日本教育T学会会长、富山大学山西润一教授等领导与专家出席会议。来自巾国的上海师范大学、东北师范大学、浙江大学、南京师范大学、华东师范大学、西南大学、华南师范大学、内蒙古师范大学等,来自日本的富山大学、日本女子大学、关西大学、奈良教学大学、东北大学、爱知T业大学、九州大学等学校的学者、教师和研究生,以及《中国电化教育》杂志社等多家媒体代表共计300余人参加了会议。

本次论坛和年会,是巾日教育技术学界的一次高水平的对话与交流,会议围绕“技术改善学习”这一主题展开了广泛而深入的探讨。论坛开幕式上,高建华副校长、王珠珠馆长、山西润一教授分别代表承办方上海师范大学、主办方rr『国教育技术协会、日本教育T学会作了致辞。王珠珠馆长、山西潤一教授分别作了题为《中国基础教育信息化的现状与展望》和《日本教育T学研究的现状与进展》的主旨报告。在接下来的两天当巾,共举行了二十一场大会报告、九场专题研究和八场论文发表,与会代表就技术改善学习的范式、理论、方法和过程等议题,展开了富有成效的交流和研讨并形成了了多项进一步交流与合作的意向。

闭幕式上,上海师范大学教育技术学系系主任董玉琦教授对此次论坛和年会作了总结。他认为,会议在拓展研究领域、改进研究方法、加强研究合作与交流等方面取得相当成果。会议的主要共识是,信息技术与教育教学的深度融合,不仅要关注技术应用,更重要的是要关注学生发展;而关注学生发展,不仅关注学习方式的转变,更要关注学业水平的提升,关注批判意識、协作精神、创造能力的改善。

第六届中日教育技术学研究与发展论坛计划在2017年召开,初步确定由日本的东北大学承办;巾国教育技术协会信息技术教育专业委员会第十二届学术年会明年7月召开,初步确定由华中师范大学和黄冈师范学院联合承办。

(本刊记者宋灵青)

猜你喜欢
元数据学习资源大数据
基于来源的组织机构元数据构建研究
基于微信公众号的O2O学习资源设计与应用研究
元数据与社会化标签在微视频搜索中的应用
高等院校智慧校园建设规划与实现
基于新技术环境下的自主学习
中等职业教育中教育技术的应用研究
基于大数据背景下的智慧城市建设研究