大数据下一种高等教育个性化推荐教学方法的研究

2018-06-11 11:15冯佳音宋金玲王东
现代职业教育·高职高专 2018年12期
关键词:高校教学数据挖掘大数据

冯佳音 宋金玲 王东

[摘要]大数据时代,科技的发展为教育带来了巨大变革,教育更关注学习者的需求,更关注学习者能力提升及综合素质的发展,数据挖掘支持的高校教学变革势在必行。提出一种挖掘高校教学网站频繁访问节点数据的新方法MFITTSSW,使该方法可以单遍扫描数据集以获得推荐模式。通过网站应用实践,发现该方法可以有效关注学习者个体发展需求,对大数据时代进行高校教学变革具有重要意义。

[关键词] 大数据;数据挖掘;高校教学

[中图分类号]  G642                  [文献标志码]  A                       [文章编号]  2096-0603(2018)34-0048-02

随着现代信息技術的发展,“教育信息化”与人们日常生活的联系越来越紧密。教育信息化的改革与发展,使其成为教育发展的重点。如,电子白板、在线课程、各种多媒体应用软件、Web考试系统以及高校教学网站技术相当成熟。但在考试难度控制、题库选择等方面还存在一定的问题,主要是题库选题方法是随机的,考试的一些重要参数无法统计,很难实现对考试的客观评价,另外,高校学生尤其是新生在选课以及对自己的专业考虑不足,很难正确选择自己需要的课程,很难选择自己喜欢的教学内容。归根到底,这些信息化技术最大的不足之处就是缺乏对数据信息的分析,发掘数据是否有关系,然后透过数据之间的关系来进行相关内容的推荐。而在如今的大数据时代,数字数据以惊人的速度增长,人们的生活方式和生产方式也发生着前所未有的变化,这些新特点也是当前的教学改革、课程教学方向的热点。大数据具有三个特征:数据量大、数据产生得快、数据具有多样性。首先,由于高校课程选择数据、课程考核数据、评估数据和学习者数据等规模都非常大,因此用来分析的数据量非常庞大,并且在分析这些数据的过程中会产生新的数据,这些数据通常在运行过程中是指数倍增长,往往超出一般数据库软件所能捕捉、存储和分析的数据量。其次,大数据往往是在课程选择、课程考核和分析等过程中新产生的数据,这些数据是实时、在某一时间段数据量庞大,而不是事件发生后去采集的。再次,大数据拥有非常多的数据类型,选课、考试以及观看教学视频中的每个步骤都可以跟踪采集相关学习行为的数据,如选课的路径模式、观看教学视频时间长度、测试数据的分数、通过率、课程讨论论坛数据等数据采集、转换很困难,需要高质量的软硬件环境。从以上三点我们可以发现,大数据背景下,课程的选课模式、学习模式、教学考核模式等是通过挖掘大量相关数据从而科学地进行课程建设和改革的,从而提高教师教学和学生自主学习效率。而选课教学网站的数据挖掘不可能对所有数据进行挖掘,只能通过挖掘近期数据的关键信息,从频繁被访问的节点信息,找出数据摘要。从而推荐相应选课内容以及学习内容。国内外的一些专家学者在网站频繁访问节点挖掘方面提出的算法有FTP-DS、DSM-MFI等,弥补了传统频繁项集挖掘中多遍速扫描数据集和基于磁盘存储不足的缺陷。虽然这些算法都可以满足数据流挖掘中单遍扫描数据和基于内存存储的特点,但是这些应用滑动窗模型挖掘数据流频繁访问节点算法同样存在着挖掘效率不高和内存存储数据量过大的问题。

本文针对滑动窗挖掘模型中存在的不足,提出基于时间和事务双敏感的滑动窗TTS作为概要结构,从而有效综合滑动窗模型的优点。并构建后缀树作为基于内存的数据结构存储到来的访问节点,通过压缩后缀树(CST)方法减少内存中树型结构所占用的空间,使算法MFITTSSW可以在单遍扫描数据集的基础上挖掘滑动窗中的频繁访问节点。文中主要讨论如何确立数据的高效存储、如何确保数据的高质量性以及如何对数据进行挖掘以保障课程选课和学生学习质量。

一、问题定义

设Ψ={i1,i2,…,im}为项的集合。项集X是Ψ的非空子集,k-项集是包含k个项的子集,可以用(x1,x2,…,xk)表示。带有唯一标识(tid)的事务T和项的集合由〈tid,(x1,x2,…,xq)〉表示,其中xi∈Ψ,■i=1,2,3,…,q。将数据流分为固定事务数量的窗口,称为基本窗,记为Bi。一个基本窗Bi是由k个事务组成,基本窗由窗的标识Bid唯一确定。

二、时间和事务双敏感的滑动窗模型

时间敏感的滑动窗模型是以时间为基本单位,如一分钟或一小时。然而,由于数据流的概念漂移性,在应用时间敏感滑动窗模型时,在某一个或者某几个时间单位中存在没有事务或者只存在一个事务的情况。但是以时间敏感的滑动窗为概要设计的算法不得不处理每一个时间单元的事务,这样就极大地浪费了CPU处理时间。

事务敏感的滑动窗模型相对于时间敏感的滑动窗有一定的优势,然而事务敏感的滑动窗模型存在无法适当的定义事务块大小的问题。用户定义过大的事务单元块时,会对内存造成极大的压力,不利于处理;当用户定义较小的事务单元块时,处理又过于频繁,造成CPU资源的浪费。

时间和事务双敏感的滑动窗模型TTS(Time and Transaction Sensitive sliding window)是同时限制时间和事务数量的滑动窗,它包括最小限定事务数y、限定的时间单位Tp和扩充时间单位Te。

当给定一个时间t和时间周期Tp时,在[t-Tp+1,t]时间到来的所有事务集形成一个基本窗,叫做一块。如果在这一时间块内的事务数小于某一用户定义数量值y,这时将记录一个扩充的时间Te,Te的大小为记录的时间点开始直到整个中的事务数等于y为止。即在一个时间块中的事务数必须大于等于y。数据流可以分成这些数据块的和。滑动窗的大小可以由|W|表示,且|W|≥y。这种约束时间和事务的滑动窗称为时间和事务双敏感的滑动窗(TTS)模型。

三、基于双敏感滑动窗的频繁项集挖掘算法的设计

该方法首先给出构建压缩后缀树CST(Compressed Suffix Tree)。然后,给出挖掘双敏感滑动窗下的频繁访问节点MFITTSSW(Mining Frequent Itemsets in Time and Transaction Sensitive Sliding Window)。

(一)基于内存的存储结构CST

当记录一个滑动窗中的事务时,首先,根据最小事务数值y确定是否需要扩充时间存储到来的项集,如果不需要则把各个事务映射为后缀集的形式,分别把计数和结点插入到头表HT和后缀树中。之后,遍历后缀树的每个分支以查看树中是否有两个或者两个以上的结点需要被压缩。最终,在内存中保存压缩后的后缀树CST。

(二)基于双敏感滑动窗的频繁项集挖掘方法MFITTSSW设计

当用户提出需要挖掘频繁项集时,首先,从头表中A开始获取树中的根结点R之下的各个分支结点。然后,采用递归自顶向下的方法遍历CST中每个分支。最后,通过事先定义好的支持度阈值判断是否为频繁项集。MFITTSSW算法根据不同窗中的不同支持度阈值判断项集是否为频繁项集。由于不同的窗中事务数量不同,所以最早到来的窗中判断阈值要高于近期的事务。充分体现了滑动窗模型的只关注近期事务的特点。同时,由于最早到来的窗中支持度比较高,就会删除一部分原来是频繁的,但有新到来的窗后变为不频繁的项集,节约了内存空间。

四、高校教学选课网站的构建

根据上述算法,设计高校选课教学网站。高校教学根据其培养方案有其标准应用模式,所以要求在进行大数据背景下高校推荐教学的设计过程中,必须考虑高校职能部门的依存性与模块化的概念,要在现有基础上构建出模块化的结构。而个性推荐教学必须充分考虑信息技术在教育改革中的作用,以此来开展推荐教学。

(一)构建学习者模块

高校推荐教学是学习者自己根据自己的学习倾向、兴趣爱好、知识结构等构建的教学方式,但如果学习者对自己没有清晰明确的了解,就不可能做出有利于自身发展的选择。所以,根据学习者选择的个体特性来得到学习者个体特征,具体过程如图1所示。

(二)构建课程推荐选择模块

根据构建的学习者个体特性、高校专业设置特点和科学的学习原理,根据算法的特点推荐出大部分學习者在该专业应该掌握的知识以及梳理出以后的专业发展方向,建立学习者专业培养和课程设置推荐内容,具体过程如图2所示。

(三)构建教学模块

教师查看每个学习者的个体特性,分析学生的学习兴趣和自身希望的发展方向。根据学生选课情况推荐出课程的学习材料(可能是视频、文档和音频等),并在以后的教学活动中能对每个学习者的情况了如指掌,充分发挥教师教学对学习者的作用,具体如图3所示。

五、结论

本文针对目前高校教育教学选课中的问题,设计了MFITTSSW算法来挖掘数据流滑动窗中的频繁访问节点。在MFITTSSW算法中,首先,提出了新的基于时间和事务双敏感的滑动窗模型来解决应用滑动窗中存在的问题。之后,提出了有效的CST数据结构来记录滑动窗中到来的访问节点。通过实际网站的试用,应用该挖掘算法对推荐学生选课和教学网站的设计与应用有极大的好处。

参考文献:

[1]张燕南,胡继岳.关于大数据应用与教育的思考[J].中国电力教育,2013,3(32):5-7.

[2]王传根,吴昊,刘路路.大数据背景下学习评估方法分析[J].教育教学论坛,2017,10(42):213-215.

◎编辑 武生智

猜你喜欢
高校教学数据挖掘大数据
数据挖掘综述
软件工程领域中的异常数据挖掘算法
关于未来“会诊化”高校教学模式构建
MOOCs
高校艺术设计专业工作室教学模式的研究
基于大数据背景下的智慧城市建设研究
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书