数据挖掘技术在辅修教学管理中的应用研究

2013-01-16 07:49施美华姚卫新
关键词:辅修项集中心点

施美华,姚卫新,刘 冰

(东华大学 教务处,上海 201620)

随着知识经济时代的到来,单一的专业教育已不适应社会对复合型或综合型人才的需要,社会的发展需要培养和造就一大批高素质的、有创造力的复合型或综合型人才。在这种社会需求大背景下,21世纪初各高校纷纷大力发展辅修教学,鼓励学有余力的学生在学习主修专业课程的同时辅修另一专业的主要课程,掌握更多的科学文化知识,成为基础扎实、知识面宽、适应性强的复合型人才,增强毕业后的就业竞争力,主动适应社会经济建设的需要。

在这十几年的辅修教学历程中,随着同学修读规模的不断扩大,辅修专业在各高校基本实现了信息化和网络化的教学管理,如辅修报名、排课管理、成绩管理等等,但仅限于简单的数据录入、查询和统计,而没有开展深入的数据研究。同时根据以学生为本的教学管理要求,需要了解学生对辅修教学过程的认知和评价,如学生选报辅修专业的学习动机、辅修专业的教学效果反馈等等,这些都没有权威的数据来支撑,为此有必要从学生的角度出发,建立辅修教学调查评价体系,采集数据。通过综合辅修各方面信息,并深入数据研究,我们就可以在教学管理中有针对性地加强引导和强化管理。

从数据自身出发,找出潜在规律,正是数据挖掘技术的要旨。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识[1]。把数据挖掘技术应用于辅修教学管理领域,通过相关算法,对大量数据进行挖掘分析,就有可能得到数据背后所隐含的规律。

由此,我们根据需求建立辅修教学调查评价体系,并收集调查数据信息,同时主要运用聚类分析中的k-中心点算法和关联规则中的Apriori算法进行数据挖掘,期望通过数据挖掘的一些方法,对辅修教学招生、教学安排、教学评价中存在的一些关联和潜在的规则进行分析和评估,引导学生的选报或修读,并为实施因材施管提供决策依据。

一、辅修教学调查指标体系的建立

辅修的生源来自不同的学校、不同的专业,学生流动性大。因其教学有特殊性,有必要全方位了解辅修教学管理的客观状况,如对学生选报辅修学习的动机、学生对任课教师教学情况的评价、学生对辅修教学软硬件管理情况的一个评价和认可、教学实际效果和修读的稳定性等等,只有掌握了这些数据才能对教学情况作出评价和引导。因此教学调查指标体系的建立从这四个层面着手,设计出的教学调查问卷能使学生从自身利益出发来综合反映辅修的教学情况,评估教学的质量及学生的满意水平。

在问卷调查中,所需测评的本质是一个定量分析的过程,即用数字去反映顾客对测量对象的态度。量表的设计分两步:第一步是“赋值”,根据设定的规则,对不同的态度特性赋予不同的数值;第二步是“定位”,将这些数字排列或组成一个序列,根据受访者的不同态度,将其在这一序列上进行定位,之所以将测量指标量化(数字化),一是因为数字便于统计分析,二是数字使态度测量活动本身变得容易[2]。教学情况测评了解的是学生对教学软硬件、教学质量、教学效果的看法和态度等,考虑到教学情况调查表将由学生在网上填写,学生希望看到的问题能明确,回答能简单和便捷,故对这类问题的测量采用了“5级李克特量表”,采用的5级态度是:完全不同意、较为不同意、基本同意、较为同意、完全同意,相应赋值为1、2、3、4、5。

综合以上情况和要求,建立了辅修教学调查情况指标体系,具体见附表1。其中在学生学习动机层面根据内外因设计了10个题项,教师教学情况层面根据教师教学态度和课堂教学质量设计了8个题项,教学管理情况设计了8个题项,教学效果层面从知识掌握程度、能力提高情况、教学效果稳定性方面共设计了9个题项,教学调查表的建立,基本能反映辅修教学管理的客观状况。

二、聚类算法

(一) 聚类算法概述和策略

聚类算法主要是借助数学手段进行一定归类的数据简化技术,它把基于相似数据特征的变量或个案组合在一起,是一种无监督的学习和分类。聚类算法用于数据挖掘时,它既可以作为一个独立的方法,用以发现数据库中一些内在的数据分布信息,也可以作为数据挖掘算法中的一个预处理步骤,其他挖掘算法能够在聚类分析所生成的簇上作进一步的分析和处理。

k-中心点算法是聚类算法中基于有代表性对象的划分方法,它的目的是对N个数据对象给出k个划分,它对在中小规模的数据库中发现球状簇很适用。k-中心点算法的基本策略是:首先为每个簇随意选择一个代表对象Oj,剩余的对象根据其与代表对象的距离分配给最近的一个簇,然后反复地用非代表对象Orandom来代替代表对象Oj,由此不断改进聚类的质量。聚类结果的质量用一个代价函数来估算,该函数度量对象与其参照对象之间的平均相异度。如果一个当前的中心点对象被非中心点对象所代替,代价函数计算平方-误差所产生的差异。替换的总代价是所有非中心点对象所产生的代价之和。如果总代价是负的,那么实际的平方-误差将会减小,Oj可以被Orandom替代。如果总代价是正的,则当前的中心点Oj被认为是可接受的,在本次迭代中不发生变化[3]。k-中心点算法的流程具体如下:

输入:N个对象的数据库,期望得到的簇的数目k;

输出:k个簇,使得所有对象与其最近中心点的相异度总和最小。

方法:

(1) 随机选择k个对象作为初始的中心点;

(2) 把每个剩余的对象指派给离它最近的中心点所代表的簇;

(3) 随机地选择一个非中心点对象Orandom;

(4) 计算用非中心点对象Orandom代替中心点Oj的总代价S;

(5) 如果总代价S为负,则Orandom替换Oj,形成新的k个中心点的集合;

(6) 重复第2步到第5步,直到不再发生变化。

在辅修数据分析中选择聚类挖掘,是希望能够通过对不同类型的修读辅修的学生进行聚类,把学生划分成不同类型的群体,在同一群体内试图找出某种未曾引起注意的共性特点,在不同群体间找出主要的区别因素,同时也能深入了解辅修各个层面的信息。

用SQL语言来实现算法的关键点是根据临时表中存放的距离值,找出数据表中每个点i到最近中心点的距离,并尝试把i划分给该中心点;计算Orandom替换Oj后的总代价的变化,以此决定是否真正需要用Orandom替换Oj,形成新的中心点。如果所有的Orandom都不再能够替换Oj,则现有中心点就是最终结果。

(二) 聚类算法的实证研究

对教学信息调查主题库按教学各个层面用k-中心点算法进行了挖掘,经过预处理后,有效数据为2 096条,我们将学生按学习动机、教学效果、教学质量、教学软硬件各个层面分别进行聚类挖掘,限于篇幅,列举两个聚类结果分析。

表1 按学生学习动机进行聚类,选择的聚类数为3

注:按完全同意每选项5分计,内因共为25分,外因共为25分。

表2 将学生按照教学效果的三个方面进行聚类,选择的聚类数为4

注:按完全同意每选项5分计,知识掌握共为10分,能力提高共为15分,教学稳定共为20分。

从表1中看出以中心点1为代表的是指选报受内因一定影响的学生,同时也受到外因一定影响,这部分占了总人数的24.8%。以中心点2为代表的是选报受内因影响不大的学生,受外在因素影响也不大,这一类群体属于学习动机相对较模糊,不明确,这部分占了36.3%。以中心点3为代表的是指选报以内因为主导的学生,他们几乎不受外在因素的影响,这部分占了大概38.9%,这部分学生有强烈的求知欲望,学习主动性比较强。表2将学生按教学效果分成四类,如以中心点1为代表的为知识掌握、能力提高及教学稳定性方面非常满意的学生,这部分学生比较多,占了总人数的21.8%,说明教学效果不错,学生非常认可。以中心点4为代表的是对知识掌握、能力提高和教学稳定性方面都较满意的学生,这部分占的比重为31%,在管理中要加强这两部分人在班集体中的引导作用,促进大家学习的积极性。

由此,对辅修教学的各个层面进行聚类挖掘,根据挖掘到的信息从辅修管理的各个层面进行了分类,并掌握了各个分类的特性,从而深入地了解辅修管理的各个层面的情况,能对辅修教学管理作出一些建设性的指导意见,并以此聚类结果作进一步挖掘的预处理。

三、关联规则挖掘在辅修教学中的应用研究

(一) 关联规则算法概述和策略

关联规则挖掘通过支持度和可信度定量地描述这种关联关系的程度,以指导数据分析的过程。关联规则的典型应用是购物篮分析,通过分析指导商品货架设计、仓储规划、降价销售等系列决策行为,发现大量数据之间的关联关系在选择购物、决策分析和商务管理方面是非常有用的。对于给定的一个交易集D,关联规则的挖掘过程就是产生大于最小支持度和最小置信度的关联规则的过程。规则⟹X⟹Y在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数与所有交易数之比,记为support(X⟹Y),规则XY在交易集中的置信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(XY)[4]。

Apriori算法是最经典的关联规则算法之一,它可在一个事务数据库中,找出所有满足最小支持度的项集(itemsets)。其使用逐层搜索的迭代方法,首先找出频繁1-项集的集合,记作L1,把L1用于寻找频繁2-项集的集合L2,而L2用于找L3,如此下去,把k-项集应用于对 (k+1)-项集的探索,直到不能找到频繁k-项集,表明已找出所有满足条件的规则[5]。在找每个Lk时,利用“Apriori性质”的重要特性,事先识别出一部分非频繁项集,对它们不再需要通过扫描数据库加以验证。“Apriori性质”指的是:频繁项集的所有非空子集都必须也是频繁的,对于一个k-候选项集,检查候选项集的所有(k-1)-子项集是否频繁,若有一个不是频繁的,则可以直接删除这个候选项集,不必为它扫描数据库[6]。

我们采用SQL语言实现该算法的主要步骤如下:

输入参数T:数据表;min_support:最小支持度;min_confidence:最小置信度

输出参数R:存储关联规则的数据表

步骤:

(1) 生成频繁1-项集:从T中选择支持度>min_support的每个项itemi,存入表L1;

(2)k=2;

(3) 当Lk<>条件成立时,执行第4步—第7步循环;

(4) 连接k-1项集Ck;

(5) 如果k>2,则应用“Apriori性质”,修剪Ck中候选项集;

(6) 生成频繁k-项集:验证Ck中的每个候选项集,把满足在T中的支持度>min_support的候选项集存入Lk;

(7)k=k+1;

(8) 结束该循环;

(9) 从L1,…,Lk中提取规则,把置信度>min_confidence的规则存入表R中。

在用SQL语言实现算法时主要步骤就是由L1→C2→L2→ … →Ck→Lk的过程,通过迭代循环,直到不能产生新的频繁项集的集合为止,最后从L1, …,Lk中提取关联规则。为了提高算法的效率,不必对数据表T进行扫描,可以直接由Lk-1和Lk产生形式如item1∪item2∪…∪itemk-1→itemk的规则。

(二) 关联规则算法实证研究

Apriori算法可以对辅修数据的多个层面进行挖掘分析,如对学生修读信息主题库进行关联挖掘、按教学层面聚类所得的簇进行关联规则挖掘、教学调查主题库中学生基本信息以及通过聚类所得的簇进行关联规则挖掘,从而得出了一系列在学生选报、修读、教学管理各个环节的隐性特征。如表3为学生基本信息,以及通过聚类所得的簇进行挖掘的关联规则,选取最小支持度为5%,最小置信度为60%。

表3 教学调查表中学生基本信息以及通过聚类所得的簇进行关联规则挖掘结果

从表3中,我们可以挖掘到一些特征如下:(1)管理和经济学科背景对辅修教师的教学质量认可度比较高,如序号10中可以看到主修学科为经济学的同学对教学质量满意的占到70.3%,序号11中主修学科为管理学的同学对教学质量满意的占到82%。(2)外校生源,主修学科为文学,辅修学科类别为艺术,对教学效果非常满意的占到93.8%。(3)主修学科为管理,修读辅修学科为经济的,修读动机是以内因为主导的占到81.5%。(4)对于工科学生,选报专业的动机方面有性别倾向,从序号1中可以看到工科女生选报文学为辅修学科的选报动机不足,比较盲目的占到67.1%,而工科的男生选报管理为辅修学科的以内因为主导的,则占到71.4%。由此我们可以根据挖掘到的结果进行分析和有针对性的引导。

在进行关联挖掘中,输出的关联规则很多,但真正有效的规则很少,这就需要我们对关联规则能进行很好的解释。在运行程序时,合理地选择最小支持度和最小置信度非常重要。

四、结束语

辅修教学的管理是一个动态的教学管理,在修读的过程中变动因素也较多,把数据挖掘到的大量的隐性规则和日常管理工作结合起来,在辅修教学的招生选报阶段、修读阶段建立起辅修教学管理指导、测评系统,从而能有的放矢、针对性地进行引导,全面规范辅修教学管理。如在招生选报阶段,可以根据历届不同学科背景学生选报的动机、学习情况的数据挖掘信息,对新生进行选报测评、指导,从而能避免学生选报辅修专业的盲目性。在修读的过程中,通过教学情况状态数据挖掘,建立起教学过程监测,及时了解不同主修专业背景、不同辅修专业学生类别对教学状态的反馈,加强主动性的管理,确保学生修读的稳定性。从而能在教育信息化条件下,利用数据挖掘技术,探讨现代高校教学管理工作的新模式。

辅修教学管理是教务管理的一部分,可以把数据挖掘技术深入应用到教务管理中,可以促进教育管理的进一步改革、完善和发展。通过对数据挖掘工具的有效利用,能较客观地反映教务系统中存在的问题,为决策提供重要的依据。当然,数据挖掘本身不是万能的,它的应用离不开实际背景,只有遵循以人为本的原则,才能使它真正具有现实的意义和广阔的前景。

[1] 金延军.数据挖掘技术在高校学生就业指导中的应用.黑龙江工程学院学报:自然科学版,2009,(1):64-67.

[2] 赵连宝.如何进行企业顾客满意度研究[J].合作经济与科技,2006,(5s):15-16.

[3] 刘志成,文全刚.“k-中心点”聚类算法分析及其实现[J].电脑知识与技术:技术论坛,2005,(2):20-24.

[4] 杨秋叶.Apriori算法改进研究[J].电脑知识与技术,2013,(9):33-35.

[5] 杜家强.Web日志中用户频繁路径快速挖掘算法研究[J].计算机工程与应用,2005,(22):164-167.

[6] 况莉莉.Apriori算法与FP-tree算法的探讨[J].淮北煤炭师范学院学报:自然科学版,2010,(2):44-49.

附录1:教学情况调查表

教学情况表,主要涉及学生学习的动机、任课教师教学情况、教学管理软硬件情况、教学效果调查四个层面,具体的内容如下:

一、基本情况调查

1.学生来源:[ ] 本校学生 [ ] 外校学生

2.你的性别:[ ] 男生 [ ] 女生

3.你的主修专业学科类别:[ ]文 [ ]理 [ ]工 [ ]管理 [ ]经济 [ ]教育 [ ]法学

4.你的辅修专业学科类别:[ ]文 [ ]理 [ ]工 [ ]管理 [ ]经济

二、你为什么要学习辅修专业(其中1~5为学习动机外因,6~10为学习动机内因)

1.学习辅修专业是因为父母的愿望和要求。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

2.学习辅修专业是因为学校、辅导员、任课教师宣传、影响。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

3.学习辅修专业是因为看到别的同学选,我也选。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

4.学习辅修专业是因为费用比其他学校或培训机构低。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

5.学习辅修专业是因为证书比较容易获得。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

6.学习辅修专业是希望学有专长,更好地报效祖国。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

7.学习辅修专业是因为本人强烈的求知欲望,证书不重要。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

8.学习辅修专业是希望有两个专业交叉背景,将来找个好工作。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

9.学习辅修专业是因为不喜欢主修专业,希望改变自已的专业背景。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

10.学习辅修专业是希望能有一个新的学习环境、班集体和认识更多的同学。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

三、任课教师教学情况调查(其中11~14为教师教学态度,15~18为课堂教学质量)

11.教师重视辅修教学,对教学工作充满热情。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

12.教师对作业/测验等作认真批阅或分析。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

13.教师上课不迟到、早退,遵守课堂教学纪律。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

14.教师能真诚关怀学生,愿与学生交流探讨问题。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

15.教师能有效调节课堂氛围。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

16.教师对课程进度安排合理。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

17.教师能根据教学内容,采用恰当的教学手段。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

18.教师不照本宣科,能采用启发式教学。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

四、教学管理软硬件情况调查

19.辅修专业教学计划、课程结构安排合理。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

20.课程集中安排在双休日,更有利于辅修的学习。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

21.辅修专业的各种教学安排,成绩等能通过多种途径方便查询获知。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

22.班主任能经常联系同学,对各种教学变动,都能配合作妥善安排。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

23.教学安排中的问题,能及时得到相关管理部门的解决。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

24.辅修专业班集体同学关系融洽,经常交流。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

25.辅修专业的教材还是统一购买好,省心又方便。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

26.教室、多媒体设备配备情况良好。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

五、教学效果情况调查(27~28为知识掌握程度;29~31为能力提高方面;32~35为教学效果稳定性方面)

27.通过辅修专业的学习,拓宽了自己的知识面。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

28.通过辅修专业的学习,对自己第一专业知识理解、掌握更深入。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

29.能积极主动完成作业,参与课堂讨论。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

30.感到自己的自学能力、学习积极性有所提高。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

31.通过学科的交叉,感到自己的数理逻辑思维能力或语言表达能力有较大提高。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

32.通过一段时间的辅修学习,感觉辅修的学习学有所值,更喜欢辅修这个专业了。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

33.如低年级同学向你打听,你会建议他(她)选报参加辅修的学习。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

34.如让你重新选择,你仍会选择你现在所学的辅修专业。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

35.不管辅修的学习有多累,我一定会坚持把辅修学好、学完。

[ ]完全不同意 [ ]较为不同意 [ ]基本同意 [ ]较为同意 [ ]完全同意

猜你喜欢
辅修项集中心点
高校辅修专业教学现状与思考
——以天津理工大学英语辅修专业为例
我国高校金融学辅修的现状、问题和对策
——以西北大学为例
一种基于标准差的K-medoids聚类算法
Scratch 3.9更新了什么?
如何设置造型中心点?
不确定数据的约束频繁闭项集挖掘算法
寻找视觉中心点
京津冀地区外语辅修专业及辅修二学位现状研究和发展建议
一种新的改进Apriori算法*
分布式数据库的精简频繁模式集及其挖掘算法*