数据挖掘技术及其在物理教育研究中的应用

2016-12-13 00:41李成丰黄致新
物理通报 2016年5期
关键词:数据挖掘物理分析

李成丰 黄致新

(华中师范大学物理科学与技术学院 湖北 武汉 430079)



数据挖掘技术及其在物理教育研究中的应用

李成丰 黄致新

(华中师范大学物理科学与技术学院 湖北 武汉 430079)

数据挖掘是20世纪末逐渐形成的一个多学科交叉、渗透、结合的研究领域.本文通过对美国《物理评论快报》特刊PRST-PER的研究,介绍了数据挖掘的概念、特点、功能及其在物理教育研究中的常见应用,提出了一些思考与建议,并展望了数据挖掘技术在物理教育研究上的未来.

数据挖掘 物理教育 教育研究

在知识社会创新2.0的推动下,“互联网+”将互联网与工业、商业、金融业等传统行业进行了深度融合,创造了新的发展生态.无所不在的网络与无所不在的计算、无所不在的数据、无所不在的知识共同驱动了无所不在的创新.面对浩瀚的数据信息,人们开始去粗取精,去伪存真,对自身所处领域的问题开始关注,并独立地追求科学知识,这种能力和兴趣正是现代社会成员所必需的基本能力和科学素养.在这种背景下,既是一门理论学科,又是一门应用学科的数据挖掘(Data Mining——DM)技术便显得尤为重要.其在物理教育研究中的应用,对于物理教育的发展,也具有极大的促进和推动作用.

本文以2005~2015年PRST-PER中的物理教育研究论文为研究对象,采用文献统计法和内容分析法,对数据挖掘技术在物理教育研究中的应用以及美国物理教育研究的特点进行了分析,力图为改善我国物理教育研究现状,促进我国物理教育研究发展提供一些参考.

1 数据挖掘和知识发现

数据挖掘是一门数据库研究和人工智能、统计学、机器学习等领域相交叉的新兴边缘学科,近年来受到了社会各阶层广泛的关注.从广义上讲,数据挖掘就是对数据库中大量的原始数据进行抽样、清理、转换,以及计算从而分析出有用知识的过程.简言之,数据挖掘即是从数据库中发现有用的模式,或者一种知识,也可以说是数据间的关系(这里的模式是指浓缩数据的逻辑结构和特征描述形式,如表格、决策树、产生式规则等)[1,2].

数据挖掘也常称为知识发现(Knowledge Discovery in Database——KDD),知识发现是从源数据中确定出有效的、新颖的,以及最终可理解的模式的高级处理过程(这里的模式可以看成知识的雏形,只需稍加验证和完善便形成知识).严格来讲,KDD表示底层数据转换成高层数据的整个过程,是DM的一种更广义的说法,DM可看作为是KDD整个过程中的一个特定步骤,并处于核心位置.基于数据库的知识发现(KDD)和数据挖掘(DM)还存在着混用,通常这两个术语可替换使用[3,4].

2 数据挖掘的特点

(1)数据量巨大

数据挖掘的源数据量是巨大的.我们需要从大数据库中随机或者有目的地选出与研究问题相关的样板数据子集,而不是盲目地、模糊地去提取数据[5].这样的筛选不仅能减少数据处理量,而且还能使规律更易凸现出来.

(2)数据类型繁多

现实世界里,我们需要处理的数据具有多种多样的形式,这种多样性将数据分为了结构化数据和非结构化数据.便于存储的、以文本为主的结构化数据,已经进行了多次的数据挖掘研究,技术相对成熟.近年来,越来越多的非结构化数据成为了数据挖掘中日益重要的研究内容,如空间数据、多媒体数据、web数据等等.

(3)源数据常常缺少变量

我们在整理某些源数据时,通常发现这些数据原本是为了别的目的收集而成的,对于我们所要研究的问题来讲,可能缺乏一个或者几个重要的变量,从而使得数据挖掘工作停滞不前.例如,某大型超市每日有大量的交易数据,这是为了核对账目而存储的.如果我们想研究该超市里各个年龄层的消费水平,这些数据便缺乏了年龄这一重要的变量.

3 数据挖掘的功能

数据挖掘的功能一般可以分为两大类:描述和预测[6].描述性数据挖掘任务刻画了数据库中数据的一般特性;预测性数据挖掘任务是在当前数据的基础上进行分析和推断.一般而言,数据挖掘按功能划分主要有以下几大类:

(1)概念描述

概念描述(Concept Description)就是对某类含有大量数据的数据集合进行汇总、分析和比较所获得的简明、准确的描述.一般而言,概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类别对象之间的差异.例如,我们可以对某高校物理学院讲师和副教授的情况进行如下的概念描述:

满足(papers<3)and(teaching courses<2)的讲师所占比例为70%;满足(papers>=3)and(teaching courses>=2)的副教授所占比例为62%.

(2)关联分析

若两个或多个变量的取值之间存在某种规律性,就称为关联.关联分析(Association Analysis)就是通过分析发现数据库中隐藏的某种关联,但是大多数时候我们并不知道数据库中数据间的关联函数,于是通过关联分析生成的规则显得更有说服力.美国高中的物理课属于选修课,一般实行学分制,学生在最低学分的要求之上,可以根据自己的情况和需要选择不同的物理课程.例如,在PRST-PER关于“学生的兴趣与高中的学习准备以及大学物理课程学习表现间的联系”一文中[7].研究者对学习大学物理课程的在校学生进行调查,并分析大量的数据,得出高中学生对物理学的兴趣和选修物理课这两种变量间存在着一种关联,可以说学生对物理学的兴趣是选修物理课的充分不必要条件.换言之,对物理学有兴趣的学生通常都会选修物理课程,学习大学物理课程也更加得心应手;但选修物理课程的学生并非都出于对物理学的兴趣,因为除兴趣之外还存在着学校规定,家长要求等外在因素.由此可见,学生对物理学的兴趣有助于学生学好物理知识.

(3)分类

分类(Classification)是找出一组能够描述数据集合典型特征的模型或者函数,以便能对未知数据进行归属和分类.首先,需要建立一个模型,模型的表示方法主要有分类规则、数学公式、决策树和神经网络;然后,开始使用模型进行分类.例如,研究课堂教学对学生在定性问题上表现的影响,以及研究兴趣和高中物理课程对学生学习大学物理课程的影响等这些问题,涉及到一个重要的分类规则,即对采集的数据按照前测和后测进行划分和分析.又如,美国著名教育社会学家Martin Trow教授通过分析大量数据在“从大众向普及高等教育的转变”和“高等教育的扩展与转化”中于1973年提出了这样一个世界公认的高等教育划分理论:设X为18~24岁人中的大学生比例,则大学分为三类大学:(a)精英大学X<15%,(b)大众大学15%≤X<50%,(c)全民大学X≥50%.

(4)聚类

聚类(Clustering)就是将数据集合分组成多个类或簇,根据对象之间的相似度进行数据聚集的方法,即为“最小化类间的相似性,最大化类内的相似性”原则[8].聚类中要使用的数据是未知类别属性的,它属于一种不依赖于预先定义好分类标记的训练数据集的非监督学习.在物理教育研究中,通过聚类分析能够帮助教师识别不同经济地区的学生群体以及他们之间的学习特征,有助于教师进行教学研究.例如,城乡学生差异研究等,这对于教师制定更好的教学方法大有裨益.

(5)偏差检测

通常数据库中的数据有许多差异和极端的异常记录,大多时候人们都将其视为噪声而丢弃,殊不知从数据库中检测这些偏差(Deviation)很有意义.偏差检测的基本方法就是去寻找观测结果与参照值之间有意义的差别.通过偏差检测可以发现异常,可使研究者对特殊情况加倍注意.例如,在几次物理考试成绩的统计数据中,始终有几位同学的物理成绩(即实际值)远低于其正常水平(即期望值),或者在近几次物理考试中,一些同学的物理成绩显著降低等情况.这时,教师应当关注这些特殊个体,给予他们适当的关心,并寻找问题根源,对症下药,使学生们重拾学习的信心.

(6)时序演变分析

数据的时序演变分析(Temporal Evolution Analysis)就是寻找数据对象随着时间变化的规律或趋势,从而进行建模描述.它包括时序数据分析、序列或周期模式匹配,以及基于相似性的数据分析.例如,对某校的中学生每天上新课与老师交流互动情况的数据进行时序演变分析,可能得到这样的规则:上课期间,通常老师提问过的学生及其周围学生更多的与老师进行交流互动,学习效率也很好,而远离讲台且缺乏与老师互动的学生,上课的精神状态稍差,效率低下.

4 数据挖掘技术在物理教育研究中的应用

社会科学领域的研究主要采取定性研究方法和定量研究方法,事实上,定性研究方法与定量研究方法并非截然不同,它们有很多方面是相互重合和互补的.定性与定量研究的比较可参见表1.

表1 定性和定量研究的比较

近年来,在科学教育领域,较多的应用个案研究、观察访谈等定性研究的方式与定量研究相结合,也出现了一些定性描述的文章.定性方法和定量方法的结合,使定量的数据鲜活起来,对学生认知结构的了解会更深入,对于学生科学推理的分析也更加立体和全面,这就是混合研究.笔者在前人研究的基础上,并结合国内外物理教育研究论文的研究方法,列出了如表2所示的物理教育研究方法分类框架[9]:

通过对2005~2015年PRST-PER上总计346篇文献的研读,我们从图1可以看出国外文献中采用定量研究方法的文献数最多.从发展趋势来看,定量研究方法在国外物理教育研究中逐渐趋于平稳,数据分析时采用的统计方法也更加科学规范.同时,定性研究开始受到重视,混合研究的文献也趋于一定的增长.总体上,国外物理教育研究方法呈现多元化、整体化、综合化的趋势.

图1 PRST-PER应用的研究方法随年份的变化

由此可见,美国的物理教育研究通常是实证型的量化研究,首先通过文献调研、调查分析、观察实验等方法收集资料并确定选题,然后选取研究对象和研究方法开展实验,再对实验数据进行挖掘、分析、解释,从而得出结论(有时包括相应的教学意义).笔者通过研读PRST-PER上的文章,总结出了美国物理教育研究的一般模式,如图2所示.

图2 美国物理教育研究的一般模式

图2表明,数据挖掘技术在物理教育研究中的应用性是非常大的.数据挖掘的基本过程主要有3个部分组成:目标数据的收集、挖掘分析、评估表示[10].以下,笔者会从数据挖掘的过程中列举实例来说明其在物理教育研究中的应用.图3描述了数据挖掘的基本过程和主要步骤.

图3 数据挖掘的基本过程

4.1 目标数据的收集

目标数据的收集主要有两个模块:数据收集和数据预处理.当进行数据预处理时,首先要开始数据的收集,即需要从大量数据中精选出一个与要探索问题相关的样板数据子集.美国教育研究者在收集数据时,主要采用了问卷、实验、量表等方法.例如,在PRST-PER关于“课堂教学对学生在定性问题上表现的影响”一文中[11],研究的数据包括:“前测问题的选择”和“班级的选择”.数据预处理包括数据清理、数据集成和变换、数据归约.研究者通过设定分类规则筛选出了研究材料和研究对象,然后对研究对象进行在线前测,并加以整理,便得到了目标数据.

4.2 挖掘分析

这一步是数据挖掘工作的核心环节.美国教育研究者多采用定量研究方法,在对数据定量分析时,主要采用数理统计的方法得出结论.数理统计作为数据挖据的主要支柱之一,有许多寻找变量之间规律性的方法,其中包括:回归分析、方差分析、多变量统计分析、正交试验设计等等.例如,在PRST-PER关于“加减矢量:箭头表示存在的问题”一文中[12],研究者分别对学生在一维下矢量的加减法、二维下矢量的加减法以及物理内容下矢量加减法的表现情况用到了方差分析(ANOVA),得出了箭头表示和ijk表示下学生表现效果之间的层级关系,进而总结出了学生对箭头表示和ijk表示下的物理意义建构.而回归分析(Regression Analysis)是其中最有效的方法之一,数据挖掘用到的回归分析方法主要有线性回归方程、线性相关的显著性检验、非线性回归分析、多元线性回归分析、一般情况下的回归分析以及逐步回归分析等.例如,在PRST-PER关于“课堂教学对学生在定性问题上表现的影响”一文中,研究者对其他变量影响的数据建立了完整的回归方程,显著性检验尝试将数据拟合为线性回归模型,回归分析的结果表明了课堂教学的影响.在数据挖掘中使用哪一种方法,这主要取决于目标数据的特征和所要探究的问题,实际上,这种选择也不一定是唯一的.

4.3 评估表示

通过挖掘分析,我们将会得出一系列的分析结果、模式或模型,甚至可能是一个结论,但更多的时候,我们只得到了对所探究问题的多侧面描述,这就需要我们进一步去解释并评估结果.如,在PRST-PER关于“连续性图表更能够形象地反映出学生在前测和后测所发生的变化”一文中[13],研究者选取了一些物理问题.在3年时间内,每年的期中和期末考试对学生进行考查,记录自己想要研究的数据(如学生每年做这个题选择了什么方法、学生犯错的类型等),然后根据数据进行分析,说明自己研究取得的相应成效及可能的缺陷.

5 思考与建议

研读PRST物理教育研究论文,我们不难发现,美国物理教育研究有两个最主要的特点:规范和严谨[14].规范是指严格遵循物理教育研究的过程,即注重在阅读大量文献综述的基础上或者在某些实验结果的反思里确定研究问题,注重在教育研究中树立“解决问题”的意识,即选取好研究对象和研究方法,注重数据挖掘过程中将理论研究和实证研究加以结合,注重对结果的解释与评价.例如,“掌握组中生动形象的录像解决方案”一文[15]和“在线活动中掌握学习模式与及时反馈学习模式的对比研究”一文[16],都是一系列研究中的一部分.研究对象是伊利诺伊大学香槟分校里一些学习电学和磁学的大学生们,研究的目的是通过整合形象的动画解决方案与训练掌握来提高在线物理作业活动的有效性,这个系列的研究过程都十分规范.严谨是指研究者在数据挖掘分析时采用数理统计的方法,排除无关变量的影响,前后对比测量考察,对多个对象的大量数据进行长时间的研究.例如,“使用互动的讲课示范:一个10年的研究”一文[17],长时间的研究提高了实验结果的效度和信度.又如,“课堂教学对学生在定性问题上表现的影响”一文中,研究者对华盛顿大学里大学物理的一些班级进行了长达15年的回顾性分析.

在国内的物理教育研究上,我们的研究者主要进行理论探讨和定性描述,很少涉及大量数据的深度分析,大多都是思考、浅谈、初探等.如此一来,研究者根据自身的经历和研究得出的经验和结论不具有普适应,效度通常受到怀疑,于是在一定程度上欠缺实用价值,难以付诸实践,进而导致理论和实践的脱节.因此,笔者建议我们的物理教育研究可适当借鉴自然科学研究的方法,多一些应用型的量化研究.当然,即使物理教育研究做到了量化,这并不意味着我们的教育研究步入了科学的轨道.物理教育研究的“科学化”,任重而道远.我们应克服非此即彼的做法,要把定量研究与定性研究结合起来,使物理教育研究方法从对立走向统一,从单一走向多元,这应该成为我们进行教育研究必须遵循的基本原则,这也是物理教育研究方法发展的方向.

总而言之,在物理教育研究过程中,数据挖掘技术对于量化研究有重要的作用,特别是在教育统计、测量理论和评价工具方面.随着互联网、云计算、移动终端的发展,信息技术环境下的教学模式(如翻转课堂、对分课堂等)以及教学方式(如慕课、微课程等)正引起越来越多的关注,基于E-Learning网络教育的用户大数据研究(包括教师的教学行为和学生的学习行为研究等)也逐渐引起学者重视.这是因为采用数据挖掘技术,并通过不同的展现形式显示分析后的结果,可以辅助高等教育机构管理者做决策(包括改善教学模式、优化资源分配、及时发现学习困难的学生并提供帮助等).目前数据挖掘技术在国内物理教育研究领域的实际应用还很不成熟,笔者认为国内可以借鉴美国等先进国家的经验,取长补短,但不要生搬硬套和全盘西化,要洋为中用,引入成功的系统进行本土化研究,开发适合中国学生的测试量表和教学策略.笔者相信,在国内,数据挖掘技术在物理教育研究领域的应用前景会越来越好,研究成果也会越来越多.

1 李爱国,厍向阳. 数据挖掘原理、算法及应用.西安:西安电子科技大学出版社,2012

2 胡可云,田凤占,黄厚宽. 数据挖掘理论与应用.北京:清华大学出版社;北京交通大学出版社,2008

3 唐晓萍. 数据挖掘与知识发现综述.电脑开发与应用,2002,4(15):31~32

4 孙吉红,焦玉英. 知识发现及其发展趋势研究.情报理论与实践,2006,5(29):528~530

5 梁循. 数据挖掘:建模、算法、应用和系统.计算机技术与发展,2006,1(16):1~3

6 王光宏,蒋平. 数据挖掘综述.同济大学学报,2004,2(32):247~248

7 Jason J.B.Harlow, David M.Harrison,Andrew Meyertholen.Correlating student interest and high school preparation with learning and performance in an introductory university physics course.PRST-PER,10(1),010112(2014)

8 李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究.管理工程学报,2004,3(18):10~14

9 张静,郭玉英.国外大学物理教育研究的现状和发展动向.大学物理,2013,4(32):42~45

10 郝先臣,张德干,高光来,赵海. 数据挖掘工具和应用中的问题. 东北大学学报(自然科学版), 2001, 4(22): 183~185

11 Paula R.L.Heron.Effect of lecture instruction on qualitative questions.PRST-PER,11(1),010102(2015)

12 Andrew F.Heckler,Thomas M.Scaife.Adding and subtracting vectors:The problem with the arrow representation.PRST-PER,11(1),010101(2015)

13 Michael C.Wittmann,Katrina E.Black.Visualizing changes in pretest and post-test student responses with consistency plots. PRST-PER,10(1),010114(2014)

14 袁瀚,黄致新,孔鹏柯,朱远稼. 美国物理教育研究的特点及其启示.物理通报,2015(3):111~112

15 Noah Schroeder, Gary Gladding, Brianne Gutmann, and Timothy Stelzer. Narrated animated solution videos in a mastery setting.PRST-PER,11(1),010103(2015)

16 Gary Gladding,Brianne Gutmann,Noah Schroeder,and Timothy Stelzer.Clinical study of student learning using mastery style versus immediate feedback online activities.PRST-PER,11(1),010114(2015)

17 Manjula D.Sharma,Ian D.Johnston,Helen Johnston. Kevin Varvell,Gordon Robertson,Andrew Hopkins,Chris Stewart,Ian Cooper,and Ronald Thornton.Use of interactive lecture demonstrations: A ten year study.PRST-PER,6(2),020119(2010)

2015-12-10)

猜你喜欢
数据挖掘物理分析
只因是物理
探讨人工智能与数据挖掘发展趋势
隐蔽失效适航要求符合性验证分析
处处留心皆物理
电力系统不平衡分析
基于并行计算的大数据挖掘在电网中的应用
三脚插头上的物理知识
电力系统及其自动化发展趋势分析
一种基于Hadoop的大数据挖掘云服务及应用
我不是教物理的