影响青少年机器人学习效果客观因素的关联分析

2015-09-10 07:22钟志强
中国教育信息化·基础教育 2015年1期
关键词:关联分析

摘 要:文章依据数据挖掘技术中的关联分析方法,使用R语言对影响青少年机器人学习效果的客观因素进行了分析。分析结果表明:在是否获得奖项作为学习效果划分标准下,机器人学习时间是检验其学习成果的关键规则。

关键词:机器人学习; 关联分析;学习客观因素

中图分类号:G40-057 文献标志码:A 文章编号:1673-8454(2015)02-0086-03

一、引言

2003年教育部颁布的高中技术课程标准中,把“人工智能初步”和“简易机器人制作”设为技术领域的选修模块,意味着我国的人工智能和机器人教育在大众化、普及化层面上进入了一个新阶段。[1]国内教育专家和学者们都认识到:以机器人技术为代表的人工智能技术是信息技术发展的一次重大飞跃,信息技术教育未来发展的趋势必然是向智能机器人教育转移。人工智能机器人教学集中承载着中小学信息技术教育的诸多核心价值,是全面培养学生信息素质、提高其创新精神和综合实践能力的良好载体。[2]

截至2013年,青少年机器人教育仍以校外培训班和校内课后班为主,机器人教育还没有真正走进课堂。但据不完全统计,十年中辽宁省沈阳、大连、鞍山等市中小学校学生参加学习人数累计4万余人,在国际、国内(省级以上)比赛中相继获得不菲成绩(累计1000以上奖项)。在热情高涨的青少年机器人教育背后,不乏企业和培训机构的逐利动机,也不乏家长在子女教育问题上对舆论导向的盲从心理。如何分析机器人对青少年身心成长的影响是该领域必需正视的问题。由于信息素质、创新精神和综合实践能力衡量困难,机器人的比赛和获奖尤其是国际奖项就成为当前最好衡量标准。为验证影响机器人学习效果的因素,我们将影响学习效果因素按主客观划分,将主观因素分为学习的兴趣与知识水平(认知结构),学习过程中解决问题的学习能力或克服困难的坚韧力。其中青少年学习兴趣广泛,而知识水平,学习能力和坚韧性是相对有限的。因而客观因素的分析就显得更加重要。影响学习的客观因素种类较多,对学习过程也有重要影响。本文利用数据挖掘技术中的关联分析方法对影响青少年机器人学习成果的客观因素进行分析。

二、关联分析

关联分析(association analysis)是数据挖掘中一个重要的课题,被广泛研究。关联分析是在大量数据集中的发现关联性或相关性,描述事物中某些属性同时出现的规律和模式。[3] 关联分析与统计学中的相关分析均讨论事物间的相互关联。相关分析主要刻画两类平行关系变量间相关程度,是揭示不确定性的随机现象之统计规律的学科, 因此对于因素间具有不确定性的系统, 既可应用相关分析,也可应用关联分析。还有关联分析主要处理二分变量,并对其出现的频率进行分析,这一点区别于数据挖掘中的决策树分析。当然关联分析也可以对连续的变量进行离散化后分析。[4] 在关联分析中每一个观测称为事务或交易(transaction),数据集合称为项集(item),一个集包含k个项,则称为k项集。[5] 用X表示一个项目(前项或左项),Y表示与X没有交集的另一个项目(后项或右项),蕴涵式X≥Y表示X,Y同时出现的规则(rule)。X≥Y的支持度(support):表示前项和后项在整个数据集中同时出现的频率,σ(Z)表示事务集Z的频数,TX,TY分别表示含有X和Y的事务集。supp(X≥Y)=;置信度(confidence):支持度与前项频率之比,conf(X≥Y)==;提升(lift):置信度与后项频率之比lift(X≥Y)=。关联分析代表性算法有:先验(Apriori)算法,频繁模式树(frequent pattern-growth,FP-growth)算法(R语言目前不支持)及频繁项集 (Eclat)算法。 [6]

三、 数据说明

影响青少年机器学习效果客观因素分析数据来源于整理后的近五年里辽宁省内沈阳、大连、鞍山三城市352名机器人学员1100笔记录(含个人几年内连续记录),如表1。变量包括:学员性别(gender:female,male);机器人学习时间(time:1-6年);机器人学习课堂融合程度(Integration:高high,中mid,低low);父母的教育程度(研究生 postgraduate、大学college(本科、大专)、其他other,二人中取高学历);学校学习成绩(academic performance, AP:优 best、良good、一般ok);获奖(reward: yes, no 各种企业和政府组织省级以上比赛)。此外,還有一些观测变量统计困难。如家庭收入,家庭对孩子的教育方式,家庭和谐程度,上一代对家庭的照顾方式与程度,父母职业(由于同一职业内部差异较大不具有统计学上可辨别性,双亲不同职业对子女影响也无法考量),机器课堂学习成绩(不同的学习班有不同的教学内容和考核标准)。其它等未列入数据分析中。

四、R语言关联分析过程

R是GNU系统的一个自由、免费、源代码开放的软件,主要用于统计分析与数据可视化。[7] 其使用简洁、灵活而且新兴研究领域算法不断更新,在数据挖掘(或机器学习)领域有广泛的应用。现利用R语言对青少年机器学习效果客观因素与是否获奖进行关联分析。

1.数据整理[8]

mydata=read.table("clipboard",header=T)#加载数据

mydata$time=factor((as.numeric(mydata$time)>3)+1,levels=1:2,labels=c("short","long"))#关联规则处理的是二分变量,需将学习时间time转成”long,short”两个水平myrobot=as(mydata,"transactions")#arules包要求的数据形式为(transactions) itemFrequencyPlot(myrobot,support=0.05) #显示频率在5%以上的项如图1。

2. apriori算法求解关联规则[9]

library(arules);mynewrules=apriori(myrobot, parameter=list(minlen=2, supp=0.05,conf=0.05),appearance=list(rhs=c("reward=yes"),default="lhs"),control=list(verbose=F))# 第一个规则的lhs 是个空集,可以使用minlen=2排除lhs空集;verbose=F设置算法处理的过程简化;以lift提升度排序myrulessorted=sort(mynewrules, by="lift")#关联规则按“lift”排序

#以下去除冗余关联规则

mysubset=is.subset(myrulessorted, myrulessorted);mysubset [lower.tri(mysubset, diag=T)] <- NA;redundant <- colSums(mysubset, na.rm=T) >= 1;rulespruned <- myrulessorted[!redundant];inspect(rulespruned)#显示关联规则,见表2。

library(arulesViz);plot(mynewrules, method="graph", control=list(type="items"))#关联分析的图形表示如图2。

3.关联分析结果解释

从表2,无论是支持度、信任度还是提升,与后项获奖关联最大的前项是学习时间(长)。信任度较大关联(0.335,0.325)的前项是机器人学习课堂融合程度(中)、学校成绩(优秀)、父母教育程度(大学)。支持度较大关联(0.188)的前项是性别(男)。人们假想的父母学历较高、机器人学习课堂融合程度高却不是机器人获奖的关联项。从图2,将获奖置于中心,离中心较近的项是学习时间(长),机器人学习课堂融合程度(中),性别(男);提升(颜色较深)和支持度(面积较大)的项目是性别(女)、学校成绩(一般),其方向离心说明这是负关联,即学校学习平常的小姑娘不能实现机器人比赛获奖的目标。

五、结论与展望

尽管作用于学习的客观因素不能直接的参与学习的知识建构,但在学习之初,特别是青少年阶段,客观的辅助作用是不可或缺的,学习时间是检验其学习成果的关键规则。青少年的机器人学习组织以社会办学为主,学习时间意味着家长的投入和企业利润的最大化。但我们不是金钱决定论的完全支持者,因为比赛获奖不是机器人学习的真正目标,而且较长时间的学习投入对促进学生综合发展的利弊还需进一步讨论。此外,机器人学习中的主观因素在学习过程中如何表现?原有的学习成绩对机器人学习效果没有预期迁移效果,而反之是否有影响?这些仍是我们需要进一步讨论的问题。

参考文献:

[1]钟志强,张毅宁,李国军.高中机器人教育课程读解[J].鞍山师范学院学报,2014,(2):43-46.

[2]钟志强,张毅宁.中小学机器人教育课程读解[J].中小學电教,2012,(11):15-18.

[3]维基百科——关联式规则[DB/OL].http://zh.wikipedia. org/wiki/关联式规则, 2014-5-10.

[4]韩家炜. 数据挖掘:概念与技术[M].北京:机械工业出版社,2012.

[5][8]吴喜之.复杂数据统计方法:基于R的应用[M].北京:中国人民大学出版社,2013.

[6]Pang-Ning Tan. 数据挖掘导论[M].北京:人民邮电出版社,2011.

[7]R语言——百度百科[DB/OL]. http://baike.baidu.com, 2014-5-10.

[9]R and Data Mining: Examples and Case Studies[DB/OL]http://www.RDataMining.com,2014,5.

(编辑:郭桂真)

猜你喜欢
关联分析
“鹰眼”大数据安全管控平台的技术实现解析
1996年~2016年档案学国家社科基金项目的文献计量分析
基于随机函数Petri网的系统动力学关联分析模型