基于数据挖掘对影响学习成绩因素的研究

2018-05-28 06:54西安交通大学附属中学刘蕴轩
电子世界 2018年10期
关键词:上进心决策树学习成绩

西安交通大学附属中学 刘蕴轩

1.前言

十年树木,百年树人。教育始终是全社会热议的话题。学习成绩是考核学习能力的重要指标,也是选拔人才的重要标准,倍受每一个家庭的关注。孩子们的学习能力深刻地影响家庭的未来,甚至国家的兴衰发展。如何有效地提高成绩成为经久不衰的议题。影响学习成绩的因素有很多,其中与孩子的自身相关的因素有心理状态、智能水平、学习方法、学习时间,学习习惯等。大多研究都是从主观方面,或者从心理学角度切入,针对孩子的一些自身问题,告诫家长要正确引导,不要给孩子施加太大的压力,要多陪伴和鼓励孩子等等。然而,“心理战术”仍然让许多家长力不从心,效果也并不尽如人意。

大数据时代的到来,使得大数据分析技术在很多情况下都能得到一些问题所在。我们在Kaggle网站上得到了一组高中学生学习情况和原生家庭情况的数据记录,这些数据是在针对中学生数学课程学习情况的调查中统计得到的。数据包括了家庭与学校的远近、是否经常参加课外活动、监护人主要为父亲还是母亲、父母的受教育程度、父母的工作、父母的离异情况以及家庭的规模等。抛开与孩子自身相关的因素的探讨,本文着重探究学习成绩和家庭客观因素的关系。这样的客观因素往往被人们忽视,它们究竟对孩子的学习成绩有怎样的影响?本文依据学生成绩的相关数据来对各种因素进行剖析挖掘,立于数据,用事实说话,详细地探究了影响孩子学习成绩的家庭客观因素。

2.数据介绍

本组数据是在kaggle网站获得的关于中学学生数学和葡萄牙语课程调查数据。它包含了33个属性,分别是:学生的学校、学生的性别、学生的年龄(15~22)、学生的家庭地址类型(农村、城市)、家庭大小、父母是否同居、父母的受教育程度、父母的工作、选择这所学校的理由、学生的监护人、上学时长、每周学习时长、过去失败次数、学校额外的教育支持、家庭教育支持、是否参加补习班、是否参加课外活动、是否上过幼儿园、是否想接受高等教育、是否在家上网、是否谈恋爱、课余时间长短、是否和朋友出去玩,周末饮酒、健康状况、缺课数以及本学期的三次考试成绩(G1,G2,G3),总共为600多条记录。

3.数据预处理

由于相关属性过多,不便于直接继续研究。笔者对各项属性一一进行筛选,将希望进一步探究的属性分为六大类,分类结果如表1所示。其中,这三组的属性更加直观地、定量地影响学习成绩。本组数据的属性非常多,导致直接构建决策树,会使决策树冗长且不易分析。减少决策树输入的属性个数是降低决策树长度的有效方法。为了合理减少输入参数的数量,我们对时间规划、其他教育支持、上进心这三类中的属性进行了加权合并,每组合并为一个属性。根据不同属性对结果的影响程度不同,我们采用了加权合并的办法。为了获得不同因素之间影响程度的对比,我们计算属性的“信息增益值”,作为属性的权重。“信息增益值”Gain(SA, A)的计算公式如下:

其中,S表示整个样本集合,SA表示在节点属性A下的集合。Entropy(SA)表示属性A在集合SA的熵值。变量NA表示属性A上的样本集合,使用NiA表示在属性A的全部样本中属于类别Ci的样本数量,使用NAm表示在属性A选择属性m的样本数量,用NiAm表示选择属性m的样本中,属于类别Ci的样本数量。

以“时间规划”这一类的属性为例,我们使用这类属性下的五个属性,对于学习成绩进行的影响进行决策树建模,计算属性的增益值作为它们相对地重要性。我们使用IBM SPSS构建C5.0决策树,其中学习时间重要性达0.41,上学交通用时0.0109,自由时间长短0.1177,是否参加课外活动0.1402,是否常和朋友出去玩0.3213。因为权重过小,我们忽略“上学交通用时”,将另外三项属性按重要性加权合并,得到FTA(自由时间规划)。

使用相同的方法,我们将“其他教育支持”和“上进心”的各项属性作为输入建树。其他教育支持的各项属性权重如下:学校额外的教育支持1,是否参加补习班0.922,是否上过幼儿园0.884,以此加权相加,得到OES(其他教育支持)。上进心类种的各个属性权重如下:选择这所学校的理由0.0996,缺课数0.1509,是否想接受高等教育0.7495。其中,我们将“缺课数”权重变为负值,按重要性加权合并,得到UM(上进心)。

图1 决策树结果及属性重要性

表1 与学习成绩相关因素的分类

因为决策树是分类算法,只能预测类别,不能预测数值。因此我们将学习成绩从高到低,平均划分为3类,即0-6分为第一类,7-13分为第二类,14-20分为第三类。基于IBM SPSS Modeler 14.0软件的C5.0决策树模型,对合并简化后剩余18个可能的影响因素进行探索,在得到初步的决策树结果后,我们还得到了各个属性的重要性,作为以此衡量它们对于决策树构建的贡献大小。分析发现,对于客观因素,性别、年龄本身对学习成绩产生影响很小,作为输入不但会造成决策树冗长,还会影响其他因素的重要性分析,因此将这几项属性从输入数据里删除。此外,学校属性的影响性非常小,也被删除。我们用剩下的13个属性在此进行决策树构建,分析结果显示,决策树仍然非常的冗长,不能进行有效地分析。因此,我们重复上面的步骤,筛减去重要性较低的属性,不断调整输入参数构造决策树,直至筛选出到最重要的属性,得到决策树结果,如图1所示。在此模型中,剩余5个输入分别是:母亲的受教育程度(Medu)、父亲的受教育程度(Fedu)、母亲的工作(Mjob)、每周学习时长(studytime)、上进心(UM),树状图深度为8,交互验证的平均值为54.2,误差为2.0。变量重要性分布如图1所示。

由以上模型分析可知,家庭环境、其他教育支持、生活习惯对学习成绩的影响很小,父母对孩子的影响主要体现在父母的受教育程度和工作上,时间规划上的影响主要体现在学习时间上。在所有因素中,父母对孩子的影响起到很重要的作用,母亲起到更加重要的作用。孩子只要在学习上花费了时间,孩子在其他事情(比如:参加课外活动、上网、和朋友出去玩)上花费一定时间并不会很大程度上的影响学习。我们发现上进心强的孩子常常会获得更好的成绩,我们常关注的报补习班的数量和花费的时间并不会很大程度的影响学习。也就是说孩子上进心的强弱远比报补习班参加课外学习重要。

因此,孩子的学习一方面取决于自己是否有足够的上进心,另一方面也与父母提供的家庭教育密切相关。

4.总结

本文基于强大的数据挖掘算法,对学习成绩的各项可能的影响因素进行探索。受到数据集的内容不够丰富完善,本人能力水平不足等限制,本文探究具有一些缺陷。

学习成绩是全社会关注的热点问题,小到是衡量每个学生的重要指标,大到是衡量一个地区教育质量的重要指标,科教兴国,人才强国的战略号角早已吹响,我们能否肩负起中华民族伟大复兴的中国梦,或许就在于祖国的花朵是否足够艳丽和芬芳。

在大数据刚刚兴起的时代,我们可研究探索的主题太多太多,以数据挖掘的思路探究一些受众多复杂因素干扰的问题,不失为一种方法,让我们基于现实数据,探求相关,获得更加客观、实际、科学的结论。在本文的基础上加以更丰富更海量的数据,加以更强大的算法模型,加以技艺更精湛的数据挖掘专家,必将获得可以为决策者提供条件的科学的结论,必将为祖国科技繁荣作出微薄的贡献。

[1]Freund,Yoav,and Llew Mason.”The alternating decision tree learning algorithm.”Inicml,vol.99,pp.124-133,1999.

[2]Mining,What Is Data.”Data Mining:Concepts and Techniques.”Morgan Kaufinann(2006).

[3]Fayyad,Usama,Gregory Piatetsky-Shapiro,and Padhraic Smyth.”From data mining to know ledge discovery in databases.”AI magazine 17,no.3(1996):37.

猜你喜欢
上进心决策树学习成绩
学习上没有上进心,怎么办?
一种针对不均衡数据集的SVM决策树算法
名落孙山
让人深思的声音
决策树和随机森林方法在管理决策中的应用
煎熬我们的,往往是上进心
基于决策树的出租车乘客出行目的识别
大学生学习动机与学习成绩的相关研究
基于肺癌CT的决策树模型在肺癌诊断中的应用
掐断欲望的引线