李平荣
Apriori算法在义务教育流失儿童信息监测中的应用
李平荣
(陇南师范高等专科学校,甘肃成县 742500)
文章利用数据挖掘关联分析Apriori算法对流失儿童数据挖掘做了技术分析,利用关联分析Apriori算法对样本数据做了数据挖掘,并得出了流失儿童与地域、民族、贫困等相关因素的相关关联及联系,为教育督导部门的教育决策提供了科学的数据依据.
Apriori算法;义务教育;教育督导;数据挖掘;流失儿童
九年制义务教育是国家强制执行,适龄儿童必须接受的,由国家、社会、家庭予以保证的基本国民教育[1].义务教育具有免费性、强制性、普及性特点.《义务教育法》规定,适龄儿童必须接受义务教育,不能以任何理由拒绝,做到“一个都不能少”,国家的各级行政部门必须监督,保障义务教育的正常进行[2].但由于某些原因,部分少年儿童没有接受九年义务教育.国家以及各级督导部门应监测统计流失儿童信息,并找出儿童流失问题的根源,然后进行相关的行政干预.
数据挖掘关联分析算法就是利用数据间隐藏的某种关联来得出相关的令人感兴趣的结论,本文利用数据挖掘中的关联分析Apriori算法对流失儿童的信息进行了挖掘分析,找出造成儿童流失的原因,为政府相关部门的决策提供理论依据.
1 流失儿童监测的概念
义务教育具有强制性,《义务教育法》规定适龄儿童必须接受义务教育,但是由于种种原因,适龄入学儿童依然有流失的现象[3],如家庭经济困难、身体残疾、家庭观念及学生个人因素等.义务教育儿童流失情况包括:
1)辍学有回执的:这是一种明确的流失情况,知道学生已经退学,这也是重点数据挖掘的对象,通过数据挖掘找出其中的缘由.
2)注册但不在学校:指学生在学校已经注册,但没有到校上学,也没有说明情况,这种情况存在流失的可能.
3)到了上学年龄但没有上学:指已经到了上学年龄,但没有到校上学,存在流失可能,按流失计算,属于数据挖掘对象.
4)死亡等其它原因:由死亡等意外因素引起的流失,这种情况属于正常流失,一般情况下是无法控制或不好控制的,这种现象不属于数据挖掘对象.
本项目设计了流失学生监测模块,通过每学期的注册数据来获取学生是否流失的信息.
2 义务教育流失儿童数据挖掘的意义
教育督导部门必须对流失学生做跟踪,然后进行行政干预,劝回学习.但简单的行政手段并不能长久解决问题,也不是一个长期有效的方法.而通过义务教育监测项目,教育督导部门就可找出流失学生的真正原因,即学生流失与家庭,经济,民族,社会等方面的联系,找出问题的根源,为将来教育资源的配置、行政政策的制定及教育管理的调控提供科学依据.
3 义务教育流失儿童数据挖掘过程
流失学生监测最核心的任务就是找出流失儿童失学的原因及影响因素.关联分析可以利用事物之间存在的依赖或关联知识来发现事物之间存在的规律性,通过关联分析方法可以找出义务教育流失学生的相关因素.在本项目中对流失学生的分析选择了关联分析Apriori算法[4][5].Apriori算法的基本思想就是采用迭代逐层搜索的方法,通过对数据库多次扫描,使用候选项集来寻找频繁项集.基本算法是:首先根据设定的最小支持度阈值,找到所有频繁1-项集的集合Ll,再用L1生成频繁2-项集的集合L2,同理再用L2寻找L3,如此反复,直到不能找出频繁k-项集.在每次筛选中将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集[6].义务教育流失儿童数据挖掘流程如图1所示.
图1 义务教育流失学生数据挖掘流程
3.1 数据选择
义务教育监测数据库使用SQL Server进行管理,在数据库中主要有三个基本数据表:学生基本信息表,学生家庭信息表,学生注册信息表.学生基本信息表主要记录学生的基本信息,如出生日期、性别、民族、户籍类别、健康状况、照顾类别等;学生家庭信息表主要记录家庭人口、家庭地址、经济状况、父母信息等;学生注册信息表主要为学生的上学信息,包括所在学校、班级、寄宿信息、“两免一补”情况等.另外,通过义务教育流失检测后生成一个流失学生信息表,主要记录流失学生的基本信息.通过流失学生信息表与三个基本表相连接,可生成流失学生详细信息表.根据流失学生数据挖掘的基本情况,提取可能因素,组成数据挖掘库,字段如表1所示.通过数据选择将形成新的数据挖掘数据表.
表1 义务教育流失数据挖掘表
3.2 数据清理
由于原始数据库存在噪声、数据冗余、空缺等问题,所以要对数据进行清理,主要有以下两种情况.
1)对于空缺值较多的记录进行删除.空缺值较多时,数据没有太大的现实意义.
2)对于第4种流失学生进行清除,即由于死亡等意外原因流失的学生,这种流失属于正常流失,对于数据挖掘没有多大意义,反而影响数据挖掘的有效性.
图2 数据转化过程图
3.3 数据转换
将流失儿童信息表与学生基本信息表、学生家庭信息表和学生注册信息表相连接,形成流失学生详细信息表,然后抽取数据挖掘相关字段形成流失学生挖掘数据表.通过流失学生挖掘数据表,挖掘学生流失情况.数据转化过程如图2.通过转化后的流失学生挖掘信息表(WJ_liushiqk)如表2.
表2 转换后的流失学生信息表
3.4 数据概化
由于Apriori算法是布尔型的关联规则算法,所以必须要将各种信息离散化,如果满足条件则为1(TRUE),不满足条件则为0(FALSE)[7].不同因素的编码如表3所示.
表3 字段编码规则含义表
转换后的数据编码表如表4所示.
表4 转换后的数据挖掘表
3.5 数据挖掘
表2数据为实际数据的一部分,在实际挖掘中,选取涉及29个县的数据进行了数据挖掘.
最小支持度阈值选择:最小支持度阈值的选择直接决定发现包含项目的规则,如果支持度设置得太高,就不能发现包含稀有项目的规则,这些稀有项目可能带来更大的价值.但如果设得很低,就会导致组合爆炸.可能产生很多没有意义的规则.当然也可以选择最小支持度下的关联规则研究[8].根据本项目实际情况,多次进行数据挖掘分析测试,在最小支持度阈值为40%时最为适合.所以最小支持度选择为40%(即不大于40%项目将被剪枝).
Apriori算法过程:通过数据库取得的第一阶段的数据,设置最小支持度阈值为40%.
第1次数据挖掘找符合条件进入下一阶段的频繁集.第1次数据挖掘频繁集如表5所示.
d,f不符合最低支持度阈值40%要求,因此进行裁剪.挖掘过程省略.
总结有意义的数据挖掘因素.最终选取数据挖掘表如表6所示.
3.6 数据分析
根据上表挖掘数据,分析结果如下.
1)96%的为农村户口,说明几乎所有流失儿童主要集中在农村地区,加强农村地区教育管理是非常迫切的.
2)91%的所在县为贫困县,说明流失儿童主要集中在国家级贫困县.
3)72%的流失儿童为贫困县农村的贫困家庭,流失儿童的大部分是农村的贫困家庭.
4)贫困县农村少数民族贫困家庭的流失儿童为37%.
5)流失儿童中25%的为“留守儿童”及“务工子女”,说明“留守儿童”不是流失儿童的主要因素.这个统计结果出乎我们的意料.“留守儿童”和“务工子女”并不是儿童流失的主要群体,这可能与农民工的背景有很大的关系,他们期望子女受到更多的教育,或许有更多其它因素,这需要我们进一步进行调查研究.
6)残疾儿童占流失儿童的1%.残疾儿童不是儿童流失的主要原因.
综上所述,流失儿童主要集中在贫困的农村地区,特别是贫困家庭,达到了72%,在今后的教育资源配置及项目扶持上,最好偏向贫困家庭,这样有利于义务教育的实施.另外,还要加强少数民族地区的教育,甘肃是一个少数民族杂居的地区,少数民族地区的人口占总人口的比例比较大,加强少数民族地区的教育是全省教育水平提高的基础.
4 总 结
通过Apriori算法对流失儿童信息做了数据挖掘,找出了构成少年儿童流失的主要因素.相关数据可为今后的教育督导工作提供科学的数据依据.
[1] 国务院.中华人民共和国义务教育法.1986.
[2] 仲福林.农村义务教育与“一个都不能少”[J].兰州教育学院学报,2005(12):1-3.
[3] 冯雪红.宁夏回族女童教育现状分析及对策研究[J].福建师范大学学报:哲学社会科学版,2005(11):1-3.
[4] 刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(5):1-2.
[5] 曲春锦.Aproiri一TIDS算法设计及其在教育决策信息挖掘中的应用[D].上海:上海海事大学,2005:30-50.
[6] 王伟.关联规则中的Apriori算法的研究与改进[D].青岛:中国海洋大学,2012:4-20.
[7] 黎刚.面向属性归纳的数据概化方法的应用研究[D].沈阳:东北大学,2004:4-22.
[8] 王瑄.多最小支持度下的关联规则研究[D].长春:长春理工大学,2008:13-20.
(责任编辑:张新玲)
The Application of Apriori Algorithm in Churn Information Mentoring of Compulsory Education Children
LI Pingrong
()
The paper analyzes children churn data mining with Apriori algorithem. It concludes that children churn is correlated with complex relevant factors, such as region, nationality and poverty. It provides the educational supervision bureaus with scientific data, in order to make appropriate educational decision.
Apriori algorithm; compulsory education; educational supervision; data mining; children churn
TP311
A
1009-8135(2016)03-0047-04
2015-10-12
李平荣(1979-),男,甘肃天水人,陇南师范高等专科学校讲师,硕士,主要研究计算机硬件教学.
甘肃省教育厅2011年甘肃省研究生导师科研项目“甘肃省义务教育监测与评价工程软件系统的研究与开发”(甘教技[2011]44号)阶段性成果