基于决策树技术的大学生体测成绩分析研究

2018-02-03 22:28林艺俊沈良忠
电脑知识与技术 2018年2期
关键词:决策树数据挖掘

林艺俊 沈良忠

摘要:近几年来,大学生的体测成绩一直呈现下降趋势,引起了关注。该文以我校学生体测成绩为数据样本,利用决策树ID3算法基于Weka平台进行处理后得到的影响大学生体测成绩的影响因素,提供大学生提高体测成绩的参考。

关键词:数据挖掘;决策树;体测成绩;Weka

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)02-0230-02

Research on the Score of College Students Physical Test Based on Decision Tree

LIN Yi-jun, SHEN Liang-zhong*

(School of Information Engineering, Wenzhou Business College, Wenzhou 325000,China)

Abstract: In recent years, the score of college students' physical test has been showing a downward trend which attracted much attention. In this paper, the physical test score of our students are used, and the decision tree ID3 algorithm and the software Weka are adopted to analyze the factors influencing the score of physical test, which can provide good suggestions for the student to improve their physical test score.

Key words: Data Mining; Decision Tree; Score of Physical Test; Weka

現代科技的发展已经很大程度上改变了现代年轻人的生活方式,通过电脑以及各种移动终端设备能够非常方便的获取各类信息。但是,我们也发现现在年轻人也越来越沉迷于网络世界,越来越多的年轻人更变得越来越宅,积极主动参加户外运动或者锻炼的年轻人变得越来越少。根据2014年国民体质监测公报中有关全国学生体质与健康调研结果,当代大学生身体素质与2010年相比继续呈现下降趋势,同时视力不良检出率又居高不下,继续呈现低龄化倾向,而且各年龄段学生肥胖检出率持续上升[1]。相关研究表明, 19岁到22岁年龄组的男生在速度、爆发力、耐力等素质指标持续下降,女生指标也不容乐观[2]。一直以来,国家教育主管部门都非常重视大学生的身体素质健康问题,国家教委、国家体委等相关部门为了鼓励和推动学生积极参加体育锻炼,特意颁布了《国家学生体质健康标准》,要求各学校每学年开展覆盖本校各个年级学生关于该《标准》的测试工作,其中明确指出普通高中、中等职业学校和普通高等学校学生毕业时,如果测试的成绩达不到50分者按肄业处理[3]。

基于当代大学生体质情况对国家未来发展的重要意义,本文使用决策树算法对教务系统中的体测数据进行分析,希望能够得出大学生体质健康检测成绩中的各项目对于成绩影响的结论,提供大学生在体测训练时进行参考,指导大学生通过平时的加强锻炼来增长体测成绩中的短板项目,帮助他们通过体质健康测试,顺利毕业。

1 学生体测成绩

1.1 数据获取

本文以2016年第二学期我校信息工程学院大三体质测试成绩作为研究对象,该数据从学校教务系统导出,数据具有高完整性。由于男生和女生的体测项目有所不同,故将体测成绩分两大部分进行处理,同时删除姓名,班级等不必要字段,保留各体测项目的成绩信息,对于个别申请免测学生信息进行删除,得到可用数据,男生部分189条数据记录,女生部分28条数据记录。部分数据如表1和表2所示。

1.2 数据预处理

由于本文使用决策树ID3算法对数据进行分析处理[4],因此需要对数据进行离散化处理。体测最后的总成绩满分为60分,42分以及以上为及格,42分以下为不及格,以42分为临界点,将及格的成绩记为“Y”,将不及格的成绩记为“N”,将各项体测成绩按照大于等于80分记录为“A”,分数小于80分大于等于60分记录为“B”,小于60分,即本项目成绩不及格的记录为“C”,一共将数据分割为三个层次。同时,将各个项目的列表名字由中文修改为拼音首字母缩写,如50米跑修改为“WSM”,立定跳远修改为“LDTY”,坐位体前屈修改为“ZWTQQ”,男生1000米跑修改为“YQM”,女生800米跑修改为“BBM”,引体向上修改为“YTXS”,仰卧起坐修改为“YWQZ”,将数据再次处理后,如下表格3、表格4所示:

2 决策树算法

决策树算法作为数据挖掘中的一个重要部分,它是一种特殊但又非常重要的分类器,通过决策树我们可以将一组无序、无规则,但是有类别标号的样本中推倒出决策树的分类规则。决策树包含三种结点,即根节点、内部节点、叶节点。决策树从根节点到叶节点的每一条有向性路径都对应一条分类规则,因此利用决策树可以很好地将未知样本进行分类。基于决策树技术进行成绩数据的分析研究,可以让数据分析结果更为直观,便于理解[5]。

3 基于决策树的体测成绩分析

本文采用Weka软件中决策树ID3算法进行决策树分析,根据所使用不同属性的数据标记按有向边进行连接。由于体质测试男生和女生测试的项目是不同的,因此将数据分开进行分析。根据运行结果,男生数据得到的决策树根节点为YTXS(引体向上),女生数据得到的决策树根节点为LDTY(立定跳远),生成的决策树如图1和图2所示。endprint

由生成的决策树可以刊出,男生体质测验五个项目中最关键的是引体向上,然后依次是一千米长跑、立定跳远、坐位体前屈和50米短跑;女生体质测验五个项目中,最关键的是立定跳远,然后依次是五十米短跑、800米长跑、坐位体前屈和仰卧起坐。根据生成的决策树模型,可以得出以下结论:

① 男生体质测验起主导因素的是引体向上,其作为一项力量和耐力型的测验,主要考验男生上肢肌肉发展水平,握力和上肢力量需要克服自身重力才能完成一次。如果能在该项目上拿到及格以上,对于通过体育测试就能较为轻松,但是目前大部分的男生引体向上及格并不是特别多。一千米长跑项目次之,在长跑项目上获得优良就能基本上让体测顺利通过。如果男生在引体向上、一千米长跑、立定跳远这3个项目上都无法获得单项及格,那么即使另外的2个项目能够及格,也无法拿到体测成绩及格。

② 女生体质测验占主导地位的是立定跳远,如果立定跳远能拿到良好以上,体测及格会较为轻松,如果立定跳远單项不及格,那么很有可能会导致体测不及格的情况。50米短跑次之,女生在爆发力上较男生来说相对弱一些,如果能在该单项上及格,也能比较容易通过测试。此外,女生特定的仰卧起坐测试,对于女生的成绩影响基本可以忽略。

③ 无论是男生还是女生来说,立定跳远和长跑的成绩在体测中都较为重要,如果能够在这两个项目上拿到较好的成绩,体测及格也会较为容易。平时,立定跳远只需要一块平地即可练习;现代大学校园基本都有田径场,长跑的训练也比较容易,建议学生可以每天抽空进行慢跑活动,慢慢调整自己的步伐,通过持续的锻炼提升长跑成绩。

④ 坐位体前屈作为男女都需要测试的项目,尽管男生的柔韧性相较于女生相对较弱,但在体质检测中对于主导项目和次主要项目能够拿到较好成绩的同学来说,坐位体前屈的成绩并没有特别大的影响,但是对于前两项中下游的同学还是有一定影响的,建议大学生在空闲时候可以多做作立正后触摸脚尖的运动。

4 结束语

近年来,大学生身体素质持续呈现下降的趋势已经引起了相关教育主管部门的重视,各个也在出台相关的制度鼓励学生积极参与体育锻炼。本文利用决策树技术对我校学生体测成绩进行了深入挖掘,通过决策树模型对当前的体测成绩所反映的情况进行了分析,同时提出了如果加强体测成绩的建议,对学校教学管理部门以及学生的都有积极的参考意义。

参考文献:

[1] 国家体育总局.《2014年国民体质监测公报》[EB/OL].(2015-11-25)

[2] 姜淼淼. 大学生体质健康的干预对策[J]. 冰雪运动,2016,38(3):94-96.

[3] 中华人民共和国教育部.教育部关于印发《国家学生体质健康标准(2014年修订)》的通知 [Z]教体艺[2014]5号(2014-7-7)

[4] 李四海,张忠文. WEKA中的Id3决策树算法[J]. 长春大学学报,2011,21(2):67-69.

[5] 黄德才.数据仓库与数据挖掘教程[M].清华大学出版社,2016.endprint

猜你喜欢
决策树数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究