张 坤
决策树CART在高校学生体质测试数据分析中的应用研究
张 坤
山东大学体育学院,山东济南,250061。
目的:通过CART决策树算法,寻找学生健康体质测试数据中各指标的非线性关系,找到各指标对学生体质测试等级的影响程度,为体育教学工作的提高提供更多维度的支持。方法:对山东大学近万名本科生的健康体质测试数据进行处理和分组,分为男生组和女生组,通过CART决策树算法对两组数据进行分析,分别建立模型,并对决策树模型进行可视化表达。结果:(1)CART决策树算法可较好的通过各指标对学生健康体质测试成绩等级进行分类、训练、验证,预测结果正确率都可达到85%以上,且可判断各个指标的影响程度,为提高体育教学质量提供实证依据。(2)样本中男女生各项体质测试指标对等级的影响程度情况存在明显的差异,具体表现在男生体质测试成绩等级最关键的影响因素是引体向上项目,女生体质测试成绩等级最关键的影响因素是800m项目,建议在男女生差异化体育教学过程中,加强男生上下肢力量训练和女生心肺耐力锻炼,再辅以跑动能力练习。
CART决策树;学生体质测试;体育教学
学生的体质健康问题早已上升为国家层面,在人们日益丰富的物质文化生活的同时,营养过剩、环境污染等问题日益凸显,青少年也由于精神压力较大、营养不合理、运动缺乏等导致身体出现健康问题[1],有研究也表明大学生群体普遍存在亚健康问题[2,3]。一直以来,各级教育机构每学年都会积极开展学生健康体质测试,并进行相关的测评工作,然而当前的学生健康体质测试数据的分析工作,是以传统常规的方法进行一般性分析,如均值、权重等,无法进行深层次的数据挖掘。因此,挖掘其深层次的潜在关系是体育教学工作中的一个重要任务。大数据技术有强大的预测能力,在模型建立、基因分析、健康监测、疾病诊断、灾害预测、交通管理等方面都显现出来巨大的优势[4],根据已有学生体质测试数据建立分析模型,在此基础上对各种学生体质测试影响因素进行评估,对比传统的方法如数理统计方法建立评估模型[5],大数据技术能够客观高效的分析出学生体质测试成绩中各指标深层次的内在联系。
近年来,为了解决学生健康体质测试数据如何深入挖掘的问题,很多学者都已经进行了相关的研究。郑忠利用成都市近3万名在校大学生的体质健康数据进行男生与女生分组,运用自组织特征映射网络(Self-organizing feature Map,SOM)方法,分别对两组数据进行聚类分析。并以各类学生相同变量的均值作为权重,对不同变量值间变化趋势进行可视化表达[7]。此方法虽然分析出各类学生各项变量之间的关系,但其各项影响因素之间的关系展示不够明确,无法进行预测和分类分析。宋兆铭[8]等利用C5.0决策树算法对警察院校的学生体质数据进行了分析,并且可准确评价学生体质健康状况和分析出影响学生体质测试成绩的关键因素,但其仅用男生的决策树可视化表达进行说明,无法充分支持其结论,并且C5.0作为C4.5的改进版算法,涉及对数运算,计算成本较大。使用CART分类树算法,可生成便于理解的规则、清晰的显示各个指标对成绩测试等级的影响层次。因此,在前人研究的基础之上,使用更加先进的CART决策树算法,对学生健康体质测试数据进行分析。
决策树算法流程分为:决策树特征选择、决策树生成及决策树剪枝[9,10]。决策树分类算法有三种,即ID3、C4.5及CART。其中ID3算法无法对缺失值进行处理,C4.5算法则使用多叉树结构,CART算法采用二叉树结构,前两种算法基于信息论熵模型,需要较大计算成本的对数运算,CART分类树算法利用基尼系数代替前两者的熵,既保留熵的优势,且减少计算成本。基尼系数表示模型纯度,即基尼系数越小,则纯度越高,代表特征越好,与信息增益(比)相反。CART分类树适用于离散数据的分析,回归树适用于连续数据的分析[11]。学生体质测试数据指标数据维度低,存在缺失值,利用CART 算法对学生体质测试数据进行分类,利用二叉树可简化决策树的规模,提高生成决策树的效率。
算法建立流程[12]:
输入:训练数据集M,设定属性A、阈值E。
输出:决策树模型。
步骤1 当前节点的数据集为M,若样本个数小于阈值或没有特征,则返回决策子树。
步骤2 计算样本M的基尼系数,若基尼系数小于阈值,则返回决策树子树。
步骤3 训练数据集为M,对每一个属性A,对其任意取值a,根据样本点对A属性值为a将M分割成M1和M2
步骤4 在所有可能的特征A以及其所有可能的切分点a中,选择基尼指数最小的属性及其对应的切分点作为最优属性与最优切分点。依此从现节点生成两个子节点,将训练数据集M按照属性分配到两个子结点中去。
步骤5 对两个子结点递归地调用上述步骤,直至满足停止条件。算法停止计算的条件是结点中的样本个数小于预定阈值,或样本集的基尼系数小于预定阈值,或者没有更多属性。生成CART决策树T并输出。
按照《国家学生体质健康标准》[1]中的规定,对山东大学本科生进行体质测试,测试过程符合规定的测试方法,测试质量符合规定要求。除去因病及其他原因无法参加体能测试或体质测试各项目成绩不全的学生数据,对每个维度数据超出±3SD的数据进行剔除,总共选取了男生有效数据5661条,女生有效数据8272条,其中采集的数据维度主要包括身高、体重、BMI、肺活量、短跑(50m)、长跑(男生1000m、女生800m)、立定跳远、坐位体前屈、仰卧起坐(女生)、引体向上(女生)、总分及等级。上述指标可有效地反映出学生的速度、柔韧、爆发力、力量和耐力素质水平,总分代表学生的体质测试总成绩,反映学生体质健康的等级(等级分为优秀、良好、及格、不及格),将两组数据按7:2:1 的比例切分为训练、验证、测试数据集,两组数据的基本信息见下列图表。
表1 男生学生样本基本信息
表2 女生学生样本基本信息
按照《国家学生体质健康标准》[1]中的规定指标,分为身体形态、基本素质等,本研究根据这些指标进行训练,具体指标及其说明见下表:
表3 变量及其说明
由此可见,男女生测试项目的不同,需要进行分别训练建模。
本研究采用Python编程语言,实现CART决策树算法,使用pandas、numpy、matplotlib、seaborn等库分别进行数据清洗、数据集分割、计算和可视化输出。
决策树具体实现过程如下:
图1 决策树实现流程
决策树模型构建过程说明如下:
步骤1 数据预处理,使用pandas对数据集进行男女分组,将两组数据分别使用split_data函数进行比例切分,按7:2:1比例切分为训练、验证、测试数据集。
步骤2 按照CART算法建立流程对学生体质测试数据训练集进行特征选择。
步骤3 对训练数据集进行训练。
步骤4 通过对形成的决策树集合进行交叉验证,进行评估、调参。
步骤5 对测试数据集合进行预测得到预测结果。
步骤6 将训练、预测、验证结果分别放入列表,使用matplotlib库进行可视化输出。
通过上述步骤,分别得到男女生CART决策树正确率曲线图,如图2图3所示:
图2 男生预测正确率变化曲线
图3 女生预测正确率变化曲线
图2图3表明,通过对训练集的训练,达到较好的分类正确率,通过优化深度,使正确率达到85%以上,但正确率期望不够,随着深度的增加,训练、预测、验证正确率提高的同时,其模型出现过拟合的现象,泛化能力会出现相对降低,因此还需调整决策树剪枝方法进一步调优。
通过对不同深度的CART决策树模型进行训练、预测及验证,综合考虑学生体质数据各维度和正确率及泛化能力,选取深度为5,进行CART决策树模型可视化输出,查看各项目对学生体质成绩等级分类的影响程度,对输出模型优化后得到图4图5结果如下所示:
图4 男生CART决策树模型
图5 女生CART决策树模型
图4图5表明,(1)引体向上和800m项目分别位于男女生组别的根节点,由此可知对男女生成绩等级影响程度最大的项目分别为引体向上和800m,当男生引体向上成绩大于10.5次时,成绩等级及格的概率会显著提高,相同的女生的800m成绩小于224.5s(3min44s5)时,成绩等级及格的概率会明显提高。引体向上和800m项目,分别反映学生的上肢力量素质水平和心肺功能,这表明,男生上肢力量和女生心肺耐力水平是影响学生成绩等级最重要的基本身体素质。(2)男生组别第二层节点包含立定跳远和1000m项目,当在引体向上的成绩大于10.5次基础上,1000m成绩小于223.5s(3min43s5)时,则成绩等级为良好的概率会明显提升;相反若在引体向上成绩不大于10.5次的基础上,立定跳远成绩不大于197.5cm,则成绩等级为不及格的概率将显著升高。立定跳远和1000m项目反映的是男生下肢爆发力量素质和心肺功能,男生下肢爆发力量素质和心肺功能对成绩等级的影响仅次于上肢力量;女生组别第二层节点包含肺活量和50m,在800m跑成绩不大于224.5s(3min44s5)基础上,当肺活量大于3259.5 ml时,则成绩等级为良好的概率会明显提升。当800m跑成绩大于224.5s(3min44s5)时,50m成绩大于10.74s时,则成绩等级为不及格的概率显著升高。肺活量项目反映的是呼吸系统机能水平,50m反映下肢快速跑能力,表明女生下肢快速跑动能力对成绩等级的影响程度仅次于心肺功能。(3)男女生在各个项目中,坐位体前屈相较于其他项目在各影响因素中,影响程度均较小,这表明男女生柔韧素质相比其他身体基本素质发展水平较好。
男女生组别整体而言,在各指标中,男生的引体向上对体质测试等级影响最重,立定跳远和1000m成绩次之;女生800m对体质测试等级影响最重,肺活量和50m成绩次之。男生的上肢力量对成绩等级的影响程度最重,与之不同的是,女生的心肺耐力水平对成绩等级的影响最重。一方面,可能是现阶段在体育教学中,忽视了男女学生先天的身体条件差异,进行了相同的体育教学模式。另一方面,可能是由于男女生测试项目存在明显的差异,男生侧重力量素质测试,女生侧重柔韧素质的测试,导致该现象的发生。针对此现象,在体育教学的实施过程中,应当分别建立男女学生体育教学体系,采用男女生差异化的体育教学方法[13]。
综上所述,通过对学生体质测试数据样本的分析,学生成绩等级是否及格的最重要的基本身体素质为男生上肢力量和女生心肺耐力水平。因此在体育教学的大环境中,男生可选择一些爆发力训练,女生则适量增加心肺耐力和快速跑动能力练习[14]。在男生组别中上下肢力量对成绩等级的影响程度高于心肺功能,男生在增加上下肢力量的同时应当适当提高心肺耐力的训练,可更加显著提高及格率。在教学过程中要注意柔韧和力量训练的平衡,在更倾向力量练习的同时,避免因力量训练导致柔韧性下降的发生[15];在女生的组别中呼吸系统机能水平对成绩等级的影响程度高于快速跑动能力,女生在增加心肺耐力水平练习的同时适当提高快速跑动能力的训练,可更加显著提高及格率。
同时综合男女生组别的分析结果看,心肺耐力素质在两组别中对成绩等级的影响程度均较重,而心肺耐力水平和跑动能力又是相辅相成[16],从侧面说明,力量素质是基础素质,而跑动能力是身体素质水平直观的展现。各组别心肺耐力和力量素质与柔韧素质相比,对学生体质测试等级有更加积极的影响,由此可见在体育教学过程中,应注重心肺耐力锻炼的同时,再辅以力量练习和跑动能力的训练,动态调整柔韧练习,能够有效提高学生体质测试成绩,达到提高男女生身体素质的目的。
本研究利用CART决策树算法对学生体质测试数据进行建模分析,利用Python工具对其进行数据处理、算法实现和可视化输出,寻找学生健康体质测试数据中各指标的非线性关系,为体育教学提供实证支持。在对男女学生组别进行建模分析之后,得到如下结论:
(1)CART决策树算法可较好的通过各指标对学生健康体质测试成绩等级进行分类,训练、验证,预测结果正确率可达到85%以上,且可判断各个指标的影响程度,为提高体育教学质量提供实证依据。
(2)样本中男女生各项体质测试指标对等级的影响程度情况存在明显的差异,具体表现在男生体质测试成绩等级最关键的影响因素是引体向上项目,女生体质测试等级最关键的影响因素是800m项目,由此可见,男生的上肢力量对成绩等级的影响程度最重,而女生的心肺耐力水平对成绩等级的影响程度最重。其次心肺耐力素质在两组别中对成绩等级的影响程度均较重。建议男女生在差异化体育教学过程中,加强男生上下肢力量训练和女生心肺耐力锻炼,再辅以跑动能力练习。
借助大数据挖掘技术,发现海量数据的内在联系,已经成为一种趋势。本研究深入挖掘学生体质测试数据,建立分类模型,然而正确率还有待提高,算法还需继续优化,提高泛化能力。与此同时,各种大数据挖掘算法各有利弊,理论算法和技术皆在不断的发展迭代,因此,要得出更加准确更加深层次的结论,提高体育教学质量,还需更加努力致力于数据挖掘和体质等方面数据分析相结合的实证研究。
[1] 国家学生体质健康标准(2014年修订),教体艺[2014]5号[S].北京:教育部,2014.
[2] 潘 晖,刘凤兰.大学生体质健康变化趋势的研究及对策[J].医学与哲学,2013,34(15):54~56.
[3] SHIMOJOH, NAKATAY, TOMIKAWAM, et al. Trends in Body Mass Index and Physical Fitness of Japanese University Students Over 26 Years and the Association Between These Parameters[J]. TaikugakuKenkyu, 2013, 58(01): 181~194.
[4] 马 灿.国内外医疗大数据资源共享比较研究[J].情报资料工作,2016,55(03):63~67.
[5] 王明俊,吴 亮.基于回归和相关分析的大学生体质健康评价指标关系的研究[J].成都体育学院学报,2008(05):79~81.
[6] 许珊珊,曹 冶,崔洪珊. GA-BP神经网络预测大学生体质的模型构建研究[J].重庆理工大学学报(自然科学),2018,32(07):162~168.
[7] 郑 忠.基于自组织特征映射网络方法的学生体质健康数据聚类分析[J].四川体育科学,2020,39(03):53~56.
[8] 宋兆铭,叶 菁,董如军.数据挖掘:C5.0 决策树算法在警察院校学生体质分析中的应用[J].四川体育科学,2020,39(01):52~55.
[9] Qninlna J R. Induction of decision trees [J]. Machine Learning, 1986, 3(01): 81~106.
[10] 周志华.机器学习[M].北京:清华大学出版社,2016:44~46.
[11] 张 亮,宁 芊.CART决策树的两种改进及应用[J].计算机工程与设计,2015,36(05):1209~1213.
[12] 张荣昌.基于数据挖掘的用电数据异常的分析与研究[D]. 北京:北京交通大学,2017.
[13] 杨效勇.大学体育分层次教学模式的探索与实践[J].体育学刊,2020,27(04):117~120.
[14] 崔思栋,何 勇,DONG C S,等.云南省大学生健康体适能的比较研究[J].中国健康教育,2016,32(04):326~328.
[15] 温 柔.论普拉提对舞蹈训练的辅助作用-以运动人体科学的角度[J].北京舞蹈学院学报,2011(04):73~78.
[16] 刘云斐,程 公,白 莹.我国优秀女子橄榄球运动员体能特征与评价体系的构建[J].沈阳体育学院学报,2013,32(01):121~124.
[17] 丁亚芝,郑志高,马 嵘.改进的SPRINT算法及其在体质数据分析中的应用[J].体育科学,2014,34(06):90~96.
[18] 赵会群,孙 晶,花勇民,等.数据挖掘技术在体育比赛技战术分析中的应用研究[J].北京体育大学学报,2008,31(05):712~715.
[19] 易 俗,张一川,殷慧文.基于CART的高校教师亚健康决策模型构建[J].实验室研究与探索,2019,38(08):173~178.
Application of Decision Tree CART in Data Analysis of Physical Fitness Test of College Students
ZHANG Kun
Shandong University, Schoolof Physical Education, Jinan Shandong, 250061, China.
Objective: To find out the non-linear relationship of each index in the data of students' physical fitness test by CART decision tree algorithm, find out the influence degree of each index on students' physical fitness test grade, and provide more dimension support for the improvement of physical education. Methods: The data of nearly 10,000 under graduates' physical fitness test in Shandong University were processed and grouped into male and female groups. The two groups of data were analyzed by CART decision tree algorithm, and the decision tree model was visually expressed. Results: (1) The CART decision tree algorithm can better classify the grades of students' physical fitness test results through various indicators, train and verify, and the correct rate of prediction results can reach more than 85%, and can judge the impact of each indicator, so as to provide empirical basis for improving the quality of physical education teaching. (2) there are obvious differences between male and female students in the influence degree of each physical fitness test index on the grade. Specifically, the most critical influencing factor of male students' physical fitness test grade is the lead-up project, and the most critical influencing factor of female students' physical fitness test grade is the 800-meter project. It is suggested that in the process of differentiated physical education between male and female students, the strength training of male students' upper and lower limbs and the strength training of female students should be Girls' cardiopulmonary endurance exercises, supplemented by running ability exercises.
CART DecisionTree; Physical Tests for Students; Physical Education
G804.49
A
1007―6891(2022)01―0041―05
10.13932/j.cnki.sctykx.2022.01.10
2020-11-06
2021-01-20