决策树算法在大学生体质健康测试中的实证研究

2022-05-11 05:16周正卿

山东开放大学学报 2022年2期

周群，周正卿，周超

(1.济南市历下区教育和体育局，山东济南 250014； 2.3.北京大学，北京 100871)

中国青少年面临严峻的体质健康状况下滑问题，我国青少年体质健康主要指标连续二十多年下降，[1]大学生体质健康同样普遍堪忧，甚至映射出未来国防安全隐患。[2]当前政府非常重视青少年体质健康，视大学体育教育是改善青少年体质健康的关键一环，《关于教育部加强学校体育工作的若干意见》《国家学生体质健康标准》，《“健康中国 2030”规划纲要》再次明确改善青少年体质为国家战略。然而当前大学生体质健康下滑趋势依然未得到有效遏制，甚至在很多指标上不如中学生。考虑运动风险、健康隐患以及校方无法免责的现实问题，学生体质薄弱反倒成为体育教育过程中不敢增加运动量的掣肘因素。

近10年来局部区域的数据快速积累以及数据挖掘和机器学习方法的普及，催生了运用大数据技术对体质健康监测方面的研究热潮。在风险预警方面，谢红光和戴霞较早地将运动风险与体质健康预警机制相联系，力图通过体育课堂教化对大学生健康行为养成起到促进作用，[3]石岩和霍炫伊使用知识图谱分析了1990-2016年间相关文献强调未来研究趋势中运动风险预警的重要性，[4]杨帆静和陈志辉认为基于运动信息分析技术和数据挖掘方法对大众体质健康风险监测具有指导意义。[5]在算法应用方面，李文杰和周庆丰较早提出通过建立数学模型对女大学生体质状况分类并在教学过程中加以实施；[6]杜云梅和刘东通过设定12项体质特征并使用朴素贝叶斯分类算法预测了21664名在校大学的体质健康状态，成功率达到78%；[7]李宝国和陈凤对183名青少年的体质突变数据进行计算机仿真模拟，使用5个维度指标提升模型拟合准确性；[8]汪志胜和刘承宜讨论了拓扑学在体质测试的差异程度方面的Sigma算法分析。[9]上述研究虽然应用不同算法能够做到较为准确预测结果，但模型解释度与实践指导场景还有待完善，特别对测试等级提升路径难以提出有效建议，缺少现实性意义。

正是基于预防运动风险和科学运动干预的考量，本研究尝试应用大数据与机器学习技术，对学生体质监测数据进行建模与分析。具体而言，将机器学习中的分类算法运用于学生体质健康测试各项素质中，并对自身属性特征进行拟合以获得预测值。本文的重点在于依照决策树算法构建体测数据映射规则，在2015-2020年M校全校学生的体质健康监测数据中，选取BMI、肺活量、爆发力、耐力、速度、柔韧、灵敏度等指标，分析个人体质健康特征，目的在于在高校局部环境中构建属于该校特点的体测健康等级预测与运动风险预警指标，进而提出具有实践指导意义的体质锻炼干预建议。

一、数据处理与实证设计

(一)数据集预处理

本文研究对象以M高校2015-2020年春秋两学期的参加公共体育课程的学生。选取样本的身体素质特质向量包括：BMI、肺活量、柔韧素质(体前屈)、爆发力素质(立定跳远)、耐力素质(男生1000/女生800米)、速度素质(50米)、力量素质(女生仰卧起坐/男生引体向上)；样本标记为体质健康测试成绩等级。根据2014年修订的《国家学生体质健康标准》(以下简称《标准》)将体测成绩分成优秀、良好、及格和不及格五个等级。划分训练集与测试集，采用最常用的“留出法”(hold-out)，训练集用于建立分类决策树模型，测试集用于评估模型的有效性：以70%作为训练集，30%作为测试集。全样本共40076个有效数据，其中训练集包含28054个样本；测试集包含12022个样本，具体情况参见表 1。

表1 训练集和测试集的体质健康测试等级分布

(二)评估指标选定与实证设计

检验模型有效性依赖于评估指标的选定。以二分类问题为例，分类的结果和样例的真实类别组合可以构成以下四类情况：真阳性(true positive, TP)、假阳性(false positive, FP)、真阴性(true negative, TN)和假阴性(false negative, FN)。笔者选择准确率Accuracy=(TP+TN)/(TP+TN+FP+FN)、精确率Precision=(TP)/(TP+FP)、敏感度Sensitivity=(TP)/(TP+FN)与F1值指F1=(Precision×Sensitivity)/(Precision+Sensitivity)标评判模型有效性。

由于决策树属于监督的机器学习范畴，本文采用的实证设计流程参见图1。经过清洗环节数据集被分为具有类别标记和特征属性的两个部分。在训练环节，使用算法对模型训练，让模型自动建立类别标记和特征属性之间的联系；在预测环节，面对新的只有特征属性而没有类别标记的数据集时，模型可自动判别样本的类别标记。

图1 有监督机器学习模型一般实证设计路径

二、实证结果

本文使用R(4.1.2版本)的rpart包进行决策树模型训练，使用CART算法构建分类决策树，并用测试集数据进行评估。得到结果如下：

(一)模型测评指标

考虑大一大二和大三大四测试等级评价标准差异以及性别因素，本文将样本分为大一大二男生、大三大四男生、大一大二女生、大三大四女生四个组别。整体准确率、精确率、敏感度和F1值计算结果如表 2所示。经过剪枝后的分类决策树模型在上述四组的整体准确率为0.83、0.81、0.78和0.82，模型整体测评结果较好。由于优秀等级在除大一大二男生以外的样本中相对较少，故模型对体质测试优秀等级无法识别。

参考《新编药物学》（第17版）对发生严重ADR/ADE的药品归类。将中药制剂归属于“中药制剂”项中。共涉及药品14类，抗感染药物发生率最高（115例，32.12%），其次为肿瘤药物（80例，22.35%），见表2。抗感染药物中，抗生素所占比例最高（91例，25.42%）。

表2 分类决策树在预测集的准确率、精确率、敏感度与F1值指标

从男生组别来看，无论大一大二还是大三大四组别中的在及格和不及格的标记组别的精确度、敏感度和F1值均超过0.85；对女生组别而言，分类决策树模型对良好和及格标记组别的评估指标较好，分别高于0.68和0.81，相对较高。考虑到模型的剪枝策略不相同，分类决策树在上述四组样本的评估结果并不可比。

(二)决策树可视化

对上述四个组别的样本进行体质健康测试等级树形表示，见图2、图3、图4、图5。树形结构使用R的partykit包绘制。图中对每个结点进行了数字标记，叶节点使用Node标号。在叶节点中，展示了分类决策树根据特征向量对标记进行分类的分布信息。从定性角度看，每个叶结点中分布最多的标记代表该结点的定性分类信息。

图2 大一大二男生组别剪枝后的体测等级分类决策树结构

图3 大三大四男生组别剪枝后的体测等级分类决策树结构

图4 大一大二女生组别剪枝后的体测等级分类决策树结构

图 5 大三大四女生组别剪枝后的体测等级分类决策树结构

三、基于决策树规则的进一步讨论

(一)不同组别特征属性的风险阈值

总体来看，以男生和女生为划分的组别，体测总分等级为“不及格”的各单项风险阈值的类别有显著差异，如表3所示。对男生而言，除耐力素质外，主要是爆发力素质和力量素质影响体质测试不及格；对女生而言，除耐力素质外，主要是速度素质对体质测试成绩不及格影响。

表3 不同组别的体测不及格男生、女生对应不同素质的风险阈值

从单项风险阈值来看，大一大二男生的耐力素质风险阈值为4′52″，该风险值对应单项成绩50分，小于50分意味着体质测试不及格；当1000米跑进4′52″但未快于4′20″时，立定跳远风险阈值为189.5厘米，同时引体向上10.5个。大三大四男生耐力素质风险阈值同样为4′52″，但对比大一大二的单耐力因素风险类别而言，风险项目需同时关注立定跳远和引体向上和肺活量。在相同条件下，引体向上小于8.5个与引体向上小于15.5且肺活量小于2746.6，具有替代关系。对于女生而言，大一大二女生耐力素质风险阈值为3′50″，该成绩已经达到及格档的中上水平，明显优于男生成绩，但速度素质风险阈值为10″51，处于不及格档的40分位。大三大四女生耐力素质若处于风险阈值3′52″以上，则速度风险阈值为10″45略低于大一大二同类型水平，但另一组风险阈值组合为耐力素质大于4′59″、速度素质小于10″45和立定跳远小于155.5，该组数值的特点是耐力素质和速度素质均小于不及格档的40分值，仅立定跳远跨过及格档。

(二)三类特征学生的体质测试提升路径

分类决策树模型不仅能够计算不及格等级的风险阈值，而且为具有不同体质特征类型的学生提供提升路径作为参考。进一步将图2、图3、图4、图5中呈现的叶结点归纳为耐力偏弱型、力量偏弱型和速度偏弱型，进一步对三类体质类型学生的测试目标提升路径进行归纳，如表4所示。

表4 男、女组不同体质类型体质测试等级提升路径

对于男生而言，分为耐力偏弱和力量偏弱两种类型，均以分叉特性归纳得出。前者在不及格区多以1000米未达到4分52为成绩，要达到及格区最应先将1000米跑提升至4分20，在此基础上若达到良好区先强化立定跳远到206.5厘米，最后优秀区引体向上需达到23个以上；后者虽为力量偏弱型，但仍需保证1000米能够在4分20以上才可能有进一步体质提升，在及格区和良好区按大一大二和大三大四加以区分，大一大二引体向上应达到5个以上、大三大四要求略有提高为8个以上，在良好区大一大二男生必须在10个以上，而大三大四则提高到15个以上，从实际经验来看对不少男生上肢力量提出严峻考验。对于女生而言，分为耐力偏弱和速度偏弱型，同样以决策树叶结点的样本分布和分叉规则归纳得出。前者类型女生离开不及格区800米需跑到4分59以内，这对大部分女生而言不难，但离开及格区该项目需提高到3分52分以上，已属不易，离开良好区更需要50米跑进9秒09以内；速度偏弱型女生达到及格区50米至少要进入10秒51，离开及格区和良好区50米需提高到9米03且仰卧起坐最少为33个。可见，不同类型的男女生体质测试等级提升路径有所差异，耐力偏弱型男生主要应先发展耐力素质，随后到腿部爆发力，再到上肢力量；力量偏弱型男生在具备一定耐力素质基础上，优先发展上肢力量；耐力偏弱型女生重点发展耐力素质，之后过渡到腿部爆发力素质；速度偏弱型女生在具备一定耐力素质基础上，除要练习腿部爆发力以外，还应注意核心肌群的训练。

四、结语

本文依M高校2015-2020年每学年春、秋两个学期的体质健康测试数据，选取学生的体型指标、肺活量、爆发力、耐力、速度、柔韧、灵敏度等特征指标，预测体质健康测试等级结果。应用CART分类算法对大一大二男、女生和大三大四男、女生四个组分别建构决策树模型，整体预测准确较好，依次为0.83、0.78、0.81和0.82。经由训练集形成的决策树评估规则直观呈现了样本在不同体质测试等级标记的叶结点分布方式。应用机器学习的决策算法与树形结构兼顾了模型预测的准确性和模型本身的解释性，相较于以往研究能为大学生体质测试提供指导建议。在进一步的讨论中，笔者发现体质测试是否不及格的身体素质决定性影响因素有显著差异，主要表现为对男生而言，除耐力素质外，主要是爆发力素质和力量素质决定体质测试不及格；对女生而言，除耐力素质外，主要是速度素质对体质测试成绩是否不及格有决定影响。另外，对耐力偏弱型、力量偏弱型和速度偏弱型三类不同体质类型的学生给出了具体提升路径建议。