郑 忠
基于自组织特征映射网络方法的学生体质健康数据聚类分析
郑 忠
成都理工大学地球物理学院,四川 成都,610059。
目的:寻找体质健康测试各指标间复杂的、非线性的关系,为体育教学工作提供科学的技术支持。方法:将成都市某高校近3万名在校大学生体质健康数据分为男生组与女生组,运用自组织特征映射网络(Self-organizing feature Map,SOM)方法,对两组数据进行聚类分析。并以各类学生相同变量的均值作为权重,对不同变量值间变化趋势进行可视化表达。结果:分别将男女生测试数据聚为A、B、C、D四类。男生组中各类不同变量变化有迹可循,女生组中各类“各有所长”且变化趋势较为复杂。结论:(1)上肢和腰腹力量素质与柔韧素质间存在“此消彼长”现象。针对此现象,在体育教学中应在端正学生训练态度的同时,加强力量素质与柔韧素质的交叉性训练。(2)男学生群体中,力量素质对身体素质的影响最大。建议在训练中,注重以力量训练为起点,再辅以跑动能力的锻炼。(3)男女学生各项测试指标间变化情况存在较大差异。针对此情况,应注意男女学生之间采取差异化的训练方法。
体质健康;自组织特征映射网络;积累分析
学生的体质健康问题一直是国家非常重视的社会问题。长期以来,各级教育部门与机构积极开展了学生体质健康的评测工作,获得并分析了大量的数据。然而,据调研,绝大多数基层教育机构在分析数据时仅采用了过于简单的统计分析方法,如权重分析等,以至于对数据的挖掘程度严重不足,在很大程度上限制了分析的深度和相关研究,基本上不可能对体育教学过程中出现的诸多现实问题给予解决和提出建设性的意见。
为了解决上述问题,近年来许多学者对学生体质健康结果评价方法和模型进行了深入的研究。其中,大多数体育学者及工作者利用一些基础性的数理统计学方法建立评价与分析模型[1-3]。但是,此类模型所关注的目标参数仅仅局限于期望、方差等基本的统计学参数。此类模型最主要的弊端在于:对数据的挖掘深度过浅,数据中蕴含的信息被严重埋没,能够解决的现实问题非常有限。鉴于上述情况,又有较少数的学者开始尝试通过多元统计学方法建立评价与分析模型[4-6]。该类模型以回归分析为最主要的分析方法,还包括简单的聚类分析。此外,还有极少数的国内学者采用了灰度相关等方法尝试建立评价与分析模型[7-8]。此举在一定程度上改善了对数据的利用效率。虽然这些评价与分析模型在数据挖掘深度和模型本身的功能方面有所提升,但始终未能得到广泛的应用。因此,立足于实现数据的挖掘程度的显著提升,进而探索更深层次的规律,为体育教学改革与学生身体素质的提升提供更加科学的参考依据的目标,本研究运用自组织特征映射网络(SOM)方法,对来自成都某高校近3万名在校大学生体质健康测试数据进行了聚类分析。
为了获得更加合理的训练结果,选取成都理工大学2012级~2014级本科生于2015年体质健康测试所得26461条数据,测试对象年龄普遍为18岁~22岁,其中男生实测数据14 323条,女生实测数据12 138条。男生数据集包含身高、体重、肺活量、50m跑、立定跳远、坐位体前屈、1000m跑和引体向上8个指标;女生数据集中每条数据包含身高、体重、肺活量、50m跑、立定跳远、坐位体前屈、800m跑和仰卧起坐8个指标。由于身高和体重与其他身体指标之间的相关性无法评价,所以在此文中不选用身高、体重两个指标作为聚类依据。同时,为了避免各变量值量纲差距、异常值以及极端值对聚类结果带来的影响,使用将矩阵映射到均值为0且标准差为1的方法进行归一化处理,得到无量纲变量值。如图1所示,原始数据中男生50m跑和引体向上数据分布呈偏态分布,其余变量基本呈正态分布。
图1 男女学生数据不同变量值分布情况
自组织特征映射网络(self-organizing feature maps , SOM)是Kohonen教授于1982年提出的一种无监督竞争学习型的网络,网络结构简图如图2所示。网络通过自组织方式,用大量训练样本调整网络的权值,最后使输出层各节点成为对特定模式类敏感的神经元。并且当两个模式类的特征接近时,代表这两类的节点在位置上也接近。从而在输出层形成能反应样本模式类分布情况的有序特征图。
相较于统计学聚类方法,神经网络方法能增加对数据的挖掘深度,更有机会发现数据之间存在的复杂的、非线性的关系。相较于其他神经网络方法,SOM有着易于理解、更适用于聚类问题、能可视化的表达特征图的质量以及对象间的相似度、可操作性强等优点。常被用于分类聚类、组合优化、数据分析和预测、模式识别等领域。
图2 SOM网络结构简图
SOM网络中权值调整采用的算法,称为Kohonen 算法,其调整权向量与侧抑制的方式为:获胜神经元对其临近神经元的影响是由近及远,由兴奋逐渐变为抑制。
SOM网络的学习算法[10-12],按如下步骤进行:
(1)初始化网络权重。在训练之前,将每个节点的权重设定为小的归一化的随机值。
(2)在网络中输入预处理后数据。
(3)寻找最佳匹配单元(best matching unit,BMUs):遍历所有节点,求输出层权值向量和输入向量的最近距离(欧式距离)。最接近节点即为最佳匹配单元。
(4)更新BMU及其邻域权值。
(5)回到步骤2,重新执行。直到临近两次迭代中权值的变化低于设定阈值,或达到最大迭代次数。
采用Matlab 2016b软件Neural Clustering(nctool)工具箱,以输出层结构为1×4、训练步长分别为50、100、200、500、1000的SOM 网络对数据进行聚类,发现步长超过100后,聚类结果无明显变化,所以在本文中采用输出层结构为1×4、训练步长为100对归一化处理后数据进行聚类。
将聚类后结果分为A、B、C、D四类(总占比为1.0000),对此四类数据中相同变量值以均值作为其权重,值越大说明在此指标中该类同学运动表现越好,并利用此值对四类数据相同变量进行比较并分析。
表1汇总了聚类后A、B、C、D四类男生各单项身体素质的占比情况。如表1及图3所示,A类男生各变量值均为四类男生中最小的;在1000m、50m、立定跳远以及引体向上项目中,均是C类学生表现最好、A类学生表现最差;坐位体前屈测试以肺活量项目中,D类学生表现最好,A类学生表现最差。C类学生在1000m、50m测试项目中有着优秀的表现,而A类、D类学生在此两项中表现较差。对比A、C、D这三类学生的引体向上项目,同样存在C类学生表现优秀,而A类、D类学生表现较差情况。对比A、B、C三类学生的坐位体前屈与1000m、50m项目测试情况,均是C类学生表现最好,B类学生次之,A类学生表现最差。对比A、B、C、D四类学生的引体向上项目与坐位体前屈测试项目测试情况,发现呈现出负相关情况;坐位体前屈项目以及肺活量项目测试情况,发现四类学生在这两个项目中的表现均为D类学生表现最好、C类学生表现次之、A类学生表现最差。
表1 男生各单项身体素质占比情况
图3 男生聚类后各变量值变化趋势图
表2汇总了A、B、C、D四类女生各单项身体素质的占比情况。如表2及图4所示,相较于男生聚类结果,女生聚类结果中不同类别各变量值分布情况更加复杂。在50m、800m测试项目中,均是A类学生表现最好,C类学生表现最差;坐位体前屈测试项目中表现较好的A、B两类学生,在仰卧起坐项目表现中相较于C、D两类学生,出现了明显下滑情况,而C、D两类学生则呈上升态势;在立定跳远项目中,测试情况与仰卧起坐项目类似,D类学生表现最好,而A类学生表现最差。整体而言,在女生群体中,坐位体前屈测试项目中表现良好的学生,800m项目表现也良好。与男生情况相似,四类女生坐位体前屈与仰卧起坐两项目,变量占比呈负相关。
表2 女生各单项身体素质占比情况
图4 女生聚类后各变量值变化趋势图
从通过应用SOM方法得到的结果来看,各类学生均出现同一问题,即柔韧素质(坐位体前屈)与上肢和腰腹力量素质(引体向上/仰卧起坐)二者之间普遍存在“此消彼长”的情况。在男生聚类后表现中,上肢力量表现较好的B和C两类学生,在柔韧素质测试项目中,表现均呈现下滑情况,而在上肢力量素质测试项目中表现较差的A类和D类学生,柔韧素质均呈现出上升情况。在女生聚类后表现中,四类女生均在腰腹力量素质和柔韧素质两项测试中呈现出负相关情况。对于上肢与腰腹力量素质与柔韧素质呈负相关这一问题,其原因可能是学生对待体育训练存在畏难心理以及肌肉伸展性与收缩性之间存在先天制约。在当前体育教学大环境下,在面对力量与柔韧性训练的选择时,学生往往避开自己的不熟练项目。力量较好的学生,更倾向于力量训练,从而使得肌肉收缩能力变得更强,即力量越大,导致肌肉像“非常紧的弹簧”无法轻易拉伸,这样就使得柔韧性下降。柔韧性较好的学生更愿意选择柔韧性训练,经过柔韧性训练,使肌肉、韧带等软组织的伸展能力更强,再加之不辅以力量训练,从而导致肌肉收缩能力下降,即力量下降。针对此问题,在体育教学中,应在端正学生训练态度的同时,引导学生进行力量与身体柔韧性的交叉训练,以达到在力量上升的同时,尽可能保持身体柔韧性不下降的目的。
同时,我们发现A类男生在各项测试指标表现中均为四类男生中最差的,尤其是在上肢力量方面与其他三类男生相差巨大。另一方面,单独分析D类男生各项指标变化特征,发现 D 类男生柔韧素质为四类男生中最好的,但力量在四类男生中表现较差。同时,D类男生在耐力跑(1000m)以及速度跑(50m)两项目中表现较差。对比其他三类男生在耐力跑以及速度跑项目中的表现情况,我们发现在男生群体中,力量素质相较于柔韧素质对跑动能力有着更加积极的影响。在竞技体育的初级阶段,高水平的举重运动员即是短跑运动员,这一现象说明了力量与跑动能力有着紧密的联系。同时,跑动能力是对身体素质最直观的体现,这从侧面说明了力量是身体素质的基础,是良好身体素质的保证。再加之男生群体中出现的力量素质相较于柔韧素质对跑动能力有着更积极的影响情况,所以认为可能是力量过弱导致 A类男生出现各项指标表现均不理想的情况。为了避免A类情况出现,在训练教学中,应注重从力量训练开始,再辅以跑动能力的锻炼,这样能够达到有效提高身体素质的目的。
整体而言,四类男生在1000m、坐位体前屈及引体向上项目中表现有明显差异,而在50m、立定跳远以及肺活量测试项目中差异并不是很明显。而四类女生则不同,在各项测试指标中“各有所长”,差异并不是特别明显。此现象的出现可能是在体育教学中,忽视了男女学生先天条件的差异,从而采用同一套训练模式,导致此现象的出现。针对此现象,在体育教学中,应注意男女学生之间采取差异化的训练方法。
本文选用聚类方法中的SOM网络方法对大学生体质健康测试数据进行聚类分析,并利用各类学生不同变量值的均值作为权重,对不同类别学生各变量值变化趋势进行可视化表达,其思想为利用SOM网络发现不同变量值之间的内在联系。分别对不同类别的男女学生进行研究可得到以下结论:
(1)力量素质与柔韧素质间存在“此消彼长”现象。针对此现象,在体育教学中应在端正学生训练态度的同时,加强力量与柔韧性的交叉性训练。
(2)男生群体中,力量素质对身体素质的影响最大,且相较于柔韧素质对跑动能力的积极影响更大。建议在训练中,注重以力量训练为起点,再辅以跑动能力的锻炼,以达到有效提高身体素质的目的。
(3)男女学生群体各项测试指标间变化情况存在较大差异。针对此情况,在体育教学中,应注意男女学生之间采取差异化的训练方法。
[1] 崔巴特尔,胡晓彦,崔 磊.大学生体质健康评价体系与运动处方的研究开发[J].北京体育大学学报,2004(07):927~929.
[2] 王明俊,吴 亮.基于回归和相关分析的大学生体质健康评价指标关系的研究[J].成都体育学院学报,2008(05):79~81.
[3] 王明俊,王 玲,王 萍.大学生体质健康评价指标权值与贡献率关系的思考[J].山东体育学院学报,2007(02):78~79+94.
[4] 张晓丹,杨倩倩.基于聚类分析的天津市大学生体质健康评价分级模型研究[J].天津科技,2014,41(08):76~79.
[5] 李昌锋,张 星,林增荣,李 珍,林佳蕙.基于Foxtable的大学生体质健康评价系统构建研究[J].当代体育科技,2017,30(07):228~229+231.
[6] 宋爱玲. 大学生体质健康评价及运动处方系统[A]. Intelligent Information Technology Application Association.Proceedings of the 2011 International Conference on Future Computer Science and Application(FCSA 2011 V4)[C].Intelligent Information Technology Application Association:智能信息技术应用学会,2011:3.
[7] 杜 晶.基于灰关联层次分析法的大学生体质健康评价[J].科技视界,2014(13):212~213.
[8] 朱志宏.基于VLOOKUP函数的大学生体质健康评价手工测试方案研究[J].当代体育科技,2017,25(07):198~199.
[9] 朱大奇史慧. 人工神经网络原理及应用[M]. 科学出版社,2006.
[10] Dragomir OE, Dragomir F, Radulescu M. Matlab Application of Kohonen Self-organizing Map to Classify Consumers’ Load Profiles. Procedia Computer Science. 2014; 31: 474~479. doi:10.1016/ j.procs. 2014.05.292.
[11] Amin M N M , Nohuddin P N E , Zainol Z . Trend cluster analysis using self organizing maps[C]// Information and Communication Technologies(WICT), 2014 Fourth World Congress on. IEEE, 2014.
[12] Liu Y, Lee S H , Chon T S . Analysis of behavioral changes of zebrafish (Danio rerio) in response to formaldehyde using Self-organizing map and a hidden Markov model[J]. Ecological Modelling, 2011, 222(14): 2191~2201.
[13] 孙 铭.基于SOM神经网络聚类的用气客户全生命周期管理[J].天然气工业,2018,38(12):146~152.
[14] 刘 畅,唐建军,高 凯.高水平男子网球运动员功能性动作能力与专项身体素质的相关性研究[J].成都体育学院学报,2018,44(02):86~91.
Cluster Analysis of Students' Physique Health Data Based on Self-Organizing Feature Mapping Network Method
ZHENG Zhong
College of Geophysics, Chengdu University of Technology, Chengdu Sichuan, 610059, China.
Objective: To find the complex and non-linear relationships between the indicators of physique fitness test, and provide scientific technical support for physical education. Methods: The physique health data of nearly 30,000 college students in a university in Chengdu were divided into male and female groups. The Self-Organizing Feature Map(SOM)method was used to cluster the two groups of data. The mean value of the same variable of various students is used as the weight to visually express the change trend between different variable values. Results: The test data of boys and girls were clustered four categories: A, B, C and D. There are traces of changes in various variables in the boys’ group. The various groups in the girls group have their own strengths, and the trend is more complicated. Conclusions:(1)The presence of the upper limbs and the waist and abdomen strength quality and flexibility quality trade-off phenomenon. In view of this phenomenon, in the physical education teaching, we should strengthen the cross-training of strength and flexibility while correcting the attitude of students training.(2)Among the male student groups, the quality of strength has the greatest impact on physical fitness. It is recommended to focus on strength training as a starting point in training, supplemented by exercise with running ability.(3)There is a big difference in the changes between the test indicators of male and female students. In view of this, attention should be paid to the adoption of differentiated training methods between male and female students.
Physique health; Self-Organizing Feature Map; Accumulation analysis
1007―6891(2020)03―0053―04
10.13932/j.cnki.sctykx.2020.03.13
G804.22
A
2019-08-06
2019-08-29
成都理工大学大学生课外科技立项重点项目(2018KJZ0390)。