基于最大信息系数的学生体质健康测试相关性分析方法

2019-12-19 02:07刘君凤秦学朱道恒
软件 2019年11期
关键词:体质健康测试相关性分析

刘君凤 秦学 朱道恒

摘  要: 将最大信息系数算法运用于体测数据的相关系数计算,通过运用最大信息系数算法与皮尔逊相关系数算法、斯皮尔曼等级相关系数算法以及肯德尔等级相关系数算法,对学生体测数据中肺活量与其他特征指标进行相关系数计算并对比。通过对比分析学生体质健康测试数据的结果,表明最大信息系数能够更有效的探测肺活量与其他指标的相关性,且具有较高的准确性。

关键词: 相关性分析;最大信息系数;体质健康测试;pearson相关系数

【Abstract】: The maximum information coefficient algorithm is applied to calculate the correlation coefficient of the body measurement data. The correlation coefficient between vital capacity and other characteristic indexes is calculated by using the maximum information coefficient algorithm, Pearson correlation coefficient algorithm, Spearman correlation coefficient algorithm and Kendall correlation coefficient algorithm. And contrast. By comparing and analyzing the results of students physical fitness test data, it shows that the maximum information coefficient can detect the correlation between vital capacity and other indicators more effectively, and has higher accuracy.

【Key words】: Correlation analysis; Maximum information coefficient; Physical fitness test; Pearson correlation coefficient

0  引言

随着生活水平的提高,学生营养不断提高,运动量减少,进而导致了肥胖学生日益增多,并且肺活量,势力,跑步速度,爆发力等逐年下降。为保证学生身体健康发展,教育部颁发了《学生体质健康标准》,并要求学校每年对全校学生进行体质健康测试不但可以统计学生的体质变化,有针对的进行教学机制改进,又可以促进学生德智體美劳的全面发展。体质健康测试是学校教育教学工作中的一个环节,通过体质健康测试,可以促进学生们的身心健康,激励学生参加课外体育活动,加强身体锻炼。

本文主要工作是对体测指标间的相关性探测引入了最大信息系数(MIC)。MIC是由信息论中的互信息推导而来,MIC在散点图中不断的分割网格寻优,最具优势的特点是具有等价性、普适性以及检测多种函数关系如三角函数,周期函数,发哦无限函数等,甚至是没有没有函数表示的关系,MIC都能给出较好的探测值。MIC一经提出就引发了众多领域的研究热潮,多应用于航空航天,经济学,生物基因学等领域。本文通过研究学生体测数据集,以多种相关性性统计算法为参照对比的方法,来发现各项体育运动与肺活量的密切程度,以便对学校的教育教学提供参考,调整教学方案,更好更科学的帮助学生锻炼身体,强健体质。结果表明,MIC算法因为具有探测非线性关系的特性非线性方法更能有效探测体测指标间的相关性。

1  预备知识

在统计学领域中,用于描述两个变量之间的相关程度大小的指标被称为相关系数。统计学家卡尔皮尔逊最早提出了相关系数的概念,相关系数是衡量变量之间线性相关关系密切程度的的统计指标,通常用字母r表示。由积差方法可以计算相关系数,以两变量与其各自平均值的离差相乘来反映两变量间的相关程度[2]。其定义为:

2  相关性结果分析及建议

2.1  数据来源

本文以某市2018年5所小学2560名小学生的体质健康测试成绩为研究对象。小学生正处于身体成长阶段,各项身体机能尚不成熟,因此针对小学生的体质健康测试运动量相对较小,其测试指标主要有身高、体重、50米跑,坐位体前屈、一分钟跳绳、一分钟仰卧起坐,肺活量,50 m8往返跑。利用SPSS软件[7-8]去除无效数据与缺失值后,将肺活量与仰卧起坐、身高、体重等变量组成变量对,分别运用Pearson相关系数算法、Spearman相关系数算法、Kendall相关系数算法以及MIC算法进行相关系数的计算,这里鉴于50 m8往返跑为团体运动,暂不在本文的考虑之内。

2.2  结果分析与建议

由表2可知Pearson相关系数算法和Spearman等级相关系数计算的坐位体前屈与肺活量、一分钟仰卧起坐与肺活量的Pearson相关系数小于0.10为不相关,跳绳与肺活量、性别与肺活量的Pearson相关系数在[0.20,039]之间为低度相关[9],50米与肺活量为中度相关,身高与肺活量、体重与肺活量的Pearson相关系数在[0.70,0.89]之间为高度相关;Kendall等级相关系数算法计算的坐位体前屈与肺活量、一分钟仰卧起坐与肺活量相关系数小于0.1为不相关,性别与肺活量小于0.19为极低相关,跳绳与肺活量、50米跑与肺活量为低度相关,身高与肺活量、体重与肺活量的Kendall相关系数在[0.40,0.69]之间为中度相关。

而最大信息系数计算的性别与肺活量、一分钟仰卧起坐与肺活量、坐位体前屈与肺活量、均在[0.20,0.39]之间为低度相关,50米跑与肺活量、跳绳与肺活量取值在[0.40,0.69]之间为中度相关,身高与肺活量、体重与肺活量的相关系数在[0.70,0.89]之间为高度相关。

通过对表2中求得的相关系数结果分析可知,最大信息系数对所有指标均能探测出相关度且较为合理,次之为Pearson相关系数算法和Spearman等级相关系数,效果最差的是Kendall等级相关系数。50米跑因为是短时竞跑,考察的是人体的反应灵敏度,和肢体协调性和爆发力,与肺活量的测度中度关系,身高与肺活量和体重与肺活量均为高度相关,且为正相关,但图3可知肺活量较高的大部分学生分布在40到60公斤,60公斤之后并不是体重越大,肺活量越高,所以学生应当保持适度体重,不宜过胖,可以通过保持适宜的体重和跑步来锻炼学生的肺活量。

对于三个传统相关系数检测为不相关的跳绳与肺活量和坐位体前屈与肺活量利用回归分析分别拟合线性、二次和三次回归模型如下。表3,4分别为回归分析相关参数和参数估计值,其中参数R2值越大,解释程度越高,参数Sig值越小越显著。因此可知一分钟仰卧起坐与肺活量用二次拟合更好,坐位体前屈与肺活量的关系由三次拟合更为合适。图4,5为两对指标的拟合曲线图,因此传统三大系数计算的坐位体前屈与肺活量不相关,主要是因为对坐位体前屈和仰卧起坐成绩影响最大的是身体的柔韧度[10],身体柔韧度越高,测试成绩越好,因此但是运动一般都是基于肺活量的,只是所需大小而已,特别是仰卧起坐随着数量的增加所需肺活量越大,因此仰卧起坐与肺活量比坐位体前屈与肺活量具有较大的相关性,因此MIC对两对非线性关系探测的更为符合。由此可知MIC算法比三大传统相关系数探测到更多的相关性,并且体现了MIC算法的等价性特点。

3  结束语

最大信息系数在相关性分析中有着较大的运用前景。比如:在航空航天领域,用来分析大量复杂的空间数据,还可以用来判别元部件是否出现异常;在生物医学领域,用来研究基因序列;在经济领域,用来研究CPI数据以及股票数据与其他社会因素的关系;在数学建模[11-12]方面,建模过程中需要的参数类型等通过计算相关性来选取.最大信息系数还

有着很大的的应用空间。本文在体育教育教学方面,通过对学生的体质健康测试数据相关研究结果进行分析可知最大信息系数能够更有效的探测学生体测信息之间的相关性,相对于传统相关系数统计指标精度更高,稳定性更好。

参考文献

[1]樊嵘, 孟大志, 徐大舜. 统计相关性分析方法研究进展[J]. 数学建模及其应用. 2014, 3(1): 1-12.

[2]毛秀珍, 章璐杰, 毛天翔, 王友钊, 黄静. 基于Pearson相关分析和回归分析方法的基金影响力研究[J]. 浙江理工大学学报. 2017, 38(4): 306-311.

[3]田黎明, 张冬梅. 一种基于信息熵的传感器数据异常检测方法[J]. 软件, 2018, 39(9): 69-73.

[4]Reshef D N. Reshef Y A, Finucane H K, et al. Detecting novel assciation in large data sets[J], Science, 2011(334): 1518-1524.

[5]David N. Reshef, Yakir A. Reshef, Hilary K. Finucane, et al. Supporting Online Material for Detecting Novel Associations in Large Data Sets[J]. Science, 2012(334): 1-58.

[6]邵福波. 最大信息系數改进算法及其在铁路事故分析中的应用[D]. 北京交通大学. 2016.

[7]曹玉茹, 杨年华. 基于SPSS最优尺度的回归方法[J]. 统计与决策, 2019(12): 72-74.

[8]赵楠, 王昕, 李英娜, 等. 利用spss软件分析校园霸凌事件的发生规律以及预防[J]. 软件. 2018. 39(1): 159-164.

[9]王鹏飞, 余开朝. 基于多元回归的昆明市房价影响因素分析[J]. 软件, 2018, 39(9): 152-157.

[10]席卫华. 基于多因素Logistic回归分析的废旧物资处理系统设计与实现[J], 软件, 2018, 39(9): 188-193.

[11]崔仁桀. 数据挖掘在学生专业成绩预测上的应用[J]. 软件, 2016, 37(01): 24-27.

[12]胡建, 王理江. 数据挖掘在选课推荐中的研究[J]. 软件, 2016, 37(4): 119-121.

猜你喜欢
体质健康测试相关性分析
实施全员运动会,共享阳光体育盛宴
晋中学院2012~2014年学生体质健康结果分析
刍议大学生体质健康测试“举校体制”的建立
高职学生体质健康测试中存在的问题及对策研究①