K-means算法在小学生体质监测中的应用研究

2020-09-24 10:53严德菊吕佳潞
淮南职业技术学院学报 2020年4期
关键词:肺活量数据挖掘聚类

王 锦,严德菊,吕佳潞

(西华师范大学, 四川 南充 637000)

随着时代的进步、科技的发展、各种各样的智能设备的兴起,数据的增长越来越快,数据规模越来越大。然而,虽然总的数据量比较大,但是数据利用率却不高,人们希望能够好好利用这些数据,并从中获取有价值的知识来提高人们的工作效率,指导大家的工作和生活。数据挖掘技术可以针对过去的数据,挖掘出隐藏在数据背后的信息。而聚类分析是一种常见的数据挖掘和数据分析方法,是数据挖掘领域重要的研究内容之一[1-2],按照不同的标准,聚类算法可以分成很多类,K-means算法属于其中之一。因此将K-means算法应用到小学生体质监测中,以南充某小学学生体质监测数据为例进行分析,通过对小学生体质监测结果的分析,让老师和家长更加了解学生的身体状况,找出原因,从而有针对地采取措施改善学生体质,促进学生的健康成长。

一、K-means 算法

(一)K-means算法的基本思想K-means算法是Mac Queen J在1967年提出来的一种聚类算法[3]。K-means算法思想是先随机选择K个簇中心,然后按照最近原则把所有数据对象分到各个簇。然后按照均值重新计算各个簇的簇心,直到簇心不再发生改变,算法结束,输出聚类结果。K-means聚类算法是一种基于划分的且目前被人们广泛使用的聚类算法。

(二)K-means算法步骤第一步,选择合适的类的数量k,然后随机选k个点当作聚类的初始聚类中心;第二步,计算每个数据点到这k个聚类中心点的距离,然后将各个数据点放到与它最近的聚类里;第三步,再次计算新的聚类中心(数据的平均值处);第四步,返回第二步继续执行,当聚类中心不再变化的时候结束。

二、聚类算法分析工具介绍

一是IBM公司推出的统计产品与服务解决方案(Statistical Product and Service Solutions,SPSS),SPSS可以应用于数据挖掘、统计学分析、预测分析和决策支持任务的相关服务和软件的集合。二是怀卡托智能分析环境(Weka),它是在JAVA环境下开源的软件,其源代码可以在官网下载,Weka主要功能有对数据对象进行预处理、聚类分析、关联分析等。三是美国MathWorks公司推出的MATLAB,它是一款商业数学软件,它可以用于算法开发,数值计算,数据分析等。

三、K-means聚类算法在小学生体质监测中的应用

(一) 研究对象与研究方法以南充市人民南路小学2~6年级(因1年级学生学籍暂未录入不参加测评)参加体质监测的学生体测数据为研究对象。运用仪器和人工相结合的方法对人民南路小学2~6年级学生的身高、体质量、肺活量、50 m等项目进行测量。用 Excel 软件录入测量数据并统计,对统计好的数据采用聚类分析法进行分析。

(二) 聚类分析过程一是数据准备与预处理。测评收集到的数据,其中有些信息对当前研究内容是无意义的,比如家庭住址、出生日期、民族等,需把这些数据剔除。同时,将身高和体质量两项内容合并计算成体质量指数BMI,并保留一位小数,将数据格式改成符合要求的形式。二是算法应用。将以上文件放到Weka里面进行分析,可以看到体测项目的数据直方图,然后再选择“Cluster”界面,点“Choose”选择simpleKMeans,修改“numClusters”的值,“numClusters”的值即代表K-means中k的值,然后观察聚类效果,即“Clusterer output”中的一行:within cluster sum of squared errors: 后面的值,此值越小代表聚类的同一个类的距离越小。为了观察聚类效果,可以多试几次,然后得到最后的聚类散点图,部分散点图如图1所示。

由于直方图(如图2所示)在整体效果更一目了然,而聚类后的散点图在数据维度关系更清晰,结合图1、图2可以看出:第一,体质量指数BMI相对集中。大部分学生的BMI值都在正常范围,偏胖的约占总数的7 %,偏瘦所占比例更小些,并且BMI大于31.2的严重肥胖学生中女生要多于男生,说明该校小学生的 BMI 值大体来说是正常的,营养不良的很少,偏胖的比偏瘦的多。第二,肺活量偏低。肺活量低于661 ml的约占总数的11 %,但肺活量高低与性别的关系不是特别明显,这说明小学生的整体呼吸能力比较低,也与学生平时缺乏运动分不开。家长可在生活中注意培养孩子爱运动的习惯,利用上下学,周末等时间进行锻炼。第三,速度素质较差。50 m短跑主要考察的是爆发性运动能力,50 m短跑耗时大于11.1 s的占总数的8.9 %,且不及格的学生中,女生人数多于男生。可见平时运动量不够,学生的速度素质较差[4]。学校家长应鼓励学生多进行体育锻炼,比如晨跑、饭后散步、走路上下学等。第四,坐位体前屈成绩较好。女生做位体前屈成绩优于男生,这与坐位体前屈测试的是韧带和肌肉弹性有很大关系。第五,一分钟跳绳差距较为明显。一分钟跳绳10个以内的有11个人,20个以内的有30个人,而一分钟可以跳100个以上的也有接近40个人,跳绳个数少的学生中的男生占多数,个数比较多的女生占多数。

四、改善学生体质的对策

(一) 学校方面在提倡素质教育的大环境下,没能真正做到素质教育,目前大部分小学还是以考试成绩的好坏来评价学生和教师。学校要认识到体育运动的重要性,尽量保证体育课的时间和课堂质量,提倡学生利用课间坚持做到每天运动1~2 h,比如每天上午30 min的阳光课间操,一定要要求学生走出教室,去感受阳光和运动带来的快乐。

(二) 家庭方面父母的行为、思想观念、说话方式都深深地影响着孩子,现在很多学生家长都过度关注学生的文化课成绩,在他们心里孩子的成绩是第一位的。家长一定要在关注孩子智力和能力发展的同时,多注意他们的身心健康,让他们在轻松自在、无忧无虑的环境中学习。家长可以周末带孩子参加户外体育锻炼或选择步行送孩子上学,还可以在方便的时间带孩子晨练,午后或是晚饭后出去散散步,既锻炼了身体又加强了父母和孩子之间的沟通,增进亲子感情。

(三) 学生自己小学生对体质健康的认识不够,缺乏主动锻炼的意识,即便是学校安排的体育课在学生眼里更多的是可以自由活动的课。现在的孩子从小受父母宠溺,怕苦怕累怕脏,不愿意锻炼,有时间还不如打打游戏、刷刷视频来的轻松。而这种生活方式本身是不够健康的,学生可以通过网络、书本、杂志等多了解体质健康方面的知识,提高对健康的认识,加强锻炼。

猜你喜欢
肺活量数据挖掘聚类
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
肺活量的故事
基于K-means聚类的车-地无线通信场强研究
2015年湖北籍学生肺活量体重指数与耐力跑水平相关性研究
基于高斯混合聚类的阵列干涉SAR三维成像
软件工程领域中的异常数据挖掘算法
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法