薛红强
(西安航空学院 体育部,陕西 西安 710077)
浅析数据挖掘在学生体质健康测试中的应用
薛红强
(西安航空学院 体育部,陕西 西安 710077)
通过对国内外有关数据挖掘在体育领域中应用的相关文献进行分析,认为数据挖掘能够在学生体质健康测试、国民体质监测数据处理等方面能够充分发挥其潜在的价值。针对数据挖掘技术的基本原理在学生体质健康测试领域的应用进行了研究,阐述其概念、类型及使用方法,并讨论和分析它在学生体质健康测试数据分析工作中的运用,提出基于学生体质健康测试的数据挖掘模式,从而有效地提高学生体质健康水平,为学校体育科研工作提供一些新的研究思路和方法。
数据挖掘;学生体质;健康测试
2002年7月,教育部颁布实施了《学生体质健康标准》,在全国范围内开始了“学生体质健康”测试工作。从“标准”开始实施至今,各级教育部门和大多数高校按教育部要求如期上报测试数据,同时也从相关部门得到了相应的数据反馈。但面对着大量的数据,数据处理仅仅停留在对数据的平均值分析或进行一般的数据统计,这已不能适应新形势下学校体育改革的需要。在这些数据中,必然存在我们尚未发现的,对我们提高体育教学水平、学生锻炼效果非常有价值的数据信息。如何从这些海量数据中,深入寻找各项数据之间的关联,进而发掘深层次内在联系,对学生体质健康测试数据进行深层次挖掘,为教学改革、体育科研提供及时准确、有价值的信息,将是我们研究的重点。本文提出运用数据挖掘理论对学生体质健康测试数据进行分析,为有效地提高学生体质健康水平和高校的体育教学改革提供参考。
数据挖掘( Data Mining) 是“发掘大量数据中尚未被发现的知识, 是从系统内部智能的自动获取知识的过程”。数据挖掘在国内外各个领域都得到了广泛的应用, 它不只是对数据进行粗略的访问查询, 同时也能够指出数据之间的内在的联系[1]。
目前, 数据挖掘(DM)的重要性在如下领域得到广泛认可,如:电子商务、生物医疗、犯罪研究、商业应用、Internet 等。数据挖掘在科学研究方面也有着广泛的应用,主要有生物研究、气象研究、医学研究、水文地质研究和考古等[2]。近几年国外已将数据挖掘(DM)应用于许多体育领域中。如最先从事数据统计分析的先驱之一Bill James 提出全美职业棒球大联盟(MLB)中的应用;篮球数据挖掘专家John Hollinger,提出了在美国职业篮球联盟(NBA)中的进行应用;《职业橄榄球计划》主编Schatz 对橄榄球的数据挖掘分析等[3]。
与此同时,许多学国内学者提出,随着体育改革的进一步深化,体育竞赛、国民体质监测等领域也积累了大量的数据,根据数据挖掘的基本原理及步骤,利用现有的数据挖掘工具,可以对现有的体育数据进行挖掘处理,使数据发挥其应有的作用[4]。但由于我国体育数据管理相对不很完善,相关体育数据的采集不规范,相关体育项目数据库的建设工作有待于进一步开展,同时适用体育领域的数据挖掘(DM)工具开发比较薄弱等诸多原因,导致数据挖掘(DM)在体育领域尚处于起步阶段,推广与广泛应用还有一定难度。现有文献多为数据样本规模较小的探索性研究。如戴敏、黄亚楼“对体能、技战术等数据资源的挖掘研究”,为提高运动员竞技水平提供了参考;高洪歌从数据挖掘技术入手,介绍了“运用数据挖掘算法在乒乓球比赛技战术分析中的应用方法和实现过程”[5-7]。近些年,随着高校体育改革的深入,面向高等院校的体育数据挖掘研究也逐步开展起来。
《学生体质健康标准》颁布实施已经近十年了,在此期间,各级教育主管部门以及各高校认真测试,及时准确地向有关部门上报数据,积累了大量的数据资料。同时各地区、各高校也得到有关部门的一定的数据反馈,这些反馈数据主要是数理统计结果汇总,并没有与学生其他信息如体育课成绩数据、学生信息数据等相关数据进行关联分析,进行深层次的数据挖掘,从中获取更为有价值的信息。
目前我国各级学校对于学生体质健康数据的处理与运用,基本上以相关部门反馈的数据表为主进行分析比对。这些数据表基本采用数理统计的方法对数据进行均值分析,列出各级数据的百分比;或套用相关的评价公式对数据进行简单的评价,仅有“优、良、及格”等级。这样做只能局限于数据本身数值大小的比较,在寻求数据之间的相互关联信息、挖掘有价值信息方面的作用十分有限。换个思路,对体质健康测试数据进行分析,即通过数据仓库的建立与利用现有的数据挖掘技术相结合就能够较为容易地挖掘出数据深层次的规律。例如:将学生体育课成绩数据与积累收集的学生体质健康数据相结合,从中挖掘出造成学生体育课成绩与体质健康水平相关联的因素,为提高学生健康水平及体育课成绩提供有效地指导与帮助;将学生自然状况数据与体质健康数据测试结合,对造成不同地区体质状况差异的原因可以进一步探究;同样也可以根据学生体质健康测试数据、学生参与体育锻炼数据、学生体育课成绩数据等挖掘出影响学生健康的原因,为学生提高自身健康水平提出指导意见。
值得一提的是,教育部根据近些年学生体质健康测试数据,结合各地区实际情况,对测试数据深度挖掘分析,调整了学生体质健康测试评价标准。于近期颁布了新的《国家学生体质健康标准(2014年修订版)》,新标准着重提高《标准》应用的信度、效度和区分度,着重强化其教育激励、反馈调整和引导锻炼的功能,着重提高其教育监测和绩效评价的支撑能力。数据挖掘在学生体质健康测试中的运用可见一斑。
总之,运用数据挖掘(DM)对学生相关数据信息与体质健康测试数据进行关联数据分析,找出体质数据中有用的模式与规则,深入寻找各项指标因素与体质测试数据间的内在相互联系,发现各因素之间的动态变化规律,更为有效地提高学生体质健康水平。
基于学生体质健康测试的数据挖掘模式如图1所示。
图1 学生体质健康测试数据挖掘模式
基于学生体质健康测试的数据挖掘模式其基本过程包括以下三个阶段:
第一阶段:主要以各类数据汇总、待挖掘数据的选择、数据的预处理、数据的缩减等为主的数据仓库建立工作。
数据库挖掘前的准备:数据库中主要包含以下一些数据表,学生来源信息(学号、姓名、班级、生源所在地、城乡等);学生体质健康测试成绩(学号、姓名、性别、班级、身高体重、肺活量、柔韧力量类项目成绩、速度灵巧类项目成绩和耐力类项目成绩等);学生体育课成绩、个体参与锻炼情况等。
定义问题:对目标有一个清晰、明确及可行的定义,即通过相关数据挖掘欲得到的数据结论。如:将学生体育课成绩数据与积累收集的学生体质健康数据相结合,从中挖掘出造成学生体育课成绩与体质健康水平相关联的因素。
建立数据挖掘库:根据所定义的问题,收集学生体质健康测试数据(学号、姓名、性别、班级、身高体重、肺活量、柔韧力量类项目成绩、速度灵巧类项目成绩和耐力类项目成绩等)、学生信息数据(学号、姓名、班级、生源所在地、城乡等)、学生体育课成绩、个体参与锻炼情况等建立数据仓库。同时对噪声数据、空缺数据进行与处理,并将预处理后的数据规范化,转换成数据挖掘算法所要求的格式,完成数据的转换。
第二阶段:通过确定目标、确定算法、数据挖掘以及模式识别和知识评价这几个阶段的工作, 即运用特定的数据挖掘算法,从数据中提取出用户所需要的知识。
分析数据:找出对解决问题有较大影响的数据字段集及决定是否需要定义导出字段等。
准备建摸数据:根据所定义的问题,对数据库中的字段变量、记录进行筛选,并根据现有的变量进行转换,生存新的变量和字段。它主要是指为建立模型准备部分数据的过程。
建立模型:选择一定的挖掘算法,利用相关的数据挖掘工具对数据进行处理。
第三阶段:将系统发现的知识以用户能了解的方式呈现,并且根据需要进行知识的评价。如果发现知识和用户挖掘的目标不一致,则重复以上阶段,最终获得可用知识。
模型的解释和评价:模型建立好后,要有对它的结果进行评价及解释的过程。
实施: 模型建立并验证之后通常有两种使用方法。一种是提供给相关分析人员做参考的行动方案及建议,即对定义问题提出解决方案。另一种是在应用了模型之后, 还需对其实施效果不断地监控, 与具体实施过程出现的问题以及教学实践相结合,及时修订实施方案。
数据挖掘(DM)是一种新兴的信息技术,在许多领域中有着广泛的应用,在体育领域的运用也有一定的普遍性。但数据挖掘在学生体质健康测试数据处理中的实践尚处于起步阶段,相关经验与积累较少,在实际应用还存在以下问题:
首先,缺乏综合能力较强的研究人员。一般基层从事体育研究的人员要么对体育专业知识及运动项目特点较为熟悉,要么对数据挖掘技术运用较为熟悉,在完成某个研究项目过程中需要花费大量的时间和精力进行沟通与协调。在实践中,既熟悉体育知识又熟悉数据挖掘技术的跨学科体育技术人员非常缺乏。
其次,数据挖掘在体育领域的应用虽取得一定成就,但由于起步较晚,在学生体质健康测试数据处理中应用较为有限,虽然在某些方面取得了一些成果,也有效解决了若干运动实践中的问题,但相关的理论性研究还较为缺乏,如相关数据平台的建立、挖掘工具的通用化、大众化还有待进一步开展,这也影响了数据挖掘应用研究的深度和广度,限制了研究成果的进一步推广与运用。
在深化教育改革的形势下,信息技术将起到十分重要的作用。随着教育体制改革的深入开展,素质教育的观念得到普遍认可,“以人为本,健康第一”的教育思想得到深入的贯彻。体育教学是学校体育改革与发展的重要环节,如何推进体育教学的科学化开展至关重要。学生体质健康测试已经成为学校体育工作的重要组成部分,是衡量学校体育教学工作水平的重要指标,也是评价学生体质健康水平的主要依据。利用数据挖掘工具将学生的体质健康测试数据与相关数据结合建立数据仓库,进而对其进行数据挖掘,其结果对体育教学过程中教与学都具有实际指导意义。本文以研究数据挖掘的基本技术原理作为出发点, 构建基于学生体质健康测试的数据挖掘模式,为促使我国的体育教育事业得到进一步的发展抛砖引玉,也为学校体育科研工作提供一些新的研究思路和方法。
[1] 李慧玲,林子.数据仓库和数据挖掘在高校体育数据分析中的应用[J]. 广州体育学院学报,2005(5):126-128.
[2] 谢向阳.数据挖掘在体育数据分析中的研究与应用[J].博硕论坛,2013(23):9-10.
[3] 徐赟,张辉.数据挖掘在体育领域中的应用[J].武汉体育学院学报,2012(11):27-30.
[4] 肖刚云,龙建军,王文莉.试论数据挖掘DM技术在体育领域中应用状况[J].文教资料,2006(10)140-141.
[5] 乔克满,汪德秀.数据挖掘技术在体育领域的研究现状与应用前景[J].巢湖学院学报,2010(3):31-35.
[6] 黄谦,石勇.数据挖掘在体育训练指导中的应用研究[J].广州体育学院学报2009(6):106-111.
[7] 李明,刘洁.刍议数据挖掘在体育信息化中的具体运用[J].电子测试2013(18):255-256.
[责任编辑、校对:东 艳]
On the Application of Data Mining in Students' Physical Fitness Test
XUE Hong-qiang
(Department of Physical Education, Xi'an Aeronautical University, Xi'an 710077, China)
Through the analysis on domestic and overseas literature concerning the application of data mining in the sports field, the author discovers the potential value of data mining in students' physical fitness test and national physical monitoring. The article studies the application of data mining in students' physical fitness test, elaborates on its concept, type, and using method, and brings forth the data mining mode based on students' physical fitness test, thus effectively enhancing their physical fitness level and offering some new ideas and methods to physical workers in universities.
data mining; students' physics; fitness test
2014-07-14
薛红强(1971-),男,江苏镇江人,副教授,从事体育教学与训练方面的研究。
G807.4
A
1008-9233(2014)06-0087-04