乔克满,孙 卫
身体形态、机能、素质指标的关联分析
乔克满1,孙 卫2
(1.巢湖学院体育系,安徽巢湖238000;2.上海体育学院运动科学学院,上海200438)
以2005年上海市国民体质监测数据库中11 407条20~39岁成年人数据为对象,运用关联规则数据挖掘技术,对市民身体形态、机能和素质中的21项重要体质指标进行了处理和分析,从中得到了一些体质指标关系:肺活量小则握力小、纵跳成绩差,肺活量大则反应速度快;握力小则身体平衡能力较差;握力与身体肥胖程度呈近似反比关系.
体质;身体形态;身体机能;身体素质;关联规则
体质包含了身体形态、身体机能、身体素质、心理素质、适应能力等五个大的方面.其中,身体形态、身体机能和身体素质是当前体质数据采集的主要三大指标群.对三大指标群具体指标项之间联系的研究是体质科研领域广泛关注的一个重要方向.基于传统统计方法对实验数据进行的分析研究,不易发现数据中隐藏较深的潜在规律.人工智能数据挖掘技术的发展为体质研究提供了新思路,在医疗[1]、保险[2]、通信[3]及竞技体育[4,5]等领域得到了广泛应用,可用于对大量的体质数据进行深层次分析,发掘体质指标之间潜在的联系和规律,有利于体质监测方法的改进.
数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[6].它不仅仅局限于对数据的查询和访问,而且能够找出数据之间潜在的联系.在数据挖掘的知识模式中,关联规则模式是比较重要和成熟的一种.
关联规则(Association Rules)又称关联分析,是由Rakesh Agrgwal等人首先提出的一个重要的 KDD研究课题[7],它反映了大量数据中项目之间有趣的关联或相关关系.关联规则是描述在一个事务中事件之间同时出现的规律性知识模式,而体质指标问题的关键是弄清楚各指标项之间的关联关系.因此,体质指标项之间的关系问题很适合于转化为关联规则挖掘问题.
关联规则算法的过程主要分为两步:第一步为挖掘频繁项集.在事务数据库中找出所有支持度满足Support≥Minsup的项目集,即频繁项集或大项集.挖掘频繁项集是关联规则算法的核心部分,占据整个计算量的大部分.它是通过逐层搜索的迭代方法,首先找出所有频繁1-项目集L1,L1用于搜索频繁2-项目集L2,如此类推,直到找不到频繁项集为止.第二步为产生规则,使用频繁项目集产生期望的强规则,产生强关联规则的基本原则是其置信度不小于最小置信度阈值,即Confidence≥Minconf.
3.1 实验环境和数据预处理
实验对象是2005年上海市国民体质监测数据库中的11 407条20~39岁成年人数据.实验平台是微软Windows XP/Windows Server 2003,软件环境为Visual Studio和Access数据库.本实验选取数据库中身体形态(身高、体重等)、身体机能(安静脉搏、肺活量等)和身体素质(纵跳、握力等)21项体质指标,分析它们之间的潜在关联.
原始数据的预处理:1)预处理数据库字段.根据运动人体科学规律,在数据库中创建了BMI指数(体重/身高2)、腰臀比(腰围/臀围)、皮褶厚度、台阶指数等新的指标项.2)缺失值处理.原始数据库中缺失数据所占比率较低,本实验将这些数据(记录)剔除及均值处理.3)连续型等量化数据的离散化处理.把连续型量化数据预处理为相对分布均匀的离散型数据,满足关联规则挖掘实验的数据要求.数据预处理过程中保持了数据的完整性.
3.2 身体形态、机能和素质的挖掘实验
身体形态、身体机能和身体素质,是实验研究的三大指标群.实验设计中,三者既是实验的数据输入项,又是实验的数据输出项.实验的具体过程如图1所示.
图1 挖掘实验流程图
数据挖掘过程中,需要设置和调整阈值参数.按照关联规则原理,首先查找频繁项集,如表1所示:第一列是频繁项集的支持数,第二列为项集的大小,第三列为具体的频繁项集,表1只显示出了一部分的频繁项集.
表1 部分频繁2-项目集
然后根据频繁项集产生关联规则,如表2所示:第一列是关联规则的置信度,第二列是具体的规则.在产生的规则中,绝大多数为已知知识,如表2所示第二条规则,握力小的人群中有79.3%的人背力也小.因而对产生的大量规则,需结合运动人体科学知识做进一步的整理和分析.
表2 部分关联规则
实验获得的规则大致可以分为三类:1)验证型规则,即体质研究专家的观点、论断等得到数据的支持性验证的规则,占了实验产生规则的97%以上;2)含有潜在新知识的规则,即事先未知的、隐含的、潜在有用的知识和信息;3)看似“不合理”的规则,即与传统理论和实践有明显偏差的结果,一般是由于采集或实验方法不当造成的.1)类规则证实了关联规则算法用于体质研究的有效性,也对现有的体质相关知识给予了数据验证.研究中感兴趣的是2)类及3)类规则,如表3所示.
表3 整理后的2)类及3)类规则
?
规则1表示“肺活量小的受访者中有54.2%的握力也小”,该条规则的支持度为13.4%.结合规则2,当体重也较轻时,则有69.9%的受访者握力小.可见握力与肺活量有一定的关系,特别是在体重较轻的人群中,两者关系尤为明显.同理,规则3和4分别反映出肺活量与爆发力以及反应能力之间的关系.肺活量小,纵跳成绩差;肺活量大,反应速度很快.查阅相关文献,并未见肺活量与人体力量、爆发力和反应能力有直接关系.规则5:握力较小的人群中有69.1%的人闭眼单脚站立成绩很差.也就是说,人体力量与自身的协调平衡能力存在某种关联.经查阅文献及咨询专家后,认为这可能是力量、协调平衡能力均与人体柔韧性有关.规则6:“握力大而皮褶厚度小”,反映出握力大小与身体肥胖成反比关系.规则7:欧姆龙体脂率很大而握力较小,反映出与规则6相似的规律.结合身高、体重、BMI指数以及背力来考虑,发现背力大小与身体的肥胖程度近似成正比关系,而握力大小则与身体肥胖程度近似成反比关系.
关联规则的数据挖掘技术,可以在海量数据中发现那些事先不为人知的知识和信息,能很好的应用于体育有关领域的研究.体质监测数据的关联规则挖掘实验,证明了关联规则数据挖掘技术应用的有效性和可行性.通过运用关联规则的数据挖掘方法,对身体形态、机能和素质的多项指标的分析,从中发现了一些异乎寻常的有趣关联.如:1)肺活量大小与人体力量、爆发力以及反应能力均有一定的关系;2)握力大小与身体协调平衡能力成近似正比关系;3)身体肥胖程度与背力大小成近似正比关系,与握力大小成近似反比关系.但实践是检验真理的唯一标准,下一步的工作拟通过实验的方法来检验这些规则的真伪性与实用性.
致谢:本文实验结果的解析得到了上海体育学院运动科学学院庄洁副教授悉心指导和帮助,特此致谢!
[1]杨杰,沈利,胡英.结合数据融合和数据挖掘的医疗监护报警[J].计算机仿真,2000(6):39-41.
[2]赵丹.数据挖掘技术在社会保险决策分析上的应用[J].信息技术,2007(5):122-124.
[3]贾琳,李明.基于数据挖掘的电信客户流失模型的建立与实现[J].计算机工程与应用,2004(4):185-187.
[4]戴敏,唐树刚.基于关联规则挖掘的运动员体能指标优化分析[J].天津理工学院学报,2001(3):76-79.
[5]高洪歌,赵会群.关联规则挖掘在乒乓球比赛技战术分析中的应用[J].北方工业大学学报,2006,18(1):15-20.
[6]Fayyad U,Piatetsky-Shapiro G,Smyth P.The KDD process for extracting useful knowledge from volumes of data[J].Communications of the ACM,1996,39 (11):27-34.
[7]Agrawal R,Imielinski T,Swami A.Mining Association Rules Between Sets of Items in Large Databases [M]//Proc of Very Large Data Bases Conf.San Francisco:Morgan Kaufmann,1993:207-216.
Association analysis on indices of body pattern,function and content
QIAO Keman1,SUN Wei2
(1.Department.P E,Chaohu College,Chaohu Anhui 238000,China;
2.School of Kinesiology,Shanghai University of Sport,Shanghai 200438,China)
Based on the 11407 data of adult between 20 and 39 in the database of citizens’fitness in shanghai and through association rules,this paper analyzed the citizens’body pattern,function and content and obtained the following potential relationship:low vital capacity shows low grip and low jump,high vital capacity shows quick speed,low grip reflects bad body balance,and nearly inverse ration between grip and body fatness.
fitness;body pattern;body function;body content;association rules
G80
A
1671-9476(2010)05-0144-03
2010-02-17;
2010-05-11
乔克满(1979-),男,安徽宿松人,讲师,硕士,研究方向为体育信息管理.