SOM和PCA对体质健康数据的模式识别及可视化分析
——以学生体质地域特征为视角

2015-07-23 06:43石晓峰
天津体育学院学报 2015年4期
关键词:可视化体质因子

石晓峰,王 飞,赵 阳



SOM和PCA对体质健康数据的模式识别及可视化分析
——以学生体质地域特征为视角

石晓峰1,王飞2,赵阳2

摘要随着国家学生体质健康数据量的剧增,体质健康的大数据分析及可视化成为体质研究的重要内容。自组织特征映射网络(Se1f-Organizing Map,SOM)方法和主成分分析(Principa1 Component Ana1ysis,PCA)法对处理高维海量数据具有独特优势及可视化特点,从而成为大数据模式识别和可视化分析的重要工具。以山西某高校6 531名学生体质健康数据为例,以学生体质地域差异为视角,用SOM方法定性识别了学生体质健康的地域特征,用可视化PCA方法分析学生体质健康的影响因子及解释因子的地域特征。结论:SOM和PCA方法可用于体质健康数据模式识别和可视化分析。SOM和PCA的实例分析揭示了学生体质的地域特征,分析显示,体重和BMI指标具有地域一致性,是影响学生体质健康的最重要因素,也是学生体质健康现状的主要解释变量;女生体质健康的地域差异相对较大,男生体质健康的地域差异较小;可视化PCA结果还揭示了,学生体质健康指标的聚类特征也具有地域一致性。文章从实证角度论证了SOM和PCA方法在体质健康数据模式识别和可视化分析中的应用,也为体质类大数据分析提供了初步思路。

关键词自组织特征映射网络;主成分分析;模式识别;数据可视化;体质健康;地域特征

适度的体育锻炼和充沛的身体机能是身心健康的重要保障,有规律的体育活动有助于使青少年成长过程中避免诸如肥胖、糖尿病及高血压等顽疾的困扰[1-2],某种程度上还有利于提升并改善学习效能[3-4]。因此,各个国家均设立相应的大学机构,通过对健康促进的研究全面提升青少年群体身心健康水准[5-8]。随着城市化进程的不断推进,各地域间经济水平、城市化复杂程度、社会文化的差异性,以及由此引发的一系列社会环境、生态环境的差异,使得与青少年健康成长密切相关的生产、生活环境发生了根本性改变[5],表现出一定的医学地理特征[9-10],加之体质健康数据量的剧增使得基于大数据模式识别及数据可视化的研究方法逐渐成为体质健康研究的重要内容。长期以来,对学生体质健康的研究多集中于身体形态、身体机能和身体健康等指标参数的描述性统计与分析[11-14],未能充分考虑地域特征的影响,对体质健康大数据反映的体质健康变化模式和规律还缺乏深入、系统的研究。基于自组织映射网络(Self-Organizing Map,SOM)可视化识别体质健康大数据模式特征的定性研究手段,以及探讨主成分分析(Principle Components Analysis,PCA)降维方法对体质大数据影响要素及特征的实证研究尚不多见。因此,本研究以山西某高校学生体质健康数据集为例,以学生体质地域特征为视角,探讨SOM方法对学生体质健康地域特征的定性识别,探讨可视化PCA方法识别学生体质健康的主要影响因子及解释因子的地域性特征。同时,在大数据背景下,SOM和PCA方法将有助于推动体质健康数据模式化识别和可视化相关研究,对学生体质健康地域特征研究具有一定的科学意义和实践价值。

1 研究对象与方法

1.1研究对象

以山西某高校2012级6 351名学生体测数据集为例,并按照山西省的行政区划分11个地区进行地域特征的统计划分,各地域男女生样本数量的分布见图1。

图1 研究对象的地域划分及样本数分布

1.2体质健康指标

依照《国家学生体质健康标准》的相关要求,学生体质测试的参数指标包括基础6项:身高(height)、体重(weight)、BMI (body mess index)、心肺呼吸量(lung)、50 m跑(50 m)和立定跳远(jump)。由于坐位体前屈(bend)指标有正负值共存,难以满足PCA中数据标准化和排序的相关条件,因此,本文PCA分析中不考虑该指标。男生专项指标包括1 000 m和引体向上(pullup),女生专项指标包括800 m和1 min仰卧起坐(1min_sit)。各体质测试指标严格按照《国家学生体质健康标准》的规范方法测定。

1.3研究方法

1.3.1SOM模式识别与可视化方法SOM是一种具有自学习功能的人工神经网络,采用竞争性非监督网络结构,典型的SOM网络包含输入层和输出层2层。SOM网络神经的元结构网络由输入的样本数确定,本研究中神经元类型为六边形神经元,每个神经元均有6个相邻的神经元,神经网络为11×9的矩形网络结构(样本划分为11个地区9个身体素质指标)。确定好神经网络结构和大小后,每个节点的神经元被分配1个初始权重。SOM初始化一般有2种方式,即随机初始化和线性初始化。随机初始化,是随机给每个神经元的向量赋一个较小权重;线性初始化,则是对各神经元向量沿输入数据主特征向量的线性子空间有序赋值[2]。本研究采用的是线性初始化。随后,在神经网络训练过程中,各神经元初始权重通过网络竞争性算法不断被修正,直到该神经元向量的权重和其初始权重间的欧氏距离最小而获胜,该神经元权重向量的变化过程反应了它与周围神经元的拓扑关系,经过数百次迭代(本研究设定200次迭代),直到整个神经网络趋于稳定为止。需要注意的是,为消除样本量大小对SOM网络训练的影响,输入层样本数据需要进行标注化(各值介于0~1)[15]。

本研究中,SOM对体质健康数据的分类是依据数据自身信息的映射结构进行聚类和图像可视化表达,即使用K-means和U-matrix方法对数据特征进行欧式距离计算并分类,其主要步骤为:(1)体质健康矩阵数据经SOM训练划分为二维的图像单位;(2)U-matrix方法对划分的二维图像单位进行聚类,K-means方法计算体质数据可视化的欧式距离;(3)U-matrix图示化相邻数据的相对欧式距离(用灰度阴影图示,灰度较小表示欧式距离较小,黑色表示最大欧式距离即聚类的边界);(4)基于K-means算法,按照U-matrix结构进行数据的空间分割,并获得可视化SOM聚类图。

本文对学生体质地域特征的模式识别及可视化的定性研究采用的SOM分析由Matlab2012b软件编程完成。

1.3.2PCA主成分识别与可视化方法PCA分析是一种普遍使用的数据降维方法,其具体步骤为:(1)数据标准化,最常用的标准化是中心化和离差标准化,中心化可以用数据矩阵行中心化,也可以用数据矩阵列中心化,或者同时用两者中心化;(2)计算属性间内积矩阵;(3)求内积矩阵S的特征根并排序λ1≥λ2≥…≥λn;(4)求特征根所对应的特征向量;(5)求排序坐标矩阵,并计算各个主分量所含信息(各特征根所占特征根之和的百分数);(6)求得各属性的相应负荷量。

本文探讨学生体质健康的主要影响因子及解释因子的地域性差异,采用的可视化PCA分析由R语言“Vegan”包完成,其中(1)和(2)由“Vegan”包中功能函数rda()完成,(3)~(6)由gts.pca被功能函数rda()赋值完成,可视化PCA排序图由功能函数biplot()函数完成。最终,体质健康数据投影在PC1和PC2空间内,实现可视化PCA排序图(平面内黑点代表了所有样本),PCA排序图的解读规则是:变量的箭头越长,表明该变量对体质健康影响越大(影响变量);变量与PC1和PC2轴的夹角越小,表明该变量对体质健康相关性越强,对体质健康的解释越多(解释变量)。

2 讨论与分析

2.1SOM对学生体质地域特征的模式识别及可视化

SOM是一种具有自学习功能的人工神经网络,该神经网络在接受外界多变量输入时,将会分成不同的区域,而不同的区域对不同变量的模式具有不同的响应特征,最终形成一种拓扑意义上的可视化的有序图。SOM可以将任意维度的输入信号以拓扑意义的模式,映射在一个二维分散图上,这种分析方法通常用来分类或识别各输入变量间的关系和模式[2]。由于SOM能够对输入模式进行自组织训练和判断,实现功能相同的神经元在空间分布上的聚集,因其具有直观、形象和可视化的表现特征,而常用于信息学领域对大数据的聚类分析和定性研究[15]。在SOM数据模式识别及可视化研究中,通常有2种方法用来对数据进行分类分析:(1)先聚类分析,然后进行可视化的图像标定和投影,投影后相同类别的数据进行新的图像可视化表达;(2)依据数据自身信息的映射结构进行聚类和图像可视化表达[15]。对于体质健康数据,因其变量的离散性而多采用第2种方法。采用SOM对样本地区不同地域男女生体质特征的模式识别及可视化研究表明:男女生体测参数的地域特征存在差异性,吕梁和长治地区的男生身高和肺活量相对最大,晋中地区男生50 m跑和1 000 m跑成绩相对较差,男生BMI和体重指数变化规律类似,说明相对于身高而言,男生BMI变化主要受体重的影响;男生50 m跑和立定跳远变化规律具有一致性,这可能与其项目要求的短时高爆发力特征相关;阳泉、晋中和忻州地区的女生身高和肺活量指标值相对较大,50 m跑和800 m跑成绩相对较差,女生BMI亦和体重变化规律类似,女生BMI指数变化亦主要受体重影响;50 m跑和立定跳远变化规律的一致性在女生亦有相似体现(见图2、图3)。

SOM对于处理多维度的大数据有着明显的优势,其方法独具可视化能力,能直观反映各参数的变化格局,通过生成各参数的自组织图,可直观地定性化表达特定区间内各参数的分布特征[2,15]。本研究SOM分析中,基于U-matrix和K-means手段进行体质数据特征的欧式距离计算、分类和可视化表达,仅在省内各地区11个维度的聚类和定性分析,藉此反映了学生体质健康地域差异的一般规律。本质上讲,SOM分析计算中,其权重的表达需要使用全部样本数据,所含信息量大,SOM还能将输入空间样本模式有序地映射到输出层上,能将高维数据映射到低维空间清晰地表达,易于发现规律[16]。需要说明的是,选取的变量个数、样本数量和聚类个数会影响SOM的识别效果,但对于给定样本量的数据集而言,基于数据自身信息的映射结构可以有效区分不同类别间的整体变化情况[8]。国际上,基于SOM对体质健康数据的模式识别及可视化分析还处于起步阶段,如K.LAGUS等[17]基于SOM对371名研究者身体素质6项指标和3项病征指标进行了模式识别和可视化,并探讨了身体素质和病征之间的联系;PELLICER-CHENOLL等[2]采用SOM,对西班牙巴塞罗那中学4个学年的学生体能、体质、体成分和学习成绩进行了模式识别,并探讨不同时间段模式的变化特征,证实了较好的身体素质和较好的成绩具有相似的模式特征。

图2 基于SOM的男生体质健康指标的聚类图

图3 基于SOM的女生体质健康指标的聚类图

2.2学生体质健康的主要影响因子及解释因子的地域性差异

PCA是一种通用的降维方法,能将高维的数据通过线性变换,找出最能代表原始数据的投影方法,并将其投影到低维空间上的一种多元统计分析方法。在不同研究领域,PCA的表现方式也各不相同。体质健康数据正是由诸多个体组成的多变量数据体系,一般PCA方法只能进行主成分的识别和划分,难以对全部个体进行可视化的PCA分析。因此,研究中引入生态学领域的排序概念进行体质健康数据处理,以实现可视化的排序图,其本质过程是将各个个体尽可能排列在可视化的低维空间,也就是让最前面的几个排序轴尽可能包含大量的体质健康数据的原始信息。本文中,对体质健康数据可视化PCA的分析正是间接排序方法中基于线性模型分析的一种表现模式。以山西某高校数据集为例的PCA分析之前,需要先进行消除趋势的对应分析,对应分析结果显示,排序前4个轴中最大值均小于2个单位。表明,对样本区域各地区学生(总体,男生和女生)体质健康的主要影响要素分析满足PCA分析的前提条件。

2.2.1学生总体体质健康地域特征的PCA分析样本地区学生体质健康地域特征PCA前四轴统计特征排序结果表明:前四轴累计方差百分比均远大于70%;其中,临汾地区前2个轴累计捕捉方差最大,其特征值λ1和λ2分别为3.696和1.372,共捕捉了84.5%的累计方差;太原地区前2个轴累计捕捉方差相对最小,其特征值λ1和λ2分别为3.321和1.508,共捕捉了80.5%的累计方差(见表1)。

表1 各区域学生总体体质健康指标主成分分析(PCA)前四轴统计特征

应用PCA对样本地区学生体质健康地域特征的可视化分析,揭示了影响不同地域学生体质健康的主要基本指标既有共性也存在差异性,全省及各个地区肺活量、身高和立定跳远3个指标箭头长度最短,表明,省内及各地区学生身体健康受肺活量、身高和立定跳远的影响最小。50 m跑、体重和BMI存在明显的地域差异性。太原、大同、阳泉、晋城、忻州和吕梁的50 m跑均与PC1轴具有很强的正相关性,表明50 m跑是这6个区域学生体质健康的主要基本解释变量;而在其他地区,50 m跑则表现为负相关。此外,体重和BMI与PC1轴还表现出相对较强的相关性,尤其是体重与50 m跑成为长治、朔州、吕梁、晋中和临汾地区学生体质健康的主要基本解释变量。此外,可视化PCA分析还具有聚类功能,学生体质健康指标中肺活量、身高和立定跳远归为一类,BMI和体重归为一类,50 m跑为一类(见图4)。

2.2.2男生体质健康地域特征的PCA分析样本地区男生体质健康地域特征PCA前四轴统计特征的排序结果表明:前四轴累计方差百分比均远大于70%;其中,太原地区前2个轴累计捕捉方差最大,累计捕捉了60.0%的总体方差,其特征值λ1和λ2分别为3.042和1.760;长治地区前2个轴累计捕捉方差相对最小,其特征值λ1和λ2分别为2.406和1.708,共捕捉了51.4%的累计方差(见表2)。

图4 各区域学生总体体质参数的PCA分析

表2 各区域男生体质健康指标的主成分分析(PCA)前四轴统计特征

应用PCA对样本地区男生体质健康地域特征的可视化分析结果表明,影响男生体质健康的主要基本指标存在地域的差异性。其中,体重指标箭头在各地区均相对较长,是全省及各地区影响男生身体健康的首要因子;除阳泉、朔州和晋城,立定跳远亦是其他地区共有的影响因子,阳泉地区,身高是男生体质健康的重要影响因子,肺活量是影响朔州地区男子体质健康的重要因子,50 m跑是影响晋城地区男子身体健康的重要因子。BMI和引体向上与PC1轴夹角相对较小,BMI在长治、晋城、吕梁和运城地区呈负相关,而在其他地区呈正相关;引体向上在大同、阳泉、朔州、忻州和临汾与PC1轴呈负相关,在其他地区呈正相关。因此,BM I和引体向上是省内各区域男生体质健康的主要解释变量。除了大同和临汾,身高和肺活量与PC2轴夹角相对较小,也是这些地区男生体质健康的重要解释变量,而1 000 m跑是大同地区男子体质健康的重要解释因子,50 m跑是临汾地区男子体质健康的重要解释因子。此外,可视化PCA分析还具有聚类功能,除了个别地区外,男生体质健康指标中身高和肺活量聚为一类,BMI和体重属于一类,50 m和1 000 m跑为一类,立定跳远和引体向上为一类(见图5)。

图5 各区域男生体质参数的PCA分析

2.2.3女生体质健康地域特征的PCA分析样本地区女生体质健康地域特征PCA前四轴统计特征的排序结果表明:前四轴累计方差百分比均远大于70%;其中,长治地区前2个轴累计捕捉方差最大,累计捕捉了51.8%的总体方差,其特征值λ1和λ2分别为2.133和2.014;运城地区前2个轴累计捕捉方差相对最小,其特征值λ1和λ2分别为2.040和1.908,共捕捉了49.4%的累计方差(见表3)。

应用PCA对样本地区女生体质健康地域特征的可视化分析结果表明,影响各区域及总体女生体质健康的主要基本指标既有共性也存在差异。其中,体重指标的箭头在各地区均相对较长,是全省及各地区影响女生体质健康的首要因子;除阳泉、大同和长治外,BMI亦是其他地区共有的影响因子;50 m跑是这3个地区女生体质健康的重要影响因子,立定跳远对大同地区女生体质健康影响较大,肺活量对阳泉地区女生体质健康影响较大。除了晋城和临汾地区外,其他各地区BMI指标与PC1轴夹角相对较小,构成了这些地区女生体质健康的共同解释因子;体重是除了太原、忻州和晋中地区外,其他地区女生体质健康的重要解释因子。其他解释因子的地区差异性较为明显,如身高是太原、阳泉、忻州和晋中地区女生体质健康的重要解释因子,而1 min仰卧起坐则是大同、晋城、朔州、吕梁和临汾的重要解释因子。不容忽视的是,这些影响因子与PC1轴和PC2轴的相关性(夹角大小)还存在正负差异性,如长治地区50 m跑与PC2轴正相关性较强,而在临汾地区则表现出较强的负相关。此外,可视化PCA分析还具有聚类功能,女生体质健康指标中,身高和肺活量聚为一类,BM I和体重为一类,50 m和800 m跑为一类,立定跳远和1 min仰卧起坐为一类(见图6)。

本研究引入生态学领域的排序概念,对体质健康数据进行PCA分析,图4~图6的可视化结果较好地展示了不同地域特征下,学生体质健康的影响因子及解释因子。本研究中,PCA方法将数据集中,所有数据通过线性变换,找出最能代表原始数据的投影方法,并将其投影到PC1和PC2所在空间上,并在图中以各黑点代表各单个样本,实现了PCA在体质健康研究领域的可视化表达。目前,PCA在体质健康方面的研究主要集中于主因子识别和提取、数学建模的数据预处理及与其他模型的耦合。如A.R.CALAVALLE等[18]通过台阶试验,对不同心率储备阶段消防员体质健康指标进行了主成分识别和提取;J.ZHOU等[19]对COSMED心肺功能仪器22项指标进行PCA分析,并耦合ANN,进行数据建模。

表3 各区域女生体测参数的主成分分析(PCA)前四轴统计特征

图6 各区域女生体质参数的PCA分析

综上,本文以山西某高校数据集为例,充分探讨了SOM和PCA方法在体质健康大数据中的模式识别和可视化研究。以体质健康地域特征为视角的实证分析中,SOM结果揭示了男女生体重问题成为决定BM I变化的主要因子,PCA结果揭示了大部分地区亦表现出类似的特征。前人研究表明,体质活动与其所居住的环境有着密切的关联,表现出一定的空间差性[20-22]。本研究实证分析结果显示,男生受立定跳远指标(除阳泉、晋城和朔州地区)的影响,女生受BMI影响较大(除大同、阳泉和长治地区)。表明,山西省内各地区男女生存在营养过剩现象,超体重或肥胖问题成为当前影响学生体质健康的主要因素,这与前人研究结果相一致[12,23-25]。此外,BMI更是这些地区学生体质健康的重要解释因子之一(男生除了阳泉地区,女生除了晋城地区)。男女生体质健康的差异还在于,绝大多数地区女生需要控制体重,而男生需要提升引体向上和肺活量的成绩。虽然PCA结果提示,男生身高也是大多数区域学生体质健康的重要解释因子,但在这一年龄段身高已基本定型,通过体育活动提升肺活量是有效改善男生体质健康切实可行的途径。相对于男生体质健康的地域差异而言,女生体质健康的地域差异特征更为明显。太原、阳泉、忻州和晋中地区女生,通过提升肺活量有助于改善和提升体质健康;大同、晋城、朔州和临汾地区则通过提高1 m in仰卧起坐成绩提升女生的体质健康;长治、吕梁、临汾和运城地区女生体质健康的提升,则需要提高50 m跑的成绩。此外,立定跳远成绩的提升有助于大同、长治、朔州和运城地区女生体质健康的提升,而800 m跑成绩的提升仅对晋城地区女生体质健康提升有效。值得注意的是,学生体质健康的提升是身体综合素质共同作用的整体,本研究结果提示,通过针对区域某一具体指标的体育活动有助于该区域体质健康的提升,但以不能忽略和降低其他指标的体育锻炼为前提。

3 结论

SOM和PCA是体质健康数据模式识别和可视化的重要方法,以山西某高校学生体质健康数据为例,SOM和PCA分析结果揭示学生体质健康具有如下地域特征。(1)学生体质健康的体重和BMI指标具有地域一致性,是影响学生体质健康最重要的因素,也是绝大部分地区学生体质健康现状的主要解释变量。(2)女生体质健康的地域差异相对较大,其中,50 m跑、1 m in仰卧起坐和肺活量构成部分地域女生体质健康现状的解释变量;男生体质健康的地域差异较小,除BM I指标之外,男生体质健康受引体向上和肺活量的影响较大,个别地区还与50 m跑和1 000 m跑有关。(3)可视化PCA结果还揭示了学生体质健康指标的聚类特征具有地域一致性,即身高和肺活量属于同一类群,BM I和体重属于同一类群,50 m跑和800 m跑(女生)/1 000 m跑(男生)属于同一类群,立定跳远和1 m in仰卧起坐(女生)/引体向上(男生)属于同一类群。

参考文献:

[1]TSIROS M D,OLDS T,BUCKLEY J D,etal.Health-rela tedqual ityo f lifein obese child renandado l escen ts[J].Intern ationalJournal o fObesi ty, 2009,33(4):387-400.

[2]PELLICER-CHENOLL M,GARCIA-MASS X,MORALES J,et al. Physica l act ivity,physic al fitnessandaca dem icachi eve m entin ado l escen t s:a self-o rga n izingm apsap p ro ach[J].Heal th Educa tio n Resear ch,2015,30(3):1-13.

[3]ERWIN H,FEDEWA A,BEIGHLE A,et al.A quant itative revi ew o f physic alact ivity,heal th,andlearn ing ou tc om es associ ate d w it h classroombased physic al act ivity in te rven t ion s[J].Jou rn al o f App li ed Schoo l Psycho l ogy,2012,28(1):14-36.

[4]KANTOMAAM,TAMMELINT,DEMAKAKOSP,etal.Physica l act ivity,em oti onalandbeha vio u ralp rob l em s,m ate rnaleduca tio nandself-repo rt ed educa tio nalperfo rm ance o fado l escen ts[J].Health Educa tio n Resear ch,2009:cyp 048.

[5]汪晓赞,郭强,金燕,等.中国青少年体育健康促进的理论溯源与框架构建[J].体育科学,2014,34(3):3-14.

[6]COE D P,PIVARNIK J M,WOMACK C J,et al.Effect o f physic al edu cat ion and act ivity levels on aca dem icachi eve m entin child ren[J]. M ed i cineandSciencein Sp ort s andExercise,2006,38(8):1515.

[7]DONNELLY J E,GREENE J L,GIBSON C A,etal.Physica l Activity AcrosstheCurricu lum(PAAC):a rando m izedcont ro lled tria l top rom ot e physic al act ivity and d im in i sh ove rw ei gh tand obesi ty in elem en ta ry schoo l child ren[J].Preven tiveMedi cine,2009,49(4):336-341.

[8]ARDOY D,FERN NDEZ-RODR GUEZ J,JIM NEZ-PAV N D,etal.A Physica l Educa tio n tria l im p rov es ado l escen ts'cog n itive perfo rm ance andaca dem icachi eve m ent:theEDUFIT study[J].Scand inav ian Journal o fMedi cine&Sciencein Sport s,2014,24(1):52-61.

[9]王茜.中国女大学生体质状况的空间变异特征研究[J].科技通报,2012,27(6):853-858.

[10]张莹,刘东宁.步行适宜性人居环境与体质健康关系的研究[J].环境与健康杂志,2013,30(5):449-452.

[11]张宗国.影响《国家学生体质健康标准》测试结果的主客观因素分析[J].体育科学,2009(9):86-91.

[12]吴新宇,付晓春.大学生体重指数与体质健康指标关系的研究[J].北京体育大学学报,2006,29(8):1087-1088.

[13]陈培友,邹玉玲.青少年体质健康标准构建方法研究[J].体育科学,2013,33(11):84-88.

[14]杨漾,陈佩杰,洪茯园,等.上海市2000-2010年学生体质健康状况变化趋势分析[J].中国学校卫生,2012,33(10):1201-1204.

[15]WANG F,WANG X,ZHAO Y,et al.Long-term Water Quali ty Variatio nsandCh lo rophy ll a Sim u la tio nw it h an Em phasis onDifferen t Hyd ro l og i cal Period s in Lake Baiyang d ian,No rth ern Ch ina[J].Jou rn al o fEnvironm ent al In form a tics,2012,20(2):90-102.

[16]DELMELLE E,THILL J C,FURUSETH O,et al.raje cto ries o f m u lti d im ensio nal neig hbou rho od qual ity o f life chang e[J].Urban Stud ies,2013,50(5):923-941.

[17]LAGUS K,VATANEN T,KETTUNEN O,etal.Pathso fwel lbei ngon self-organi zingm aps[M].Berlin:Sp ring er,2013:345-352.

[18]CALAVALLE A R,SISTI D,MENNELLI G,etal.A sim p lem etho d to anal yzeove rall indi vidu al physic al fitnessin firefig hters[J].The Journal o fStren gth&Condi tio ningResea rch,2013,27(3):769-775.

[19]ZHOUJ,GUOA,CELLER B,etal.Fau ltdete ctionandiden tificatio n spanning m u lti p lep roce ssesbyinte grat ing PCA w it h neura l netw ork[J]. App li ed So ftCom pu t ing,2014,14,PartA:4-11.

[20]ZIMRING C,JOSEPH A,NICOLL G L,etal.In fluence s ofbuilding de sign and site desig n on physic al act ivity:researc h and inte rvent ion op p ortu n ities[J].Am e rican Jou rnal o fPreven tive Med i cine,2005,28(2):186-193.

[21]REMMERS T,VAN KANN D,GUBBELS J,et al.Mode rato rs o f the

long itud inal rela tio nship betw een theperce ived physic al envi ronm ent andou tsi d ep layin ch ild ren:theKOALA b irthcoho rtstudy[J].In te rnatio nalJournalo f Beha vio ral Nutri tio n and Physica l Activity,2014,11(150):0150-8.

[22]DREWNOWSKI A,AGGARWAL A,REHM C D,etal.Environm ent s perce ived as obeso geni c have low er reside ntia l p rope rty values[J]. Am eric an Jou rnal o fPreven tiveM ed i cine,2014,47(3):260-274.

[23]洪海潇,苏连勇.天津市大学生BM I指数的15年动态分析[J].首都体育学院学报,2014,26(3):279-283.

[24]蔡忠建,袁建国.大学生体质健康指标的权系数及关联分析[J].上海体育学院学报,2009(2):74-78.

[25]王国军,王辉,席翼.基于模糊评价的体质健康评价隶属函数的建立——兼与2篇论文的商榷[J].天津体育学院学报,2012(6):519-523.

中图分类号:G 80-3

文献标志码:A

文章编号:1005-0000(2015)04-282-06

DOI:10.13297/j.cnki.issn1005-0000.2015.04.002

收稿日期:2015-05-22;修回日期:2015-06-28;录用日期:2005-06-29

基金项目:国家自然科学基金项目(项目编号:41401020);山西省软科学研究计划项目(项目编号:2015041026-4);山西省高等学校创新人才支持计划资助

作者简介:石晓峰(1979-),男,山西太原人,博士,副教授,研究方向为体育教育训练学。

作者单位:1.山西大学体育学院,山西太原030006;2.山西大学体育科学研究所,山西太原030006。

Pattern Recognition and Visualization of Physical Fitness Data using SOM and PCA:Based on Geographical Features Perspective of Student Fitness

SHI Xiaofeng1,WANG Fei2,ZHAO Yang2

(1.Schoo1ofPE,ShanxiUniversity,Taiyuan030006,China;2.SportsScienceResearch Institute,ShanxiUniversity,Taiyuan030006,China)

AbstractWith the data exp1osion on physica1 fitness,big data ana1ysis and data visua1ization have become one of important contents on ado1escent physica1 hea1th research.Data hand1ing techniques of se1f-organizing map ana1ysis(SOM)and princip1e component ana1ysis(PCA)are important methods in pattern recognition and data visua1ization due to their unique features.W ith the scope of geographica1 features perspective based on 6 531 co11ege samp1es,geographica1 patternofphysica1fitnesswasqua1itative1y identified and visua1ized by themeansofSOM.Meanwhi1e,thekey inf1uencing factorsand re1evantexp1ainingvariab1es of physica1 fitness were visua1ized and extracted to demonstrate the geographica1 differences by PCA.Resu1ts showed that SOM and PCA are powerfu1 too1s for pattern recognition and data visua1ization on physica1 fitness research.The ana1ysis of the examp1e indicated the geographica1 consistency of body weight and BMI, whichwerethemostinf1uencing factorsonphysica1fitness,aswe11astheexp1anatory variab1esofphysica1fitnessstatus.The re1ative1argegeographica1differences of physica1 fitness were observed in fema1e ado1escents,but with 1ess geographica1 differences in ma1e ado1escents.The visua1ized PCA resu1ts a1so revea1ed the geographica1 consistency of c1ustering characteristics on physica1 fitness variab1es.The research demonstrated the powerfu1 too1s of SOM and PCA on the physica1 fitnessresearch,andwhicha1soprovidedanew perspective tostudy thephysica1hea1th.

Key wordsSOM;PCA;pattern recognition;data visua1ization;physica1 hea1th;geographica1 feature

猜你喜欢
可视化体质因子
中医“体质”问答
中医“体质”问答
中医“体质”回答
自然资源可视化决策系统
思维可视化
自然资源可视化决策系统
28天吃出易瘦体质
基于知识图谱的我国短道速滑研究可视化分析
山药被称“长寿因子”
直径不超过2的无爪图的2—因子