杨宝雷
体育统计学中统计距离之研究
杨宝雷
滁州职业技术学院体育部,安徽滁州,239000。
体育统计学在体育科研领域中的作用越来越突出,但是其应用明显的落后于体育科研的实际需要;统计距离的思想和构造方法以及与其他统计思想和方法的联系构成了统计分析的基础,此基础性的作用能帮助人们较容易地理解一元和多元统计分析中的诸多统计思想和方法。
体育;统计学;统计距离;研究
近年来,随着计算机技术的发展,开辟了统计学在体育科研领域中应用的广阔前景,越来越多的统计分析方法已应用于体育科研领域,并取得了一定的成绩。当前,正确地使用统计分析来解决有关的实际问题,已经成为衡量研究体育工作水平先进性、科学性的一个重要标志。但是,在对体育问题的实际处理中,统计分析方法的利用率和应用效果依然不高,而且人们常常是固定研究单一的因素以外的因素来进行分析,结果很难从整体上对问题进行描述和判断,这与广大体育研究者对多元统计分析的思想和方法不了解有很大关系。正因为如此,有必要使部分有些统计知识的体育工作者首先从统计思想上较容易地去理解一元和多元统计分析诸多方法中的基本思想甚至一些基本统计量的构造过程及其含义。统计距离的含义、思想及其构造过程在一元和多元体育统计分析的诸多统计思想和方法中,都体现出重要价值所在,以其基础性的作用几乎贯穿整个体育统计学的始终。因此,将统计距离的内容专门提出来供广大具备些统计知识的同行交流学习,提高自身统计分析方法的应用能力以适应体育科学发展的需要。
在体育训练、教学中,对于不同训练、教学方法的作用效果,往往会通过设定的某些同类指标前后之间的差异来体现。仅仅进行一次或几次的实验测量,可以让人直接地想到:对这些设定的同类指标数值作出简单的减法就可获得数据上的直观认识,就形如绝对距离或欧氏距离,在数轴上只是计算出点与点之间的直线距离。然而,对上述问题进行多次测量,涉及不同量纲的变量指标时,若依然采用该方法来处理时,将使问题变得非常麻烦,几乎无法对问题进行科学的分析。尽管绝对距离或欧氏距离考虑不到变量间的量纲问题以及变量样本数据之间的离散情况,但其从思想上直观地启发了人们在顾忌到这两个方面而去思考构建可以处理此类问题的距离形式。变量指标的每一次抽样,会得到不完全一样的数据集合,使得数据的集中趋势和离散情况有所不同,其中蕴含着数据的重要信息,这正是值得探究的问题实质所在。数据的离散情况在统计学中常用方差或协方差;集中趋度则用均值或均值向量来表示。体育统计中这两个统计量构成了其他绝大多数统计量的基础,无论是一元统计还是多元统计,在考虑了变量数据的集中趋度和离散程度后,对于变量数据间的差异依然是从其直观的距离算起。因此,可以考虑引入“统计”上的距离。
在对某种体育问题进行计量分析时,经常会出现以抽样得到的样本数据来推测整体的情况。很多时候要考虑变量间或变量与某个参考值之间的差异,绝对距离或欧氏距离此时已不再适用。例如,进行维变量=对应维空间的点考察时,就其相关性和变差的情况而言(设位置可变),则需统计距离来体现。统计距离的思想及其作用几乎贯穿于体育统计学的始终。
根据问题的需要,统计距离的分子可以有多种变化,如在一元统计分析中,在衡量样本均值距总体均值的差异大小时,可以用,对于我们研究的实际问题时,负值并不显现特别的意义,所以把绝对值的符号去掉,差值取正数,又如在衡量两个总体的均值差异大小时,并结合假设检验时,统计距离的分子就变成,其他变化形式视情况而定;分母中的标准差变化也随着研究问题的情况而定,但是要和分子形式的意义保持一致,例如考察两个总体间均值差异大小的问题时,对于两个正态总体:,;分别抽取一个样本:和,在假设时,统计距离的分母取(两个样本的加权标准差),这时统计距离变为下式(可以理解为的距离是加权标准差的倍数):=
在多元统计分析中,统计距离的分子形式就变成变量的向量内积形式,分子在表示直观的变量向量间的差异时可以取不同的向量之差内积形式如,也可以是自身变量的内积形式(分母为协方差阵,它的选择视情况而定,两者结合就可以根据研究问题的不同而构造出不同的统计距离。
实际问题表现出的数据在没经过整理时,是杂乱无序的,没什么规律可寻,又是抽样得到的,不能完全反映实际问题的总体状况。基于总体一般是庞大的、人为把握不了的,抽样仅得到的是部分数据;人们在应对各种体育实际问题时希望在这样看似无序的数据中发现规律性的东西,来揭示反映事物内部及不同事物之间联系的本质。体育工作者在科研中会面临多样性问题的考量,比如:推测所研究总体的情况;不同总体间的比较与联系的问题;影响问题的主要因素是哪些;某个问题内部影响问题的各因素之间的联系;以样本观测值建立的模型来预测相关事件将来可能发展的走势;在体育领域根据专业知识将大体感识到的相近或相似的对象相聚成类;或依从既有成熟的分类法则将新遇到的研究对象进行近距离归类等。
在面对上述问题时,人们往往会产生以样本观测值与所研究问题期望值的差异情况来衡量样本对总体的推测情况;而对于研究不同总体间的比较问题时,通常会利用各自得到的抽样数据来完成差异上的比较;在建模过程中对待定参数采取极大似然法及最小二乘法进行核定和检验等。这些通过“差异”的直观想法对问题进行统计分析,在面临不同维度时,通常以不同的距离形式来表现,正如前面论述的绝对距离、欧氏距离、统计距离以及协方差的形式(也可以看作是一种特殊距离)。无论在一元统计分析还是在多元统计分析中,统计距离都有其优良的统计性质,正是因为统计距离一方面几乎兼容其他几种距离的形式和性质,另一方面它考虑到所研究问题数据分布的性质(数据差异波动大小,数据集中趋度),所以它可以根据问题的不同而构造出相对应的统计量,再配以小概率原则等,从而衍生出其他类别的统计方法如随机变量的分布、假设检验等,能处理很多统计问题,因此它成为统计分析的基础。
统计分析中,常用的距离有欧氏距离、马氏距离、向量的内积等。统计距离,当是一元统计分析问题时,分子可以是或等,分母可以是或等形式,但是须根据问题的需要而定;当是多元统计分析的问题时,分子就是向量内积的不同形式,分母为单位矩阵时,它就是欧氏距离,当取时就是马氏距离,若是有总体参数参与,则取变量的协方差阵,如果需要,也可以取其他的正定矩阵。上述是结合一元和多元统计分析对变量的不同形式要求,对统计距离的构造形式给予剖析的,但在实际运用时不可以机械套用,要根据研究问题的实质和所取得的数据特征对变量的限制,决定如何使用统计距离。
在了解统计距离的构造和思想后,下面来看看统计距离有哪些优缺点。
其协方差矩阵变换成:
由上式可知,原数据点X、中心化数据矩阵X在施加可逆矩阵T做出变换后,旧点(或矩阵)之间的距离和新点(或矩阵)之间的距离是相等的;换成另一种说法即是中心化数据经过可逆性转换后产生了标准化数据,这两种数据形式测算出来的点间距离相同,同时揭示了统计距离的计算与指标变量的单位无关(计量单位亦属于可逆性变换的范畴)。统计距离的这种优越性质,在体育科研领域中可将具有不同计量单位的指标变量进行统筹考量,也是其应用价值所在。
统计距离虽然与体育项目不同指标变量间的计量单位无关,但是它将所有指标变量的作用等同视之,使得重要变量的作用不突出,而对影响力小的变量作用夸大了,属于缺点。
统计距离的思想源于人们对体育现实问题“差异”化寻求的想法,也是启示我们考虑体育统计问题时的一种基本指导思路;统计距离的构造过程让我们对体育统计学中的许多统计量的构建及其统计思想能较容易的理解。以统计距离的思想、构建过程及其参与构建别的统计量的过程为主线结合随机变量的分布、小概率原则、区间估计、假设检验等基本原理和方法,在对体育统计诸多知识点的获取上会来得轻松些;统计距离也正是一元和多元统计分析的基础,几乎贯穿始终,应用十分广泛。很好的理解及应用统计距离有助于我们理解很多统计分析方法中的思想和应用方法,可以有效地避免对公式的生搬硬套,也有助于我们发现新的统计量。
[1] 张润楚.多元统计分析[M].北京:科学出版社,2006,9.
[2] 唐守正.多元统计分析方法[M].北京:中国林业出版社,1986,10.
[3] 〔美〕Richard A·Johnson, Dean W·Wicheren.陆璇等译.实用多元统计分析[M].北京:清华大学出版社,2001,4.
[4] 赵开斌.关于统计距离的一点注记[J].安庆师范学院学报(自然科学版),2002(8).
[5] 李鹏飞.多元质量特性过程能力分析与控制[D].天津大学管理学院,2006,1.
[6] 赵书祥.实用体育统计学.北京[M]:北京体育大学出版社,2005,10.
[7] 祁国鹰.体育用多元分析[M].北京:北京体育大学出版社,1998,12.
Statistics From the Sports Statistics in the Study
YANG Baolei
Dept of P.E., Chuzhou Vocational And Technical College, Chuzhou Anhui, 239000, China.
Sports statistics is more and more prominent in the sports scientificresearch domain function, but its application obvious backwardness tosports scientific research actual need; The statistical distancethought and the structure method as well as constituted thestatistical analysis foundation with other statistical thought and themethod relation, this foundational function can help a people easierunderstanding Yuan with many Yuan statistical analysis in manystatistical thought and the method.
Statistics distance; Methods; A peacekeeping; Multivariate
G80-32
A
1007―6891(2016)06―0005―03
2016-05-11
安徽省高校人文社科重点项目:环巢湖体育旅游产业升级策略研究——基于长三角区域居民体育旅游意愿的实证(SK2015A718)。