池州学院 朱元琨
随着当前计算机的广泛普及,出现了各种各样的数据统计分析软件,多元统计分析方法已经广泛应用到各个行业中。近几年来,数理统计学中发展比较迅速的一个分支就是多元统计分析,同时多元统计分析也是数理统计学中对变量问题研究的理论和方法。它使一元统计学在教育管理的问题得到解决。教育现象所涉及的是多个变量,从多方面收集变量并整理变量之间的关系,找出变量之间的关联性。如果利用一元统计方法从数据的多个方面进行分析,将会出现一些问题,由于一元统计方法一次只能分析一个方面,而忽略各个方面之间存在的关系,这样的结果将会导致数据大量的丢失,分析结果不能客观的反映情况。
多元统计分析可以将复杂的事情简单化,每个事物都有其多面性,就需要我们能从多个指标来描述、刻画事物的质以及量,这些各个方面的指标构成的指标体系,每个方面都有其不同的侧重来对一个事物的质进行解释同时也存在多方面的共性,为将这些指标所反应的现象综合起来,从而获得一个综合性的指标。在信息不受损的情况下多元统计分析可以帮助我们将复杂的事情简单化。需要实现多元统计分析方法的分类,可以从主成分分析、因子分析和对应分析等几类多元统计分析方法来实现。
多元统计分析的分组依据就是变量与变量之间的相关性,提高同组中变量之间的相关性,让不同组变量的相关性低变为互不相干,所有变量可以线性的组合。回归分析就是按照客观数量规律,以数学表达式的形式分析,主要应用问题的预测和控制。主成分分析就是从数据中分出少量的主分量,确保数据之间互不干涉,主要应用于通过观察事物的表面现象分析发展规律。因子分析和主成分分析是将大量相关性大的变量转化为少数不相干的综合分析指标进行多元统计分析。主成分分析法就是将原始的数据通过方差和矩阵转换得到,转换后的矩阵是有固定的转换格式。而因子假定分析师数据本身有特定的模型,并满足特定的条件,否则对每个原始矩阵的因子分析可能会是虚假的。主成分系数矩阵式唯一的,也不要求各个成分之间有任何的实际意义。所以因子分析一般被看作主成分分析的扩展,但是具有特殊意义因子的因子核也不是唯一的,对因子分析和元素进行简化,让各个共因子具有实际的意义。
多元回归分析法是定量分析中最为常用的方法,它是通过探索数据之间的客观数量规律,把所要研究的对象以数学方程式的形式表现,并建立计量模型。计量经济模型就是回归分析在应用过程中衍生的,特别是预测模型,建立变量通过自变量变化而变化的数量关系,然后对模型处理的经济问题进行预测和评估。常见的多元回归分析有一个因变量、多个自变量等。
将多个指标综合并简化成少数的综合指标的统计方法就是主成分分析。也就是将大量的原始数据中导出几个主成分变量,并使主成分变量最大地保留原始数据的信息,且变量之间互不相关。主成分分析的目的就是压缩和说明数据,这个统计方法能够用来判别事物的综合指标,并综合性的指标包含信息的说明,从而进一步揭示事物间的客观事实规律。
在一定的程序上,因子分析被视为主成分分析的推广和衍生,它更加深入的研究问题的本质,研究相关矩阵和相关方差阵之间的依赖关系,将多个变量综合成少数的几个变量因子,原始变量和因子之间的关系,就是一种降维的方法。因子分析主要是通过研究变量之间的相关系数矩阵间的内部依赖关系,找到可以代表数据特性的几个随机相关变量,同时这几个变量也是不能测量的,通称为因子分析。
聚类分析是用于研究事物分类的方法,它可以将一批样本或者变量通过性质的亲疏程序进行分类。实际上,将多个数据能够按距离的远近分为若干类别,将同类别的数据能够以很小差别进行分类,将数据间的差别尽量增大。聚类分析法分为以下几类:(1)层次聚类法。层次聚类分析法需要定义分类的距离和分类之间的计算方式。然后再按照距离的远近将数据进行划分,将一定距离内的数据划分为一类,同时确保数据都是一个类别的,另外将所有的数据归为一类,然后再通过数据的间距来划分类别,直到所有的数据归为一类为止。这样处理后的结果就是聚类,最后利用一些指标来确定聚合成几类比较合理,这个分类的数据间的聚合结果中存在这嵌套或层次关系。(2)非层次聚类法。非层次聚类法目的是为了将复杂的事物分成k各类别,在分析确定之前,一般都需要将具体的类别数量进行统计,并利用迭代的方法将整个分析的过程进行分类。首先需要定义一个初始分类,然后不断地迭代将数据分散到不同的类别中,直到每个分类达到标准为止。在迭代的整个计算过程中是不需要存储元素数据和距离矩阵的。因此,这种方式处理后分类将不会出现相互嵌套的聚类结果,这样就能够提高计算速度。以K为均值聚类法是最为常用的非层次聚类法,也成为快速聚类法。(3)智能聚类法。智能聚类法。是在近几年数据库和数据挖掘技术的不断发展,海量数据的聚类分析已经是急需解决的现实问题,是传统方法不能解决的背景下诞生的。首先,数据挖掘面对海量的数据,过高的计算量使传统的聚类分析方法没有实用的价值;其次,传统的方法上,使用距离指标将会使用距离指标不能够处理数据之间的逻辑关系,尤其是连续性、离散性的数据混合的情况;最后,这种方法需要用户提前确定类别数,和计算出可能需要的解决方案来加以判断,这些利用数据挖掘不能实现的现象,就需要利用人工智能的技术来处理。
在我国通货膨胀问题的直接表现就是物价上涨,将12种物价看成变动的12个因变量,将许多物价的变动因素看成自变量,从而建立多对多回归方程,可以更全面、系统地研究问题。
经济效益体系是由多重指标构成的,在经济效益综合评价中有着很重要的作用。指标之间存在一定的相关性,给经济效益综合评价带来一定的困难。一些传统的综合评价方法是在选择权重时具有较大的主观随机性,主成分分析可以用来作经济效益综合评价,并避免重复信息,避免权重选择的人为性特点,可以轻松获得全面客观的评估结果。该方法已应用于中国许多统计学家的实际工作,并取得了积极成果。
如果我们要反映物件情况,就需要对商品的物价进行全面调查来解释说明物价的情况,但是物件之间存在明显的相互依存关系。实际上,物价表现形式可以利用具有代表性商品的价格或者一些综合指数值表现。变量或样本的分类也可以在因子轴形成的空间中进行分类处理。因子分析的目的不仅是找到主因子,还需要对每个因子的含义有所了解。然而通过主成分法获得的主成分解初始载荷矩阵不满足简单的结构原理。每个因子的典型代表变量没有突显出,所以将因子本身的含义很容易被忽略,并且利用该因子解释经济问题也不是很方便。为此,可以旋转因子以获得满意的结果。
对国土经济研究按区域大小进行划分,对各个地区人民的生活水平等级进行划分。这种划分等级合理的分析方法是聚类分析。例如,按照经济效益将企业进行分类划分,按一个企业的多指标进行划分,找出具体的、具有代表性的样品来分析程度相似样品,以筛选出的统计量作为类型依据进行划分。将企业中相似程度大的聚合为一类,将企业彼此之间相似程度比较大的聚合为另一类,不断将企业进行聚合,直到把所有企业分类为止,这样将会形成一个由小到大的分类系统,同时也将整个分类变成了一张聚类图。然后利用因子分析的评价结果以及企业的实际情况再进行具体分类。