王文萍 张琪浙江理工大学经济管理学院
几种横截面数据多元回归分析的方法与分类
王文萍 张琪
浙江理工大学经济管理学院
横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。与时序数据相比较,其区别在于数据的排列标准不同,时序数据是按时间顺序排列的,横截面数据是按照统计单位排列的。因此,横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说必须是同一时间截面上的数据。与时间数据完全一样,横截面数据的统计口径和计算方法(包括价值量的计算方法)也应当是可比的。在分析横截面数据时,应主要注意两个问题:一是异方差问题,由于数据是在某一时期对个体或地域的样本的采集,不同个体或地域本身就存在差异;二是数据的一致性,主要包括变量的样本容量是否一致、样本的取样时期是否一致、数据的统计标准是否一致。
横截面数据 多元回归
分位数回归是一种根据给定影响事物的因素来估计事物条件分位数的基本方法,它不仅具有同变性、渐进性、稳健性等优良的性质,还可以度量给定因素在不同分位点对事物的影响程度,对事物的解释更加全面。
分位数回归具有同变性、渐进性、稳健性利用分位数回归的数学模型对文中的掌趣科技股票数据进行处理,由显著性检验和Wald检验结果,可知在各个分位点建立的模型效果都不佳,对因变量的解释没有指导意义,没有体现出分位数回归的优势,最后证明是数据之间的多重共线性影响了模型的结果。
Tobit模型也称为样本选择模型、受限因变量模型,是因变量满足某种约束条件下取值的模型。
这种模型的特点在于模型包含两个部分,一是表示约束条件的选择方程模型;一种是满足约束条件下的某连续变量方程模型。受限制的连续变量方程模型研究者往往更加感兴趣,但是由于因变量受到某种约束条件的制约,忽略某些不可度量(即:不是观测值,而是通过模型计算得到的变量)的因素将导致受限因变量模型产生样本选择性偏差。
两部模型(two-part model)与Tobit模型有很大的相似之处,也是研究受限因变量问题的模型;但是这两种模型在模型结构形式、估计方法、假设条件等方面也存在一定的区别。Tobit模型的估计方法与模型结构形式有密切关系,不同类型的模型估计方法存在较大的差异,本文按照三种属性特征对Tobit模型进行了分类。
但是,Tobit模型的缺点在于,Tobit模型估计要求两部分模型中解释变量不完全相同,另外系统模型假设随机变量是服从联合正态分布的,违背这两个基本假设,可能导致模型不可估计。
鉴于统计模型的多样性和各种模型的适应性,针对因变量和解释变量的取值性质,可将统计模型分为多种类型。通常将自变量为定性变量的线性模型成为一般线性模型,将因变量为非正统分布的模型成为广义线性模型。如Logistic回归模型、对数线性模型、Cox比例风险模型
Logistic回归采用极大似然估计方法估计模型参数,依据回归函数值对观测数据进行分类。Logistic回归不仅给出具体的分类算法,还能描述影响分类结果的影响因素。这种方法简单实用,很多统计软件可以完成有关的计算,它们应用很广,特别是医学生物学领域和经济管理等研究领域。
聚类分析顾名思义是要“物以类聚”,是对样本或者指标进行分类的一种多元统计分析方法,它处理的对象是大量的样本,要能合理的按照各自的特性来进行合理的分类,在没有先验知识指导的情况下聚类是将数据分到不同类的一个过程,要求同一类中的样本(对象)有很强的相似性,而不同类之间的样本(对象)有很大的差异性。聚类分析将大量数据划分为性质相同的子类,便于了解数据的分布情况,目前应用于模式识别,图像处理,数据压缩等诸多领域,如在市场分析中,通过聚类分析能帮助决策者识别不同特征的客户群以及各客户群的行为特征;在生物工程研究中,聚类分析能够用于推导动植物的分类,按照功能对基因进行划分并获取种群中的固有结构特征;在web信息检索领域,聚类分析能够对web文档进行分类,以便于提高检索的效率。在分析实际问题是使用的聚类方法有很多,如模糊聚类算法,系统聚类法,有序样品聚类法,动态聚类法等,在本章主要介绍系统聚类法和动态聚类法中的K-means法,以及这两种方法的不同之处。
截面数据按照规模变量进行排序,并利用这一排序引入时序数据动态建模的设定方法,即采用差分方程模型形式,对于模拟截面数据中规模变量间隐含的非线性效应具有很大的潜力。使用横截面数据的实证建模中,建模者非常需要考虑先验模型设计在表述变量间规模或空间相关性、亦即函数形式问题方面的不足。数据排序方法使我们能够利用各种现有的时间序列计量经济学技术。当然,对截面数据的排序实验并不违反统计学中随机抽样的基本假定。数据排序的处理是基于已经通过随机抽样方法而收集的数据。所进行的数据排序是为了尝试更有效地按经济规律组织随机数据样本,从而从中获得更多的有用信息。
[1]许玲. 区域高等教育与经济发展水平协调性研究--基于2004年和2011年横截面数据的分析 [J]. 高等教育发展, 2014.01:24~29
[2]秦 朵、刘一萌. 横截面数据变量的规模特征:特征价格建模分析[J]. 统计研究,2015.02, 97~103
[3]唐红涛、朱晴晴. 我国高等教育投入效率实证研究--基于横截面数据的因子分析[J].湖南商学院学报, 2016.02, 101~108
[4]张立军,王瑛,刘菊红.基于贝叶斯判别分析的上市公司财务危机预警模型研究[J].商业研究, 2009(4):112- 114.
[5]田素华. 商务成本的地区间差异与独资FDI进入中国--基于省级横截面数据的实证分析 [J]. 中央财经大学学报,2011.12,91~96