美国个人收入影响因素实证分析

2016-11-08 03:22李璐伊
国际商务财会 2016年9期
关键词:中西部系数变量

李璐伊

【摘要】本文使用Stata14软件,42 368个样本容量,运用线性回归的方法对美国个人收入影响因素进行了实证分析。文章分别分析了地区与教育,工作时间结合年龄和受教育情况,以及婚姻状况对美国个人收入的影响。经过计算分析,模型的结果能够解释以上所有因素对19.4%的个人收入的影响。除此之外,可能影响收入的因素还包括工种,种族,是否接受工作培训和健康状况。

【关键词】美国个人收入线性回归影响因素Stata14

【中图分类号】F817

一、引言

在文章《美国各州间收入不均衡:进一步证据》中,作者Ram指出美国个人的收入不均衡已成为当代社会的热点,并且各州间高度的收入不均衡很有可能降低美国的经济年增长率(Ramet al.,2015)。鉴于收入平等的重要性,笔者发现能够影响个人收入的因素包括所处地区,年龄,工作时间等。研究的目的是指出有可能缩小个人收入的差距的方法来实现收入均衡。

文章专注于分析2015年影响美国个人收入的因素。具体来说,笔者运用多次回归的方法,用地区,工作时间和婚姻状态作为解释变量。人们所处的地区是否会对收入有影响?如果是,地区会如何影响收入?已婚人士是否更有可能挣得更多?这些问题都会在文章中一一解答。

二、经济理论的应用

本文中使用的经济学概念与研究方法包括:多次回归,假设检验,(当两个回归量出现时)使用交互项,以及使用工具变量(James Stock et al.,2015)。通过建立虚变量来给变量编号,并且为了避免多重共线性,建立的虚变量的个数会比参加回归的变量总个数少一个。

三、实证分析

(一)数据来源

本文中的数据来源于IPUMS CPS(美国当代人口调查)(https://cps.ipums.org/cps/),该数据库是一个整合了美国当代人口调查信息的公用微观数据库。对于样本容量的选择,一开始选择了从2000~ 2015年的所有数据以观察这15年来人们的收入变化。然而,这样巨大的样本数量不但增加结论的不确定性,而且会削弱线性回归的准确性。因此,根据样本数据的完整性与多样性,选择了2015年的42 368个有效样本容量来进行分析。

(二)变量选择

本文共选取了4个因素:所处地区,性别,婚姻状态与受教育程度。这些因素可能导致人们收入变化的相关因素。为了更好的管理数据,建立需变量并相应地归类了数据。例如,建立需变量“longhr? swork”(较长工作时间)并让其等于0。根据该方法将那些每周工作超过40小时的人的需变量改成了1,而工作时间小于或等于40小时的则被标为0。这种方法在其他变量的分类中也被应用了。下图是对所有回归量和收入的概述。

四、实证结论

(一)所处地区和教育水平对收入的影响

根据美国的地域,划分为美国东北部,中西部,西部和南部。将东北部设为需变量,并标注为1,其余地区的需变量标注为0。研究美国东北部相对其余三个地区的收入情况。结果如表1所示。

教育在决定人们的收入水平中扮演着不可或缺的作用。通过观察变量“教育”的t检验值并且通过假设检验,可以总结出教育在决定收入水平方面的重要作用。

鉴于教育的重要性,获得高等教育的机会是否与人们所处的地区(美国东北部,中西部,等等)有关。通过联合假设检验可以得到:获得高等教育的机会与人们所处的地区高度正相关。因此,对在个人收入,教育水平,与交互项(教育*地区)之间进行了多次回归:

预计收入=常数项+β1教育+β2东北部+β3交互项(教育×东北部)+其他因素

其中,交互项(教育×东北部)代表了在不同地区,是否接受高等教育对于收入的影响。因此,预计收入不仅取决于教育,也取决于交互项。为了简化,现在只有东北部的需变量包括在内,所以研究的是在美国东北部的人们相比在美国其他地区的人们,其教育对收入的影响。结果显示,个人收入的各因素系数为:教育水平(大学)系数为40 425.47,东北部系数为2 836.433,教育×东北部系数为2 053.75,常数系数为32 476.58。

Stata显示:

预计收入(东北部) =β0+β2+(β1+β3)教育=35 313.013+42 479.22教育

预计收入(全国其他地区) =β0+β1教育=32 476.58+40 425.47教育

如果将该结果用图像表示,东北部的回归线会有更高的截距与更大的斜率。这个结论意味着因为东北部的人们受教育的程度高而有更高的收入,因此身处东北部的人们意味着有更高的收入。

然而,只包含了“东北部”与“全国其他地区”的线性回归会带来片面的结论。这是因为该回归仅仅对比了身处东北部与全国其他地区在收入方面的表现,而实际上,全国其他地区包含了南部,西部和中西部。因此,作为参照对象的“全国其他地区”本身就是多种多样的。例如,如果在南部和中西部的人们挣得比东北部的人要少,而西部的人们挣得比东北部的人们要多,那么在“全国其他地区”里上上下下的变化会导致变量“东北部”前的系数不准确,产生有倾向性的结果。解决这类问题最好的办法是将参照对象“全国其他地区”拆解开,给每个地区(南部,西部,中西部)各设一个变量(这样就拥有了同质的参照量),并且为了避免多重共线性而省略一个地区变量。

为了拥有一个同质的参照量,给每个地区都建了单独的需变量。此外,仍然保留了“教育”这个需变量。采用前面的数据归类方法,获得高等教育的人被编为1,而没有获得高等教育的人被编为0。

在新的回归中,设置了四个地区变量“西部”、“南部”、“中西部”和“东北部”,参照量是“中西部”。为了避免多重共线性,省略了变量“中西部”来观察身处非中西部地区时地区和教育程度对收入水平的影响。根据软件Stata14建立的模型,结果显示,个人收入各因素的系数为:教育水平(大学)系数为40 811.28;东北部系数为5740.014;南部系数为2 636.747;西部系数为2640.162;常数系数为30 369.3。

预计收入=β0+β1教育+β2东北部+β3南部+β4西部+其他因素

预计收入=30 369+40 811教育+5740东北部+ 2 636南部+2 640西部+其他因素

因为在所有地区变量前的系数(例:教育水平系数=40811.28)都为正,身处东北部,南部和西部都比中西部更有可能提高个人收入。为了验证在非中西部地区比中西部地区能够显著的提高收入,对数据进行了显著性测定,发现t检验值落在了否性区域中(假设该分布为正态分布)。因此,可以总结出受过高等教育且身处非中西部地区的劳动者能够显著地提高个人收入,而身处中西部的劳动者的收入相比于非中西部的会更低。

(二)工作时间对收入的影响

除了所处地理位置可以影响个人收入外,工作时间也是影响收入水平的因素之一。而且,工作时间越长对提高收入有更积极的作用。为了验证这个假设,将工作时间与年龄和教育水平捆绑来分析工作时间对收入的影响。

首先,将工作时间与年龄捆绑并分析了他们对收入的影响。将那些每周工作超过40小时的人编号为1,而那些工作时间等于或少于40小时的人编号为0。同样的,年龄高于30岁的劳动力被编为1,而年龄等于或小于30岁的被编为0。并且建了交互项(年龄*工作时间)来显示随着年龄的变化,工作时间的长短是怎样影响收入的,结果显示,个人收入因素的系数为:工作时间(>40小时/周)系数为21 516.1;年龄(>30)系数为22 996.31;年龄×工作时间系数为22 970.97;常数系数为25 063.91。

预计收入=β0+β1工作时间+β2年龄+β3交互项(年龄×工作时间)

年龄大于30且工作时间高于40小时/周:

预计收入=β0+β1工作时间+β2年龄+β3交互项(年龄×工作时间)=92 547.29

年龄大于30且工作时间低于等于40小时/周:预计收入=β0+β2年龄=48 060.22

结果显示,在回归方程中,保持年龄不变,工作时间每周高于40小时的人比工作时间低于40小时的人的工资高了将近两倍。结果表明,工作时间长对于提高人们的收入有着积极的影响。除此之外,联合假设检验中落在否定区域中的t检验值意味着长时间工作和收入水平的重要关系。

第二,除了年龄与工作时间对收入的影响,笔者结合了工作时间和教育水平分析了他们和收入之间的关系。建立交互项来显示微分效应。具体地说,保持教育程度不变,分析了工作时间如何影响个人收入。在分析中,学历为本科及以上的人的编号为1,否则为0。结果显示,个人收入各因素系数为:工作实际(>40小时/周)系数为21 600.89;教育水平(大学)系数为31 723.52;大学×工作时间系数为23 698.74;常数系数为30 372.61。

预计收入=β0+β1工作时间+β2教育+β3交互项(教育×工作时间)

本科学历及以上且工作时间高于40小时/周:预计收入=β0+β1工作时间+β2教育+β3交互项(教育×工作时间)=107 395.76

本科学历及以上且工作时间等于小于40小时/周:预计收入=β0+β2教育=62 096.13

因此,尽管两个回归方程中的对象都有本科学历(教育=1),更长的工作时间意味着更高的收入。除此之外,工作时间长的人有更高的收入不仅仅是因为他们工作了更长时间,还因为交互项前的系数为正。

总而言之,工作时间高于每周40小时在统计上对于提高个人收入有显著地正面影响。更重要的是,如果高学历与长时间工作相结合,个人收入会有更显著的提升。

(三)婚姻状态对收入的影响

婚姻不仅会影响人的情感状态,还会对收入与社会地位产生重要影响,这一点在男性身上尤其突出,因此将婚姻状态列为影响个人收入的最重要的因素。将婚姻状态变量作为内衍变量,使用年龄作为工具,运用了工具变量的方法。具体来说,年龄是一个很好的工具,出于以下两个原因。第一,年龄和婚姻状态密切相关(往往当人们年龄增长时,婚姻状态也随之改变);第二,年龄与回归方程中的其他因素不相关。因此,年龄是预测婚姻状态的一个很好的工具。这种关系可以被写成:

预估婚姻状态=π0+π1年龄+vi,vi是误差项

通过预测婚姻状态,使用回归方程来分析婚姻状态对个人收入的影响。内衍变量是通过婚姻状态和年龄预测出来。此回归方程同样包括其他的外变量:性别,受教育程度,工作时间,所处地区。如果已婚,婚姻状态被编为1,否则为0。结果显示个人收入在美国各地区与婚姻状况的相关影响系数为:婚姻系数为50 964.69;南部系数为-2 999.916;西部系数为:-3 247.854;性别(男性)15 588.76;教育水平(大学)系数为27 059.81;工作时间(>40小时/周)系数为27 750.87;中西部系数为-7 922.997;常数系数为1 769.368。

预计收入=β0+β1婚姻状态+β2性别+β3教育+β4工作时间+β5南部+β6西部+β7中西部

从回归方程中可以得到,考虑到将婚姻状态作为内衍变量,已婚人士每年相对于未婚人士收入高$50695。假设该分布为正态分布,z检测值是47.61并在3个标准偏差之外。该结果的置信度为99%,因此,得出已婚人士更有可能有更高的个人收入的结论。在运行了回归方程之后,为了检验婚姻状态变量是否真的为一个内衍变量进行了内衍变量测试,并得到了以下结果:

假设:婚姻状态是外生的。检验这一假设后得到的两个检验值(Durbin and Wu-Hausman)都有很小的p值,那么就有理由推翻虚假设并总结出婚姻状态是个内衍变量并和年龄密切相关。因此,统计分析显示已婚人士更有可能有更高的个人收入。

五、总结与讨论

本文使用Stata14软件,对2015年美国个人收入的相关数据,运用线性回归的方法重点分析了地区,工作时间与婚姻状态对个人收入的影响。得到结论为:身处美国东北部更有可能有更高的收入,而处于中西部的收入会偏低;工作时间越长和已婚都能够提高个人收入。虽然该模型分析结论比较可靠,但是也有一定的局限性。比如模型中解释收入变化的因素,R-决定系数只有0.194(所有因素只能够解释19.4%的收入变化)。说明还有许多其他能够解释收入变化的因素没有被包括进来。例如,人们的工种,种族,能否参加工作训练,健康状况都可能解释收入变化。如果能够更深入的研究分析数据,可以对影响收入变化的因素有更全面的分析。

主要参考文献:

[1]Ram, Rati. Real and Nominal Interstate Income inequality in the United States: Further Evidence[J].United States. International Advances in Economic Research .2015,21.1:131-132.

[2]James Stock,Mark Watson.Introduction to Econometrics[J].England.PearsonEducationLimited.2015:407-461.

猜你喜欢
中西部系数变量
对中西部高校多用些心
2018中国海归就业创业调查报告:东北和中西部人才流失严重
农民工回流释放中西部崛起积极信号
小小糕点师
苹果屋
嬉水
对中西部高校多用些心
分离变量法:常见的通性通法
不可忽视变量的离散与连续
轻松把握变量之间的关系