流动人口高等教育回报率的代际差异
——来自CMDS的证据

2022-02-04 03:17:16王秀芝张雨婷

中国西部 2022年6期

王秀芝张雨婷

一、引言

教育是提高人力资本的重要途径，是促进人类全面发展和实现经济持续增长的源泉和动力。改革开放以来，伴随着市场转型和经济高速发展，我国高等教育的毛入学率已从1995年的8%上升至2021年的57.8%，15岁及以上人口的平均受教育年限也从2010年的9.08年提高至2020年的9.91年。

高校扩招以来，有关我国高等教育回报率的研究也纷纷展开。有学者认为，越来越多的大学生使得我国高等教育回报率存在两种变化：一方面，伴随越来越多的高学历、高技能群体的出现，高技能劳动者供给上升，当劳动力市场的高技能劳动者供过于求时，高技能劳动者收入下降，高、低技能劳动者收入差距缩小，从而导致高技能劳动者教育回报率的进一步下降。另一方面，由于高技能劳动者需求增加，抵消了供给增加带来的影响从而使回报率保持稳定甚至有所升高〔1〕。根据传统人力资本理论，人力资本的积累是实现经济发展的重要途径，知识和技能的提升可以促进生产效率的上升，个人收入与受教育程度成正比〔2〕。作为人力资本投资的主要形式，教育一直被认为是促进经济增长〔3〕、提高收入水平〔4〕、缩小收入差距〔5〕的有效手段。

已有文献使用不同来源数据，从多个视角、利用各类实证方法对我国教育回报率进行了探究。部分学者基于我国教育回报率的代际差异〔6〕、性别差异〔7-10〕、地区差异〔11-12〕、城乡差异〔13-15〕，以及城镇劳动力〔16-18〕或农村劳动力〔19〕等视角展开研究。一些学者基于大学扩招这一自然事件，利用扩招前后不同组数据对高等教育回报率的变化进行实证研究，如姚先国(2014)等基于1998-2009年中国城镇住户调查数据〔20〕，使用双重差分和三重差分方法估计我国扩招政策对大学生毕业后收入的干预效应；刘生龙(2016)等利用断点回归方法验证了高等教育与就业和收入的因果关系〔21〕。还有一些学者基于某一特定年份数据对教育回报率展开不同视角的探究，如郝翠红(2017)等运用2014年中国流动人口动态监测调查数据对不同年代流动群体在各教育阶段教育回报率的估计结果显示〔22〕，高等教育回报率显著高出其他教育阶段。也有学者基于多个年份数据对教育回报率的长期变动趋势及特征进行研究，如刘泽云(2015)使用CHIP数据的估计表明〔23〕，1988—2007年间我国高等教育回报率呈上升趋势；常进雄(2013)等使用CHNS数据的分析显示〔24〕，扩招对大学毕业生工资和教育回报率的负面影响有限，在扩招背景下，上大学仍是不错的选择。然而，随着我国高等教育普及化及民众人力资本的普遍提升，收入与受教育程度之间的正相关关系受到质疑。社会上不乏关于大学生“就业难”“高分低能”，甚至“大学生不如农民工”“读书无用论”等一系列观点〔25〕。有学者提出，尽管劳动力市场对高素质人才需求提高，但由于学历结构调整与市场需求不匹配，导致高等教育的劳动力市场面临“就业难”〔26〕。也有研究发现，大学生数量的增加使得大学文凭逐渐从农村通往城镇的“通行证”变为“敲门砖”，高等教育带来的收益优势也会下降〔27〕。

可以看出，有关高等教育回报率的研究众多，其研究数据和方法也日益丰富。现有文献从不同视角、使用不同的数据和方法探讨了我国高等教育回报问题，但是现有研究还存在若干不足：从研究对象来看，对流动人口高等教育回报率的研究还较少；从研究视角来看，只有较少研究关注我国高等教育群体教育回报率的代际差异，尤其是从微观个体层面考察不同年代大学生高等教育回报率发展和差异的研究更是凤毛麟角。从流动人口及不同地区高等教育回报率代际差异视角的研究仍有待微观大样本数据的证明。

高等教育不仅是个人的人力资本投资，更是进一步缩小收入差距的有效途径。改革开放以来，我国流动人口规模不断上升，而随着产业结构的升级，对流动人口的劳动技能和人力资本提出了更高要求。诚然，高等教育普及同样提高了流动人口的平均受教育水平，那么随着我国高等教育的不断发展，不同年代流动人口的高等教育回报是否存在差异？不同年代大学生由于所处时代的差异，接受的知识与技能不同，那么伴随时间的推进，各年代流动人口教育回报率会有变化吗？

基于此，本文使用2010年和2018年我国流动人口动态监测调查两期数据，探究在我国高等教育快速发展和经济持续转型过程中，不同年代流动人口高等教育回报率的变化。同时，考虑到区域间经济与社会发展存在不平衡，可能对教育回报率产生影响，本文将进一步探讨不同地区流动人口高等教育回报率的代际差异及变化特征，以期为不同地区吸引人才提供实证依据。

二、数据说明与描述统计

1.数据说明

本文数据来自国家卫生健康委的“中国流动人口动态监测调查(China Migrants Dynamic Survey，CMDS)”。该调查自2009年起开展，覆盖全国31个省(区、市)和新疆生产建设兵团，调查对象为15周岁及以上、在流入地居住时间达一个月及以上且非本区(县、市)户口的流入人口，调查内容包括流动人口的基本信息、流动范围、家庭成员、就业、收支和居住等相关信息，每年的样本量近20万户。本文选取2010年和2018年两期数据，总样本量分别为122670个和152000个。

样本选择上主要考虑以下几个方面：第一，研究仅考虑高中及以上学历者。若研究中涵盖中小学群体得到的高等教育回报率含义并不清晰，因为接受高等教育的群体必然接受过中小学基础教育，即高等教育回报率一定程度上也涵盖了中小学的回报率。第二，研究对象仅包括有劳动能力且在职的个体(工具变量回归除外)，剔除了“丧失劳动能力”“退休”“失业”等无法获得收入者。第三，鉴于实证分析将使用配偶受教育程度作为工具变量，研究对象仅限于本人已婚且有配偶的个体。第四，研究使用Mincer收入方程估计教育回报率，其中收入采用工资性收入，故进一步剔除职业为雇主和自营劳动者的观测值。第五，本文使用“上月工资收入”代理收入水平(1)选用“上月工资收入”作为代理变量的说明：“上月工资收入”变量是年度数据，中国流动人口动态监测调查数据(CMDS)自2009年起已调查了10年，在每个调查年份，如2018年，一年中只进行1次调查，调查过程中对受访者进行询问“您个人上个月(或上次就业)收入为多少？”因此，上月工资收入这一变量是年度数据，即被抽样的这位受访者在被访问的这一年的具体一天之前的一个月的工资收入，可以理解为，用受访者某个月份的工资收入来衡量其收入水平，而这个月份是随机抽查的，所以具有代表性。，同时为减小异常值的干扰将收入取对数。在此基础上，根据出生年份将研究对象划分为50-60后(2)由于50-60后流动人口样本量太小，所以将两个年代数据合并为一组进行分析。、70后、80后三个组别。考虑到教育的收益具有一定延迟效应，本文未对90后流动人口展开研究。

2.样本的描述统计分析

本文主要变量的描述统计如表1所示。数据显示，样本中大专学历群体从2010年的18%上升到2018年的28%，增长了10个百分点(详见表1)。

表1 主要变量的描述统计

东部地区样本量较大，中、西部地区样本量较少，但东部地区高等教育流动人口有下降趋势，西部地区则呈上升趋势。流动家庭规模呈上升趋势，2010年人均流动家庭规模为2.87人，2018年上升到3.13人。代际分组上，年轻代流动人口占比远高于年长代群体。

进一步分析不同地区各年代不同受教育水平流动人口的收入水平(详见表1)。整体上，2010年至2018年，各代际间收入的上升趋势显著。受教育水平越高，收入也越高。2010年，在较低学历组(高中学历)，年轻代流动人口的收入相对较高；在较高学历组(大专及以上)，70后收入相对较高。2018年，东部地区较高学历水平的70后群体收入最高，但中西部地区则是50-60后群体。从地区差异来看，各年代流动人口的收入水平从东部到西部整体上呈递减趋势，但值得注意的是，2018年西部地区70后较高学历组的收入开始出现高于同年代中部地区(详见表2)。数据表明，我国流动人口收入水平存在代际差异及地区差异。

表2 不同年代流动人口的收入对数

三、基本模型与计量结果分析

基于拓展的Mincer收入方程，我们对不同年代流动人口高等教育回报率进行估计，设定模型如下：

ln Incomeij=β0j+ β1j*Hij+∑βijXij+εij

(1)

式中，Income为流动人口的工资性收入；H为流动人口高等教育虚拟变量，受过高等教育的流动人口赋值为1，未受过高等教育(即最高学历为高中)的赋值为0；X为控制变量，借鉴刘泽云(2015)的方法〔28〕，仅考虑不被个人高等教育经历影响的控制变量，不考虑研究对象的职业和行业等，避免因工作差异导致高等教育回报率的估计偏差，本文使用的控制变量包括年龄、性别、地区、户籍与流动时长；ε为随机误差项，i指不同的研究个体，j代表研究个体所处的不同年代，即50-60后、70后、80后三个组别。

使用模型(1)进行最小二乘估计，结果详见表3。

回归结果显示，不同年代流动人口的高等教育回报率在地区之间、城乡之间和不同性别之间均存在差异。其中，男性的高等教育回报率高于女性，相较于年轻代群体，年长代的男性性别优势更甚；城镇户口可以显著增加收入，但户籍优势开始减弱；流动时长大部分显著，但影响甚微；在各年份不同年代组别中，中部地区流动人口收入显著低于东部地区，西部地区流动人口收入尽管也显著低于东部地区，但整体上与中部地区差距逐渐缩小甚至有超过中部地区的态势。

研究发现，不同年份各代际流动人口高等教育对收入的正向影响都在1%水平上显著，表明相对于高中学历群体，接受过高等教育的流动人口收入更高，估计结果与描述性统计分析基本一致。从2010年到2018年，50-60后的高等教育回报率上升14个百分点，80后上升4个百分点，70后则呈下降态势。2010年，流动人口高等教育回报率随年龄减少整体呈倒U型的发展趋势，70后流动人口的高等教育回报率最高，其次为50-60后，80后最低。至2018年，高等教育回报优势从70后转移到50-60后。整体而言，年长代流动人口的高等教育回报优势显著高于年轻代。

四、遗漏变量与样本选择性偏差的处理

在使用OLS对模型(1)进行估计时可能存在遗漏变量偏误和样本选择偏差问题。首先考虑遗漏变量偏误问题。影响工资性收入的相关变量同时也影响受教育程度，导致OLS估计结果无法反映是否接受高等教育与工资性收入的因果性影响。工具变量法是解决该问题的常用方法，可以利用一个与主体是否受过高等教育相关但与主体毕业后工资性收入无关的变量。国内外在研究教育回报率时，工具变量的选择有所不同。Angrist(1991)〔29〕和Bound(1995)〔30〕先后使用出生季度作为工具变量进行教育回报率的估计，但由于发达国家对义务教育的要求与我国不同，该工具变量并不适用于本文。邢春冰(2014)等利用2005年和2011年大样本微观数据〔31〕，选用人均移动电话数和人均本地固定电话数作为教育回报的工具变量，结果显示两种工具变量对教育回报在5%的水平上显著，但估计结果并不理想。也有学者运用父母双方以及配偶的受教育年限作为工具变量〔32-33〕，结果表明在运用配偶和父母的受教育年限作为工具变量后的估计值显著高于普通最小二乘估计。结合已有研究及数据可及性，本文选用配偶是否受过高等教育作为工具变量。一方面，样本数据中，相较于配偶的教育水平，父母教育水平的样本量较小；另一方面，夫妻双方的受教育程度有较强的匹配性和相关性〔34〕，是一个强工具变量〔35〕。由此，选用配偶教育水平作为工具变量后，主体是否接受高等教育表示如下：

Hij=δijSij+ΣβijXij+eij

(2)

式中，H为高等教育虚拟变量；S为配偶高等教育虚拟变量，S取1表示配偶受过高等教育，S取0表示配偶最高学历为高中；其他含义同模型(1)。方程(2)即一阶段回归，将其代入回归方程(1)，得到二阶段回归模型(3)：

ln Incomeij=α0jHij+ΣβijXij+εij

(3)

第二个问题是样本选择偏差问题。Heckman(1990)认为在估计过程中，仅能估计到正处于工作状态有收入群体的教育回报率，但忽略了因身体残疾、退休或者仅从事家务工作等群体的收入情况，进而导致估计结果有偏差〔36〕。本文进一步采用Heckman两步法进行样本选择偏差的纠正。先利用全部样本检验样本的选择性偏差问题(包括未就业群体)，将是否参与工作设置为二值选择模型：

P(workij=1|Zij)=Φ(Zijγij)workij=0，1

(4)

将计算出的逆米尔斯比率代入式(2)和式(3)，使用有工资性收入的样本进行工具变量分析。将逆米尔斯比率和式(4)中所有影响主体是否就业的变量Z作为解释变量，重新进行工具变量一阶段回归，得出式(5)：

(5)

将式(5)代入式(3)，重新进行工具变量的二阶段回归，具体结果如式(6)：

(6)

其中，α为纠偏后的高等教育回报率；ij含义同式(1)，式(6)即解决遗漏变量偏误与样本选择性偏差后的Heckman-IV模型。

采用Hausman检验来确认本文中是否存在内生性问题，结果显示，p值小于5%，拒绝主体是否接受高等教育是外生变量的原假设，即研究中主体是否接受高等教育为内生变量。进一步基于式(5)和式(6)使用配偶教育水平作为工具变量，进行Heckman-IV估计的结果见表4。

表4 不同年代流动人口高等教育回报率的Heckman-IV估计

纠正样本选择偏差及内生性问题后的回归结果显示，前述两个年份的Heckman-IV结果均高于OLS估计。在2010年样本中，三个代际的高等教育回报率分别为68%、47%、27.3%，高出OLS回归结果44、14和9.3个百分点，50-60后群体占据2010年高等教育回报率的“制高点”。至2018年，整体上三个代际仍是50-60后占据高位，但三个代际的高等教育回报率变动存在差异。其中，50-60后尽管仍居“高位”，但相较于2010年下降了3.2个百分点，70后与80后分别有不同程度的上升，年轻代80后群体的高等教育回报率从2010年的27.3%上升至37.3%，上升10个百分点，升幅最大。可以看出，我国流动人口高等教育回报率各代际间差异呈收敛态势。在地区差异上，中西部地区的高等教育回报依旧处于劣势，尤其是年轻代流动人口。

五、稳健性检验与异质性分析

1.稳健性检验

接下来，为检验本研究估计结果的稳健性，我们进一步做了两组分析，来证明高等教育流动人口的代际差异。

首先，在对高等教育回报率进行估计时，一般不考虑自我雇佣样本，因为自我雇佣者的收入受诸多因素干扰，并不适用于Mincer收入方程进行教育回报估计。但本研究使用的我国流动人口动态监测调查数据中，关于就业身份为“自营劳动者”以及“雇主”的样本占比较高。所以本文参考刘泽云(2015)的研究，就自我雇佣者对研究估计结果是否产生影响，做进一步的分样本回归：样本一，研究重新加入自我雇佣样本，并将有劳动性收入的自我雇佣样本视为参与劳动力市场(work=1)；样本二，同样加入自我雇佣样本，但将其视为未参与劳动力市场；样本三，即表4的样本，未考虑自我雇佣样本。其中，样本一和样本二采用同样的估计方法与控制变量以及利用配偶是否接受高等教育做工具变量进行回归估计，结果发现三类样本估计结果大致相同(3)限于文章篇幅，具体分析结果在文中略去，如有需要可联系作者索取。。

其次，研究替换了原工具变量，用配偶的受教育年限作为个人是否接受高等教育的工具变量，同样，与样本三采用相同的估计方法与控制变量进行回归估计。估计结果同样表明，使用不同工具变量的估计结果基本一致。

2.不同年代流动人口高等教育回报率的地区差异

为进一步探究各年代流动人口高等教育回报率的地区差异，本文分地区对不同群体的高等教育回报率进行最小二乘估计，并用Heckman-IV解决回归中样本选择性偏差和遗漏变量偏误问题，探究地区间各代际流动人口高等教育回报率的差异，结果详见表5。

从表5可得，上述两年数据均表明：Heckman-IV的估计结果均高于OLS估计，且流动人口高等教育回报率的地区差异仍然存在，除个别年份个别代际外，东部地区各代际的回报率最高，其次是西部地区，中部地区最低；中、西部地区年轻代流动人口的高等教育回报率上升显著。其中，2018年数据显示，中、西部地区70后、80后群体的高等教育回报率超过50后与60后。从代际视角来看，我国各地区年长代高等教育回报率的绝对优势不再，年轻代80后群体的高等教育回报率上升较快。从2010年至2018年，东、中、西部80后流动人口的高等教育回报率分别从38%、28%和30%上升至42%、37%与37%，分别上升4、9、7个百分点。整体上，区域间高等教育回报率差异也呈收敛态势。

六、结论与讨论

本文基于2010年和2018年中国流动人口动态监测调查数据，建立Mincer收入方程，利用Heckman两步法和工具变量法，对各年代流动人口的高等教育回报率进行了估计。研究发现，不同年份各年代群体的高等教育回报率优势显著，但存在代际差异，在解决遗漏变量偏误与选择性偏差问题后，三个代际的高等教育回报率分别从2010年的68%、47%、27.3%变动为2018年的64.8%、51.9%、37.3%(详见表4)，总体而言三个代际的高等教育回报率表现为50-60后最高、70后次之、80后最低。尽管年长代高等教育回报率仍在制高点，但这并不意味着“大学生越来越不值钱”。一方面，高校扩张政策实施以来，年轻代中高等教育群体所占比重上升，其高等教育回报率较年长代低属于正常现象；另一方面，从2010年到2018年，50-60后流动人口高等教育回报率有所下降，70后、80后的回报率均有不同程度上升，代际差异逐渐缩小，呈收敛态势。

此外，流动人口高等教育回报率的地区差异仍然显著。在对我国不同年代群体进行地区间的分样本回归后发现，中西部地区流动人口高等教育回报率仍处于较低水平，但西部地区整体上优于中部地区，一定程度上表明我国西部地区近些年的人才引进政策取得一定成效。同时，年轻代群体的高等教育回报率上升显著，两期数据的实证结果表明，我国东、中、西部地区80后流动人口高等教育回报率分别从38%、28%、30%上升至42%、37%与37%(详见表5)，中西部年轻代群体教育回报率上升更多。整体上，我国区域间各代际流动人口高等教育回报率的差异呈收敛态势。这意味着高学历人口的地区间流动可以起到缩小收入差距的作用。

收入是影响人口和劳动力迁移的重要因素之一，本文的发现表明，高学历人口在追求收入提高而选择流动的过程中，也起到了缩小地区收入差距的作用。高等教育不仅对个体而言是一种必要且有价值的投资，更是进一步缩小我国区域差距的有效途径，读大学并非无用，高等教育作为重要的人力资本投资依然不容忽视。在各地纷纷出台各项人才引进政策的情况下，中西部地区更应该重视人才、尊重人才，吸引更多高学历人才流入。