梁玉成,周文,中山大学 社会学与社会工作系,广东 广州 510275
郝令昕,约翰·霍普金斯大学 社会学系,马里兰 巴尔的摩 21218
刘河庆,中山大学 社会学与社会工作系,广东 广州 510275
流出地调查法:农村流动人口调查的理论与实践
梁玉成,周文*,中山大学 社会学与社会工作系,广东 广州 510275
郝令昕,约翰·霍普金斯大学 社会学系,马里兰 巴尔的摩 21218
刘河庆,中山大学 社会学与社会工作系,广东 广州 510275
随着中国城市化、工业化进程的不断深入,有关农村流动人口的新的议题将不断增多,研究将日益深入。到目前为止,绝大多数有关农村流动人口的研究使用的都是通过流入地调查法收集的。本文首先分析了农村流动人口流入地调查法存在的难以克服的抽样框问题、样本选择性问题、追踪调查难的问题和系统误差问题,在此基础之上提出农村流动人口的流出地调查法,并从理论和实践两个维度证明其在减少调查系统误差、提高样本代表性、更具操作性以及可追踪性等几个重要的方面具有巨大的优势。结合“中国劳动力动态调查(CLDS)”数据,探索了农村流动人口的流出地调查法所拓展出的新的研究空间。
农村流动人口;流入地调查法;流出地调查法
我国的城镇化、工业化进程,造成大规模人口迁移,尤其是农村人口的迁移。近年来,学术界广泛地开展了对这一领域的研究[1][2][3]。随着相关研究的不断深入,愈来愈多的研究是建立在科学的抽样方法所获得的大规模的调查数据。
我们统计了2004年至2014年,发表于《中国社会科学》、《社会学研究》以及《社会》等三个学术期刊中有关农村流动人口量化研究的论文,对其调查方法进行统计分析。这3个重要刊物在这11年间一共发表了54篇论文,其中31.48%(17篇)的文章是使用大型综合性调查数据中的农村流动人口子样本开展研究的(例如中国综合社会调查CGSS、中国社会状况调查GSS以及中国居民收入调查CHIP等),其余68.52%(37篇文章)是使用专门针对农村流动人口的调查数据开展的研究。
具体分析这37篇专门针对农村流动人口的调查所使用的数据,其调查范围均是区域性的调查数据,并均在农村流动人口的流入城市开展的;从抽样方法来看,其中27篇文章使用的是配额抽样、街头拦截、偶遇抽样等非概率抽样方法;3篇使用的是通过多阶段分层随机抽样、整群抽样等概率抽样方法获得的数据;其余7篇未交待具体抽样方法,在此不做讨论。
无论是综合调查数据,还是专门针对流动人口的调查数据,其对农村流动人口的调查均是发生在农村流动人口的流入地——城市及其周边地区,我们将其统称为流入地调查法。下面我们将针对农村流动人口的流入地调查法,从抽样框的分类角度,对其调查抽样方法进行分析。
(一)有抽样框的农村流动人口调查
上世纪90年代初期开展抽样调查的时候,往往采取户籍登记册作为抽样框来抽样。当时城市流动人口不多,同时户籍管理严格,户籍登记册基本涵盖了该社区绝大多数人口,将其用于抽取家庭户的抽样框误差不大。
时至今日,针对农村流动人口的调查显然不能再采用这种户籍登记册作为抽样框的方法了。农村流动人口在城市没有进行户籍登记,户籍登记册中没有包括流入地农村流动人口。目前在城市建立流动人口抽样框的方法有两种:一种是运用政府掌握的流动人口登记资料库作为抽样框,一种是研究者自建抽样框。
1. 依据政府掌握的流动人口登记资料建立抽样框
我国流动人口管理部门建立了流动人口登记资料库,该数据库由社区的警务处和出租屋登记管理中心、居委会等部门进行登记,每季度更新一次[4]。国家人口计生委从2009年开始开展的流动人口动态监测调查,就是使用这个数据库作为抽样框。流动人口动态监测调查以该数据库为抽样框,采取重点抽样和多阶段样本与规模成比例抽样(PPS)相结合的方法,对农业流动人口和非农流动人口进行入户调查[5]。由于该数据库是由政府部门收集,往往只有行政部门才能获得和使用,一般的学术性调查,仅可以通过关系获得局部省市的数据,很难获得全国数据库。此外,该数据库存在着登记管理不善和更新不及时等问题。因此,学术性的农村流动人口调查,往往是通过其他途径来解决抽样框问题。
2.研究者自建抽样框
政府掌握的流动人口登记资料库既难于获得,也存在着系统误差,因此学者们根据研究内容及对象的特点,尝试建立替代性的抽样框。
(1)适应性区群抽样法
自建抽样框的解决方案中,最值得提及的,是由陈传波、白南生和赵延东等人提出的适应性区群抽样(Adaptive Cluster Sampling,简称ACS)。这种抽样方法又称网络抽样,它的特征是一个或多个抽样单位的抽取取决于前一阶段对同样类型抽样单位的抽取。前一阶段超过一定阈值的抽样单位,依据社会距离或地理距离,向四面外推抽取下一轮的抽样单位,通过若干轮次的抽取,最后抽取的若干邻接单位形成连在一起的聚集网。这种方法较好地结合农村流动人口群体聚集性高这一属性,不需要提前建立抽样框,而是在调查过程中逐渐建立。该方法的调查集中于城市中的农村流动人口聚集区,调查效率高[6]。他们于2007年运用ACS方法对北京地区的农村流动人口进行调查,并根据调查地的实际情况对ACS方法的阈值设定、抽样阶段等加以改进,取得了很好的调查效果(某个社区外推轮次达到4次)。
但该方法有其局限性,陈传波等人在文中坦言,由于ACS方法调查的样本规模模糊,故十分受限于阈值的设定,阈值设定是否合理往往关乎整个调查的成败。因此ACS方法开展调查的不确定性比较大[7]。另外,这种调查方式需要多轮次,而且每一轮次都在上一轮次结束之后才能进行,因此过程复杂,调查成本高。如果是一个针对全国的农村流动人口调查,使用该方法显然很难操作。
(2)农村流动人口聚集行业抽样框
由清华大学与中国社会科学院于2006年联合开展的关于建筑业农村流动人口的生产、生活及权益保障等方面的调查,就采用了在城市根据在建项目的名单随机抽选项目,然后根据每个在建项目的建筑工名单随机抽选建筑工的方式进行[8]。显然,这种自建替代性抽样框进行抽样的方法只适用于特定的研究目标。例如上述调查,其目标就在于研究建筑业中的农村流动人口,那些在非登记的在建项目中从事建筑工作的农村流动人口群体,如从事家庭装修的散工,该调查就无法捕获。
(3)地图法抽样框
近年来,在我国的综合性的调查中,往往采取地图法抽样来建立抽样框,但必须说明的是,这类调查往往不是专门针对流动人口,而是针对全部人口开展的。目前国内社会科学界几个大型的全国性调查,如北京大学的中国家庭追踪调查(CFPS)、人民大学的中国综合社会调查(CGSS),中山大学的中国劳动力动态追踪调查(CLDS)以及中国社科院的中国综合社会调查(GSS)等,均采取地图地址法抽样的方式进行末端抽样[9]。
这种方法的基本原理是用社区中的住宅列表替代家庭户籍列表作为抽样框,通过绘制社区建筑物地图,清理建筑物的住宅,将社区所有住宅的清单列表制作出来作为抽样框抽样[10],由于住宅基本与家庭一一对应,而且住宅不会流动,所以这种方法在国内综合调查中越来越普及。
但是,由于综合性调查针对的是全部人口,而常住人口与流动人口的空间分布存在巨大的差异:城市中,常住人口更多的居住在城市的中心地带,农村流动人口则更多的居住在城市的边缘地带。综合社会调查越多地强调其对常住人口的代表性,也就会越多地降低其对流动人口的代表性。实际上,综合社会调查中采用PPS抽样所获得的居委会样本往往多分布在城市核心区域,这样的样本有着较高的城镇常住人口的代表性,对流动人口的代表性通常比较差。
另外,这种综合性的调查由于不是专门针对流动人口,有的调查在抽样框的制作过程中就将流动人口大量集中的工厂集体宿舍排除出去。例如由北京大学主持收集的中国家庭追踪调查(CFPS)因为专门针对家庭做调查,在社区抽样框的制作的时候就将工厂宿舍、商铺等均排除在外了,这使得那些居住在工厂宿舍、商铺的人难以成为调查对象。另外,即使调查机构在研究设计中将工厂集体宿舍制作进入抽样框,由于工厂和社区分属不同的部门管理,在实际执行过程中,出现工厂宿舍无法进入的情况也无法避免。总体上,城市地图法抽样框法,通常造成大量在工厂集体宿舍中居住的农村流动人口被低估。农村流动人口的宿舍体制、工厂管理体制都是研究新工人阶级形成的一个非常重要的议题[11][12],主要的研究都只是质性研究而没有量化研究,就已经说明了这一问题。
(二)无抽样框抽样:非概率抽样
非概率抽样由于其灵活性、易用性,特别是调查总体边界难以界定时,学者往往使用这种方法进行调查[13]。农民工群体由于总体难以确定,一部分调查回避了抽样框问题,采用偶遇抽样、判断抽样、配额抽样、立意抽样等非概率抽样的方法开展研究。
例如由中山大学劳动研究中心主持开展的2006-2009年珠三角农民工调查,以及于2010年开展的珠三角和长三角农村流动人口调查,按照各市外来人口相对比例作为样本分配依据,并控制性别等主要指标,采取配额抽样与偶遇抽样相结合的方法来获取样本[14][15]。
有些研究采用了判断抽样与概率抽样相结合的方法,例如2010年开展的“环境与健康:深圳外来务工人员调查研究”则采用了多阶段分层抽样和判断抽样相结合来获取数据,在调查区县的选取与街道和工厂的选取上,结合了分层抽样与目的性抽样,对流动人口的行业分布、工厂和街道的数量等进行调整[16]。
值得注意的是,有农村流动人口调查将某个工厂的所有工人作为调查对象来获取调查数据,这种抽样方法虽然对于工厂内的工人属于普查,但是对于工厂而言仍属于非概率抽样的范畴。例如任义科、杜海峰等在深圳市进行的外来流动人口调查,他们采取了按照不同特征农民工群体(男女比例)抽取5个公司,将各个公司所有员工作为调查对象的抽样方法[17]。
还有一部分的研究采用了依据研究目的立意抽样的方式,例如1994年由中国社科院社会学研究所外来农村流动人口课题组开展的调查,他们在珠江三角洲深圳、东莞、广州等6个城市9个镇中的149个工厂进行调查,在工厂的选择和工人的选择上,都根据研究的目的进行想要的配额和调整[18]。
这类无抽样框下的非概率抽样,在最好的情况下,也仅能用于探讨农村流动人口现象中的相关关系,无法描述该群体的总体特征。其所获得的样本价值很大程度上依赖于研究者事先的经验和知识,具有较高程度的不确定性。
(三) 流入地调查法存在的问题
1.样本选择性问题
城市作为农村流动人口的主要流入地,并非全部进城的农村流动人口都可以长期在城市生存下来,因此,在城市被观察到的农村流动人口是具有选择性的群体,使用城市观察到的农村流动人口样本来推论全部农村流动人口会造成一定的选择性偏误(selection bias)[19][20]。
已有的研究也证实了这一点。农村流动人口在城市长期定居意愿的研究发现,那些在迁入地工作稳定、工作时间长、家庭式流动以及在工作地已经买房的流动人口,长期定居的意愿更加强烈,否则,则长期定居的意愿更弱[21][22]。那些不具备条件而长期定居意愿更弱的流出人口,倾向于离开城市或返回农村——针对农村流动人口在城-乡之间“钟摆式”流动的研究发现,随着农民在城市务工的时间增长,城市务工的净收益逐渐少于农村务工的净收益,导致农村流动人口的返乡*实际上,移民的迁移过程并非一步到位就抵达迁移的最终目的地,他们是在不断的寻找更为适宜的工作、生活的地点,只有在找到合适的迁移目的地时,他们的长期定居意愿才会形成,这就是所谓的“逐步移民(step migration)”。[23]。
综合而言,能够在流入地长期生存下来的农村流动人口是一个不断的“正向选择”的结果[24],只有有能力者才能长期在城市生存下来,而那些在扣除迁移成本之后其在城市获得的收益低于农村收益的农村流出人口,随着时间推移则返回了农村。因此,农村的流动人口应该包括三个群体:(1)在城市生存下来的群体,他们能够被流入地调查法观察到;(2)无法在城市生存下来,已经返回家乡的群体,这类群体无法被流入地调查法观察到;(3)那些临时回农村家里处理婚丧嫁娶、田稼收割等乡村事物的农村流动人口。因此,基于流入地调查收集农村流动人口数据开展的研究很可能会产生严重的选择性偏差,导致研究上会高估流动的回报。
2.难以开展追踪调查
相对于截面调查数据来说,追踪调查获得的数据在探索复杂的社会现象,回答各种社会理论与实践问题、特别是探索社会现象的因果关系的过程中,具有明显的优势和十分重要的作用[25]。近年来几项新的全国性综合社会调查,如北京大学的家庭追踪调查、中山大学的劳动力动态调查,都开展了追踪调查。
对于追踪调查而言,社会发展变迁和人口的流动往往是造成追踪成功与否的重要原因[26][27][28]。追踪调查在实践中,往往需要确保绝大多数调查对象的空间位置不会发生变化,当样本中的调查对象发生空间流动时,追踪调查就会遭受极大的困难甚至失败[29]。对城市居住的各类人口而言,农村流动人口群体从居住地点的变化来说,是其中变动频次最高的群体,这种巨大的变动性造成了对农村流动人口的追踪调查难以开展,国内目前还没有任何基于流入地成功开展的关于农村流动人口的追踪数据。
3.系统性误差
农村流动人口流入地调查还有一个难以克服的系统性误差问题,是由流入地调查抽样设计带来的。流入地调查的设计思路将城市作为农村流动人口的惟一流入地,因此流入地调查均是在城市中进行的。
但以城市为流入地的农村流动人口调查只关注了农村流动人口的乡-城流动,忽略了农村流动人口的乡-乡流动,造成了对农村流动人口研究的系统性误差。该误差究竟有多大?根据马小红、段成荣等人的研究,乡-乡流动人口在所有流动人口中所占比例为12.69%,而在所有农村流动人口中所占比例为20.04%[30]。
综上所述,农村流动人口的流入地调查方法存在着重大的方法论上的隐患,导致其研究议题受限、研究结果可靠性下降、研究价值降低,急需新的调查方法克服其缺点。
与流入地调查法相对应的,是农村流动人口的流出地调查法。实际上,该方法很早就有实践。国家统计局农村社会经济调查司,农村调查总队等机构早在1995年就开始开展农村调查,关注农村劳动力的外流以及农村的发展[31]。但由于各种原因,这类调查没有受到学术界的关注,数据也很少向学术界公开。下面我们将讨论该方法的理论,并通过我们实施的中国劳动力动态调查(CLDS)在该方法上的实践,系统地介绍农村流动人口的流出地调查法。
(一)农村流动人口流出地调查方法
流出地调查的抽样和执行过程分为三步,分别为抽取村委会,抽取样本家户,通过家人代答方式调查家户内全部流出人口。只要这三个步骤都采取了随机原则,则抽取的村委会对全国农村具有代表性,抽取的家庭具有全村的代表性,从家庭中抽取的流出人口则具有了全国代表性。
第一步是抽取村委会。这一步采用的是有放回的与人口数量成比例的不等概率抽样(PPS)的方法进行抽样。在该步骤中,根据多阶段随机抽样,考虑东、中、西部样本比例,抽取县、区作为初级抽样单元(PSU);在县、区内根据与人口规模成比例的原则随机抽取乡镇,然后获取被选中的乡镇的村居总体名册,及其所包含的人口数量。
第二步是抽取样本户。这一步要在村委会中按照随机的原则抽选合适数量的样本户。随着目前农村人口的流入和流出情况越来越普遍,目前基本上也都采用地图法的方法制作抽样框,从中随机抽取村民样本户地址。如村中有完善的户籍登记册且流动人口比例较低,使用户籍册作为抽样框,抽样误差会低于地图法。
第三步是通过家人代答方式调查家户内全部流出人口,即居住在该地址的村民户中,户籍在该样本户中,目前不在本户居住的,年龄在调查范围内的所有跨乡镇街道外出的个体,由家人代为回答有关问题*在实际调查中,当然不只调查家中的流出人口,还要调查该农户的家庭情况,在家的每个人的情况。对于流出人口,家人能够代答的问题实际上是受限的,只能问那些家人了解的,并且比较重要的核心问题,且数量不可能过多。。
(二)流出地调查的优势
1.充分的农村流动人口代表性
与流入地调查相比,流出地调查较好地解决了抽样框问题。尽管农村流动人口的外出地点和就业地域分布范围广,但他们户籍仍然是农业户籍,大多在农村依然保留着土地、住房和家人,农村流出人口仍然作为家庭人口的一部分而存在。因此,从流出地进行调查,农村流出人口是一个可以确定的总体,可以将农村户做为抽样框,实施严格的随机抽样[32]。因此,只要我们抽取的农村的村社区具有代表性,从村社区中抽取的农民家庭户具有代表性,则这些农民家庭户的流出人口就对全部农村流出人口具有代表性。
按照这样的方法开展调查,不仅可以观察到那些流动到城市的农村流动人口,也可以同等地观察到那些流动到其他地区的农村流动人口。这就将城市流入地调查法造成的20%左右的系统误差补救回来。因此,农村流动人口的流出地抽样能够更充分地体现农村流动人口的代表性。
2.有效解决样本选择性问题
自2008年金融危机之后,“农民工返乡”与“民工荒”成为热门话题。据农业部2009年统计,提前返乡的农民工数量达到2 000多万,大约占农民工就业总量的15.00%左右[33]。但流入地调查中,这种大量的返乡农村流出人口不能被观测到,农村流动人口的流入地调查数据所存在的较大的样本选择性问题造成研究的不可能。而在农村流动人口的流出地进行的农村流动人口调查,在调查农村外出成员的同时,还能够调查到两类返乡人口:一是曾经流出但现在已经返乡安居的人口,二是临时返乡仍将流入城市的人口。也就是说,流出地调查数据不仅可以观察到在流入地生存下来的样本,同时还能观察到在流出地失败而返回的流出人口,从而较为妥善地解决了样本选择性问题。
3.对农村流动人口开展追踪调查
通过对中国营养健康调查数据的追踪损耗的研究,梁玉成发现,我国作为发展中国家处于迅速转型时期,年轻人由于地域流动性太大,造成了相对于其他年龄段人口大很多的追踪损耗,建议应考虑通过家庭中年长者的代答来解决追踪问题[27]。同理,对于农村流动人口,他们的基本且关键的信息,作为家人了解的可能性非常高,通过在其流出地的家人的代答,使得对农村流动人口的追踪研究成为可能。虽然流动人口流入地在不断地变化,但他们在农村的根却是固定的。除非流动人口将整个家庭的全部人口迁入城市,他就一定能够通过家人代答的形式被追踪到,从而使得对其的追踪调查成为可能。
4.更高的访问应答率
流出地调查相对于流出地调查来说,还有一个优势在于农村相对于城市而言,其调查拒访率更低。农村社区由于社会信任比较高,农民的空余时间比较多等,访问的成功率往往高于城市居民。城市社区由于人际信任及自我保护意识等多种因素,更加倾向于拒绝访问。研究实证也证明了这一点,居住在城市社区的家户拒访发生比是居住在农村社区拒访发生比的5.1倍[34]。因此,农村流动人口的流出地调查的低访问拒绝率造成其样本选择性是低于流入地调查的,样本系统性偏误更小。
(三)CLDS对农村流动人口流出地调查的实践
中山大学主持的“中国劳动力动态追踪调查”(CLDS)在全国按照PPS抽样抽取有代表性的村居样本;在各村居中,采用绘制地图制作抽样框的方法进行调查家庭抽样。相对于其他全国性综合调查的数据来说,CLDS没有对城市样本进行加抽,农村社区数量的比例更加接近全国的真实水平。在2012年调查的303个社区中,有172个农村社区,占比56.76%;2014年第二轮调查加入了轮换样本,调查的村居个数为401个,农村社区的数量为226个,仍然占56.36%。而在一些其他全国性调查中,研究者为了研究的需要,往往对城市样本进行加抽,比如由中国人民大学中国调查数据中心主持收集的中国综合社会调查(CGSS)系列数据中,2010年农村社区的比例为38.08%,2008年该比例为33.73%。因此,CLDS的数据抽取的农村具有全国代表性,更适合流出地调查农村流出劳动力。
流出地如何调查农村流入劳动力呢?CLDS的家庭部分设计了家庭成员情况表,收集每一个家庭成员的年龄、性别、民族、工作状况、职业等基本信息,对于没在家的家庭成员,询问其何时离家。对于符合条件的农村外出劳动力,CLDS采取家人代答和电话追踪的方式进行信息收集。
家人代答。对于已经不同住的家庭劳动力,只要满足下面几个条件,CLDS需要家庭成员代答该家庭成员的更多信息。这几个条件分别是“15-64岁”、“目前还是本村的农村户籍”和“跨乡镇街道外出”。这保证了我们在城市流入地调查的农村流动人口和农村流出地调查的流动人口具有可比性。通过家人代答的信息主要有他第一次外出工作的时间、目前是否有工作、现居住地、孩子数量、回家频率、在流入地是否买房、是否有过工伤等,这些信息都是一般情况下家人会了解的,因此对这些信息进行代答设置是比较合理的。为了提高完成率,CLDS分别在调查员和被访问家庭两个方面进行了物质激励,2014年CLDS代答的外出成员问卷数量为7 050份,代答成功率为81.42%。
电话追踪。对于被调查者可能不太清楚的调查问题,CLDS采用电话调查的方式,直接与流出劳动力通话,通过电话直接访问获得调查信息。电话调查需要回答的信息主要是具体的职业信息,比如目前的平均每月、每周和每天工作时间、工作的收入等信息。电话调查的具体操作是,在访问过程中由调查家庭被访者提供该外出成员的电话,在调查家庭被访者的协助下电话完成调查。由于这个过程涉及不信任等诸多原因,2012年第一次调查时电话调查的成功率不高,所以2014年CLDS放弃了电话追踪并改进了代答问卷的设计,将每月、每周和每天工作时间等过于具体的问题舍弃,对于工作收入等信息,采用收入区间作为选项的方式,由家庭成员代答收集。
以跨乡镇街道外出为农村流动人口的标准并排除学生和退休等状况,2014年7月到10月期间,CLDS在农村流出地通过家人代答收集到15-64岁的农村户籍流动人口5 908个;同时CLDS在城市流入地,通过地图法抽样收集到15-64岁的农村外出成员数据1 147个*值得指出来的是,CLDS的流入地农村流动人口样本在研究设计上已经做了大量改进。为了增加流入地流动人口的入样概率,减少样本偏误,CLDS一方面在抽样框的制作过程中尽力将工厂宿舍区包括进来;另一方面,在抽样设计上对流动人口聚集小区增加了抽样。2014年CLDS调查在城市地区调查到跨乡镇街道外出的流动劳动力2 412人(包括非城市地区的流动人口及非农村户籍的流动人口),占城市劳动力的比重为26.37%,这个比例与国家2.6亿流动人口占7亿左右城市人口的比例接近。。下面,我们将使用CLDS在流入地和流出地分别获得的农村流动人口数据,从横截面对比和追踪数据对比两个维度,对两种调查方法收集的数据进行对比分析。
(一)横截面数据对比
1.人口学差异
CLDS数据中,从农村流出地调查到的流动人口平均年龄为32岁,而从城市流入地调查到的农村流动人口平均年龄为36岁,流出地调查容易遗漏低年龄的流动人口或者高估高年龄的流动人口。从性别来看,流出地调查的农村流动人口男性占比为62.16%,而从流入地调查到的农村流动人口男性比例为47.25%。事实上农村人口男性比重更大,而且男性外出的可能性更高,农村流出人口男性的比重应该比女性更大才合理。因此,流出地调查容易遗漏男性流动人口而高估女性流动人口。
图1左边是农村流出地调查的流动人口年龄性别金字塔,而右边是从城市流入地调查到的流动人口年龄性别金字塔。从两图的比较中可以看到流入地调查确实增大了高年龄组农村流动人口的比例,低年龄组的男性被低估的情况比较严重。在21-30岁几个年龄组上,男性农村劳动力所占的百分比被低估了1.00%以上,女性劳动力所占的劳动力被低估了0.50%左右。相反,高年龄组的男性和女性均被高估了,尤其是女性劳动力,在45-60岁几个年龄组上,女性农村劳动力所占的比例被高估接近1.00%。
图1 流入地-流出地农村流动人口年龄性别金字塔对比
2.社会学差异
首先我们分析两种不同调查法所获得的样本在职业上的差异。在表1中,我们首先比较流出地样本和流入地样本的工作状况差异。首先,在流入地样本中,从未工作的比例提高了。流入地样本中从未工作过的劳动力所占比例达到3.82%,而在流出地样本中所占的比例仅仅为0.88%。其次,流入地样本中的临时性就业被大大低估了,流出地样本中临时性就业的比例为16.71%,而流入地样本中只有7.84%。这个结果也符合一般的经验,临时性就业人群由于居住地点不定,居住时间不定,流入地调查以家户作为抽样框的方式很难捕捉到这些人。其次,和从未工作的人群一样,失业/下岗人员的比例在流入地样本中也被高估了。最后,在流入地样本中,操持家务的比重被大大提高了。流出地样本中,操持家务的比例为1.80%,而在流入地样本中,该比例占到10.29%。在具体的调查实践中,从未工作过、失业、下岗和操持家务这几类人员由于未工作,在家的概率比在岗人员的概率高很多,被成功访问到的可能性也相对于其他群体高。
表1 流出地与流入地农村流动人口调查样本的比较 (单位:%)
从职业类型来看,流入地调查样本中生产、运输设备操作及有关人员的比例较低,而商业、服务业人员的比重较高。这个结果和前面讨论流入地流动人口调查抽样框问题的讨论结果类似,生产、运输设备操作及有关人员更大可能住在集体宿舍中,这部分人在流入地样本中更可能被低估。另外,在流入地样本中,个体户的比例显著的提高了。从实际从事调查的经验来看,主要由于个体户时间比较闲散,并且不像工厂那样难以接触,在调查过程中,经常会出现在家庭中调查到个体户时,调查员随着被访者一起来到店里,被访者边工作边接受调查的情况。这种情况在工厂车间中是很难出现的。
我们接下来看看两种不同调查法所获得的农村流动人口在教育、婚姻状况上的差异。在教育程度的比较中,在流入地样本中低教育程度的流动人口被一定程度的低估:在流出地样本中,小学程度的人所占比例为24.45%,而在流入地样本中的比例为22.34%;在流出地样本中,初中教育程度的人所占比例为49.84%,而在流入地样本中的比例为44.59%。
而在婚姻状况的比较中,我们发现流入地调查样本中未婚人口被严重低估了:在流出地样本中,未婚的样本所占比例为33.90%,而在流入地样本中的未婚比例仅为17.43%,低估了将近一半。这个结果和前面所讨论的,流入地调查更高的几率会遗漏大量未婚的、聚集在工厂集体宿舍的劳动力。
综上所述,从横截面数据来比,农村流动人口的流出地调查法所获得的数据,在人口学和社会学意义上说,都远较流入地调查法所获得的数据为优。
(二)追踪数据对比
2012年抽样的3 003个农村外出成员中,2014年能够继续追到的有1 915个,追踪成功率为63.77%*中国劳动力动态追踪调查(CLDS)中,非流动人口追踪成功率为66.31%;全部人口的追踪成功率为63.24%,因此,流动人口的追踪成功率是不低的。另外,在36.76%的未追踪到的全部劳动力中,有4.72%是由于被访者家庭搬出社区而不能继续追踪造成的。;而2012年抽样的1 476个城市流动人口中,2014年能够继续追踪调查到的有479个,追踪成功率为32.45%。表2区分了流入地样本和流出地样本,分别分析了不同群体追踪成功率。
从出生世代来看,在流出地样本中,越是年轻的群体追踪成功的概率越高,比如1981年之后出生的劳动力,追踪成功率达到71.70%以上,形成对比的是,在流入地样本中,越是年轻的群体,追踪成功的可能性越低。1991-1999年出生的劳动力,追踪成功率只有21.14%。这显示出通过家庭年长者代答流动性较强的年轻家庭成员的信息,从而完成年轻群体的追踪访问这个方案是可行的。
表2 流出地样本与流入地样本追踪成功率比较 (单位:%)
从职业类型来看,就业人员特别是临时性就业人员,由于其工作及居住流动性大,往往追踪成功率比较低。在流出地调查中,临时性就业群体的追踪成功率是最高的;而在流入地样本中,临时性就业的追踪成功率是最低的,只有26.42%。另外,像全职、半职就业群体的追踪成功率在流出地样本中均极大的高于流入地样本。全职、半职就业群体在流出地样本中的追踪成功率达到65.86%,而在流入地样本中,追踪成功率只有28.88%。
从教育程度来看,流出地样本在各个教育程度上的追踪成功率都比较高,追踪成功率最低的小学教育程度的劳动力,追逐成功率也有59.91%;而在流入地样本中,各个教育程度的被访者追踪成功率都较低,并且教育程度越高,追踪成功率越低。在流入地样本中,追踪成功率最高的小学教育程度的劳动力,追踪成功率也只有38.04%。
流动人口由于租房的比例较高,在流入地换房搬迁的概率更高,这导致对流动人口的追踪非常困难。而能否在流入地买房可以增加被追踪到的概率。表4中的数据发现,右边的流入地样本中,买房的人追踪成功率达到50.11%,没买房的人追踪成功率只有25.14%。而在流出地样本中,流出农民不管在流入地是否买房,追踪成功率都较高,并且在流入地买房的人被追踪的概率比没买房的人还稍微低一些。原因可能是买了房的人全家迁出农村社区,导致2014年的调查轮次时在农村调查时追踪不到。
从流出地调查农村流动人口,除了有效解决前文所讨论的抽样框问题、样本选择性问题,以及流动人口追踪问题之外,还可以将其与农村不流动样本结合起来,研究农村的整体劳动力变化情况。
以往的农村研究往往只看到目前实际生活在农村中的人口,而无法纳入农村流动人口的数据,但只有将流出人口纳入进来,研究者才可能看清农村人口流动中的全貌及其趋势。
(一)农村不流动与各类流动人口对比
CLDS的农村调查中,可以将劳动力区分为未流动、短期返乡、长期返乡和流出四类。其中未流动、短期返乡和长期返乡三类是目前仍然住在农村作为家庭同住成员完成了个体问卷的,而流出人口指的是由于通过家人代答的流出成员。返乡人口通过询问曾经是否跨县区外出来定义,而短期返乡和长期返乡由以后是否还外出工作来进行区分。
通过从表3中不同出生世代的描述分析可以看到,农村流出情况越来越严重,1950-1957年,流出人口的比例为4.08%;1981-1990年出生的人口中,流出在外的人所占比例达到59.30%;而到1991-1999年出生的年龄组中,流出人口所占比例达到71.00%,留在农村的年轻人越来越少。
表3 农村四类人口的基本情况描述 (单位:%)
与此相应的,农村人口的教育程度越高,流出的比例也更高,大专及以上教育程度的农村人口流出的比例达到70.80%,并且长期返乡的比例也是最小的,只占2.89%。也就是说,留在农村的高素质的人才越来越少。从婚姻状况来看,未婚人口流出的比例达到69.68%。
(二)农村人口可能的演变趋势
从上面的描述看到的是不断流出的年轻人和高素质劳动力,这些流出的劳动力还愿意回农村吗?CLDS的设计中,要家人代答每一位流出家庭成员 “五年内返乡长期居住的意愿”以及“将来是否愿意回乡养老”,对于流出的家人还愿不愿意回来以及返乡的可能性,家人之间往往了解实际情况,并且平时的沟通了解也往往更加密切,因此这个结果是比较可靠的。具体的结果如表4所示。
表4 不同群体返乡意愿的差异 (单位:%)
首先,越是年轻的劳动力,返乡的意愿越低,1950-1957年出生的流出人口中,明确表示不愿意“5年内返乡居住”的比例只有19.35%,明确表示愿意“5年内返乡居住”的比例达到63.44%;而到了1991-1999年之间出生的劳动力,明确表示不愿意“5年内返乡居住”的比例达到48.00%,明确表示愿意“5年内返乡居住”的比例只有25.33%。愿意回乡养老的比例高一些,比如1991-1999年之间出生的劳动力明确表示不愿意“回乡养老”的比例只有28.06%,而表示愿意“回乡养老”的比例达到38.18%。在其他年龄组中同样表现出“回乡养老”的意愿高于“五年内返乡长期居住”的意愿。这说明农村流出人口虽然短期内不愿意返回家乡居住,但是长远来看,农村流出人口在外定居仍然充满变数,家乡仍然被作为最后的养老和栖居场所。
其次,从教育程度上来看,高教育程度的农村流出人口,返乡的可能性更低。例如小学教育程度的流出人口明确表示不愿意“5年内返乡居住”的比例占35.84%,明确表示愿意“5年内返乡居住”的比例占38.44%;而大专及以上的农村流出人口,明确表示不愿意“5年内返乡居住”的比例达到69.13%,明确表示愿意“5年内返乡居住”的比例只有11.42%;和前面不同出生世代流出人口的比较一样,各种教育程度的人表示愿意“回乡养老”的比例均高于“五年内返乡长期居住”的比例。
最后,从婚姻状况来看,未婚的农村流出人口,返乡意愿更低。未婚的流出人口明确表示不愿意“5年内返乡居住”的比例占50.00%,明确表示愿意“5年内返乡居住”的比例占23.23%;而已婚的农村流出人口,明确表示不愿意“5年内返乡居住”的比例占46.28%,明确表示愿意“5年内返乡居住”的比例占28.77%。
本文回顾了过去11年间发表在重要刊物上的农村流动人口研究所使用的调查数据的调查方法,指出流入地调查法所获得的农村流动人口数据存在着难以克服的抽样框问题、样本选择性问题、追踪调查难问题和系统误差问题。随着中国城市化、工业化进程的不断深入,有关农村流动人口的新的议题将不断增多,研究将日益深入,而传统的农村流动人口的流入地调查法将显然难以承担这一学术任务,日益凸显出其方法上的不足。
本文不但在理论上探讨了农村流动人口的流出地调查在减少调查的系统误差、可操作性以及可追踪性等几个重要的方面相对于流入地调查的优势,同时我们结合CLDS在流出地农村流动人口调查与流入地流动人口调查上的实践,通过流入地与流出地的数据证明:农村流动人口流出地调查法理论及实践上的巨大的研究优势。
当然,农村流动人口流入地调查也有其优势,这主要表现在由于是流动者本人回答,问卷可以更长,询问的问题可以更加深入,更加详细,可以包含主观的问题;而流出地调查由于是家人代答,我们仅仅能够调查那些家人通常了解的关键信息,无法触及流动人口的琐碎的工作,生活细节。因此,在未来的实际研究工作中,研究者采用流出地调查还是流入地调查的方法,应该根据调查目标、研究目的以及两种调查法的优缺点进行综合判断。
[1]Whyte, M.,& Parish, W. L. 1984.UrbanlifeincontemporaryChina, Chicago, IL: University of Chicago Press.
[2]Cai, Y. 2014. “China’s new demographic reality: Learning from the 2010 Census”, Population and Development Review, 39(3): 371-396.
[3]Hao, L. 2012.“Cumulative causation of rural migration and initial peri-urbanization in China”,Chinese Sociological Review, 44(3): 6-33.
[4]齐嘉楠、贾民、李伯华:《流动人口监测调查抽样设计的思考》,载《统计与决策》2014年第3期。
[5]李丁、郭志刚:《中国流动人口的生育水平——基于全国流动人口动态监测调查数据的分析》,载《中国人口科学》2014年第3期。
[6]Thompson S K. “Adaptive cluster sampling based on order statistics”, Environmetrics, 1998( 2) : 123 - 133.
[7]陈传波、白南生、赵延东:《适应性区群抽样: 研究流动农民工的方法与实践》,载《统计研究》2012年第5期。
[8]亓昕: 《建筑业欠薪机制的形成与再生产分析》,载《社会学研究》2011年第5期。
[9]童宗斌:《如何朝向事实本身?——调查研究的本土经验及其方法论反思》,载《南京大学学报(哲学·人文科学·社会科学版)》2010年第5期。
[10]K.Kish:《抽样调查》,倪加勋译,中国统计出版社1997年版。
[11]Lee, Ching Kwan 1998 .GenderandtheSouthChinaMiracle:TwoWorldsofFactoryWomen, Berkeley :University of California Press.
[12]任焰、潘毅:《跨国劳动过程的空间政治:全球化时代的宿舍劳动体制》,载《社会学研究》2006年第4期。
[13]风笑天:《结果呈现与方法运用—141项调查研究的解析》,载《社会学研究》2003年第2期。
[14]刘林平、雍昕、舒玢玢:《劳动权益的地区差异—基于对珠三角和长三角地区外来工的问卷调查》,载于《中国社会科学》2011年第2期。
[15]任焰、梁宏:《资本主导与社会主导—“珠三角”农民工居住状况分析》,载《人口研究》2009年第2期。
[16]牛建林、郑真真、张玲华、曾序春:《城市外来务工人员的工作和居住环境及其健康效应—以深圳为例》,载《人口研究》2011年第3期。
[17]任义科、杜海峰、喻晓、李树茁、费尔德曼:《中国农民工社会网络的凝聚子群结构分析》, 载《社会》2008年第5期。
[18]外来农村流动人口课题组:《珠江三三角洲外来农民工状况》,载《中国社会科学》1995年第4期 。
[19]Winship,Christopher &Robert D. Mare 1992. “Models for Sample Selection Bias”, Annual Review of Sociology 18.
[20]Storper, M.,& Scott, A. J. 2009. “Rethinking human capital, creativity and urban growth”, Journal of Economic Geography, 9(2): 147-167.
[21]赵艳枝:《外来人口的居留意愿与合理流动—以北京市顺义区外来人口为例》,载《南京人口管理干部学院学报》2006年第4期。
[22]蔡禾、王进:《“农民工”永久迁移意愿研究》,载《社会学研究》2007年第6期。
[23]李明桥:《对农村劳动力转移“钟摆现象”的解释》,载《人口研究》2009年第1期。
[24]吴晓刚:《中国的户籍制度与代际职业流动》,载《社会学研究》 2007年第6期。
[25]风笑天:《追踪研究:方法论意义及其实施》,载《华中师范大学学报(人文社会科学版)》2006年第6期。
[26]Van den Berg,G. J. & M. Lindeboom 1998.“Attrition in Panel Survey Data and the Estimation of Multi - State Labor Market Models”,Journal of Human Resources 43.
[27]梁玉成:《追踪调查中的追踪成功率研究——社会转型条件下的追踪损耗规律和建议》,载《社会学研究》 2011年第6期。
[28]Wang, Weidong, Guihua Xie, and Lingxin Hao. 2014. “Rural Panel Surveys in Developing Countries: A Selective Review”, Economic and Political Studies 2(2):151-177.
[29]风笑天、聂伟、曹丽娟:《流动与网络:追踪调查的困难与新的解决途径》,载《江苏行政学院学报》 2014年第2期。
[30]马小红、段成荣、郭静:《四类流动人口的比较研究》,载《中国人口科学》2014年第5期。
[31]范小玉:《我国农村劳动力转移现状及其发展趋势》,载《调研世界》1997年第3期。
[32]朱磊:《流入地抽样抑或流出地抽样?——对当前农民工研究中抽样方法的评析》,载《青年研究》2014年第1期。
[33]《人口研究》编辑部:《从“民工荒”到“返乡潮”:中国的刘易斯拐点到来了吗?》,载《人口研究》2009年第二期;http://money.163.com/09/0202/10/5152AQQA00252G50.html.
[34]孙妍、邹艳辉、丁华、严洁、顾佳峰、邱泽奇:《跟踪调查中的拒访行为分析——以中国家庭动态跟踪调查为例》,载《社会学研究》2011年第2期。
责任编辑 吴兰丽
Original Approach for Rural Migration Survey: Theory Versus Practice
LIANG Yu-cheng1, ZHOU Wen2, HAO Ling-xin3, LIU He-qing4
(1,2,4.DepartmentofSociologyandSocialWork,SunYat-SenUniversity,Guangzhou510275,China;3.DepartmentofSociology,JohnHopkinsUniversity,Baltimore21200,USA)
With the development of urbanization and industrialization in China, more and more researches on rural migration were published recently. Meanwhile, most of the researchers use the destination approach to collect data. In the first part we discuss the problems like lack of sample framework, exist selection bias, hard to conduct longitudinal survey and systematic error. Based on this, we propose new method to collect rural migration: original approach. We analysis its great advantages in theoretical and practical way, the new approach can reducing systemic error, improving the representative of the sample, making it more easy for operation and convenience for longitudinal survey. we use the data of China Labor-force Dynamics Survey (CLDS) to test our theory. We explore new research space given by original approach further.
rural migration; destination approach; original approach
梁玉成,中山大学社会学与社会工作系教授、博士生导师,中山大学社会科学调查中心执行主任,研究方向为社会分层与不平等、中国社会转型、移民研究、社会资本和量化研究等;周文,中山大学社会学与社会工作系博士生,研究方向为人口社会学、劳动力迁移和多主体社会模拟;郝令昕,约翰·霍普金斯大学社会学系教授,研究方向为教育社会学、家庭与公共政策、社会人口学、社会不平和量化研究方法等;刘河庆,中山大学社会学与社会工作系博士生,研究领域为移民、分层与不平等。
教育部人文社科2010年项目“在穗非洲裔外籍移民的隔离与融合研究”(10YJA840021);广东省哲学社会科学“十一五”规划2010年度项目“在穗非洲裔外籍移民的隔离与融合研究”(GD10CSH04);国家社科基金2013年重大项目“社会博弈的逻辑与计算模拟研究”(13&ZD186);国家社科基金2013年重大项目“基于多学科理解的社会网络分析模型研究:人际关系网络对社会资源分配的正负效应研究”(13&ZD177)
2015-06-10
C91-03
A
1671-7023(2015)05-0113-11
① 周文为通讯作者。