基于空间交互作用的中国省际人口流动模型研究

2023-09-25 01:33殷水英
人口与经济 2023年5期
关键词:误差率省际省份

路 兰,殷水英

(1.青岛大学 经济学院,山东 青岛 266000;2.重庆大学 数学与统计学院,重庆 401331)

一、引言

人口是经济社会发展的关键要素,人口流动水平在一定程度上决定了地区在后续发展上的高度和质量,人口流动和空间分布的不断优化是提高地区经济发展水平的关键路径。第七次全国人口普查资料(下称“七普”)显示[1],较之第六次人口普查数据,从人口流动方向上看,我国流动人口持续向城市群和都市圈集聚,人口增长和分布在空间上的集聚区域化凸显[2-3];从人口流动规模和强度上看,省际人口迁出迁入规模和强度的省际差异虽明显趋向减少,区域分布呈分散化趋势,但人口流动区域层级化凸显[4-5];从人口流动关键路径上看,我国人口流动持续由中西部地区向东部经济发达省市集聚的总体趋势没变,但时间维度上看存在一定的路径依赖效应[6]。我国流动人口的增长及分布在空间上的动态变化表明,近10年我国人口流动的集聚区域化、层级化及路径依赖等特征不断强化,其必将加剧我国人口集聚的不均衡性及产业集聚的区域化差异,使我国区域产业升级过程中呈现梯度化、劳动力匹配失衡、流动效率低等诸多问题。然而,人口流动行为并不是孤立的,区域间人口的流动不能只考虑流入地和流出地,还需要考虑地区之间的交互作用,将人口布局和生产力布局有机结合,引导人口合理有序流动才是缓解问题的有效途径。

实际上,人口流动及分布一直是学者们研究和关注的热门话题。人口抽样调查及人口普查数据开创了中国人口流动定量研究的新局面[7-12],使流动人口的研究越发活跃[13-14]。然而,此类静态数据严重缺乏时效性和连续性,无法及时揭示新形势下人口流动空间格局的分布特征。早期的人口空间分布研究主要采用洛伦兹曲线、基尼系数、迁入/迁出率分布等指标计算方法[15]、人口重心分析法[16]及聚类分析法[17-18]等对全国人口流动趋势和分布均衡性变化进行分析,从各种角度提供了胡焕庸线作为人口分界线的证据[19-20]。这些研究结果表明,我国人口不均衡趋势越来越显著,总体呈现非均衡“双向流动”格局。人口流动的主流仍然是从中西部向东南沿海地区转移,中小型城市人口逐渐向区域中心级城市转移。然而,近年来“胡焕庸线”两侧的“中间地带”人口净迁出呈现出不对称性。但这些结论大都是基于人口普查或抽样调查的静态数据,给出我国各地区人口存量的静态分布,无法提供我国人口分布变化的动态规律特征。

人口在城市或国家之间的流动是嵌入在地理空间中的有向流网络,不同地区对人口的吸引力要素分布直接决定了人口分布特征[4]。研究表明,经济社会因素对省际人口流动具有显著影响,且中、东部各省份经济社会因素对省际人口净流入的影响较大,西部各省份经济社会因素对省际人口净流入的影响相对较小[3,21]。早在1938年,赫伯尔(Herberle)对迁移定理进行了深化,首次系统提出的“推拉理论”认为人口迁移是受迁入地拉力和迁出地推力相互作用的结果,这里已经开始萌生出交互作用的影子[22]。1946年齐普夫(Zipf)将牛顿定理引入推拉模型,提出了引力模型,认为区域间的人口流动量与两地的人口成正比,与其距离成反比[23]。经典的引力模型和双约束引力模型等空间交互模型均考虑了空间交互作用的衰减机制,但此类模型缺乏严格的理论依据。威尔森(Wilson)提出的最大熵模型也只能从宏观层面上解释引力模型,无法从微观层面上刻画个体的决策行为[24]。随着经典的空间交互模型在复杂网络领域的不断发展及应用,介入机会模型、辐射模型和人口权重机会模型(Population-Weighted Opportunity,PWO)均基于微观层面给出了人口流动机制的理论依据。介入机会模型完全是从个体目的地选择行为的角度建模,引入排序的思想,即并非采用真实的数据来衡量各目的地与出发地之间的距离,而是简单地采用排序的方法。该模型的缺点在于公式复杂,且容易高估近距离出行的比例[25]。辐射模型是假定个体只选择距自己最近的高收益地点,收益值与地点人口数成正比,这就导致其预测结果有时与真实情况存在一定偏差[26]。闫楠等提出的PWO模型是假定个体在选择目的地时会综合考量所有潜在目的地的收益[27]。换句话说,在同等距离的情况下,个体会选择收益率高的目的地,而在收益同等的情况下,距离较近的目的地对个体的吸引力更大。通过模型的构建过程可知,PWO模型中考虑到了目的地的就业机会数量衰减机制,进而考察了空间交互作用。该模型只需要输入人口数据就可以预测地点间的流量矩阵,操作简便,预测效果十分稳定,准确率可达到70%左右[28]。这表明地区间的就业机会数量对个体流动决策具有很重要的影响,但上述理论模型均没有考虑到个体主观因素对转移决策的影响。布罗克曼(Brockmann)等最早在Nature上发表了利用美元流通数据间接分析人类空间移动行为的论文[29]。闫小勇等提出了记忆性偏好随机游走模型,认为出行者在出行过程中会对已经到访过的地点形成记忆偏好,并且此偏好会随着到访次数的增加而增强[30]。并且,闫小勇等在PWO和记忆性随机游走模型的基础上进一步提出了统一模型(Universal Model,UM)。该模型的基本假设是目的地对于个体来说存在着固定吸引力以及附加吸引力,固定吸引力可利用PWO计算得出,而附加吸引力则与个体的主观认识有关,所以采用记忆因子来进行量化分析[31]。UM分别从主观和客观两个方面对地区的吸引力进行了量化分析,在大量的数据分析中都取得了较好的预测结果,说明模型的基本机制是相当普适的。然而,由推拉理论对人口迁移的解释可知,人口迁移的动力由迁出地的推力(排斥力)与迁入地的拉力(吸引力)共同构成,而UM中对空间交互强度的量化仅考虑了出行者所感受到的就业机会数,忽略了空间交互强度在地理距离上衰减速度的度量。

此外,我国区域间的交互作用通过要素“流动”的方式,逐渐从“地方中心”孕育的向心型中心地模式,向“流空间”塑造的多中心网络化模式转变[32-33],这种区域空间组织特征的结构变化必将对省际人口流动的空间分布产生影响。由此,已知各地点的人口(或经济产值、流出总量等反映地点体量差异的指标)和地点之间距离(或移动成本、出行时间等反映地点之间阻隔程度的指标)等数据的前提下,更加准确地预测地点之间空间交互强度,成为本文研究的重点内容,也是本文主要的创新点。

鉴于此,本文在统一模型的基础上,同时考虑空间交互强度在就业数量和地理距离上的衰减机制,提出了改进的统一模型(Improved Universal Model,IUM )。基于2020年全国人口普查的相关数据,利用PWO、UM及IUM构建省际人口流动网络,采用社会网络分析方法,从空间结构特征及模型预测误差两个维度,将三种预测网络的结果与真实情况进行对比分析,给出三种模型的预测精度结果。

二、研究方法与测度指标

1. 省际间人口转移概率测算

(1)人口权重机会模型。PWO公式如下:

(1)

Sji=∑djk

(2)

其中,Pij表示个体从地点i流向地点j的概率;mj表示地点j的总人口数,dji表示地点j和地点i之间的地理距离。考虑到人口分布的异质性,用1/Sji对空间交互作用强度的衰减机制进行量化,其表示的是目的地的就业机会数量是随着人口总数呈现递减趋势。

(2)统一模型。UM公式如下:

(3)

其中,λi表示记忆强度参数,体现了个体在移动过程中会对已经访问过的地点形成记忆性偏好,这种记忆性偏好会随着个体对一个地点的访问次数增加而得到不断强化。rj表示地点j附加吸引力的排序,mj表示地点j的总人口数,1/Sji仍是对空间交互强度衰减机制的量化表示,同PWO模型。

(3)改进的统一模型。由于UM中对空间交互强度的量化仅考虑了出行者所感受到的就业机会数,忽略了空间交互强度在地理距离上衰减速度的度量。因此,本文在UM的基础上,引入距离衰减系数,从地理距离和机会数量两个维度对空间交互作用进行量化分析。张宝磊等提出目前常用的阻抗函数有四种,即幂型函数、指数函数、幂与指数复合型函数和半钟型函数[34]。其中幂型函数、指数函数的形式相对简单,而幂与指数复合型函数和半钟型函数形式复杂、参数较多,计算难度较大,因此本文选择幂型形式的阻抗函数。具体公式如下:

(4)

2. 省际间人口流动的空间结构预测

以省份作为网络节点,不同省份间人口流动的路径作为边,人口转移量作为边权,构建省际人口流动的加权有向网络,记为G=(V,E,T)。其中,向量Vi=[vi](i=1,2,…,31)和Vj=[vj](j=1,2,…,31)分别表示人口从i省份流出,流入j省份;E=[eij]⊆V×V代表边的集合,(vi,vj)∈E表示省份节点vi到省份节点vj的人口转移关系,T(vi,vj)表示有向边(vi,vj)的权重,即省份节点vi到省份节点vj的人口转移量。计算公式如下:

Tij=Pij×mi

(5)

(6)

其中,Pij表示迁出地省份i和迁入地省份j之间发生人口转移的概率值,mi表示地点省份i的总人口数,n为省份总数。本文借鉴李敬等的研究[35],利用阈值法提炼网络的核心结构,在充分保留省际间人口转移原始基本信息的同时,又简化了网络以便于深入剖析该网络拓扑特征。

3. 结构测度指标

结合社会网络的相关结构参数,从省际人口流动网络整体和省份个体两个维度对真实网络和预测网络的空间网络结构进行比较分析。选取的参数指标如表1所示。

4. 模型精度测度指标

根据罗杰斯(Rogers)等在2002年提出的理论,将人口流动的实际矩阵与模型模拟的预测矩阵分解为以下四个因素:整体效应K、特定省份的相对流出力Pi和相对吸引力Qj、省际间的空间交互效应Fij[36]。因此流动强度的估算公式如下:

Tij=KPiQjFij

(7)

其中,Tij表示省份i到省份j的人口流动强度;K为所有人口流动强度的几何平均数,表示整体影响;Pi为省份i所有劳动力流出流的几何平均数与K的比值,表示省份i的相对流出力;Qj为省份j所有劳动力流入流的几何平均数与K的比值,表示省份j的相对吸引力;Fij表示关联省份的空间交互效应,计算公式为Fij=Tij/KPiQj。

实际流动流和模拟流动流的表达式分别如下:

T1ij=K1P1iQ1jF1ij

(8)

T2ij=K2P2iQ2jF2ij

(9)

模拟流动流T2ij可进一步表示为:

(10)

因此,模拟省际人口流动模型的总误差Mgij可表示为:

(11)

由整体效应K、相对流出力Pi、相对吸引力Qj和空间交互效应Fij在实际流与模拟流之间的不同而造成的误差分别定义为Ekij、Epij、Eqij、Efij。且在单独计算这四个误差时,将被计算误差之外的因素视为相等的处理方式,因此:

(12)

(13)

(14)

(15)

上述四个误差彼此之间相互作用导致的复合误差,将其定义为Eoij,其表达式如下:

Eoij=Mgij-Ekij-Epij-Eqij-Efij

(16)

综上,误差之间存在以下关系:

Mgij=T2ij-T1ij=Ekij+Epij+Eqij+Efij+Eoij

(17)

三、省际人口流动预测模型研究

1. 数据来源及参数设定

本文人口数据来源于国家统计局公布的2020年第七次全国人口普查据。省份距离数据采用两省省会之间最短的火车距离,数据来源于全国铁路主要站间里程表。其他数据均可在国家和地方统计年鉴上获取。

表2 省际人口流动影响因子

2. 直观比较

在利用真实数据、PWO、UM及IUM构造我国2020年省际人口流动空间关联矩阵的基础上,利用Gephi软件绘制四种省际人口流动网络图,如图1所示。

图1 2020年省际人口流动网络结构图

从图1中可明显得到,真实网络和预测网络中人口流动的空间格局均呈现出“多核心—网络状分布”的结构特征。这说明三种预测模型对省际人口流量及流向的预测均具有一定的可行性。然而,从人口流动分布特征来看,与2010年普查数据结果相比,2020年我国人口流动的主流模式仍然是从中西部向东南沿海地区转移,主要的流动方向并没有发生变化,但网络核心的特征发生了微妙的变化:以北上广为核心的劳动力流动网络逐渐转变为以京津冀、长三角和珠三角地区为核心的中心—外围网络。比较这三种模型的预测结构可知,PWO模型预测结果中邻近区域间的流动较为突出,且很多是双向流动,这有悖于2020年的普查结果。UM及IUM模型预测的人口流动的空间结构较为相似,且基本可以体现出2020年实际人口流动特征。

3. 空间结构比较

从整体结构参数上看,由表3可知,与2010年的结果类似,2020年我国省际间人口流动真实网络的网络密度和平均路径长度都比较小,而聚集系数较大,表明人口流动网络处于稀疏状态,省际人口流动的关联性并不强,但存在明显的局部聚集效应,“小世界”特征凸显。而基于三种空间交互网络模型给出的预测网络的整体参数值,虽与真实网络存在一定的差距,但预测网络与真实网络的结构特征基本一致,整体网络较为稀疏,但局部聚集效应明显,也呈现“小世界”特征。

表3 省际人口流动网络的整体结构参数

从个体层面来看,根据真实网络和预测网络的节点强度分别绘制入、出强度分布的直方图(如图2)。由图2可知,实际网络的入强度分布峰值在0—10之间,分布呈现右偏特征,表明在全国范围内,只有少数省份是人口流入大省。而PWO的入强度分布峰值位于10—20之间,与实际情况不符,UM与IUM的入强度分布峰值与真实情况一致,并且同样是呈右偏特征。与入强度类似,实际网络的出强度分布峰值处于0—5之间,并且分布同样呈现出右偏特征,同样表明只有少数省份是人口输出大省。三个预测网络的出强度分布特征均与实际情况一致,分布峰值处于0—5之间,分布呈现出右偏特征。另外,依据真实网络的入、出强度分布可以看出,相比出强度分布,入强度分布的偏度更高,异质性也更强,这表明大多数省份吸纳人口的能力较差。通过上述分析可以看出,UM与IUM的出入强度分布更符合真实情况。

进一步绘制实际与模拟省份的出入强度散点图(如图3),考察具体省份的人口流动及模型模拟的情况。就入强度图3(a)而言,广东省的人口流入量位居全国之首,这可能是由于近年来珠三角产业转型升级加快,高端制造业、信息经济等新兴产业快速发展,吸引了大量的人口流入。同时珠三角地区近年放宽的落户限制也吸引了外省大量人口流入。继广东之后,作为沿海发达省份的浙江、江苏同样成为人口流入大省。就出强度图3(b)而言,河南省的人口流出量最多,河南省人口基数庞大,但省内的经济发展对于本省人口的吸引力不足,因此造成了人口的大量流失。安徽、重庆、湖南等中西部地区同样存在大量人口流出的特征。值得关注的是,与2010年人口流动空间结构相比,流向东部沿海省份的人口数量大幅回落,回流特征尤为显著。就模型模拟结果而言,除个别省份模型模拟的结果与真实结果出入较大外,整体上模型模拟的结果较为良好。

4. 模型精度比较

基于公式(7)对人口流动矩阵进行因素分析,结果如表4所示。

表4 实际矩阵与模拟矩阵流动因素对比

由表4可以得出,就中位数而言,PWO、UM与IUM预测模型的人口省际流Tij与实际值的误差分别为0.80、0.25、0.12;整体影响K的误差率分别为0.61、0.26、0.17;相对流出力Pi的误差率分别为0.11、0.03、0;相对吸引力Qj的误差率分别为0、0.22、0.23;空间效应Fij的误差率分别为0.03、1.01、0.07。通过对比发现,IUM的人口省际流Tij、整体影响K、相对流出力Pi的误差率均是最小的。且就中位数而言,整体上三种预测模型的平均误差率分别为0.31、0.36、0.12,表明IUM的预测结果最好(1)误差率计算公式为:(估计值 - 实际值)/实际值。。

在分省计算结果对比中(见图4),就相对流出力而言图4(a),河南省(实测4,PWO模拟4.46,UM模拟3.95,IUM模拟4.06,后同)是人口相对流出最多的省份,四川省(3.09,2.62,2.95,2.92)、广东省(2.02,2.82,3.33,3.46)紧随其后,且总体来看三个模型的估计结果较好。而就相对吸引力而言图4(b),广东省(5.90,1.02,1.67,1.63)、浙江省(5.38,1.01,1.94,1.98)、江苏省(3.90,1.03,2.38,2.47)、上海市(3.17,0.97,4.21,4.29)、北京市(2.33,0.98,8.19,8.57)的实际相对吸引力排名靠前,表明这些城市对于流动人口的吸引力较高。但就模型的估计结果而言,整体来看三个模型的估计结果较真实值均偏低。且图4中得出的结论与图3出入强度得出的结论高度一致。

图4 实际与模拟省份相对流出力和吸引力

表5给出的是实际流与模拟流之间的相对误差。由表5中的平均值列数据可知,PWO、UM及IUM的总误差分别为202%、111%、96%,相比之下,IUM的总误差率最低,因此其预测精度相对最高(2)表5中平均值列代表的是各个模型预测值与实际值相对误差的平均值,其中人口省际流的平均值即为总误差,各因素的平均值即为各因素误差。。从IUM的各因素误差率结果来看,相对吸引力Qj造成模拟流与实际流之间最大的误差,达到34%,而相对流出力Pi和整体影响K分别造成了8%、17%的模型误差,空间交互效应Fij造成了16%的误差。相比UM的空间交互效应Fij相对误差率为143%,IUM的结果较低,表明其更好地量化了空间交互作用。

表5 实际流与模拟流的相对误差

5. 模型稳健性分析

通过误差估算结果可以得出,IUM的预测效果是最好的,为了进一步验证该结论,本文就其稳健性进行检验。首先,基于三种预测模型给出的人口省际流动空间关联矩阵,随机抽取500次10×10子矩阵,将三种模型预测网络子矩阵的连边数与真实情况进行对比。

通过表6可以看出,在500次随机模拟的情况下,无论是整体评价指标总体精度(87.51%),还是单个类别的评价指标用户精度(64.76%、92.48%)和生产者精度(65.29%、92.31%),IUM的结果均为最优。

表6 2020年省际人口流动模型的500次随机模拟结果

其次,用指数函数形式的阻抗函数替代幂型函数的阻抗函数,即f(dij)=exp(-αdij),且α=1。通过更换IUM的衰减系数形式,对省际人口流动进行预测,随机抽取500次10×10子矩阵,将三种模型预测网络子矩阵的连边数与真实情况进行对比,结果如表7所示。

表7 2020年省际人口流动模型的500次随机模拟结果(更换阻抗函数)

通过表7同样可以看出,在更换阻抗函数形式的情况下,通过500次随机模拟,IUM的整体评价指标总体精度(87.11%)的结果是最优的。进一步证实了IUM模型预测精度最优且具有一定的稳健性。

四、结论与不足

本文基于第七次全国人口普查等相关数据,通过PWO、UM以及IUM构建的省际人口流动网络与真实的人口流动网络,在空间结构及误差估算两个维度上进行对比分析,并利用交叉验证法对模型的稳定性做了检验。研究结果表现在以下几个方面。

首先,在空间结构方面,从整体分布来看,真实网络和预测网络均处于较稀疏的状态,聚集系数较大且平均路径长度较小,表明存在局部聚集效应,空间格局均呈现出“多核心—网络化分布”的结构特征。表明这三种预测模型对省际人口流量及流向的预测均具有一定的可行性。与2010年结果对比可知,我国省际间劳动力流动网络存在明显的“核心—边缘”层次结构,但核心结构特征由“以单个省份为核心”转变为“以邻近区域为核心”,劳动力流动的集聚区域化特征凸显。具体到个体层面,东部沿海地区仍然是我国劳动力流入的主要方向,吸收了大量来自中西部地区的劳动力。但从流量上分析可知,我国中西部部分省份劳动力已经出现回流的现象,但规模较小。从模型模拟结果来看,UM与IUM的出入强度分布、相对吸引力及相对流出力更符合真实情况,除个别省份模型模拟的结果与真实结果出入较大外,整体上模型模拟的结果较为良好。

其次,在模型精度方面,从效应分解来看,三种预测模型的平均误差率分别为0.31、0.36、0.12,其中IUM的预测结果最好。IUM的人口省际流Tij、整体影响K、相对流出力Pi的中位数误差率均是最小的。从相对误差来看,PWO、UM及IUM的总误差分别为202%、111%、96%,相比之下,IUM的总误差率最低,这一结果表明IUM的预测精度相对最好。IUM中相对流出力、相对吸引力和空间交互效应造成的实际流与模拟流的相对误差率较PWO和UM均有了明显的改善。

再次,在稳健性方面,利用交叉验证法可知无论是整体评价指标总体精度,还是单个类别的评价指标用户精度和生产者精度,IUM的结果都是最优的。此外,变换阻抗函数的计算形式后,结论保持不变,进一步证实了IUM模型预测精度具有一定的稳健性。

本文不足之处在于空间交互作用强度的量化精度。空间交互强度的量化本身就是一个难题,本文结合人口流动理论,利用就业数量和地理距离的衰减机制对其进行量化分析,虽较统一模型降低了空间交互效应的误差率,但省际人口流动的空间交互效应具体表现为区域间的交换性、联系性和互动性,本文中并没有考虑空间相关性对空间交互效应的影响,这也是下一步研究的方向。

猜你喜欢
误差率省际省份
基于偏序集的省际碳排放效率评价
生化检验全程中质量控制管理方式及应用意义
谁说小龙虾不赚钱?跨越四省份,暴走万里路,只为寻找最会养虾的您
降低评吸人员单料烟感官评分误差率探讨
省际路网联动机制的锦囊妙计
无线传感器网络定位算法在环境监测中的应用研究
电工仪表测量中容易忽略的几个问题
开放与我国居民收人增长*——来自2001~2012年省际面板数据的考察
对口支援与省际合作
因地制宜地稳妥推进留地安置——基于对10余省份留地安置的调研