基于手机信令数据的中国人口空间格局及影响因素研究

2022-11-01 03:31刘琼欢黄小巾李敏敏1彪1郭文华王彦坤
关键词:人口密度常住人口信令

樊 勇,刘琼欢,黄小巾*,李敏敏1,,贺 彪1,,5,郭文华,王彦坤

(1.自然资源部 城市国土资源监测与仿真重点实验室, 广东 深圳 518034; 2.深圳职业技术学院 人工智能学院,广东 深圳 518055; 3.深圳大学 建筑与城市规划学院, 广东 深圳 518061; 4.自然资源部 信息中心, 北京 100036; 5.自然资源部 国土空间大数据工程技术创新中心, 北京 100036)

0 引言

新型城镇化是当前和未来一段时期我们国家的重大发展战略。新型城镇化强调实现“人的城镇化”。因此,摸清区域人口分布是促进人的城镇化的重要前提,也是新型城镇化的核心议题之一。

随着我国城市化进程的持续推进,人口分布时空格局的研究受到学术界广泛关注,取得了丰硕的成果,如:人口空间分布的估算与预测[1]、人口时空格局及演变的作用机制等[2-6]。经济规模、收入水平、产业结构代表的经济机会因素是塑造中国人口分布格局的关键力量[7-10]。流动人口的研究主要集中在两个方面:(1)人口流动的空间模式,以及人口流动对流入地和流出地的影响;(2)人口规模对产业集聚或产业创新的影响。流动人口较多的城市集中在7大城市群的中心城市[11]。人口的流动导致人口集聚,人口集聚更有利于城市创新[12]。大城市对人口的“虹吸”效应,进一步挤压了中小城市的发展空间[13]。在此背景下,中国以县域为单元的人口呈现怎样的空间分布特征?造成人口流动的影响因素是什么?城市群地区、非城市群地区、东部地区和西部地区的人口流动影响因素是否有差异?这些问题的研究,对于区域人口管理和区域发展政策的制定具有重要的借鉴意义。

人口普查数据具有覆盖面广、权威性高的优点,但普查需要耗费大量的人力物力,并且空间分辨率较低,时效性较弱,很难实现对人口分布的复杂性与动态性的精准刻画。以手机信令为代表的通信大数据,具有采集周期短、时效性强的优点,能及时且精细地描述人口分布格局和流动模式,很好地体现流入地和流出地的一一对应与互动关系。以手机信令数据为代表的大数据分析技术为人口研究提供了新契机和新视角[14],在城市空间结构[15]、居民活动空间[16]、出行行为特征[17]等领域得到广泛应用。然而,已有研究主要集中于区域、省际和市县域[18]等空间尺度,少有从宏观层面综合分析中国人口时空变化的研究。

本研究基于手机信令数据,采用地理信息和大数据等技术方法,从宏观层面刻画中国人口分布特征和集聚程度,从区域层面分析中国人口流动特征。通过构建回归模型,探索中国人口流动的影响因素,分析不同地区人口流动的驱动力。

1 数据和方法

1.1 数据来源

(1)统计数据:2018年《中国县域统计年鉴》和《中国城市统计年鉴》。统计数据主要获取户籍人口信息、地区生产总值(GPD)、产业结构(第三产业占比和第二产业占比)、人均可支配收入等。

(2)手机信令数据:手机在开机状态下,会定期或不定期、主动或被动地与附近基站进行通信,平均每个用户每天会发送10余万条信号,这些信号连续地记录了用户的移动轨迹。与传统数据和其他大数据相比,手机信令数据具有网络覆盖面积广、采样及时、更新及时、数据稳定可靠、样本量大等优势,能够细粒度地记录用户每一时刻的位置信息。本文采用2018年中国联通手机信令数据获取常住人口(居住6个月以上)信息。将原始手机信令数据经过降噪、插值和质检等处理后,形成250 m格网尺度下的扩样常态实际人数据和人口迁徙数据(Origin to Destination,以下简称OD数据)[19],并将其转换到区县尺度。

(3)交通和县级行政区划数据:交通数据来源于中华人民共和国自然资源部2015年全国铁路、高速公路、国道、省道和县道矢量数据,县级行政区划来源于中国城市规划设计研究院2015年中国1∶100万分县行政区划矢量数据库。

1.2 研究方法

(1)人口密度:人口密度是单位面积土地上居住的人口数。它是表示区域人口密集程度的指标。

(2)人口集聚度:人口集聚度指地区人口密度与当年全国人口密度的比值,能够反映一个地区相对于全国的人口集聚程度以及本地区与全国平均水平的差异,它比传统的人口密度、人口总量指标更直观[20]。

(1)

其中:JJDi是i县的人口集聚度;Pi是i县的人口数量,人;Ai是i县的土地面积,km2;An是全国土地面积,km2;Pn是全国总人口,人。

(3)多元线性回归模型:多元回归分析是选取两个或两个以上的自变量来解释因变量的变化,考虑自变量和因变量之间的线性影响关系就是多元线性回归。设因变量为Y,影响因变量的k个自变量分别为X1,X2,…,Xk,自变量与因变量之间为线性关系时,则多元线性回归模型为:

Y=β0+β1X1+β2X2+…+βkXk+ε,

(2)

其中:β0为常数项;β1,β2,…,βk为回归系数;ε为误差项。

2 结果与分析

2.1 人口空间分布特征

2.1.1 人口数量与人口密度

以县域为基本单元对手机信令数据进行专题制图(文中所制地图参考审图号:GS (2022) 4307),可以从宏观上认识中国人口分布格局。

中国人口分布空间不均衡,从图1可以看出,中国人口主要分布在胡焕庸线东南的规律仍然没有改变,大多数人口分布在华北平原、成渝地区、长三角、京津冀和珠三角等经济发达地区。从中国人口密度图可以看出,京津冀、华北平原、长三角、长江中游、成渝地区、山东半岛和东南沿海地区,特别是重点城市区域,是我国人口密度较高的区域,广大的西部地区、西南山区和东北部分地区人口密度相对较低。

图1 2018年中国人口密度图(常住人口)Fig. 1 China’s population density in 2018 (permanent population)

中国人口分布区域差异显著,城市集中了我国大部分人口。如图2所示,城市群尺度上,国家规划的20个城市群集中了约69%的全国人口,其中,经济最发达的长三角城市群是中国常住人口数量最多的城市群,约占全国人口的10%。长三角城市群、长江中游城市群和京津冀城市群的常住人口总量均突破1亿人,是我国城市群人口数量最多的区域。

图2 2018年中国城市群的人口数量(常住人口)Fig. 2 Population of China’s urban agglomeration in 2018 (permanent population)

区县尺度上,2018年北京市市辖区常住人口突破3千万人,依然是我国人口数量最多的城市;其次,上海市市辖区(28 698 647人)、重庆市市辖区(24 820 713人)、广州市市辖区(22 925 459人)、深圳市市辖区(18 910 501人)、天津市市辖区(17 818 156人)、成都市市辖区(14 283 617人)、武汉市市辖区(12 675 727人)、东莞市市辖区(12 347 016人)和杭州市市辖区(11 940 876人)等10个人口最多的城市市辖区常住人口均突破千万;然而,西藏自治区和新疆维吾尔自治区的部分县(如:札达县、日土县、普兰县),2018年常住人口不足万人。

此外,南北方面,南方人口在数量(8.12亿人)总体高于北方人口(5.82亿人),高出18%。东中西北方面,东部地区最高(4.83亿人),约占42%;东北地区最低(1.04亿人),约占8%;中部(4.03亿人)略微高于西部地区(4.02亿人),约占26%。

2.1.2 人口集聚度和人口流动

根据人口集聚度的计算方法,对常住人口数据进行计算并制图,如图3所示。从图3可以看出,中国人口集聚特征非常明显。人口主要集聚在胡焕庸线的东南侧,东南半壁密中有疏,西北半壁则疏中有密;人口分布多圈层集聚特征明显;中国人口集聚呈现出以平原地区为依托并高度集聚于“沿江、沿海、沿线”的特征。城市群是中国人口集聚的主要区域,特别是长三角城市群、京津冀城市群、珠三角城市群、成渝城市群、中原城市群、长江中游城市群等重要的城市群区域。

图3 2018年中国人口集聚度图(常住人口) Fig. 3 China’s population concentration in 2018 (permanent population)

选取2018年中国联通流动人口数据,以36个重要城市(省会城市和国务院计划单列市)为基准,计算36个主要城市与全国其他城市(340个城市)间的OD数据,对计算结果进行专题地图表达(如图4),刻画中国流动人口空间分布特征。

从图4可以看出,中国的人口流动主要分布在“胡焕庸”线东南侧,向核心城市和城市群集中,呈现成片分布格局。人口集聚程度较高的京津冀城市群、长三角城市群和珠三角城市群的人口流动情况具体如下:

(1)京津冀城市群与全国其他城市的联系度高于长三角和珠三角城市群。

图4 2018年中国流动人口图(常住人口)Fig. 4 China’s floating population in 2018 (permanent population)

(2)长三角城市群人口流入大于人口流出,而京津冀和珠三角城市群人口流出大于人口流入。

(3)与京津冀城市群联系较密切的城市为上海、济南、青岛、太原、郑州等,京津冀城市群中北京对外联系强度最高,京津冀城市群的对外联系表现出以北京为核心的单核特征。

(4)与长三角城市群联系较密切的城市为北京、武汉、广州、青岛、深圳等,长三角城市群中上海、杭州、南京的对外联系强度较高,长三角城市群的对外联系表现为上海、杭州和南京为核心的三核特征。

(5)与珠三角城市群联系较密切的城市为北京、上海、长沙、重庆、武汉、厦门、南宁等,珠三角城市群中广州、深圳的对外联系强度较高,珠三角城市群的对外联系表现为以广州和深圳为核心的双核特征。

2.2 人口流动的影响因素分析

2.2.1 模型和变量

为了分析中国人口流动的影响因素,以户籍人口分布密度(HJDen)、经济发展水平(GDP)、平均收入(PerIncome)、第三产业比重(Third)、第二产业比重(Second)、公路网密度(TraCon)为自变量,常住人口密度为因变量,构造一个多元线性回归模型如下:

LPop=β0+β1HJDen+β2GDP+β3PerIncome+β4Third+β5Second+β6TraCon+ε,

(3)

其中:人口流入量(LPop)为常住人口与户籍人口数的差值;交通连通度(TraCon)采用公路网密度即区域公路总长度与区域面积比值;平均收入(PerIncome)为区域人均可支配收入β0为常数项;β1,…,β6为模型参数;ε为误差项。各变量信息如表1所示,剔除缺失值后样本数量共2 162个。为了对比城市群地区和非城市群地区、东部地区和西部地区人口流动的驱动力差异,本文提取了国家规划的20个城市群中1 124个县域和1 038个非城市群地区县域,及胡焕庸线以东1 771个县域和胡焕庸线以西391个县域,分别加以测算。

多重共线性诊断是自变量之间相关关系的重要表现,如果模型存在较高共线性,会导致显著性检验失去意义及模型的预测功能失效。因此,本文运用方差膨胀因子(VIF)对因子进行多重共线性检验。以VIF=7.5为标准,当VIF>7.5表明自变量间存在多重共线性,将其剔除并以逐步回归法得到最优结果;共线性检验结果表明自变量间不存在多重共线性(见表1)。

表1 变量描述性统计与共线性检验Tab. 1 Variable description and collinearity test

2.2.2 回归分析

根据回归分析结果,在全国尺度上,回归模型具有较高的解释度(R2=78.9%),自变量能解释全国人口流动变化。经济因素对人口流动产生较为显著的影响。具体来说,经济规模和收入水平提高对人口的流入量有显著正向影响。随着中国经济发展方式的转型,第三产业逐渐成为国民经济的主导产业,产业结构就业吸纳能力强,第三产业对人口的流入具有较弱的正向影响,而第二产业比重的提高对人口的流入有微弱的负影响。已有的研究也表明中国第二产业出现了负就业弹性,而服务业迅速发展对就业的增长起到了决定性的拉动作用。交通连通度(公路网密度)对人口的流动具有正向影响,道路基础设施越完善,人口流入量越高。户籍人口密度对人口的流动有着较明显的负影响,这是由于多数户籍人口密集分布地区也是劳动人口的输出地。

模型(3)对城市群地区的解释度更高(R2=82.7%),经济因素是人口流动的主要驱动力,表现在:经济规模、人均可支配收入对人口的流入均表现显著的正向影响;城市经济发展水平和工资收入越高,越能吸引人口流入;同时第三产业结构的优化升级也对人口的流入有正向的促进作用。户籍人口密度对人口流入的负向影响在城市群地区有所减弱,这是由于我国主要的大城市大多集中在城市群地区,这些大城市在历史上也都是人口集聚地区,本地户籍人口多,外来人口也多,因此从数据上城市群地区以县域为单元的户籍人口密度对人口流出具有微弱的负影响。

与其他地区微弱的负相关相比,非城市群地区的户籍人口密度与人口流入量的关系表现为显著的负相关,户籍人口密度越高的地方,人口的流出量越大。非城市群地区整体经济发展水平较低,产业结构落后,长期以来劳动力的供给大于需求,在发达地区更高工资收入、更多经济机会的吸引下,成为劳动力的主要输出地。平均收入、第三产业占比和交通连通度对非城市群地区的人口流动产生有着明显的正向影响,而经济规模、第二产业占比对人口流入的正向影响较小。值得注意的是,本模型对非城市群地区的人口流动的解释度仅为24.5%,这说明非城市群地区的人口流动的主导因素比其他地区更复杂,除了经济、产业结构和交通三大要素还可能与地区自然地理条件、医疗教育等公共服务水平、地区生活品质等因素相关。

模型(3)对东部地区、西部地区的人口流动的解释度分别为80.3%和60.5%,各影响因子对东部地区人口流动的驱动作用与城市群地区很相似,经济规模、平均收入和第三产业占比对人口流入都具有正向的促进作用,户籍人口密度与第二产业占比对人口流入量具有负影响。交通连通度对东部地区人口流动的正向影响没有显著性意义。而西部地区人口流动主要由于经济规模的正向影响和交通连通度的负影响,经济规模越大的地区对人口迁移的吸引力越大,而交通连通度则降低了西部地区人口的迁移成本,促进人口的流出。户籍人口密度、平均收入、产业结构对西部地区人口流动的影响没有显著性意义,这可能是因为西部地区地广人稀、二三产业占比低、区域工资收入差异较小。

3 讨论

基于手机信令数据,通过人口数量、人口密度和人口集聚度三个指标,开展常住人口在国家和区域尺度的空间格局、流动特征和影响因素分析。研究发现,中国人口仍然集聚在胡焕庸线的东南侧,东南半壁密中有疏,西北半壁则疏中有密;人口分布多圈层集聚特征明显;人口集聚呈现出以平原地区为依托并高度集聚于“沿江、沿海、沿线”的特征;人口流动向核心城市和城市群集中,呈现成片分布格局。

整体而言,经济因素是中国人口流动的关键驱动力,经济规模越大、收入水平越高、产业结构更优(第三产业占比高)的地区人口流入量越多,交通因素同样有助于人口的流动。相同要素在不同地区对人口流动产生不同影响,经济规模对城市群地区、东部地区和西部地区的人口流入起到了重要的正向促进作用,但对于非城市群地区的正向影响则很微弱;平均收入对城市群地区、非城市群地区和东部地区有较明显的正向影响;第三产业对城市群地区和东部地区人口流入具有微弱的正向影响,对非城市群地区的正向影响则更为显著;第二产业对城市群地区和东部地区人口流入产生微弱的负影响,对非城市群地区的影响则表现为正相关性;户籍人口密度对城市群地区、非城市群地区和东部地区的人口流入具有负影响,尤其非城市群地区的负影响更为显著;交通联通度对非城市群地区和西部地区的人口流动具有显著性意义,不过效果却截然相反(非城市群地区表现为正向影响而西部地区则为负影响)。

以经济、交通和户籍人口三大要素为主的回归模型对全国层面和发达地区(城市群地区和东部地区)的人口流动具有较高的解释度,对非城市群地区和西部地区这些经济欠发达地区的解释度较低,特别是非城市群地区的解释度仅为24.5%,这说明欠发达地区人口流动的驱动因素更为复杂多样,未来需要进一步研究。

4 结论

手机信令数据能客观反映中国人口空间分布和流动特征。相对统计数据而言,手机信令数据覆盖范围广、用户持有率高,能更好反映人口流动行为的时空规律;手机信令数据不输出任何个人属性信息,不涉及个人隐私,安全性较好;手机信令数据具有动态实时性和连续性,能准确反映在连续时间区段内,不同时间点,匿名用户所在的空间位置,为定量描述区域内人群流动轨迹提供了可能。

当然,研究也发现了手机信令数据存在的问题,如:数据精度缺陷,依赖于手机通信基站定位方式获得的位置存在无法避免的空间误差。在使用数据的代表性方面,本文仅通过联通手机信令数据扩样全量用户,以手机用户数近似为常驻人口数量,未充分考虑联通、移动、电信等不同运营商在不同区域市场占有率的差异和特殊人群等非活跃手机用户群体对人口分布的影响。此外,手机信令数据存在明显的有偏性、用户属性缺乏等缺陷,在支撑机制机理研究上存在缺陷,未来研究需多源数据融合予以支撑。

统计数据中的户籍人口指标无法体现人口的真实流动信息,存在低估经济发达地区的人口信息的问题。未来,需要强化对户籍人口、常住人口、流动人口和实际人口(城市服务人口)等指标的概念界定和识别方法研究。

猜你喜欢
人口密度常住人口信令
2021 年内蒙古自治区常住人口主要数据公报
SLS字段在七号信令中的运用
移动信令在交通大数据分析中的应用探索
北京城市副中心:常住人口控制在130万以内
基于信令分析的TD-LTE无线网络应用研究
高速铁路与经济增长的因果关系
关于我国房地产价格的思考
2015年上海市常住人口首现负增长
厦门市流动人口分布研究
LTE网络信令采集数据的分析及探讨