陈 顼
(江西理工大学 土木与测绘工程学院,江西 赣州 341000)
人口空间分布的精准把控有利于区域管理、资源分配、灾害防治等。以往的人口统计方式一般以行政单元划分,通过人口普查与抽样统计的方法得到各级行政单元的人口。这种方式无法精准展现人口分布情况,导致对人口分布的分析不足[1]。人口空间化是通过选取与人口数据相关的因子,用特定的计算方法或数学模型将人口数据分布到建立的格网上[2-3],格网空间可视化的人口数据可以展现出丰富的人口空间分布信息,能为精准估算地区人口分布规律、辅助解决社会人口与自然环境的耦合问题提供很大助力[4]。
地表覆盖数据作为一种基础数据,与人口分布以及人类活动具有很强相关性,经常应用于人口空间化的研究,而近年来夜间灯光遥感数据在人口、GDP等社会经济统计数据的空间化建模中应用也越来越广泛[5]。李翔等选取夜间灯光数据和土地利用数据构建上海市人口空间化模型,改善了人口空间模型的拟合精度[6]。赵真等利用地表覆盖数据进行分区建模和构建考虑了空间异质性的地理加权回归模型进行西南地区的人口回归模拟,模型精度均有了提升[7]。本文选取夜间灯光数据结合地表覆盖数据和DEM数据作为人口空间化的辅助数据,以江西省为例,在县级尺度上探究这些因子构建人口空间模型的可行性,筛选出适当因子构建人口空间回归模型,对模型进行精度评定与比较,发现空间回归模型相较线性回归模型拟合精度更高,最优模型为空间误差模型。
本文所用到数据主要有2015年江西省行政区划矢量数据、各县(市、区)人口统计数据、NPP/VIIRS夜间灯光数据、地表覆盖数据和DEM数据,具体见表1。
表1 数据来源
根据江西省统计年鉴及中国县域统计年鉴统计得到2015年江西省各县区人口数据,共计100个县区。为方便数据的处理,将不同来源的数据坐标系均投影为WGS_1984_UTM_Zone_50N。建立江西省行政范围内1 km×1 km的矢量网格。
采用NASA官网下载的年平均灯光数据,影像已经过去噪处理,以江西省行政区划范围为掩膜提取出研究区域内夜间灯光数据,再进行分区统计得到每个县(市、区)的夜间灯光总强度。地表覆盖数据共有9个有效一级分类,根据无土地无人口的原则,排除水体类型,统计其余地表覆盖类型在每个县(市、区)的面积。通过掩膜提取工具得到江西省行政区划范围内的DEM影像;在ArcMap中,对DEM影像进行处理得到坡度和坡向,再利用分区统计工具,计算每个县(市、区)的总高程、坡度和坡向。
空间回归模型考虑了变量的空间相关性[8]。本文选取经典的空间滞后模型和空间误差模型来进行研究。
1)空间滞后模型(SLM)形式为
Y=Xβ+ρWY+ε
(1)
式中:Y为人口统计数;X为经筛选得到的自变量;W为人口统计数的空间权重矩阵;β为X的空间回归系数;ρ为滞后变量WY的回归系数;ε为误差项。
2)空间误差模型(SEM)形式为
Y=Xβ+λWε+ξ
(2)
式中:Y为人口统计数;X为经筛选得到的自变量;β为自变量的空间回归系数;W为误差项ε的空间权重矩阵;λ为误差项ε的空间回归系数;ξ为随机误差。
空间回归模型中一般以相关系数(R2)、对数似然函数值(LogL)、赤池信息准则(AIC),施瓦茨准则(SC)评定精度[9]。其中R2值在(0~1)之间,R2越接近1、LogL值越大、AIC和SC值越小都意味着模型的拟合效果越好[10],而且在普通最小二乘回归的基础上,要测拉格朗日常数(LM)和稳健拉格朗日常数(RLM)的显著性,二者的值越大说明模型拟合效果更好[11]。
本研究以模型拟合人口数量与统计人口数量的相对误差进行检验[12],公式为
(3)
式中:REi为绝对值相对误差;POPi为第i个县(市、区)统计人口;POP′i为模型拟合得到的第i个县(市、区)人口数量。
为提高人口回归结果精度,将人口回归结果按分县(市、区)的校正方式构建校正系数[13],调整格网回归人口数,使各县(市、区)的回归人口总量与实际统计人口总量一致,校正公式为
(4)
式中:P′ik为校正后第i个县(市、区)的第k个格网的人口数量;Pik为第i个县(市、区)的第k个格网的拟合人口数。
通过SPSS软件对各县(市、区)统计人口数量与各县(市、区)夜间灯光总强度、各地表覆盖类型面积和总高程、总坡度、总坡向进行Pearson相关性分析。人口与相关因子系数见表2。
表2 相关性分析
由表2可知,夜间灯光强度、DEM衍生数据和地表覆盖数据与人口数据的关系密切。本研究以各县(市、区)人口统计数量为因变量,各县(市、区)夜间灯光总强度、坡度和地表覆盖类型耕地、草地、湿地、不透水表面和裸地的面积为待选变量,置信水平为0.05,对回归系数进行P值显著性检验,再排除可能造成共线性的变量,最终确定地表覆盖类型耕地、草地以及不透水表面面积为自变量,在ArcMap统计得到这3种地表覆盖类型在每个单元格网内的面积。
选取的3种地表覆盖类型与江西省统计人口数据有较强的相关性,且通过了P值显著性和共线性的检验,因此本研究采用地表覆盖类型耕地、草地以及不透水表面面积为自变量,人口统计数据为因变量,构建空间回归模型。两种空间回归模型的比较见表3。
表3 模型优度比较
由表3各项指标分析可知两种空间回归模型的精度均优于线性回归模型,而SEM模型的拟合精度又明显优于SLM模型,故选择SEM模型进行江西省人口空间回归。模型系数见表4,所选变量系数均通过显著性检验,将3种地表覆盖类型在格网单元内的面积和回归系数代入空间误差模型,计算得到每个格网单元的人口拟合值。
表4 SEM模型系数
根据式(3),得到各县(市、区)回归人口的相对误差绝对值,见表5。空间误差模型模拟结果与各县(市、区)统计人口数量相对误差绝对值在20%以下的有54个,大于50%的为7个;再根据各县(市、区)的相对误差绝对值计算得到平均相对误差为23.98%,总体精度较高,在人口密集的城市中心区域存在低估情况。
表5 误差统计
根据式(4),计算各县(市,区)的人口校正系数,将各县(市、区)内格网人口回归数乘以相应的校正系数,使回归得到的各县(市、区)人口数与统计人口数相符合,得到校正后的单元格网人口。
根据空间误差模型得到的格网单元人口模拟结果和县级尺度上的格网人口校正,本研究得到了2015年江西省人口数据空间化校正结果,图1清晰反映了江西省人口分布状况。根据无土地无人口的原则,将水体覆盖类型上的人口赋值为0。
由图1可分析得出:江西省人口密度主要集中在0~500人/km2,人口密度在各城市中心达到峰值,特别是南昌市中心城区,人口达到峰值,最高值为17 742人/km2,围绕南昌市附近的江西省北部的城市更多且经济更发达,人口密度普遍更高,而在赣南地区及省界周边山地较多,人口密度分布相对较低。格网空间化后人口变化不以行政单元界限划分,呈现出城市中心高,四周低的分布状况,以城市为点,周边为线分布,人口呈一核心多集聚的分布,在南昌市城区范围内达到峰值,其余人口密集处集中在各县(市、区)中心,距离县(市、区)中心越远,人口密度越低,且分布较为均匀,再结合2015年江西省统计人口分布分析,所选取的人口相关因子能够合理模拟人口的实际分布,空间化人口分布状况与实际人口分布情况符合。
图1 人口空间化结果
进行人口空间化的研究有助于掌握高分辨率的地区人口分布情况,对区域管理、资源分配、灾害防治等有很大的帮助。本研究选取地表覆盖类型、夜间灯光数据、DEM及其衍生数据进行与2015年江西省人口相关性的探究,结论如下:
1)根据参考文献与查阅资料,选取的地表覆盖数据、夜间灯光数据和DEM数据被广泛应用于人口空间化研究,但在本研究中发现在P值显著性与共线性检验时部分相关系数较低的因子和夜间灯光数据并不适合用于江西省人口空间化建模,说明在不同地区人口影响因子的相关性不同,应选择尽量多的相关因子进行筛选,提高建模精度。
2)在模型指标比较中发现,考虑了研究区域空间相关性的空间回归模型比一般线性回归模型更优,模型拟合的结果更精准,在今后的研究中可以构建其他的优质模型,比如考虑了人口空间异质性的地理加权回归模型。
3)人口空间化结果显示在县(市、区)中心人口密集区域人口密度容易被低估,说明地表覆盖因子对城市中心的人口数模拟能力不足。在今后的研究中应该选取与人口具有高相关性的因子实验提高模拟精度,比如与城市人口密切相关的POI数据。