基于多源数据的福建省人口数据空间化研究

2019-04-30 02:44杨晓荣
贵州大学学报(自然科学版) 2019年2期
关键词:格网福建省土地利用

杨晓荣,陈 楠

(1.福州大学 福建省空间信息工程研究中心, 福建 福州 350116; 2.福州大学 空间数据挖掘与信息共享教育部重点实验室,福建 福州 350116)

人口增长问题是当今世界不容忽视的问题,也加剧了与粮食、能源、资源、环境之间的矛盾[1]。深入了解人口信息,掌握精确的人口空间分布及其变化信息可以为解决社会、经济、资源和环境问题提供科学的决策依据[2, 3]。然而,现有的人口数据通常是通过人口普查或抽查方式按行政单元逐级统计和汇总,忽略了统计单元内部人口分布的差异性,且时间分辨率低,更新周期长,执行时费时费力[4, 5]。同时,为了保护人口数据的隐私性,人口数据通常以县、市、省、国家等较大行政单元进行公布,这不利于人口数据与其他类型数据的融合分析研究,限制了人口数据的可利用性[6]。人口数据空间化恰好弥补了这种限制性,得到的空间化产品可以有效与其他类型数据融合,在风险评估、资源分配、经济发展等方面发挥作用[7, 8]。

人口数据空间化是以人口数据、行政边界以及影响人口分布的因素作为建模参考要素,通过人口建模或采用一定的计算方法,将人口数据分配到一定尺度的格网上,呈现出人口空间分布信息,实现人口统计数据的空间可视化[9]。自人口增长问题的严重性得到重视,各国学者相继主要从建模要素、建模方法、精度验证方法等三个方面开展全球、国家、州(省)级、县级等尺度的人口数据空间化研究,形成了UNEP/GRID、GPW及GRUMP、LandScan、WorldPop、中国公里格网人口分布数据集等具有较大影响力的全球人口空间化产品[9-11]。但在许多人口数据空间化研究中,建模方法多为多元回归方法,忽略了人口的空间分布效应,如柏中强等[12]和Zhuo等[13]的研究。

本研究考虑到数据的可利用性与人口的空间分布效应,在NPP/VIIRS(National Polar-orbiting Operational Environmental Satellite System Preparatory Project/ Visible Infrared Imaging Radiometer Suite)夜间灯光、土地利用数据、DEM、路网数据与常住人口数据的相关性的基础上,以福建省为研究区,在县级尺度上采用空间回归模型对2015年福建省常住人口进行回归以构建其500 m人口空间分布数据,并在乡镇尺度上对人口空间化结果进行精度验证,同时与WorldPop及中国公里格网人口分布数据集比较,实现2015年福建省人口数据空间化。

1 数据来源和研究方法

1.1 数据来源

本研究以2015年福建省的行政区划、NPP/VIIRS夜间灯光、土地利用、DEM、路网、以及常住人口数据为基础数据,具体如表1所示。

表1 数据来源表Tab.1 Data sources

1.2 研究方法

1.2.1技术路线

NPP/VIIRS夜间灯光数据、土地利用数据、DEM数据需要进行预处理(采用最近邻法将夜间灯光数据重采样至500 m,投影转换至Krasovsky_1940_Alebers 坐标系坐标系)。本研究技术路线如图1所示,空间回归模型及精度验证方法分别见1.2.2和1.2.3节。

图1 技术路线图Fig.1 Flow chart for the process of spatialization

1.2.2空间回归模型

经典的空间回归模型为空间滞后模型及空间误差模型,如式(1)所示[14]。

式中:Y为因变量,X为自变量,β为X的空间回归系数,μ为残差,W为空间权重矩阵,ρ为空间自回归系数,λ为空间自相关系数,ξ为因变量误差,ε为自变量误差。μ=μ1时,模型为空间滞后模型(SLM);μ=μ2时,模型为空间误差模型(SEM)。本研究经过模型比较选择最佳空间回归模型。

空间回归模型中R2(相关系数)、Log likelihood(对数似然值)、Akaike info criterion(赤池信息准则)和Schwarz criterion(施瓦茨信息准则)共四个统计量作为模型的评价指标。其中,R2的取值范围为[0,1],R2越接近于1、Log likelihood值越大、Akaike info criterion和Schwarz criterion值越小说明模型的回归拟合效果越好;除了上述评价指标,还需在普通最小二乘回归模型(OLS)的基础上通过拉格朗日乘子检验和稳健性的拉格朗日乘子检验判断模型的回归拟合效果,Lagrange Multiplier 和Robust LM值越大说明模型的回归拟合效果越好[15]。

基于八邻域(Queen)邻接规则的空间样本常常与其周围空间单元具有更加紧密的关联效应。为更能全面地反映行政区域单元空间邻接关系,本研究选择构建基于八邻域邻接关系的空间权重矩阵,认为当两个空间单元存在公共边或同一点即为相邻,权值为1,否则为0[16]。

鉴于人口数量不可能为负值,本研究默认回归模型的自变量系数及常量必须为正值,且还需通过显著性检验。建立好空间回归模型后,将模型中的常量按县为单位平均分配到每个县的各个格网上,即在计算各格网单元上的人口数值时,原模型中的常量发生了变化,其余参数均未变。将各格网单元上的自变量数值代入模型计算各格网单元上的人口数值,实现500 m格网单元的人口构建。

为保证县域上总的模拟人口数与实际常住统计人口数据一致,对各格网单元的人口回归结果分县按式(2)进行校正,最终得到福建省500 m格网单元的人口空间分布数据,实现2015年福建省人口数据空间化。

(2)

式中:Pij为第i个县第j个格网单元上调整后的人口数值;Pij′为第i个县第j个格网单元上的人口回归数;Pi第i个县常住人口统计数据;Pi′为第i个县上初始的总模拟人口数。

1.2.3精度验证方法

本研究在县级尺度上进行人口数据空间化,在乡镇尺度上选择相对误差(RE)、平均相对误差(MRE)、平均绝对误差(MAE)和均方根误差(RMSE)等评价指标对人口数据空间化结果进行精度验证,并与WorldPop及基于土地利用构建的中国公里网格人口分布数据集比较。其评价指标计算公式如表2所示。

表2 评价指标计算公式Tab.2 Calculation formulas of evaluation indexes

注:Pi为第i个行政单元人口统计值,Pi′为第i个行政单元人口估计值,n为行政单元个数

表3 福建省人口与各要素的相关性分析Tab.3 Correlation between each influencing factors and population for Fujian province

2 结果与讨论

2.1 人口与各要素的的相关性分析

本研究考虑了夜间灯光、路网、DEM、土地利用类型的影响,分析了人口与这些要素之间的相关性。表3中NPP/VIIRS夜间灯光与人口的相关系数最高(为0.866),未利用土地与人口的相关系数最低(为0.034)。相关性分析表明,夜色间灯光、路网、DEM、土地利用数据与人口分布关系密切,具有模拟人口的空间分布的能力。

人口数据空间化过程中建模要素的选择对人口数据空间化的结果具有至关重要的影响,它决定了我们从哪些角度来解释人口分布的影响机制以及模拟人口分布。部分建模要素不仅具有时间分辨率还具有空间分辨率,这些都影响了人口数据空间化最终的结果精度。

2.2 空间回归模型构建

鉴于相关性分析表明了夜间灯光、路网、DEM、土地利用数据与人口具有良好的相关性,本研究以各县的DEM总值、路网总长度以及各土地利用类型上的夜间灯光总强度为自变量待选量,以各县常住人口统计数据为因变量,通过显著性及正值检验确定最终的自变量,建立空间回归模型。最后,经过模型比较选择最佳的空间回归模型。

通过自变量待选量的显著性及正值检验,确定路网长度、耕地灯光总强度、林地灯光总强度、草地灯光总强度以及建设用地的灯光总强度为自变量。表4为本研究空间回归模型的比较结果。表4表明SEM的R2与Log likelihood值均大于SLM、Akaike info criterion与Schwarz criterion值均小于SLM,SEM的Lagrange Multiplier与Robust LM值均大于SLM,这充分说明了SEM比SLM的回归拟合效果更好。因此本研究选择了SEM模型实现人口数据空间化。表5为SEM模型的回归系数表。

表4 空间回归模型比较Tab.4 Comparisons of spatial regression models

表5 SEM模型系数表Tab.5 Regression coefficiens of SEM

2.3 人口数据空间化结果

经过上述相关性分析及最佳空间回归模型的选择,结合县域尺度人口分布的校正,本研究估测了500 m格网单元上的人口值,实现了2015年福建省人口数据空间化,图2精细地展现了2015年福建省的人口分布状况。由于水域、未利用土地、海洋这三类土地利用类型最终未参与到空间回归模型的建立,本研究在人口数据空间化实现中将这三类土地利用类型所在网格单元的人口设置为0,认为其无人居住,这也符合人口的实际分布情况。

从图2可以看出,2015年福建省人口主要聚集于建设用地,各县的人口高值区主要集中在县城所在地,其人口最高值为16009,最小值为0,人口呈现出主城区高、四周低的空间分布格局;沿海区域的人口明显高于其他地区,这也间接反映了沿海区域更好的经济发展基础吸引了大量人口的聚集,城市化进程更快。闽北大部分属于山区,经济发展缓慢,常住人口数量明显低于沿海区域。结合2015年福建省人口的实际分布情况,总体来看本研究人口数据空间化结果符合2015年福建省人口的实际分布情况。

2.4 精度验证结果

本研究随机抽取132个乡镇,分别在本研究人口数据空间化结果、WorldPop及基于土地利用构建的中国公里网格人口分布数据集上统计这些乡镇的人口数,然后分别与其常住人口统计数据进行对比分析以分别计算其相对误差(RE)、平均相对误差(MRE)、平均绝对误差(MAE)、均方根误差(RMSE)共四个评价指标并对相对误差进行分级,最后根据其评价指标比较这三种数据集。

图2 2015年福建省500 m人口空间分布图Fig.2 Spatial distribution of population for Fujian Province in 2015

表6为人口分布数据集的误差统计表,其评价指标分别为MRE、MAE、RMSE。由表6可以看出,本研究人口数据空间化结果的MRE、MAE、RMSE分别为49.54%、15636、30071,WorldPop数据集的MRE、MAE、RMSE分别为74.39%、15740、32246,中国公里网格人口分布数据集的MRE、MAE、RMSE分别为75.72%、15934、30539。经过数值比较,发现本研究人口数据空间化结果的MRE、MAE、RMSE这三个误差均小于WorldPop与中国公里网格人口分布数据集,这说明在福建省本研究人口数据空间化结果精度比WorldPop与中国公里网格人口分布数据集精度要高。

表7是132个乡镇的相对误差分级统计表。本研究人口数据空间化结果出现准确估计的乡镇个数均大于WorldPop与中国公里网格人口分布数据集,严重低估、低估的乡镇个数略大于WordPop与中国公里网格人口分布数据集,高估的乡镇个数略大于WorldPop数据集又略小于中国公里网格人口分布数据集,严重高估的乡镇个数均小于WorldPop与中国公里网格人口分布数据集。经过比较分析,从RE角度总体来看,本研究人口数据空间化结果精度要高于WorldPop与中国公里网格人口分布数据集。

结合MRE、MAE、RMSE、RE四个评价指标,综合分析,认为本研究人口数据空间化结果精度要高于WorldPop与中国公里网格人口分布数据集。这充分表明本研究人口数据空间化结果精度比较高,在空间上能够精细地展现2015年福建省的人口分布状况,弥补了传统的以县为单位展现人口分布状况的不足。

表6 误差统计表Tab.6 Errors statistics

表7 相对误差分级统计表Tab.7 Statistics of relative error classification

2.5 讨论

福建省气候条件优越,作为海上丝绸之路的重要起点以及互联互通建设的重要枢纽,吸引了大量外来人口来闽发展和居住。其人口数量一直在不断增长,截止至2015年,其常住人口数量从2000年的3410万增加至3839万。然而由于福建多山的地貌及沿海的地理位置,台风登陆时风力和降雨量会骤增,容易造成泥石流、山体滑坡、和城市内涝等自然灾害的发生,影响了社会、经济的稳定发展。这时,了解到精细的人口空间分布状况能很好地对自然灾害的预防与响应救援起到指导性作用。本研究人口数据空间化结果能够精细直观地反映出2015年福建省的人口空间分布状况,可以定性地预测之后年份的人口空间分布状况,为该地区的经济发展、人口管理、自然灾害的预防与响应救援等提供有力的科学决策依据。

2015年,福建省路网、DEM和土地利用类型与人口具有良好的相关性,有足够能力作为人口建模要素。然而,本研究仅考虑了这些遥感与地理要素对人口分布的影响,未考虑气温、降雨等气候因素以及GDP、房价等社会经济因素的影响,这可能一定程度上造成了本研究人口数据空间化的人口低估与高估现象。此外,土地利用或多越少会存在一定的解译误差问题,并且零碎的建设用地都有可能存在于耕地、林地、草地中,这些在本研究使用的分辨率仅为1 km土地利用数据中无法体现,这也可能是人口出现低估与高估现象的原因。

本研究人口数据空间化结果的MRE、MAE、RMSE均小于中国公里网格人口分布数据集[17],表现为其MRE、MAE、RMSE分别为49.54%、15636、30071,中国公里网格人口分布数据集其指标数值分别为75.72%、15934、30539,且本研究人口数据空间化结果出现准确估计的乡镇个数大于中国公里网格人口分布数据集,这说明了本研究人口数据空间化结果的精度比中国公里网格人口分布数据集的精度要高,表明了在使用土地利用类型数据实现人口数据空间化时结合夜间灯光、路网等数据可以提高人口数据空间化结果的精度。

与已有研究比较,本研究使用空间回归建模方法,而大量已有研究直接采用多元回归建模方法,如梁友嘉等[18],多元回归建模方法未考虑人口的空间分布效应。本研究通过对OLS模型和空间回归模型从R2、Log likelihood、Akaike info criterion、Schwarz criterion、Lagrange Multiplier、Robust LM指标进行比较,得出考虑到人口空间分布效应的空间回归模型比未考虑到人口空间分布效应的OLS模型的回归拟合效果要好的结论。

人口空间分布的影响因素复杂,建模方法也多样,在今后的人口数据空间化研究中,应重点加强建模要素及建模方法的挑选及改进,围绕如何得到精细的人口空间分布和如何提高人口数据空间化的精度开展研究。

3 结论

夜间灯光、土地利用状况、路网、DEM都是影响人口分布的重要因素,成为了实现人口数据空间化的重要数据源。本研究考虑到数据的可利用性和人口的空间分布效应,在分析NPP/VIIRS夜间灯光、土地利用类型、路网、DEM与人口的相关性基础上,通过空间回归模型构建2015年福建省500 m人口空间分布数据,在乡镇尺度上对人口数据空间化结果进行精度验证,同时与WorldPop及中国公里网格人口分布数据集比较,最终得出以下结论:

(1)NPP/VIIRS夜间灯光、土地利用类型、路网、DEM这些因素与人口具有较强的相关性,它们与人口分布关系密切;

(2)对于2015年福建省人口数据空间化,空间误差模型比空间滞后模型的回归拟合效果更好;

(3)本研究人口数据空间化结果符合2015年福建省人口的实际分布情况,人口呈现出主城区高、四周低的空间分布格局且沿海区域的人口明显高于其他地区;

(4)相对于福建省区域的WorldPop与中国公里网格人口分布数据集,本研究人口数据空间化结果精度更高。

猜你喜欢
格网福建省土地利用
遥感数据即得即用(Ready To Use,RTU)地理格网产品规范
云南地区GPS面膨胀格网异常动态变化与M≥5.0地震关系分析
实时电离层格网数据精度评估
福建省“两会”上的“她”声音
第四届福建省启明儿童文学双年榜揭榜
矢量点状数据抽稀方法的研究与实现
第三届福建省启明儿童文学双年榜揭榜
土地利用生态系统服务研究进展及启示
福建省巾帼馆开馆
滨海县土地利用挖潜方向在哪里