山东省街道/乡镇级格网化人口空间分布数据集(2000、2010年)

2019-11-17 05:05王明明王卷乐
关键词:格网统计数据分区

王明明,王卷乐

1. 山东理工大学建筑工程学院,山东淄博 255049

2. 中国科学院地理科学与资源研究所,资源与环境信息系统国家重点实验室,北京 100101

3. 江苏省地理信息资源开发与利用协同创新中心,南京 210023

数据库(集)基本信息简介

?

引 言

街道/乡镇级人口统计数据是我国目前公开的最精细的统计数据,街道/乡镇级人口空间分布数据成为地学研究的重要需求之一,但单纯地将统计数据以行政区划为单元分布到空间,往往存在行政单元尺度不够精细[1]、行政区划系统存在变动[2]、行政边界造成地学研究中的“可变元问题”[3]等不足。格网化人口空间分布数据是传统人口统计数据的拓展和补充,其实现了行政单元尺度人口的重新展布,有效克服了人口统计数据存在的不足,对地理、资源、环境、生态、灾害以及可持续发展等跨学科研究具有重要意义。

目前涉及中国区域的格网化人口数据已有中国人口空间分布公里网格数据集(Chpop)、全球栅格人口数据集(GPW)、全球农村城镇制图计划数据集(GRUMP)和世界人口计划数据集(Worldpop)等,这些数据集中除了GPW外,其他均是以县级人口统计数据为基础,借助人口统计数据与土地利用、夜间灯光和土地覆被等数据的关系建立空间分布模型。尽管GPW使用了2010年的街道/乡镇级人口统计数据,但其街道/乡镇级行政边界数据不是实际边界数据,而是采用特殊方法的模拟数据[4]。可见,真实的街道/乡镇级人口格网化数据产品目前是极为贫乏的。究其原因在于三点,一是街道/乡镇级行政区划矢量数据获取困难,且存在大量的行政区划和地名变更问题,难以直接利用。二是,街道/乡镇级人口统计数据的空间关联需要进行大量的涉及乡镇(街道)地名和行政区划的空间数据匹配处理工作,非专业的团队难以完成。三是,空间化的方法单一,缺少多源数据和中国人口地理学特点的综合运用,例如中国人口分布的城乡二级分布特征。以上这些原因使得当前人口数据空间化研究多是基于县级人口统计数据[5-8],即使有个别街道/乡镇级的研究[9-10],也只停留在小范围内。针对这一需求,本文完成了2000年和2010年山东省街道/乡镇级人口匹配处理,并利用土地利用数据和夜间灯光数据相结合的空间化方法,实现了两期人口数据的空间化工作。其中土地利用数据和街道/乡镇级行政单元相结合构建城乡二级分区方法,增强型植被指数(EVI)对DMSP/OLS夜间灯光数据进行修正,保证了空间化模型的精度。

1 数据采集和处理方法

1.1 数据来源

生产本数据集所采用的数据包括DMSP/OLS夜间非辐射定标的平均稳态数据、EVI、土地利用数据、世界人口计划数据集WorldPop、街道/乡镇级人口统计数据和行政边界数据。数据的相关参数和来源如表1中所示。

表1 数据源详细信息

1.2 数据处理

(1)街道/乡镇级人口空间数据

街道/乡镇级人口空间数据制作需要将街道/乡镇级人口统计数据与街道/乡镇级行政区划矢量数据的属性进行关联,实现街道/乡镇级人口统计值在空间上的分布。本文采用决策树的思想实现两者的属性关联,过程如图1所示。

图1 街道/乡镇级人口空间数据制作流程

(2)夜间灯光数据

DMSP/OLS夜间灯光数据由于OLS传感器本身的缺陷存在饱和溢出现象,会影响到城市中心人口数据空间化的精度。有研究表明可以通过EVI对DMSP/OLS夜间灯光数据进行修正,生成增强型植被指数调整的夜间灯光指数(EANTLI),修正公式如式(1)[11]。

式中,NTLn为归一化后的DMSP/OLS夜间灯光指数,EVIa为处理后的EVI数据,NTL为原始DMSP/OLS夜间灯光指数。

(3)城乡二级分区

建模之前将样本进行二级分区处理,技术流程如图2。一级分区:利用土地利用数据将所有行政单元分为城镇地区(A1)、农村地区和其余地区。其中城镇地区中的居民地类型只包含城镇用地,农村地区的居民地类型只包含农村居民点,其余地区则包含这两种居民地类型。二级分区:以1∶4∶1的比例将农村地区分为低人口密度区(A2)、中人口密度区(A3)和高人口密度区(A4);根据模型检验结果将其余地区分为A5(相对误差绝对值<20%)、A6(相对误差<-20%)和A7(相对误差>20%)3个分区。

图2 城乡二级分区和建模技术流程图

(4)空间化模型

分别利用线性回归模型和多层感知器(MLP)人工神经网络模型建立人口数据空间化模型。A1、A2、A3和A4分区的建模结果依次对应图2中的方程式1-4。

①线性回归模型。A1分区的人口数据空间化模型如式(2)所示,A2、A3和A4分区的人口数据空间化模型如式(3)所示。

式中,pop和popi为街道/乡镇级行政单元内的人口值;EANTLI为行政单元中城镇用地范围内的EANTLI灯光强度值;和为回归系数;和为常数项;areai为行政单元中农村居民点的面积;表示第i个分区,取值分别为2、3、4。

②MLP人工神经网络模型。在A1、A2、A3和A4分区,将土地利用数据和EANTLI夜间灯光数据作为输入层,街道/乡镇级人口统计数据作为输出层,包含一个隐藏层,模型如式(4)和式(5)所示。

式中,G为隐藏层到输出层的逻辑回归函数,S为输入层到隐藏层的函数,W1和W2分别为输入层到隐藏层和隐藏层到输出层的权重,和分别为输入层到隐藏层和隐藏层到输出层的偏置,和a为变量。

(5)格网单元人口模拟

选取模型精度最优的空间化模型模拟格网单元的人口值。经后文模型精度验证可知,线性回归模型的精度优于MLP人工神经网络模型的精度,因此本文利用线性回归模型的建模结果模拟格网单元的人口值。其中A1、A2、A3和A4分区依次利用方程式1-4模拟,A5分区利用方程式1和方程式3模拟,A6分区利用方程式1和方程式2模拟,A7分区利用方程式1和方程式4模拟。

(6)格网单元人口修正

由于模型公式存在一定的误差,行政单元内的人口模拟值和人口统计值不一致。建立人口模拟修正公式,见式(6),对格网内的人口模拟值进行调整。

2 数据样本描述

经过数据处理得到2000年和2010年山东省100 m格网人口空间分布数据集(图3、图4)。本数据集比较清晰地反映了山东省的人口分布特点,高人口密度主要集中在济南、青岛、潍坊、淄博、烟台、德州、威海和济宁等地级城市驻地处,济南和青岛两地的人口密度和数量最高;鲁北沿海、鲁中山地丘陵区和济宁南部的人口分布较为稀少。从2000年到2010年的人口分布变化来看,地级城市高人口密度区有明显的扩大,2010年的最大人口密度值较2000年有所提高。

3 数据质量控制和评估

3.1 质量控制

本文利用街道/乡镇级人口统计数据作为基础数据、运用城乡二级分区建模方法、EVI对DMSP/OLS夜间灯光数据进行修正等做法保证空间化产品的精度。为对空间化结果做出准确的评价,本文对空间化模型进行验证并对空间化结果进行同类产品对比分析。验证和对比结果如下文所述。

图3 2000年山东省格网人口空间分布数据

图4 2010年山东省格网人口空间分布数据

3.2 质量评估

(1)模型精度验证

在模拟格网单元内的人口之前,检验空间化模型的精度。利用方程式1-4模拟其余地区乡镇(街道)单元内的人口,按式(7)计算其余地区街道/乡镇级人口统计值和模拟值之间的相对误差。结果显示,线性回归模型中2000年和2010年的其余地区分别有78.0%和78.4%的行政单元的相对误差绝对值小于20%,MLP人工神经网络模型中2000年和2010年的其余地区分别有71.0%和72.7%的行政单元的相对误差绝对值小于20%。可见在本文人口数据空间化模型构建中,线性回归模型比MLP人工神经网络模型更有优势。

将线性回归模型的相对误差分布到空间(图5),可以看出误差较大(相对误差绝对值大于20%,图中蓝色和红色区域)的行政单元主要分布于地级城市周边和北部沿海区域,且2000年的相对误差在中部山地丘陵区也分布较多。主要原因有以下两点:①在城市周边和山地丘陵区容易出现城镇用地和农村居民点用地的错分现象;②在沿海地区存在港口码头,导致夜间灯光和人口分布的相关性降低。

图5 模型精度检验结果空间分布图

(2)空间化结果对比

利用山东省街道/乡镇级人口统计数据对 Chpop、GPW 和 Worldpop进行精度评价,计算Chpop2000、GPW2000、WorldPop2000、Chpop2010、GPW2010和Worldpop2010六个数据集街道/乡镇级行政单元尺度内的人口模拟值和统计值之间的皮尔逊相关系数(R)、平均绝对误差(MAE)、均方根误差(RMSE)和相对均方根误差(%RMSE),其中%RMSE是将均方根误差除以人口普查数据的平均值得到,可以反映模型模拟的精度高低[12]。MAE、RMSE和%RMSE的计算公式分别如式(8)、式(9)和式(10)所示,计算结果如表2所示。结果显示WorldPop的人口模拟值最精确。

表2 山东省格网化人口分布数据集的人口模拟值与统计值的评价指标

利用目前可开放获取的精度相对最高的人口空间分布数据集WorldPop对本文产出的SDpop2000和SDpop2010进行对比验证。分别统计WorldPop和SDpop在10 km格网内的人口值,采用散点图、R、MAE、RMSE和%RMSE来衡量两者的差异。MAE、RMSE和%RMSE分别采用式(8)、式(9)和式(10)计算,其中分别带入10 km格网内SDpop和WorldPop的人口模拟值,N代表10 km格网的个数。检验结果如表3所示,SDpop与WorldPop的散点图如图6所示。

表3 山东省格网化人口空间分布数据验证结果

图6 SDpop与WorldPop的10 km格网人口值散点图

4 数据价值

格网化人口空间分布数据打破了行政单元的禁锢,实现了更精细的人口空间分布,这不仅对地理、资源、环境、生态、灾害等学科中和人口相关的跨学科研究具有重要意义,而且对政府部门进行土地使用、公共设施和开发计划等规划具有重要参考意义。本文通过对街道/乡镇级人口统计数据、独特分区方法和基于EVI修正的夜间灯光数据的使用,有效地提高了人口数据的空间化精度,产出的2000年和2010年山东省格网化人口空间分布数据集,丰富了人口格网化产品。

猜你喜欢
格网统计数据分区
贵州省地质灾害易发分区图
创新视角下统计数据的提取与使用
上海实施“分区封控”
生态格网结构技术在水利工程中的应用及发展
国际统计数据
2017年居民消费统计数据资料
极区格网惯性导航性能分析
大型数据库分区表研究
大空间建筑防火分区设计的探讨
基于格网的地形图信息管理方法研究及实现