基于多源地理大数据的我国GDP空间建模研究

2023-04-22 13:41陈漾漾曹泳茵
关键词:区县灯光建模

陈漾漾,曹泳茵,徐 勇

(广州大学地理科学与遥感学院,广东 广州 510006)

国内生产总值(Gross Domestic Product,GDP)是一个国家所有常住单位在一定时期内生产活动的最终成果,是国民经济核算的核心指标,也是衡量经济状况和发展水平的重要指标。目前政府核算年度GDP需要收集各行业和劳动者的各项经济指标,即基于行业生产过程中的增加值或报酬收入两种经济指标分别计算,最终才能确定GDP数值,这必然会导致数据公布在时间上出现滞后,尤其是区县级行政单元的年度GDP存在缺失值。快速准确预测大范围行政区的GDP能为政府决策提供参考,同时也是亟需解决的问题[1]。

夜间灯光遥感影像能够监测大范围的地表人造光,Elvidge等[2]首次明确了地面人类活动造成的夜间灯光和GDP具有一定的线性关系,而后该遥感数据也被验证出与GDP具有较强的相关性,是经济相关活动的潜在指标[3]。并且该数据获取成本低,已被广泛应用于经济估算[4-7]、贫困度估算[8]、城市发展等级排名[9]和疫情复工复产[10]等社会经济领域的研究。与DMSP OLS夜间灯光数据相比,新一代的NPP VIIRS夜间灯光数据弥补了前者空间分辨率较低和灯光饱和等缺陷,对于GDP的拟合效果更佳[11-12]。

虽然夜间灯光对于截面GDP有着较好的指示性,但是灯光也会受到短暂的人类活动、自然现象(山火、云、雪、气溶胶等)和下垫面的影响[13],有时并不能很好地反映经济发展状况。随着无线网络和便携式移动设备的普及,人类社交媒体位置数据也成为拟合人口数量[14-17]和经济状况[18-19]的一个指标。Ma[20]基于夜间灯光数据和腾讯位置大数据的关系,发现在同样光照强度不同地区的经济活动也会存在较大差异。Zhao等[21]发现相较于稳定灯光产品,推特软件位置数据没有高估郊区和低估城市核心区的社会经济状况,可以将其视为夜间灯光的替代品来评估社会经济因素。Huang等[18]发现腾讯用户密度数据在区县尺度GDP模拟中比NPPVIIRS夜间灯光数据更加强大和可靠。这些研究表明,人类社交媒体位置数据能够弥补夜间灯光在拟合GDP方面的缺陷。

类似的还有兴趣点数据(Points of Interest,POI),它能在微观尺度上反映人类经济活动,可以描述人类对于土地的细粒度开发方式,因此,POI已经被用于提取城市和社会系统的详细信息[22-23]。同时也有学者将其运用到GDP预测中,如Chen等[24]将POI与夜间灯光数据耦合构建随机森林模型分别制作三大产业GDP空间化地图;此外,有学者结合POI与其他数据,通过构建线性模型来绘制GDP空间分布图[25-27]。但是同种类型POI模拟GDP时所占的权重相同,存在经济产出相差较大的情况,这会影响最终拟合结果,仍需补充能反映地域经济活力性质的数据[24]。

除此之外,土地利用方式也是反映经济发展水平的重要因素,其在一定程度上代表了城市化进程中人类聚居地的发展规模。Huang等[19]将城镇建设面积纳入到GDP建模中,发现其对GDP有显著的正向作用。也有学者根据土地利用数据或将其与夜间灯光数据结合分别对不同产业GDP构建数学模型进行GDP空间化[28-31],表明了土地利用数据具有反映GDP的能力。

综合前人所得的结论,夜间灯光遥感数据、POI数据和社交媒体位置信息三者在拟合GDP时是互相弥补的关系。尽管也有研究同时将以上地理大数据结合进行GDP估算[32-33],但是鲜有研究探讨这些数据拟合GDP的潜力和性能,对于GDP空间建模尚无最优因子选择方案[18]。且中国大陆幅员辽阔,各地自然人文条件差异较大,不同地理数据在不同地区的GDP反映能力目前尚未明确。

鉴于此,本研究将夜间灯光遥感数据、POI数据、腾讯位置大数据和土地利用数据作为构建GDP建模模型的候选指标,把这些指标叠加在中国大陆的区县行政范围,分别运用普通最小二乘法和地理加权回归法模拟2020年中国大陆区县的GDP。此外,研究还探讨上述4种地理大数据在模拟GDP方面的能力,为最佳GDP建模因子的选择和建模精度的提高提供参考。

1 研究区域和数据

1.1 研究区域

截止2020年底,全国共有34个省级行政单位,333个地级行政单位,2 843个县级行政单位。本研究选择中国大陆的区县(除香港、台湾以及金门县和金沙市)作为研究区域,图1为我国2020年区县GDP空间分布图。其中蓝色表示低值,红色则表示高值。中国区县GDP自东向西递减,GDP较高的区县集中在京津地区、山东半岛、华东沿海地区、华中、成渝城市群、粤港澳大湾区,而低值主要分布在东北北部、华北北部、青藏高原地区。

图1 研究区Fig.1 Study area

1.2 数据及预处理

1.2.1 夜间灯光数据及预处理

本研究使用美国宇航局(National Aeronautics and Space Administration,NASA)基于NPP-VIIRS数据开发的新产品——黑色大理石(Black Marble)2020年年度合成数据VNP46A4(https://ladsweb.modaps.eosdis.nasa.gov/)进行分析。VNP46A4产品的空间分辨率约为500 m,已进行提前校正,且其分为无雪期和积雪期,为用户下载选择提供了更多的观察天数。Li等[34]发现夜间灯光在城市不同地区和下垫面表现出不同的角度效应,因此,NASA后续将黑色大理石月度复合产品补充为3个视角类别,即近星下点(天顶角0~20度)、侧视点(观测天顶角40~60度)和所有角度,本研究选取观测天数最多的AllAngle_Composite_Snow_Free数据作为灯光值自变量。

考虑到积雪期地面反射率增强以及积雪检测错误可能会造成亮度值波动[13],使用Python遴选出无雪期的灯光亮度像元并完成影像拼接,随后重投影为Albers_Conic_Equal_Area投影坐标系及重采样至500 m。此外,VNP46A4产品并未过滤火光、油气井等短暂光源干扰,为了减小影响,需要去除极大值。假设原始影像的一个地区亮度值大于同一时期的大城市最大亮度值,则将其识别成异常像素点进行校正。选取北京市、上海市、广州市、深圳市的最大亮度值作为参照阈值,当识别到大于该参照阈值的异常像素点时,将其重新赋予周围8个像元的中值,然后生成最终的年度夜间灯光影像。

1.2.2 POI数据

POI数据来自于北京大学开放数据平台(https://doi.org/10.18170/DVN/WSXCNM),收集的时间截止到2018年9月30日,覆盖全国。数据预处理包括清除不完整及重复的POI数据,最终保留34 955 806份有效的记录,而后将高德坐标转化为WGS84坐标再进行重投影。

POI精细分类可以最大程度保证类似产值的POI聚合在一起,因此,参照《国民经济行业分类》(GB/T4754—2017)[35]对POI数据重新分类(表1),并进行空间核密度分析。在核密度分析中,不同搜索半径得到的结果不同。将搜索半径从100 m逐次增加100 m直至1 000 m以获取最佳核密度搜索半径,发现当搜索半径在400 m及更大时,POI与GDP的相关性基本稳定且基本涵盖所有POI小类别,这也与前人的研究结论相似[36]。为了最大程度减小共线性的影响,最终将300 m作为搜索半径,以100 m为输出像元大小,最后重采样至500 m。

表1 POI分类表Table1 POI classification

1.2.3 腾讯位置大数据

腾讯位置大数据展现的是某个点位及其四周一定范围内所有使用QQ和腾讯(社交讯息软件)、京东和美团等应用软件的定位数量。由于2020年以后腾讯位置大数据的接口限制,其空间分辨率约为5 000 m,无法满足研究需要。因此,本研究选取2018年全年0:00-24:00的腾讯位置大数据[37]作为建模因子,其空间分辨率约为1 000 m。对其进行核密度分析,以1 000 m作为搜索半径,输出像元大小为500 m。

1.2.4 土地利用数据

本研究选取2020年30 m分辨率的中国土地利用遥感监测数据,来源于中国科学院资源环境科学与数据中心数据平台(http://www.resdc.cn)。该数据分为耕地、林地、草地、水域、城乡工矿居民用地和未利用土地6个一级分类,25个二级分类,将其重采样为500 m分辨率,统计城镇面积和工交建设用地面积总和作为城镇建设用地自变量。

1.2.5 社会经济统计数据

根据行政单元收集区县GDP数据,获取了2020年2 848个GDP数据作为训练数据集。另外还收集了2018—2019年地级市和部分区县GDP作为验证数据集。

2 研究方法

相关性分析被用来检测GDP和一些潜在因子的共变趋势,为选取敏感因子提供参考。以区县年度夜间灯光、腾讯位置大数据和12类区县POI核密度总值作为自变量,区县年度GDP为因变量进行相关性分析。结果表明,夜间灯光、腾讯位置大数据和城镇建设面积与GDP的相关性分别为0.789、0.765、0.700。除了工厂POI外,其余POI类别核密度与GDP的相关性GDP的相关性均大于0.7(表1)。在此基础上,通过向后筛选法选择较优POI类别,最终根据逐步回归法选取了夜间灯光、公司POI、政府及社会团体POI(以下简称“政府POI”)、腾讯位置大数据和城镇建设用地面积作为最终模型的建模因子,这些建模因子的最大方差膨胀因子小于7.5,表明自变量之间没有数据冗余。

2.1 普通最小二乘法回归

普通最小二乘法(Ordinary Least Square,OLS)是分析两个或多个变量关系的最常用的方法,采用最小二乘法量化GDP和地理因子的关系。为所有变量统一量纲,使用Zcore标准化到相同的范围。OLS模型如下:

其中,y是因变量,表示第i个区县的GDP;β0为模型的截距;Xi对应模型的第i个区县的解释变量,βi是回归系数,它可以反映出每种变量对因变量的影响程度;εi为随机误差项。

2.2 地理加权回归分析

OLS是假定全局的参数是稳定的,其计算的系数在空间上没有显著差异,是解释变量在所有区县平均意义上的参数估计值。但是中国经济发展存在巨大的空间差异和不平衡性,这些差异会引起OLS精度和解释因子出现一定的扭曲,采用地理加权回归(Geographically Weighted Regression,GWR)模型能有效减少误差。地理加权回归模型在传统的线性回归模型基础上考虑了空间对象的局部效应,运用局部加权最小二乘法来解释不同空间区位自变量和因变量之间的关系,可以用于探讨地理要素的空间异质性问题。模型的公式如下:

其中,y是因变量,表示第i个区县的GDP;βi0(ui,vi)为该区县的截距;xij对应模型的第i个区县的解释变量,βij是回归系数;εi为随机误差项。经过不同空间核函数和带宽确定方法的组合测试,选择Adaptive bi-square作为空间核函数,AICc确定最优带宽。

2.3 精度评价和验证

对回归模型和结果分别采用相对误差(RE)、相对平均绝对误差(%MAE)和均方根误差(RMSE)进行评价。公式如下:

其中,y是GDP统计值,yhɑt是估计值。

3 结果分析

3.1 中国区县GDP空间拟合结果

对区县GDP数据和建模指标进行回归系数求解,得到每个区县的GDP估计值。从各项指标对比发现,GWR回归结果的模型拟合度更好(表2)。相较于OLS模型的各项指标,GWR模型的总体拟合度高出12%;RSS值不足OLS模型的一半,表明模型拟合误差更小;GWR模型的AICc值与OLS模型的AICc值差距远远大于3,这说明GWR模型更可靠。优秀的模型需要满足回归残差在空间上随机分布的条件。通过空间自相关测试发现残差在空间上随机分布,没有呈显著集聚或分散,也证明了GWR模型的可用性。因此,选择使用GWR模型进行后续分析(图2)。

表2 OLS模型与GWR模型的对比Table 2 Comparison between OLSmodel and GWR model

图2 GDP估计空间分布图Fig.2 The GDP distribution map of China

将估计值与统计值进行对比,发现GDP整体空间分布很接近,但是也存在GDP高估或低估的情况,在胡焕庸线以西附近地区尤为明显。另外,分别计算得到全国2 848个区县、368个地(县)级市的%MAE值分别为25.59%和12.58%,即相应的准确率分别为74.41%和87.42%,模型总体的拟合准确率较高。

3.2 不同建模因子的拟合能力

将用于GWR模型建模的5个因子分别单独进行OLS回归和GWR回归,探讨其中最有利于拟合GDP的因子。我国GDP采取分级核算制度,地级市GDP统计值与其下辖区县的GDP总和有细微出入。由于训练数据集采用的是区县GDP统计值,因此,本研究将地级市GDP统计值作为验证数据,对估计的区县GDP值进行RMSE和%MAE指标验证(表3),以期更科学合理地对比不同建模因子对GDP的拟合能力。

表3 不同建模因子的精度评价Table 3 Accuracy evaluation of different modeling factors

根据表3可知,在各个因子中,GWR模型比OLS模型的准确率至少高出10%,并且结合所有因子估计GDP要比单个因子估计GDP的准确率高。同时,每种因子对GDP的拟合能力也不同,在GWR模型中,公司POI对GDP的拟合表现最好(相对应在地级市的准确率为86.17%),其次是腾讯位置大数据(85.76%)、政府POI(85.13%)和夜间灯光数据(83.82%),最后是城镇建设用地面积(81.43%)。综合两个模型的不同因子精度评价结果,POI数据相较于其他数据更能反映GDP;而腾讯位置大数据全局的拟合效果不如夜间灯光数据,但在局部的效果却比夜间灯光更好;城镇建设用地面积对GDP的拟合能力较其他数据逊色。

将OLS模型和GWR模型的相对误差链接到地图上,可以探究不同数据在不同经济发展程度地区的GDP拟合性能。研究将相对误差划分为(0,0.3],(0.3,0.6],(0.6~0.9],(0.9,+∞]等4种等级的准确度,其中,左列为OLS模型的相对误差,右列为GWR模型的相对误差(图3)。从空间视觉上比较,无论是哪种数据和模型,胡焕庸线以西的地区GDP拟合误差整体上都比其他地区呈现出更多数量的高值聚集现象,表明该地区的估计误差相较东部地区来说更大。与夜间灯光数据和POI数据、城镇建设用地面积相比,腾讯位置大数据明显在新疆、西藏和青海等经济较落后区县的GDP拟合误差更小,即能够弥补上述数据在这些地区GDP拟合能力弱的缺陷,在东部地区,每种数据都能较好地拟合GDP,并没有明显区别。

图3 不同建模因子的拟合相对误差图Fig.3 Relative error of GDPprediction using different indicators

3.3 不同建模因子的空间分异

探讨不同建模因子回归系数的空间异质性可以进一步验证其对GDP的拟合能力,图4展示了单个建模因子的GWR标准化回归系数。如图4(a)所示,夜间灯光数据在长江中游城市群、长江三角洲城市群东部、京津冀地区和山东半岛等经济发达地区表现出正向影响,而在西藏、新疆和东北地区则表现出较小的正向影响,这可能是灯光收集时受到下垫面和数据缺失的影响,但也表明夜间灯光能够在一定程度上指代经济发展状况。如图4(b)~图4(c)所示,公司POI和政府POI在粤港澳大湾区、长江中游城市群、长江三角洲城市群、京津冀城市群和成渝城市群这5大国家级城市群均呈现出较其他地区更大的正向影响,代表POI对于经济发达城市群的GDP预测具有地域普适性。如图4(d)所示,较其他数据而言,腾讯位置大数据明显在中国西南部对GDP有更大的正向影响,尤其是在新疆、青海和西藏的大部分区县,这其中部分区县GDP值甚至不超过3亿元,表明人口数量和电子产品普及率能指代相对贫困地区的经济水平。同时,北京市和上海市部分地区回归系数大于1,说明腾讯位置大数据也能反映出发达地区的经济水平,这也与前人的研究结果一致[18]。如图4(e)所示,对于城镇建设面积,成渝城市群、京津冀城市群、中原城市群和长江三角洲部分城市获得了较大的回归系数,但在胡焕庸线以西的地区影响却很小,这可能因为这些地区土地集约化利用程度较低。

图4 不同建模因子的GWR标准系数图Fig.4 The standard coefficient of GWR model using different indicators

综上,不同地区的经济水平主导因素不同,POI数据在较发达地区或城市群有很好的指示作用,但是在西部贫困地区,腾讯位置大数据的指示作用更大。在中国大陆大范围地域进行GDP预测,每种数据之间互相能起到弥补的作用,人类经济活动、人口数量和城镇化率对GDP估计都有一定的影响。

3.4 验证

仅使用训练数据集当年年份做验证是不够的,使用其他年份的数据做检验能更充分说明建模因子的普适性。本研究也收集了2018年和2019年VNP46A4夜间灯光数据、2018年土地利用数据(由于缺少2019年同源的土地利用数据,因此,将2018年土地利用数据作为2019年的土地利用方式,POI数据同理)和2019年腾讯位置大数据分别作为2018年和2019年的自变量验证数据集,将2020年GWR模型的系数代入到其余年份的自变量数值来估计验证当年地级市和区县的GDP。如图5所示,在两个验证年份中,GDP统计值和估计值的回归R方均在0.8以上,回归系数接近1,说明GWR模型的可靠性和建模因子具有普适性、有效性,可以基于这些地理因子快速监测行政单元的GDP。

图5 不同年份GDP估计值验证图Fig.5 Verification of predicted GDP in different years

4 结论和讨论

本研究基于夜间灯光遥感数据、POI数据、腾讯位置大数据和土地利用数据,绘制了中国区县行政单元的GDP空间分布图,总体准确率较高。无论是单因子还是多因子建模,GWR模型都比OLS模型的整体预测准确率提高了约10个百分点,这也表明基于多源地理大数据比单一地理数据绘制中国GDP分布图更可取。同时探讨了不同地理数据源拟合GDP的优劣性和适用性,为后续经济研究提供一定的参考依据。结果表明,POI数据相较于夜间灯光遥感数据和腾讯位置大数据、土地利用数据,在GDP空间建模中具有更大的潜力,尤其是在经济发达地区。但在贫困地区,腾讯位置大数据是反映经济最好的指标。

受限于大范围实时数据的获取和腾讯位置大数据的分辨率,研究只基于2018年的POI数据和腾讯位置大数据进行回归计算,然而2020年我国已经实现了全面脱贫,贫困区县会增加一定数量的POI数据,且由于穿戴移动定位设备和电子产品普及率的提高也会导致腾讯位置数据量增多,因此,研究估计GDP也会受到一定的影响。目前,GDP的官方数据只统计到行政单位一级,很难与其他精细尺度的栅格数据匹配从而进行科学研究,因此,未来还将基于研究中的建模因子,利用随机森林模型建立不同产业的模型来绘制GDP空间化栅格图。

猜你喜欢
区县灯光建模
水中灯光秀
今晚的灯光亮了天
来一场灯光派对
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
区县电视台如何做好重大赛事报道
北京:上游水质不合格 下游区县将收补偿金
灯光闪闪
三元组辐射场的建模与仿真