王玥瑶,梁 泽,丁家祺,孙福月,李双成*
城市自然与社会环境对新型冠状病毒肺炎发病率的影响
王玥瑶1,2,梁 泽1,2,丁家祺1,2,孙福月1,2,李双成1,2*
(1.北京大学城市与环境学院,北京 100871;2.北京大学地表过程分析与模拟教育部重点实验室,北京 100871)
在城市尺度上探究了2020年1月1日~3月5日期间城市规模、医疗资源水平等城市自然与社会经济因素对新冠肺炎人群发病率的影响.基于多种传统统计模型与机器学习方法识别了新冠肺炎发病率的关键影响因子.基于新兴的可解释机器学习框架,探究了发病率与关键影响因子之间的非线性联系.结果表明:城市新冠肺炎发病率受到人口迁入、城市规模、城市医疗资源水平等方面的多要素影响,其中武汉迁入率具有最高的相关系数(相关系数达到0.43),其次为人口增长率(相关系数为0.38);人口迁徙、城市规模以及医疗服务资源水平均为关键影响因子;关键影响因子与人群发病率存在非线性关系:武汉迁入率对新冠肺炎发病率的影响曲线呈现S形,在迁入率大于2%进入平台期,人口密度的影响近似线性;人均GDP的影响呈现出明显的倒U型曲线特征,以人均GDP超过10万元为拐点;城市建设需要适当控制人口密度,避免城市人口分布过于紧凑.提升高经济水平地区的经济发展,从而带来更多健康收益.
人群发病率;自然因素;社会经济因素;XGBoost模型;全子集回归;SHAP
新型冠状病毒肺炎(COVID-19)疫情的爆发,使城市系统同时面临病毒检测、感染者收治、医务力量组织、阻断病毒传播链等多重挑战[1-3].城市作为一个复杂的巨系统,其自然与社会经济要素从多方面对疫情的蔓延与控制起到直接或间接的作用[4-5].然而大部分自然与社会经济要素对疫情蔓延的影响机制与作用路径复杂,兼具正向与负向影响. 但另一方面,大规模城市通常具备更高的医疗卫生水平和应急管理能力[6-7],这对传染病的防控起到重要的作用.识别城市尺度上自然、社会与经济要素对疫情传播的复杂作用方式,具有重要科学意义.
识别影响城市传染病传播因素的实证研究已取得一定进展,但存在研究结论不一致、影响传染病传播的关键因子不明确等问题.如Melanie等[8]的研究表明,较高的温度与较低的COVID-19发病率相关联,而Peter等[9]的研究却发现,温度与新冠肺炎发病率不具备相关关系.Dalziel等[10]认为,城市人口规模越大,流感的流行强度越低.而Haroldo等[11]的研究表明,规模越大的城市,新冠肺炎患病率越高.此外,Stojkoski等[12]、许小可等[13]、Mario等[14]分别认为城市人口密度、外来人口输入以及空气污染物排放是新冠肺炎疫情传播的重要影响因素.这些研究在影响因素分析方面,多侧重于与温度等要素进行单变量分析,缺乏对于城市自然、社会与经济要素的综合考虑.且研究区大多为国外的城市与地区,而我国全国层面的跨区域尺度研究相对较少,已有研究结果存在的不一致性在全国城市是否适用也有待进一步科学验证.已有研究结论中的矛盾具有多方面成因,包括研究尺度选择的不同,也包括自然、社会与经济要素选择的不同.研究尺度方面,国家层面城市样本的分析可以为定量探究新冠肺炎疫情的影响因子与影响能力提供良好的数据基础,有效减少基于单个或少量城市进行分析带来的小样本偏差.在社会经济要素的选择上,城市交通运输能力、城市发展规模、城市人居绿色环境以及城市公共卫生资源等方面都会对城市防疫政策的落实、资源的调度、人员流动的管控等产生影响.因此,基于单方面少量因子进行统计模型分析容易导致模型遗漏重要变量,对评估结果产生负面影响.综合考虑城市自然、社会与经济发展的各方面因素对疫情蔓延可能带来的影响,有助于在回归模型中控制变量,更准确地实现对各要素作用的评估.在城市尺度上,从多维度影响因素中识别关键影响因子.
本文基于我国新冠肺炎疫情暴发初期的城市人群发病数据,采用Spearman秩相关分析、全子集多元回归模型、XGBoost模型以及SHAP解释框架,在城市尺度上探究影响城市自然、社会与经济多维度因素对新冠肺炎发病率的影响.
1.1.1 城市人群发病率 本文以中国市级及以上行政区为研究单元,研究范围包括全国22个省与5个自治区的4个直辖市、15个副省级以及219个地级市共计238个城市单元(不包括香港、澳门特别行政区与台湾地区).新冠肺炎每日累计确诊数据来自2020年1月1日~3月5日期间国家卫生健康委的网络公开数据集,年平均人口数量指标来自《2018中国城市统计年鉴》[15].通过每日累计确诊数据以及从统计年鉴获取的城市年平均人口数量指标计算得到城市尺度的人群新冠肺炎发病率指标(式1).
1.1.2 人口迁入率 传染病的流行需要同时具备传染源、传播途径以及易感人群3个环节[16].控制传染源和切断传播途径是阻止疫情蔓延的有效手段.湖北武汉是疫情早期的重灾区,并且是我国重要的交通枢纽.另外,全国范围内大规模的人口流动,对疫情的扩散也具有重要影响.因此本文构建了全国迁入率与武汉迁入率指标来表征每个城市在疫情期间的人口流入特征.
人口迁移数据来自百度迁徙数据平台(http: //qianxi.baidu.com/),该数据基于百度慧眼技术获取国内手机用户定位信息,真实记录数以亿计的国内人口流动轨迹,为塑造区域间人群迁徙特征提供了可能[17-19].本研究获取了2020年1月1日~3月5日的人口迁移数据,该数据包括迁入地、迁出地、流动时间、热度值、迁移规模等属性.迁移规模表示当天迁入或迁出该城市的总量,热度占比计算了其他城市迁入该城市人流量占迁移规模的比例,热度值为迁移规模与热度占比的乘积.通过计算研究期间全国所有城市到目标城市的平均迁入热度与该城市年平均人口的比值得到异地迁入率指标(式2).通过武汉到目标城市的迁入热度与该城市年平均人口的比值得到武汉迁入率指标(式3).
1.1.3 自然因素指标 本文使用气温、湿度以及海拔高度作为自然要素指标.其中气温与湿度来自中国高时空分辨率气象数据集(http://data.cma.cn),空间分辨率0.1度,时间分辨率3h.该数据采用严格的数据质量控制,统一的站点数据、卫星数据和再分析数据的融合方法,避免了不同学者对同一研究区域气象数据的重复处理.通过计算处理得到平均气温指标与平均相对湿度指标作为城市气象条件指标.海拔高度(DEM)数据来源于美国奋进号航天飞机的雷达地形测绘SRTM数据(下载自http://www.igadc. cn/nearests/ubfda).空间分辨率为90m.该数据具有现实性强,免费获取等优点,被广泛应用于大中尺度研究[20-21].
1.1.4 社会经济指标 从城市发展规模、交通运输能力、生态环境水平、污染物排放强度以及公共卫生资源水平等方面选取指标用于分析城市社会经济因素对新冠肺炎疫情传播的影响.城市交通运输方面,选取了人均陆路货运量、人均航空货运量、人均水路货运量、人均陆路客运量、人均航空客运量与人均水路客运量指标以衡量城市的客运和物流运输强度.使用人口规模作为城市发展规模指标,同时增加了人口密度,人口自然增长率以及人均GDP指标更全面的反映城市发展规模.使用建成区绿化覆盖率与人均绿地公园面积指标表征城市生态环境水平,使用人均工业废水排放量、人均工业氮氧化物排放量和人均工业二氧化硫排放指标作为城市污染物排放维度的指标.此外,使用了人均下水管道长度、人均医院数量、人均医院床位数以及人均职业医师数量代表城市公共卫生资源水平.以上社会经济指标均来源于《2018年中国城市统计年鉴》
表1 城市自然、社会与经济要素的类别和指标
1.2.1 相关分析 使用Spearman相关系数(又称Spearman秩相关系数)初步诊断上述24个自然、社会与经济要素对新冠疫情发病率的影响[22-23].
1.2.2 全子集回归分析模型 基于新冠肺炎发病率与Spearman相关性分析的结果,本研究进一步构建了全子集多元回归模型,以有效控制变量,实现对城市自然与社会经济多要素影响的准确评估[24-25].本研究设立了调整2方和贝叶斯信息准则2种模型评估准则.
在构建全子集多元回归模型之前,首先进行变量共线性检验剔除冗余变量.通过对各要素进行方差膨胀因子(VIF)检验,筛选VIF小于10的变量[26-27].此外,对所有自变量与因变量进行了z-score标准化处理以获得标准化系数.
1.2.3 Extreme Gradient Boosting模型 研究基于新兴的数据挖掘与可解释的机器学习方法挖掘城市各因素与新冠肺炎发病率的复杂关联.在诸多机器学习算法中,XGBoost模型被认为具有集合预测能力强、超参数调优较简单等诸多优越性[28].为了检验模型的预测性能,采用平均绝对误差(MAE)均方根误差(RMSE)和拟合优度2作为模型的评价指标.
1.2.4 Shapley Additive Explanations归因解释方法 近年来,可解释机器学习(IML)方法在理论和应用层面实现了一系列突破[29-30].新的IML方法用于解释模型学到的规则,成为数据驱动下发现新关联、新认识与新知识的重要途径[31]以及机器学习的重要研究方向.
使用SHAP解释模型定量分析XGBoost模型中关键因子对新冠肺炎发病率影响的非线性特征.这一方法建立在Shapely值之上, Shapely值来源于一种基于博弈论的最优利益/贡献分配理论[29].在此基础上,Lundberg等[32]提出了基于Shapely值的可加性SHAP解释框架,这一方法具有全局一致性、解决特征多重共线性、支持逐样本特征作用力及其影响方向评估等多种优点[33].利用SHAP值对特征重要性进行衡量,假设第个样本为x,第个样本的第个特征为x,模型对该样本的预测值为y,整个模型的基线(通常是所有样本的目标变量的均值)为base,对于每一个样本的预测值y,有:
式中(x)即为x的SHAP值.与此前在随机森林等算法中所使用的基于模型误差的feature importance等模型解释指标相比,使用SHAP框架最直观的优势是能够度量各个特征影响目标变量预测值的方向.此外,feature importance往往只能从模型整体出发,展示对模型性能影响较大的特征.应用SHAP框架,能够分解单个样本预测值的组成,了解各个特征对单个个案预测值的影响,这对于研究医学领域相关问题非常有价值[31].
我国新冠肺炎人群发病率的空间分布格局如图1所示,发病率高值区主要分布于湖北省以及湖北周边省份,如湖南省、河南省等.值得注意的是,东北部分地区如黑龙江省北部等同样为发病率相对高值区.而内蒙古、广西与云南大部分地区的新冠肺炎发病率相对较低.总体来说,武汉周边、东南沿海部分地区以及东北北部部分地区新冠肺炎发病率位于全国前列.北部城市与西部内陆城市地区的新冠肺炎发病率普遍低于东南沿海地区.
图1 城市尺度新冠肺炎人群发病率空间分布格局
底图源自国家测绘地理信息局(http://bzdt.nasg.gov.cn).审图号:GS(2019)1697号
图2所示,在24种变量中,武汉迁入率、全国迁入率、温度、湿度、人均陆路与水路货运量、人均陆路客运量、人口增长率与新冠肺炎发病率具有显著的正相关关系(³0.2).其中武汉人口迁入率的相关系数最高(相关系数=0.43),表明武汉人口迁入对其他城市的新冠肺炎发病率具有重要的影响.人均水路客运量、人均工业废水排放量、人口密度、人均GDP以及人均下水管道长度的正相关程度次之(³0.1).人均医院数量与发病率具有最显著的负相关关系,相关系数为-0.21.
图2 整体相关系数结果
总体而言,在自然、社会与经济多方面相关指标中,人口迁徙仍然是最重要的影响因素,其次为人口增长率,相对最小的是工业污染物排放.这表明,在不考虑因素间相互影响、仅仅考虑单因子影响的情况下,突发的新冠肺炎疫情既受到人口迁徙的影响,还与社会经济发展有密切关联.其中交通类指标越高,代表城市的交通运输水平越高,人流与货流量更大,会增加病毒的传播速率.而人口增长率指标越高,代表城市的发展活力越大,与更加活跃的城市社会经济活动可能有密切关联.结果还显示,丰富的公共卫生资源(如人均医院数量)和发病率有较强的负关联,这表明,医疗资源水平的提升对提升医疗服务水平、增加及时确诊可能性等可能有重要作用,进而影响疫情的传播.
此外,研究进一步按六大地理分区统计人群发病率的相关系数(表2).结果显示,城市自然社会经济各因素与发病率的关联有明显的空间异质性.其中公园绿地面积、气温及湿度、人口规模、经济水平等指标影响的空间异质性相对最强.在自然因素方面,气温对疫情传播的影响在东北地区相对明显,气温越高,发病率越低.在社会和经济因素方面,人均GDP代表的城市经济发展水平指标的相关系数在华东地区明显为负,而在其他地区为正.意味着,经济发展在华东地区已经带来了众多的健康收益,如民众防护意识、政策执行力、精细化的管控以及医疗基础设施的增强等等,导致经济发展对控制疫情传播起到明显的控制作用.
表2 六大地理分区的相关系数结果
多重共线性检验结果(表3)显示,所有变量的方差膨胀因子(VIF)均小于10,可以推断各解释变量之间不存在严重的多重共线性,故全部投入到多元回归模型分析之中.
全子集回归结果如图3所示,寻找最优模型的过程中,人均二氧化硫排放量、人口规模、人均医院数量、人均医院床位数等指标被较多的纳入了模型的构建之中.人均陆路货运量、人均航空客运量、人均工业氮氧化物排放量、建成区绿化覆盖率、人均绿地公园面积、人口增长率等指标被选择次数较少.结果表明,人口流动、交通运输、空气污染物排放、城市生态环境水平以及城市发展规模、城市公共卫生资源等因素都对新冠疫情的人群发病率具有一定影响.其中,武汉人口迁入率、人均水路货运量、人均工业氮氧化物排放量、人均工业二氧化硫排放量、人口规模、人均航空客运与货运量及人均医院数量可能是关键影响因子.
表3 各解释变量的方差膨胀因子
图3 全子集模型回归结果
横轴表示通过显着性检验的解释变量,方框表示变量已进入回归模型,系数由低到高对应颜色由浅到深.Adj2表示回归模型的调整决定系数
基于以上准则得到了2种最优模型评估结果如表4所示.由全子集回归得到的最优模型计算得到标准化系数,可以得到关键影响因子及其重要性排序.其中Adj2准则下,关键影响因素的重要程度排序依次为:武汉迁入率、城市人口规模、人均工业二氧化硫排放量、人均医院床位数、人均水路货运量、人口增长率.BIC准则下,关键影响因素重要程度排序结果为:武汉迁入率、人口规模、人均工业二氧化硫排放.
表4 多元回归分析模型结果
注: ‘***’、‘**’和‘*’分别表示在1%、5%和10%的水平上显著.
由最优模型结果可知,武汉迁入率的标准化系数最高,这说明新冠肺炎疫情早期在武汉以外城市的蔓延受到武汉市人口流入的影响最大.城市规模的标准化系数次之,这说明城市规模的扩大带来的资源丰富、运输可达性高、通讯网络发达等益处,可能减少了居民不必要的工作出行,从而避免了与他人的接触,一定程度上抑制了疫情的蔓延.人均工业二氧化硫排放指标的重要性排在第3位,这表明地区空气污染水平可能会对疫情的蔓延产生促进作用.此外,已有研究表明二氧化硫可对人体多个系统和器官造成损害,对呼吸系统、心肺等多方面疾病的发生具有一定影响[34-36],因此,二氧化硫的排放可以改变人群基础健康状况,并提高人群感染病毒的潜在风险.在基于Adj2准则下的最优模型中关键影响因子还有人均医院床位数、人均水路货运量与人口增长率.这说明,新冠肺炎疫情的爆发带来了较大的医疗资源需求,充足的医院数量也是应对疫情冲击的重要因素.另外,人均水路货运量对新冠肺炎发病率的正向作用可能是由于交通运输为疫情蔓延提供了途径.因此在人口流动与交通运输流量较大的城市,为抑制疾病的蔓延应当采取更加积极严格的防疫措施,例如呼吁公众尽可能减少出行,做好防护措施等.人口增长率与新冠肺炎发病率也具有正向作用,这表明,城市人口的快速增长可能会提高病毒的传播风险,从而提高发病率.
以上述关键因子为特征,以新冠肺炎发病率为学习目标,建立了XGBoost回归模型,模型运行结果显示预测2高达0.89,RMSE为15.12,MAE为10.09,性能评估指标显示模型具有良好的预测效果.通过SHAP分析得到SHAP依赖图,如图4所示. SHAP依赖图是对偏依赖图(PDP)和累积局部效应图(ALE)的改进方法,在挖掘潜在关联规则方面具有更可靠的理论基础.该图基于SHAP解释方法获取的SHAP value,以特征值为,在轴上绘制相应的Shapley值.
结果显示,武汉迁入率对新冠肺炎发病率的影响呈现明显的S型曲线特征.在武汉迁入率达到1%之后,提升新冠肺炎发病率的作用开始迅速提升,而在武汉迁入率达到2%左右,该提升作用趋于平稳,呈现饱和的平台期.对于人口密度而言,整体呈现单调上升的趋势,这说明高人口密度对于突发的流行病暴发起到重要的促进作用.尽管国际上高度提倡紧凑城市的建设,但是在应对突发的新兴传染病等公共卫生事件中,高人口密度的城市设计可能会加剧城市的脆弱性,降低城市应对疫情冲击的韧性.对于人均GDP而言,SHAP曲线呈现出了规律非常明显的倒U型曲线特征.结果表明,在经济发展初期,城市经济发展带来的社会经济活动增强、人员流动性增加等因素对疫情传播的促进作用似乎更强,但是当年人均GDP超过10万元/人后,城市社会经济进一步发展带来的降低传染病发病风险收益明显更强,呈现出抑制新冠疫情发展的作用.这可能与较高经济发展水平带来的社会治理能力提升、人民防护意识增强、医疗服务资源供应增加等诸多因素有关.研究表明,在理解城市社会经济因素对新冠肺炎等新型传染病危机过程中,不但要针对关键的影响因子进行高度关注与把握,还要充分考虑这些影响因素可能形成的非线性作用.
图4 武汉迁入率(a)、人口密度(b)与GDP(c)的SHAP依赖图
研究利用机器学习模型量化评估了城市社会经济要素对新冠肺炎发病率的影响,模型拟合优度较高,但仍可能存在一些误差.首先,在采用SHAP方法分析非线性关系时,人口密度与经济发展水平高值区数据量相对较小,仍需要更多的数据支持,以挖掘和发现更具一般意义的要素作用规律.其次,本研究在城市尺度上探究了影响新冠肺炎发病率的社会经济要素,社会经济数据基于城市统计年鉴数据,未来应结合更加精细的时空地理大数据对人群进行更细粒度的建模与评估,可以更好的控制信息偏倚.
3.1 总体来看,城市尺度上新冠肺炎发病率与人口迁徙、城市规模、医疗资源以及城市污染物排放方面的因素显著相关,其中武汉迁入率与发病率的Spearman相关系数最高,达到了0.43,其次是人均医院数量,相关系数为-0.21.基于六大地理分区的相关系数结果表明,城市自然社会经济各因素与发病率的关联有明显的空间异质性.其中,公园绿地面积、气温及湿度、人口规模、经济水平等指标影响的空间异质性相对最强.
3.2 全子集回归模型结果显示,影响城市新冠肺炎发病率的关键因子(按重要性排序)为武汉迁入率、城市人口规模、人均工业二氧化硫排放量、人均医院床位数、人均水路货运量、人口增长率等.非武汉城市的新冠肺炎发病率受到武汉市人口流入的影响最大,这表明控制来自疫情重灾区人口输入应作为疫情防控工作的重要任务.此外,提升城市规模、减少污染物的排放以及提升医疗资源水平均有助于城市具备更强的疫情应对能力,降低人群发病率,从而减轻突发重大公共卫生事件对城市秩序的冲击.
3.3 城市社会经济因素对新冠疫情发病率的影响有一定的非线性特征.武汉迁入率对新冠肺炎发病率的影响呈现明显的S型曲线特征.在武汉迁入率达到1%之后,提升新冠肺炎发病率的作用开始迅速提升,而在武汉迁入率达到2%左右,该提升作用趋于平稳,呈现饱和的平台期.对于人口密度而言,整体呈现单调上升的趋势,说明高人口密度对于突发的流行病暴发起到重要的促进作用.对于人均GDP而言,SHAP曲线呈现出了规律非常明显的倒U型曲线特征.在经济发展初期,城市经济发展带来的社会经济活动增强、人员流动性增加等因素对疫情传播的促进作用似乎更强,但是当年人均GDP超过10万元/人后,城市社会经济进一步发展带来的降低传染病发病风险收益明显更强.
[1] World Health Organization (WHO). WHO director-general's opening remarks at the media briefing on COVID-19-11March 2020 [EB/Z]. https://www.who.int/zh/dg/speeches/detail/who-director-general-s-opening-re-marks-at-the-media-briefing-on-covid-19-11-march-2020,2020-04-19.
[2] 中华预防医学会新型冠状病毒肺炎防控专家组.新型冠状病毒肺炎流行病学特征的最新认识 [J]. 中国病毒病杂志, 2020,10(2):86-92.
Special Expert Group for Control of the Epidemic of Novel Coronavirus Pneumonia of the Chinese Preventive Medicine Asociation. An update on the epidemiological characteristics of novel coronavirus pneumonia (COVID-19) [J]. Chinese Journal of Viral Diseases, 2020,10(2):81-87.
[3] Sun K, Chen J, Viboud C. Early epidemiological analysis of the coronavirus disease 2019 outbreak based on crowdsourced data: a population-level observational study [J]. The Lancet Digital Health, 2020,2(4):e201-e208.
[4] 房城.城市绿地的使用与城市居民健康的关系初探 [D]. 北京:北京林业大学, 2008.
Fang C, Study on relationship between the use of urban green space of urban residents and their health [D]. Beijing: Beijing forest university, 2008.
[5] 廖一龄.城市化对居民健康需求影响的实证分析 [D]. 上海:复旦大学, 2009.
Liao Y L, An empirical analysis of the impact of urbanization on the health needs of the population [D]. Fudan university, 2008.
[6] Sun GQ, Wang SF, Li MT, et al. Transmission dynamics of COVID- 19 in Wuhan, China: effects of lockdown and medical resources [J]. Nonlinear Dynamics, 2020, 24:1-13.
[7] 刘小楠.关于加强我国城市公共安全应急管理的思考 [J]. 中国管理信息化, 2020,23(9):171-173.
Liu X N. Reflections on strengthening public safety emergency management in China’s cities [J]. China Management Information, 2020,23(9):171-173.
[8] Bannister-Tyrrell M, Meyer A, Faverjon C, et al. Preliminary evidence that higher temperatures are associated with lower incidence of COVID-19, for cases reported globally up to 29th February 2020 [J]. medRxiv, 2020:2020-2023.
[9] Juni P, Rothenbühler M, Bobos P, et al. Impact of climate and public health interventions on the COVID-19 pandemic: a prospective cohort study [J]. Canadian Medical Association Journal, 2020,192:200920.
[10] Dalziel B D, Kissler S, Gog J R, et al. Urbanization and humidity shape the intensity of influenza epidemics in U.S. cities [J]. Science, 2018,362(6410):75.
[11] Ribeiro H V, Sunahara A S, Sutton J, et al. City size and the spreading of COVID-19 in Brazil [M]. PLoS One, 2020, 23;15(9):e0239699.
[12] Stojkoski V, Utkovski Z, Jolakoski P, et al. The socio-economic determinants of the coronavirus disease (COVID-19) pandemic [J]. SSRN Electronic Journal, 2020.04.15.20066068.
[13] 许小可,文 成,张光耀,等.新冠肺炎爆发前期武汉外流人口的地理去向分布及影响 [J]. 电子科技大学学报, 2020,49(3):324-329.
Xu X K, Wen C, Zhang G Y, et al. The geographical destination distribution and effect of outflow population of Wuhan when the outbreak of COVID-19 [J]. Journal of University of Electronic Science and Technology of China, 2020,49(3):324-329.
[14] Tahmasebi P, Shokri-Kuehni S M S, Sahimi M, et al. How do environmental, economic and health factors influence regional vulnerability to COVID-19? [J]. medRxiv, 2020.04.09.20059659.
[15] 国家统计局城市社会经济调查司.中国城市统计年鉴[M].北京:中国统计出版社, 2018.
Urban Social and Economic Investigation Department of National Provincial Bureau of Statistics. China city statistical yearbook[M]. Beijing: China Statistics Press, 2018.
[16] 李建军,何 山.人口流动、信息传播效率与疫情防控——基于新型冠状肺炎(COVID-19)的证据 [J]. 中央财经大学学报, 2020,(4): 116-128.
Li J J, He S, et al. Population movement, information dissemination efficiency and disease [J]. Journal of Central University of Finance & Economics, 2020,(4):116-128.
[17] 冯章献,张 瑜,魏 冶,等.基于百度迁徙数据的长春市春运人口流动时空格局与动力机制 [J]. 经济地理, 2019,39(5):101-109.
Feng Z X, Zhang Y, Wei Y, et al. Spatial-Temporal pattern and dynamic mechanism of population flow of Changchun city during chunyun period based on baidu migration data [J]. Economic Geography, 2019,39(5):101-109.
[18] 刘望保,石恩名.基于ICT的中国城市间人口日常流动空间格局——以百度迁徙为例 [J]. 地理学报, 2016,71(10):1667-1679.
Liu W B, Shi E M. Spatial pattern of population daily flow among cities based on ICT: a case study of "baidu migration" [J]. Acta Geographica Sinica, 2016,71(10):1667-1679.
[19] 杨 冕,谢泽宇.新冠肺炎疫情防控对中国人口流动的影响——基于百度地图迁徙大数据的实证研究 [J]. 人口研究, 2020,44(4):74- 88.
Yang M, Xie Z Y. Impacts of fighting COVID-19 on China’s population flows: an empirical study based on baidu migration big data [J]. Population Research, 2020,44(4):74-88.
[20] 张朝忙,刘庆生,刘高焕,等.SRTM 3与ASTER GDEM数据处理及应用进展 [J]. 地理与地理信息科学, 2012,28(5):29-34.
Zhang Z M, Liu Q S, Liu G H, et al. Data processing and application progress of SRTM 3 and ASTER GDEM [J]. Geography and Geo- Information Science, 2012,28(5):29-34.
[21] 武文娇,章诗芳,赵尚民.SRTM1DEM与ASTER GDEM V2数据的对比分析 [J]. 地球信息科学学报, 2017,19(8):1108-1115.
Wu W J, Zhang S F, Zhao S M. Analysis and comparison of SRTM1DEM and ASTER GDEM v2data [J]. Journal of Geo- information Science, 2017,19(8):1108-1115. DOI:10.3724/SP.J.1047. 2017.01108.
[22] Gauthier T D. Detecting trends using spearman's rank correlation coefficient [J]. Environmental Forensics, 2001,2(4):359-362.
[23] Myers J L, Arnold DW. Research design and statistical analysis[M]. Second edition. Lawrence Erlbaum, 508.
[24] Lawless J F, Mcleish D L. All subsets regression in a proportional hazards model [J]. Biometrika, 1984,71(3):587-592.
[25] Peng J, Jinglei J, Yanxu L, et al. Seasonal contrast of the dominant factors for spatial distribution of land surface temperature in urban areas [J]. Remote Sensing of Environment, 2018,215:255-267.
[26] Schwarz G. Estimating the dimension of a model [J]. The Annals of Statistics, 1978,6(2):461-464.
[27] Vrieze, Scott I. Model selection and psychological theory: a discussion of the differences between the Akaike information criterion (AIC) and the Bayesian information criterion (BIC) [J]. Psychological Methods, 2012,17(2):228-243.
[28] Chen, T. and C. Guestrin. XGBoost: a scalable tree boosting system [J]. in Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016:785-794.
[29] Ribeiro M T, S Singh, and C Guestrin. "Why should I trust you?": explaining the predictions of any classifier [J]. The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016:1135-1144.
[30] Molnar C, Casalicchio G, and Bischl B, Interpretable machine learning -- a brief history, state-of-the-art and challenges [J]. arXiv: 2010.09337.
[31] Carlsson L S, Samuelsson P B, Jönsson P G. Interpretable machine learning—tools to interpret the predictions of a machine learning model predicting the electrical energy consumption of an electric arc furnace [J]. Steel research international, 2020, 91(11): 2000053.
[32] Roth A E, L S Shapley, The shapley value: essays in honor of lloyd s. shapley [J]. Economic Journal, 1988,101(406):235-264.
[33] Scott M L, Gabriel G E, Su I L. Consistent feature attribution for tree ensembles [J]. arXiv: 1802.03888.
[34] Schwartz A Z A J. The effect of fine and coarse particulate air pollution on mortality: a national analysis [J]. Environmental Health Perspectives, 2009,117(6):898-903.
[35] Khaniabadi Y O, Goudarzi G, Daryanoosh S M, et al. Exposure to PM10, NO2, and O3and impacts on human health [J]. Environmental Science and Pollution Research, 2017,24(3):2781-2789.
[36] 刘迎春,龚 洁,杨念念.武汉市大气污染与居民呼吸系统疾病死亡关系的病例交叉研究 [J]. 环境与健康杂志, 2012,29(3):241-244.
Liu Y C, Gong J, Yang N N. Association between air pollution and mortality of respiratory diseases in Wuhan: a case-crossover study [J]. Journal of Environment and Health, 2012,29(3):241-244.
Identify the natural and socio-economic influencing factors of the new coronavirus pneumonia (COVID-19) incidence rates in Chinese cities.
WANG Yue-yao1,2, LIANG Ze1,2, DING Jia-qi1,2, SUN Fu-yue1,2, LI Shuang-cheng1,2*
(1.College of Urban and Environmental Sciences, Peking University, Beijing 100871, China;2.Key Laboratory for Earth Surface Processes of the Ministry of Education, Peking University, Beijing 100871, China)., 2022,42(3):1418~1426
This study explored the effects of both natural and socio-economic factors, such as city size and healthcare capacity, on the spreading of COVID-19 in China’s urban population from January 1 to March 5, 2020. Several statistical models and machine learning methods were used to identify the key determinants of the incidence rate of COVID-19. Based on the interpretable machine learning framework, possible nonlinear relationships between incidences and key impact factors were explored. The results showed that the incidence rate of COVID-19 in cities was influenced by several factors simultaneously. Among the factors, the population inflow rate from Wuhan was the factor that showed the highest correlation coefficient (0.43), followed by the population growth rate (0.38). Population migration size, city size and healthcare capacity were the key influencing factors.Nonlinear relationships existed between the key influencing factors and incidence rates. To be specific, the inflow rate from Wuhan had a S-shaped relationship and reaches an asymptote after 2%; the population density had an approximately linear relationship; the per capita GDP showed an evident inverted U curve with the per capita GDP over 100,000yuan as the inflection point. City development needs to pay more attention to population density control and economic growth in order to bring more health benefits.
incidence;natural factors;socioeconomic factors;XGBoost model;all-subset regression;SHAP
X24
A
1000-6923(2022)03-1418-09
王玥瑶(1997-),女,辽宁大连人,北京大学博士研究生,主要研究方向为城市环境与人群健康.发表论文28篇.
2021-06-30
国家自然科学基金资助重大项目(41590843)
*责任作者, 教授, scli@urban.pku.edu