刘宇通,王汶
(中国人民大学 环境学院,北京 100872)
花粉过敏又叫枯草热,表现为流鼻涕、打喷嚏、鼻眼痒以及咳嗽等症状,一旦疾病发作,将年年反复,严重影响人们生活质量和日常工作[1]。花粉过敏如果不采取及时治疗,很容易恶化为气管炎、鼻咽炎、肺炎等呼吸系统疾病[2]。据美国卫生研究院变态反应研究报告,中国的花粉过敏症发病率为0.5%~1%,而高发病区达到5%,花粉过敏在我国逐渐引起人们的重视,完善的花粉过敏监测体系对帮助花粉过敏患者做好预防、避免接触花粉过敏原有重要的作用。美国和一些欧洲国家对花粉监测已经形成较为完善的体系[3],但在我国,仅北京、天津、南京等少数省市气象部门进行花粉观测预报业务,其余省市缺少花粉浓度数据。花粉过敏人群就医数据存储在公共卫生或医疗部门,然而这些部门各自的数据大多不互通[4-5],且个人病例具有隐私性,所以针对我国花粉过敏的监测与研究受到诸多限制。
目前,针对花粉过敏空间分布特征及影响因素的研究主要依赖于监测和调查数据。赵筱扬等[6]实测了昆明市区大气花粉种类及含量并进行分析,发现花粉过敏具有明显的地区性和季节性;吴慧等[7]利用花粉观测点的花粉浓度数据分析了近57年海南省花粉过敏天数的时空分布特征及与气象条件的关系;欧阳志云等[8]对北京五环以内的花粉致敏植物进行了调查,给出了其分布格局。基于监测和调查数据的花粉过敏研究高度受限于数据的可获得性。此外,实测花粉对设备技术和人力物力投入的高要求使其无法应用于大范围花粉监测,而且实测花粉数据局限在某一地点,无法反映整个区域内的花粉分布情况。Samuel等[9]指出,美国国家过敏局只有48个台站统计美国各地的花粉,鉴于台站数量和各州数据传播的限制,花粉过敏监测会受到时空角度的影响。
遥感数据具有覆盖范围广、获取处理方便等特点,可以进行地表的大范围观测。研究人员探索利用遥感数据对过敏花粉进行观测,提供了空间上大范围研究花粉过敏的可行性。Stein等[10]利用MODIS-NDVI监测挪威桦树的开花周期,与分布在挪威各地的十个Burkard采样器采集的白桦花粉浓度进行对比,经过分析发现MODIS-NDVI监测的桦树开花时间和年累积桦树花粉总和显示出5%或更高的显著值,从而说明遥感可有效监测挪威全国的桦树释放花粉周期,还可以揭示仅靠Burkard采样器不易发现的区域花粉浓度差异。Murat等[11]在获得MODIS遥感影像的增强型植被指数(enhanced vegetation index,EVI)基础上加工得到了EVI2指数,使用神经网络建立EVI2和美国东海岸城市实测花粉数量的模型,并应用IQVIA公司发布的花粉过敏指数作为验证,整个东海岸结果的R2范围为0.530~0.966,说明遥感是预测花粉变化的可靠手段。而目前国内对于花粉过敏的研究较少用到遥感手段。
此外,随着互联网技术的发展以及网络大数据的披露,我们可以采用间接的渠道弥补我国花粉数据不足的情况。当授粉季节来临时,各地区花粉过敏者患病率会升高,依据常理“花粉过敏”的相关搜索规模会在网络上扩大,研究者可以通过搜索引擎数据迅速获得搜索“花粉过敏”等相关信息人群的时空分布,从而为大范围监测花粉过敏提供全新的手段。
本研究以致敏花粉植被种类丰富多样且花粉浓度数据较完整的北京市为例,首先,探究了“花粉过敏”搜索强度与花粉浓度之间的关系,为舆情大数据用于大范围花粉过敏监测提供依据;然后,利用遥感可以大范围监测产生致敏花粉的植被信息的特点,通过遥感产品获得用来定性和定量评价植被覆盖及其生长状况的植被指数,以及影响花粉浓度和花粉传播的温度和降水等数据,运用人工神经网络(artificial neural network,ANN)建立花粉过敏舆情数据与植被指数、温度、降水之间的非线性花粉过敏监测模型。从而基于舆情和遥感数据实现大范围花粉过敏的监测,为花粉过敏人群做好花粉预防工作提供科学依据,有利于降低我国花粉过敏患者的发病率。
在分析了影响花粉浓度和人群花粉过敏情况的主要因素基础上,本研究获取了花粉浓度、花粉过敏百度指数、增强型植被指数EVI、日均温度和日均降水数据。数据种类及来源如表1所示。
花粉过敏舆情数据来源于关键词“花粉过敏”、地区“北京”、时间范围“2017—2019年”、时间分辨率为每天的百度指数。在中国,对于生活日常信息的搜索,人们使用最广泛的搜索引擎是百度,百度公司以海量网民行为大数据为基础开发了百度指数数据分析平台,该平台可以统计某个关键词在计算机端和移动端的百度搜索频次的加权和,本研究获取“花粉过敏”的搜索规模。
本文采用气象局实测的花粉浓度数据验证花粉过敏百度指数与其之间的相关性。北京市是全国为数不多花粉浓度数据较完整的城市,北京市气象局联合北京同仁医院会在北京花粉期(4—9月)测定每日花粉实况及花粉浓度预报。本研究获取了北京市2017—2019年共三年的花粉期每天实测花粉浓度数据。
作为花粉来源,植被是影响花粉过敏的重要因素,授粉的数量和时间取决于致敏花粉植被的生长和开花。致敏花粉植被类型多样,其生长和分布情况通常通过实地调查获取。在致敏植被数据缺失的情况下,遥感植被指数可以用于反映植被总体的生长态势和季相特征。本研究通过遥感产品获取的增强型植被指数EVI监测植被情况。与其他植被指数相比,EVI受饱和度的影响较小,因此对于监测植被结构的季节性、年际和长期变化更为有效。本文依托MODIS陆地3级标准数据产品MOD13Q1获取EVI遥感影像,空间分辨率250 m,根据MODIS植被指数算法,只有高质量的、无云的滤波数据被用来进行合成,因此时间分辨率为16天,范围尺度选择覆盖全北京的h26v04、h26v05行列号,时间尺度选择2017—2019年。
温度和降水也是影响致敏花粉传播的重要因素[12]。Peternel等[13]的研究表明,温度下降时,空气中致敏花粉的浓度会暂时减少,解释了气温升高导致晚春花粉量增加的原因。Gottardini等[14]研究报道,大量或长期降水可显著降低空气中致敏花粉浓度,因为带着雨滴的花粉会在重力作用下落到地上。美国国家海洋和大气管理局根据NOAA/AVHR遥感数据计算和发布全球的温度及降水数据,本研究选取北京市2017—2019年逐日的日均温度和日均降水数据。
表1 数据种类及来源
本文首先剔除花粉浓度、花粉过敏百度指数、日均温度、日均降水的缺失值;然后对MOD13Q1遥感影像进行预处理,并计算EVI平均值;接下来,选取2017—2019年4—9月逐日的花粉浓度和花粉过敏百度指数,采用相关分析法研究二者之间的相关关系,通过相关性检验的花粉过敏百度指数用于下一步研究;建立花粉过敏预测的人工神经网络模型,因为日均温度和日均降水是逐日数据,而EVI是16天合成数据,在本研究中认为16天内逐日的 EVI相同;最后利用EVI、日均温度、日均降水对花粉过敏百度指数进行预测,并对模型进行评估。研究方案如图1所示。
图1 研究方案
1)MOD13Q1遥感影像处理。由于 MODIS 对地球观测的视野几何特性、地球表面的曲率、地形起伏和探测器运动中的抖动等因素的共同影响,MOD13Q1遥感影像会产生几何畸变[15],所以首先对MOD13Q1影像进行几何校正。本研究的研究区域为北京市,MODIS覆盖全北京的行列号为h26v04、h26v05两幅影像,所以要先对h26v04、h26v05两幅影像进行图像镶嵌,再用北京市的矢量图进行裁剪,裁剪后的北京市EVI遥感影像如图2所示。将北京市的EVI求取均值,用于接下来的研究。
注:该图基于自然资源部标准地图服务下载的审图号为GS(2019)3333号的标准地图制作,底图无修改。图2 北京市EVI遥感影像
2)花粉浓度与花粉过敏百度指数相关性检验。相关分析法可以判断两个变量间有没有关系、有什么样的关系及关系的大致强度等。地区花粉浓度的升高会使当地花粉过敏者发病率随之升高,花粉过敏的舆情搜索规模会随之扩大。本研究将北京市的花粉浓度与北京市花粉过敏百度指数进行相关性检验,并按式(1)计算相关系数r,从而验证花粉过敏百度指数能否显著代表北京地区的花粉浓度,进而将其应用于下一步研究。
(1)
3)人工神经网络建模。随着人工智能的发展,采用机器学习的方法对花粉过敏监测进行建模具有可行性。Liu等[17]就曾使用机器学习的方法估算了俄克拉荷马州塔尔萨大气中豚草花粉的浓度。人工神经网络是一种常用的非线性数据建模工具,人工神经网络可以通过机器学习对输入和输出变量间复杂的关系进行建模,而且无需输入和输出变量间关系的先验知识。因此,本文以EVI、日均温度、日均降水作为人工神经网络的输入,通过相关性检验的花粉过敏百度指数作为人工神经网络的输出,建立花粉过敏监测模型。
首先按式(2)对建模数据进行标准化处理。
(2)
式中:i为样本编号;zi为标准化值;xi为输入变量,即EVI、日均温度、日均降水;x为输入变量的均值;s为输入变量的标准差。因为EVI、日均温度、日均降水的量纲和数值量级不一样,如果直接使用原始数据值,它们对花粉过敏百度指数的影响程度不一样,建立的模型不具有可靠性。通过标准化处理,ANN在学习参数的时候,EVI、日均温度、日均降水对参数的影响程度一样。
人工神经网络的处理过程主要通过激活函数实现,本研究采用的激活函数为tanh函数,即f(x)=tanh(x)。虽然sigmoid函数是最常使用的激活函数,但考虑到2017—2019年三年的花粉期花粉过敏百度指数数据量有限,sigmoid函数存在梯度下降导致人工神经网络过拟合的情况,因此本研究选用梯度更大的tanh函数,函数如式(3)所示。
(3)
式中:x同式(2);e为自然常数,约等于2.718。人工神经网络的损失函数用来估计模型的损失,以便在下次评估时更新权重以减少损失,本研究中选择回归建模默认优选的均方误差(mean squared error,MSE)函数,如式(4)所示。
(4)
4)花粉过敏监测模型的评估。通过人工神经网络训练建立花粉过敏监测模型后,总数据量25%的测试数据用来评估模型的可靠性。将模型的预测值与真实的测试数据进行回归,观察预测值与真实值的吻合情况,并使用决定系数R2(式(5))和均方误差MSE作为度量标准,描述花粉过敏监测模型预测结果是否准确。
(5)
图3 人工神经网络建模及评估步骤
经过相关分析,北京市2017—2019年三年的花粉过敏百度指数与实测花粉浓度散点图和拟合直线如图4所示。由图4可知,花粉浓度增加,花粉过敏百度指数随之增加,两个变量的观测点分布在一条直线周围,有较明显的线性正相关关系。根据式(1)计算得到的相关系数如表2所示。表2中,每一年的相关系数均超过60%,说明花粉过敏百度指数与花粉浓度的线性关系显著。由此证明了当空气中花粉浓度升高时,花粉过敏的舆情搜索规模会在网络上扩大的推断,从而可以用花粉过敏百度指数数据代表各地区的花粉浓度,并作为人工神经网络建模的输出量。
图4 花粉浓度与花粉过敏百度指数的相关关系
表2 花粉浓度与花粉过敏百度指数的相关系数
使用人工神经网络对训练数据建模,因为输入量较少,只有EVI、日均温度、日均降水三个变量,所以建立一层中间隐藏层可达到较好的效果。tanh函数建立的花粉过敏监测模型如图5所示。图5显示,人工神经网络隐含层包含两个神经元,训练过程执行了13 528步,结束条件为误差函数的绝对偏导数小于0.01。
图5 花粉过敏监测模型
图5中黑线表示每一层神经元与其相关权重直接的关系,蓝色线表示拟合过程中,每一步被添加到蓝色线上的误差项,这些误差项可以表示一个误差区间。从花粉过敏监测模型可知,隐藏层的截距为-1.14、-1.03,第1个隐藏神经元的权重预测分别为-0.09(EVI)、-0.3(日均温度)、1.42(日均降水),第2个隐藏神经元的权重预测分别为-0.16(EVI)、-0.39(日均温度)、1.28(日均降水)。隐藏层对花粉过敏百度指数的权重预测分别为-7.3和7.38。因此,只要模型输入每天相应的EVI、日均温度、日均降水,即可输出预测的花粉过敏百度指数,从而监测花粉过敏的严重程度,接下来需要评估花粉过敏监测模型的可靠性。
本研究应用预留的总数据量25%的训练数据对花粉过敏监测模型进行评估。将测试数据中的EVI、日均温度、日均降水作为花粉过敏监测模型的输入,模型自主输出结果与测试数据中真实花粉过敏百度指数进行回归比较。同时建立EVI、日均温度、日均降水和花粉过敏百度指数的多元线性回归模型,也将多元线性回归模型的预测输出值与真实花粉过敏百度指数进行回归比较。两种模型的比较结果如图6所示。从图6可以看出,由人工神经网络模型所预测的花粉过敏百度指数比多元线性回归模型所拟合出来的结果更加靠近拟合曲线,人工神经网络模型预测值的准确率更高。由式(4)可知,花粉过敏监测模型的MSE为8.41,而花粉过敏百度指数关于EVI、日均温度、日均降水的线性回归模型的MSE为17.61;由式(5)可知,花粉过敏监测模型的R2为72.82%,高于线性回归模型的R2为50.55%,可见人工神经网络的拟合度比线性模型更优,且MSE比线性回归模型的MSE低很多,因此人工神经网络模型更为可靠。评估结果表明应用人工神经网络花粉过敏监测模型,EVI、日均温度、日均降水能较准确地预测北京市花粉过敏百度指数。因为百度指数覆盖全国,从而有望应用此模型进行大范围的花粉过敏监测,服务于花粉过敏患病人群做好花粉过敏预防工作。
图6 神经网络和线性模型预测结果
本文创新性地基于百度指数舆情大数据反演花粉浓度。本文验证了花粉过敏百度指数和真实花粉浓度间的相关系数值达到统计学显著标准,因此,使用百度指数反演花粉浓度具有较高的可信度。百度指数大尺度可以覆盖全国,小尺度可以精确到各市,并且在时间上具有连续性,从而有望利用百度指数舆情大数据代表各段时间全国各地致敏花粉的严重程度,为从时空角度研究花粉过敏人群情况提供了全新的手段。
从花粉过敏监测模型的结果看,对于同一地区,日平均温度高、降水量多时,花粉过敏百度指数较低。表明高温和降水影响了植被的传粉过程,导致人群花粉过敏的情况有所减轻。因此,对于温度较低、干燥等天气,花粉过敏患者应该减少出门频率,并提前做好预防措施。
本文基于舆情和遥感数据建立的花粉过敏监测模型,能够反映花粉过敏情况与植被指数、温度、降水之间的非线性关系。通过该模型对花粉过敏进行监测,不仅可以帮助花粉相关工作人员分析花粉过敏预防机制,为相关决策提供支持,更可以帮助花粉过敏患者做好预防、避免接触花粉过敏原,进而降低全国各地区花粉过敏患者的病发率,带来社会效益,还可以减少在花粉过敏上的经费损耗,具有一定的经济价值。
然而花粉过敏监测模型也存在有待完善之处。本文以北京市数据为例建立了花粉过敏情况与植被指数、温度、降水之间的监测模型,但北京为暖温带半湿润半干旱季风气候,在北京的花粉期有很多天没有降水,因此可能导致得出模型的局限性。因此若做进一步研究完善,可以选择南方多雨地区作为对照补充。此外,虽然温度和降水是影响空气中花粉浓度的最主要的气象因素,但花粉浓度还可能受到相对湿度、风速等气象因素的影响,不过增加模型的变量输入,可能会增加人工神经网络的隐藏层数,使花粉过敏监测模型的网络更为复杂,增加影响因素是否会得到更有效的模型有待进一步的研究。
本文以致敏花粉为研究对象,针对解决我国花粉过敏情况愈加严重问题的需求,基于百度指数和遥感数据进行研究,采用人工神经网络建立花粉过敏监测模型,服务于花粉过敏患病人群做好花粉过敏预防工作。研究表明,人工神经网络建立的花粉过敏监测模型精度达72.82%,可以较好地解释花粉过敏与植被指数、温度、降水之间的非线性关系。遥感数据能够用于预测花粉浓度和花粉过敏情况,由于遥感数据可以获取全球各地的植被信息,即获取致敏花粉最重要的影响因素,因此遥感数据的运用有助于实现空间上大范围花粉过敏监测,为花粉过敏监测和空间分析提供了理论基础。不足之处是北京市降水量的稀少可能导致花粉过敏监测模型的局限性,选择南方多雨地区继续研究并增加其他影响花粉浓度的气候因素,优化花粉过敏监测模型,将是下一步要进行的工作。