李文慧 杨颖璨* 沈海波
(1 广东省气象公共服务中心,广州 510640; 2 中国南方电网电力调度控制中心,广州 510799)
紫外线是波长在100~400 nm范围内的太阳辐射,其能量在太阳辐射能中只占很小比例,但由于其光学作用和生物效应十分显著,对人类健康、地球气候以及生态环境具有重要的影响[1-2]。对人体来讲,适量的紫外线辐射可以促进人体维生素D的生成,增强人体免疫力,而强度过高的紫外线辐射是引起人体皮肤癌、白内障的主要原因,过量的紫外线辐射还将导致人体免疫功能变异[3-5]。另一方面,紫外线辐射还影响着地球上植物的光合作用,过量紫外线会破坏光合作用,进而对生态环境产生影响[6]。紫外线还影响着参与大气光化学反应的氮氧化物等物质,可能会导致这些物质发生二次污染,进而破坏人类生存的大气环境[7-9]。
目前对于紫外线辐射强度的估算方法主要有经验模型和辐射传输模式两种。经验模型,一般是基于地面获取的紫外线辐射与常规气象要素观测资料,采用回归分析等方法估算到达地面的紫外线辐射。曾艳等[10]利用到达地表的紫外辐射强度与太阳总辐射之间的关系建立了晴天紫外辐射经验模型;张兴化等[11]利用大气质量数和晴空指数,建立了适合于拉萨紫外辐射估量的公式。辐射传输模型根据紫外辐射穿过大气层到达地表的物理机制,考虑紫外线在大气层中的衰减过程,进行近似求解,计算到达地面的紫外线辐射。沈元芳等[12]基于大气辐射传输的物理机制建立了紫外线强度预报模型;邓雪娇等[13]运用TUV(Tropospheric Ultraviolet and Visible Radiation Model)模式模拟了到达广州市紫外辐射强度,并指出气溶胶对紫外辐射的衰减作用。上述经验模型方法计算简单,但物理意义不够明确,辐射传输模型相对较为精确,但对计算机要求较高,且部分数据获取较困难。
近年来,随着数据挖掘技术的兴起,很多学者将机器学习方法应用在气象领域,并取得了非常出色的研究成果[14-16]。如胡春梅等[17]应用BP神经网络模型和支持向量机回归方法建立了重庆市主城区紫外线辐射强度客观预报模型;并且在降水、气温等气象要素预报中取得不错的效果[18-22]。梯度提升树(Gradient Boosting Decision Tree,GBDT)算法是一种常用的集成学习算法,该算法具有拟合精度高、解释性强等优势[23]。广州市位于广东省中南部,属紫外线高辐射地区,进行紫外线辐射强度的研究尤为必要。因此,本文利用广州紫外辐射观测资料、气象观测数据以及环境空气质量监测数据,分析广州市紫外线辐射强度变化特征及其与气象、环境因子的相关性,并采用梯度提升树算法估算广州市紫外辐射强度,为评价广州市紫外辐射强度提供参考。
所用的资料包括广东省气象探测数据中心提供的2019—2021年番禺站(59481)逐小时紫外辐射数据;常规气象观测数据,包括逐小时气温、相对湿度、露点温度、海平面气压、风速、能见度等;FY-2G总云量产品。广州市环保局提供的番禺市桥站环境观测数据,包括逐小时空气质量指数(AQI)和二氧化硫SO2、二氧化氮NO2、臭氧O3、颗粒物PM2.5、PM10等5种污染物质量浓度资料。
1.2.1 数据分析方法
本文采用统计的方法对广州市2019—2021年紫外线辐射的变化特征进行研究,并使用相关分析、t检验等方法分析紫外线辐射强度与气象、环境因子的关系,这些方法在文献[24]中有详细叙述,这里不再赘述。
1.2.2 天空状况划分
本文天空状况按照总云量成数划分为晴天、少云、多云、阴天,总云量成数分别为<30%、30%~40%、50%~70%、>70%。
1.2.3 梯度提升树回归模型
运用梯度提升树算法建立广州市紫外辐射拟合模型。梯度提升树算法是由Friedman[25]提出的一种集成学习算法,由多棵决策树组成,进行多次迭代,每次迭代在一棵决策树中产生一个结果,下一棵决策树在上一次的残差基础上进行训练,经过所有决策树后,生成最终的结果。每棵新的决策树建立的目的是使残差往梯度[26]方向上减少,以此最终拟合出最接近真实结果的数据。
模型通过对特征值的重要性进行评估,以便理解哪些因素对于拟合结果有关键影响。Friedman[26]提出特征j的全局重要度,通过特征j在单颗树中的重要度的平均值来衡量,计算方法为:
(1)
(2)
模型通过决定系数(R2)评价模型拟合的精确度,R2越大,模型拟合结果越准确,采用均方根误差(RMSE)来评价回归模型拟合结果与真实值差别大小的指标,均方根误差越小,模型拟合效果越好。
决定系数计算公式为:
(3)
均方根误差计算公式为:
(4)
本文是借助梯度提升树算法,采用与紫外线辐射同期观测的气象、环境因子作为特征值,构建了紫外线辐射拟合模型,用于估算广州市紫外线辐射强度。
由2019—2021年广州市紫外线辐射强度平均日变化(图1a)可知,紫外线辐射日变化曲线呈正态分布,从06:00起逐渐增大,12:00左右为全天紫外线辐射最强时段,随后紫外辐射强度逐渐减小,于20:00趋于0 W·m-2。09:00—16:00时段紫外线辐射强度均在15 W·m-2以上,按照中国气象规定的紫外线等级划分(表略),紫外线辐射强度等级达到4级以上。紫外辐射强度的变化与天空状况密切相关,06:00和20:00紫外线辐射强度基本为0 W·m-2,因此本文对06:00—20:00时段平均总云量成数进行划分,按照晴天、少云、多云、阴天4类天空状况对紫外线辐射强度日际变化进行分析(图1b)。可知,在晴天和少云,紫外线辐辐射强度高且日极值大,晴天日极值可达40 W·m-2,达到紫外线辐射5级标准。在多云和阴天,紫外线辐射强度减弱且紫外辐射日极值明显减小,阴天紫外线辐射强度最弱,日极值为15 W·m-2,且日变化幅度显著减小。
图1 2019—2021年广州市紫外线辐射强度总体(a)及不同天空状况(b)平均日变化
广州市属于紫外线高辐射地区,由图1a可知,广州市09:00—16:00时段的紫外辐射强度达到4级以上标准,并在晴天、少云、多云天空状况下,此时段紫外线辐射均较强,因此本文主要对09:00—16:00时段的平均紫外线辐射强度进行月际变化分析。由2019—2021年广州市逐月平均紫外线辐射强度变化(图2a)可知,广州市紫外线辐射在不同月份均较强,可达15 W·m-2以上,2020、2021年紫外辐射强度的最大值出现在7月,2019年出现在9月。2019—2021年每年有连续3个月以上紫外辐射强度超30 W·m-2。广州市紫外线辐射强度在1—4月最小,11—12月次之,3年紫外线辐射最小值都出现在3月,2020年最小为15.9 W·m-2。这种分布主要与太阳高度角变化有关,还与大气污染状况、天空状况等诸多因素有关。图2a显示3—4月与9—10月的太阳高度角接近(黑色实线),但3—4月春季广州降水量多(图略),影响到达地面的紫外辐射强度,使到达地面的紫外线辐射强度减小。从紫外线辐射强度的季节变化(图2b)也可知,夏季广州市紫外辐射强度高于其他季节,但春季到达地面的紫外辐射较弱,这与蒋承霖等[27]研究结论一致。
图2 2019—2021年广州市紫外线辐射强度月平均变化(a),季节平均变化(b)
分析广州市紫外线辐射强度等级的逐月分布(表1)可知,2019—2021年去除缺测数据,共计1087天个样本。广州市紫外线强度等级分布比重分别为1级天数占1.10%、2级天数占7.08%、3级天数占8.56%、4级天数占48.39%、5级天数占34.87%。紫外线辐射强度达4级的天数最多,共计526天,主要分布在1、11、12月,5级次之,共计379天,主要分布在夏季。
表1 2019—2021年广州市紫外线强度逐月不同等级天数及占比
本文基于在紫外线辐射估算中特征因子易于获取的原则,选取气温、风速、海平面气压、相对湿度、能见度、总云量、温度露点差、太阳高度角等作为常规气象要素因子,AQI和SO2、NO2、O3、PM2.5、PM10作为环境要素因子分别与紫外线辐射强度进行相关系数计算,并分析不同变量之间相关性,选取显著相关的影响因子并剔除冗余特征。将最终的特征值输入梯度提升树算法,构建紫外线辐射拟合模型。
表2给出了紫外线辐射强度与各因子的相关系数。可知,气象因子中气温与紫外线辐射强度相关性最为密切,相关系数r达0.645,其次相关性较高的因子为能见度、总云量、相对湿度、温度露点差(0.4<|r|<0.6)。太阳高度角与紫外线辐射强度相关性较好,相关系数r为0.426,并通过了α=0.01的显著性检验。环境要素中O3浓度与紫外线辐射强度相关性最为密切,相关系数r为0.589,近地面O3主要来源于汽车尾气及工业排放氮氧化合物和挥发性有机物光化学反应生成,太阳紫外辐射是光化学反应的基本条件之一,高强度的紫外辐射有效促进光化学反应生成速率,导致臭氧污染累积[28]。因此紫外线辐射越强,光化学反应越剧烈,与地表臭氧浓度存在正相关关系。NO2浓度与紫外线辐射强度相关系数r为-0.393,但SO2、PM2.5、PM10、和AQI浓度与紫外线辐射强度的相关性均较低(|r|<0.1)。
表2 紫外线辐射强度与气象环境因子的相关系数
对通过显著性检验的9个因子分别进行变量间相关系数计算(图3)可知,相对湿度和温度露点差、海平面气压和气温具有高相关性,相关系数分别达-0.99和-0.82,并且海平面气压与太阳高度角、温度露点差与总云量也达到较高的相关性,而变量间的共线性会影响对模型的解释[29]。因此剔除温度露点差和海平面气压变量,使用气温、能见度、总云量、相对湿度、太阳高度角、O3浓度、NO2浓度7个因子作为特征值构建紫外线辐射拟合模型。
图3 不同变量间相关系数
依据上述对紫外线辐射强度显著相关的气象及环境要素的分析,将气温、能见度、总云量、相对湿度、太阳高度角、O3浓度、NO2浓度作为输入量,使用梯度提升树算法构建紫外辐射拟合模型。在构建模型之前首先要划分训练集与测试集, 本文选取7/10的样本数据用于训练,剩余样本用于测试。梯度提升树模型需要调整参数,包括弱学习器的最大迭代次数、损失函数、树的最大深度等参数。在调节模型参数的过程中,通过模型测试集的决定系数R2来评判模型拟合优劣。由不同学习率下迭代次数与模型决定系数的关系可知(图4a),随着迭代次数的增加,模型的精度越来越高,学习率较小时需要更大的迭代次数才能使模型达到较高的精度。迭代次数过少会导致模型的欠拟合,过多会导致模型的过拟合。综合考虑选择迭代次数为100,学习率0.06,损失函数采用平方损失,并采用参数搜寻的方式确定回归树的最大深度为 4,叶子节点最少样本数为 5作为模型参数。进一步计算模型输入变量的相对重要性,以便理解哪些因素对于拟合结果有关键影响力。图4b为每个输入变量的相对重要性,可知相对重要性最高的气温,其次分别为臭氧、总云量、太阳高度角、能见度、相对湿度、二氧化氮。
图4 不同学习率下模型迭代次数与决定系数的关系曲线(a),输入变量的相对重要性(b)
通过对紫外辐射强度观测值与估算值关系进行分析(图5),蓝色点为训练集估算的紫外辐射强度与实际观测值的散点分布,并拟合成线性的回归线(蓝色实线),其中决定系数R2为0.93,RMSE为2.7 W·m-2。红色点为测试集估算的紫外辐射强度与实际观测值的散点分布,并拟合成线性的回归线(红色实线),其中决定系数R2为0.80,RMSE为4.9 W·m-2,可知梯度提升树算法构建的模型估算广州市紫外线辐射效果较理想。
图5 紫外辐射强度观测值与估算值分布
将测试集输入模型,拟合后的紫外辐射强度与真实值进行对比,结果如图6所示,估算值与真实值相关系数达0.89,估算值结果与实际值很接近,但存在少部分测试数据比真实值偏小, 模型对高紫外辐射强度的估算可能会低估,但整体来说模型的拟合效果较好,准确度较高。进一步将紫外线辐射强度转化为紫外线等级进行检验,估算等级正确的占75%,相差1级的占21%,相差2级的比例为4%,拟合结果较为理想。
图6 紫外辐射强度观测值与模型估算值的比较
本文基于广州市紫外辐射观测资料、环境空气质量监测数据以及气象观测数据,对广州市紫外线辐射强度变化特征及与环境空气质量、气象因子的关系进行统计分析,并采用梯度提升树算法建立广州市紫外辐射拟合模型。主要得到以下结论:
(1)广州市紫外线辐射强度具有明显的季节变化特征和日变化特征,季节变化表现为夏秋季高、冬春季低的趋势。广州市紫外线辐射在不同月份均较强,可达15 W·m-2以上。2020、2021年紫外辐射强度的最大值出现在7月,2019年出现在9月。3年紫外线辐射最小值都出现在3月,2020年最小值只有15.9 W·m-2。在无其他因素影响下(晴天),紫外线辐射强度日变化与太阳高度角变化相似,呈现出早晚小中午大的特征,于12:00左右达到最大值。广州市紫外辐射强度全年都较高,2019—2021年广州市紫外线强度83.26%为“强”以上级别。
(2)与紫外线辐射强度显著相关的因子为气温、能见度、总云量、相对湿度、温度露点差,太阳高度角、海平面气压、O3浓度、NO2浓度。气象因子中紫外线辐射强度与气温的相关性最为密切,其次相关性较高的为能见度、总云量、相对湿度、温度露点差,环境要素中O3浓度与紫外线辐射强度相关性最为密切,SO2、PM2.5、PM10和AQI与紫外线辐射强度的相关性均较低。
(3)使用气温、能见度、总云量、相对湿度、太阳高度角、O3浓度、NO2浓度7个因子作为特征值构建了紫外线辐射拟合模型,模型训练集和测试集的决定系数R2分别为0.93、0.80,对应的RMSE为2.7 W·m-2、4.9 W·m-2。估算值结果与实际值很接近,相关系数高达0.89,但存在少部分估算值比真实值偏小,模型对高紫外辐射强度的估算可能会低估,但整体来说模型的拟合效果较好。模型估算紫外线辐射等级正确的为75%,相差1级的占21%,相差2级的比例为4%。