曲 凯 王林林 吴 雪 游家慧(.山东省环境信息与监控中心,山东 济南 500;.滨州学院建筑工程学院,山东 滨州 56600;.南京恩瑞特实业有限公司,江苏 南京 06)
山东省环境空气质量动力统计预报系统
曲 凯1王林林2吴 雪3游家慧3
(1.山东省环境信息与监控中心,山东 济南 250101;
2.滨州学院建筑工程学院,山东 滨州 256600;3.南京恩瑞特实业有限公司,江苏 南京 211106)
以山东省17个城市2014年至2015年环境空气质量监测指标和同步的气象观测数据为基础,采用线性回归和神经网络方法建立统计预报模型,构建山东省环境空气质量动力统计预报系统。该系统实现了业务化自动运行,对山东省17城市的6项污染物指标(PM2.5、PM10、NO2、SO2、CO日均浓度和O3日最大 8小时滑动平均浓度)和AQI指数进行逐日预报。预报结果能较好的反应各市空气质量的变化趋势,为预报业务提供参考。
环境空气质量;统计预报;线性回归;神经网络;山东省
环境空气质量的预报和发布,为环境管理和决策部门提供科学依据,尤其能在重污染天气到来前及时发出预警并采取限制措施,减轻对市民健康的危害。因此受到各地政府和大气环境部门重视。
空气污染预报是一项复杂的系统工程,目前国际上对空气污染物浓度预报的方法有两种:统计预报和数值预报。统计预报是指利用空气质量和气象参数等历史观测资料建立大气污染物浓度与气象条件或非气象条件间的相关性、趋势性、延续性等统计关系,建立拟合方程或统计模型,从而外推得到对未来空气质量的预报结果[1]。数值预报依赖于源清单、大气动力过程和化学机制等,相比数值预报模式,统计预报方法比较简便、经济,易于实现。孙峰[2]、王建鹏等}、魏璐等[4]、刘闽等[5]分别研究建立了北京、西安、郑州、沈阳等地的城市空气质量统计预报系统,就统计预报技术方法、预报结果检验、预报技术改进等方面进行了探讨。目前的统计预报业务系统多使用回归方法建立模型,神经网络模型的业务应用有待进一步研究开展。
环境空气质量与气象因素紧密相关,环境空气质量的好坏从一定程度上取决于大气扩散条件的优劣。当某种污染物排放到空气中后,污染物在空气中的浓度由污染源的排放量和大气的稀释扩散条件两个因素决定。在一段时间内,整个城市污染物的排放总量是相对稳定的,视污染源为“准定常”,那么污染物浓度的高低主要取决于当时的气象条件,当气象条件有利于污染物扩散时,污染浓度低;反之则浓度高[6]。
山东省环境空气质量统计预报将污染物排放视为相对恒定不变的,通过累积2014年至2015年的空气污染物浓度监测值和同步的气象观测资料,分别使用多元线性回归和人工神经网络的方法,建立两者相关关系模型,通过这些定量关系,根据天气预报的预测结果和空气质量现状来预测未来空气质量,包括PM2.5、PM10、NO2、SO2、CO日均浓度和O3日最大 8小时滑动平均浓度等六项污染指标。该统计预报系统假设污染源是不变的或者变化很小,污染水平受气象条件控制。但污染源显然会发生变化,故采用动态的方法建立预报模型,及时剔除失效的数据、加入新生的数据,是减小预报误差的重要因素。
山东省空气质量动力统计预报系统采用多元线性回归和神经网络相结合的动力统计预报技术,包括两大功能模块:统计预报模型建立和动态更新模块,以及统计预报业务预报模块,如图 1。
图1 山东省环境空气质量动力统计预报系统
统计预报模型建立和动态更新模块,负责收集历史环境监测和气象观测数据,经过预处理,使用不同统计预报方法建立预报模型;将新生的污染样本及气象样本及时加入到预报数据集,使模式系统能够反映变化中的污染状况;同时通过对模式预报结果准确性的检验,对预报系统做出调整,实现对预报模型进行动态更新。
统计预报业务预报模块,负责收集预报前一天和当天的环境监测实况数据和气象数值预报数据,经过预处理,代入统计预报模型建立和动态更新模块所建立的统计预报模型,实现动力和统计预报相结合的动力统计预报;并对预报结果进行分析和检验,同时将检验结果反馈给统计预报模型建立和动态更新模块。统计预报结果作为客观预报参考产品之一在山东省空气质量预报预警系统平台上进行展示,为业务预报提供参考。
2.1 资料来源
山东省144个国控和省控环境监测站点监测数据,包括2014年至今的PM2.5、PM10、SO2、O3、NO2和CO等6项污染物的逐小时浓度值。数据用于统计预报模式建立和动态更新,以及每日的业务预报。
山东省123个气象地面站观测数据,包括2014年至今的地面气压、气温、风速、风向、相对湿度、能见度、降水量等要素的逐小时观测值。该数据用于统计预报模式建立和动态更新。
NCEP再分析资料,包括2014年至今的云量、地表粗糙度、向下太阳辐射通量,及各等压面的气温、相对湿度、风场UV分量、垂直速度等变量的逐6小时再分析数据。该数据用以弥补高空气象观测数据及气象地面站观测数据变量的不足,用于统计预报模式建立和动态更新。
山东省空气质量预报预警系统获取的中国环境检测总站下发的WRF模式气象预报数据,山东区域水平分辨率15km,包括10米风场UV分量、2米温度、2米相对湿度、降水量、海平面气压、边界层高度、地面向下太阳辐射,以及4个高度层的风场UV分量、垂直速度、气温、气压、高度和相对湿度等变量的逐小时数据。该数据用于每日的业务预报。
2.2 资料预处理
资料预处理包括数据规整、异常值处理、格点数据处理、数据格式转换、城市数据计算、日值计算等。数据规整是指将收集到的站点数据进行整理,以缺省值补全缺测时次;异常值处理指去除数据中的负值和异常大值,以缺省值代替;格点数据处理值将NCEP再分析数据和WRF预报数据等格点数据提取到相应站点;数据格式转换指将所有观测数据和实况数据、站点数据和格点数据转换为统一格式;城市数据计算指根据统计预报城市预报需要,将山东省所有监测站分别按所属城市计算城市平均值;日数据计算指根据统计预报逐日预报的需要,计算2014年至2015年逐日数据,PM2.5、PM10、SO2、NO2和CO计算日均值,O3逐日取8小时滑动平均值的最大值。
2.3 气象因子及相关性分析
空气污染是一个非常复杂的系统,从污染源排放到扩散输送、大气中的转化,再到沉降,影响因素众多,包括前期污染场分布、同期污染源排放和同期气象场作用。在一定时期内污染源排放量相对稳定,而气象条件对污染物浓度的短期变化的影响更为显著,因此统计预报方法忽略污染源排放变化的影响,主要考虑未来天气形势和气象条件等因素对空气质量变化趋势的影响。因此,气象影响因子的选择对统计预报模型的建立和预报准确性至关重要。
为了广泛寻找气象因子,选择以下37个因子与空气质量进行相关性分析:日均总云量、日主导风向、日均风速、日均海平面气压、日低云量、日均露点、日均温度、日均相对湿度、日最大风向、日最大风速、日最大温度、日最低温度、日累计降水、08时总云量、08时风向、08时风速、08时海平面气压、08时3小时变压、08时低云量、08时露点温度、08时温度、08时相对湿度、08时温度露点差、08时24小时变压、08时24小时变温、14时总有能量、14时风向、14时风速、14时海平面气压、14时3小时变压、14时低云量、14时露点、14时温度、14时相对湿度、14时低云高、14时稳定度和14时混合层高度。经计算可知,山东省空气质量和海平面气压、变压、云量、云底高、湿度、温度、降水、稳定度和混合层高度等因子具有较显著的相关性。
3.1 多元线性回归模型构建
线性预报模型是基础模型,是了解气象条件和污染水平之间关系的重要方法。多元线性回归针对某一预报量(某一种污染物浓度),研究多个因子与它的定量统计关系。山东省环境空气质量统计预报系统采用逐步回归算法,从上述影响污染物浓度的因子中选取显著的影响因子,即根据一定的显著性标准,每步引入一个变量进入回归方程,逐步回归时,由于新变量的引进,可使已进入回归方程的变量变得不显著,在下一步给以剔除,从而最终建立污染物浓度的“最优”回归方程。
使用逐步回归算法,根据α=0.01显著水平的F检验,按分城市、分季节(春季3-5月、夏季6-8月、秋季9-11月、冬季12-2月)、分污染物建立了山东省17地市的408个回归方程。
例如,济南冬半年PM2.5浓度的回归方程为:
PM2.5jn-win=45.1887+0.5176PM2.5-1d-5.369Tdif+
济南夏半年O3日最大8小时滑动平均浓度的回归方程为:
O3jn-sum=0.2299+0.4015O3-1d-2.037DH08+7.3395Tmax+0.0075815Pd24-4.8211T08
式中,O3jn-sum为预报日O3日最大8小时滑动平均浓度,O3-1d为前一日O3日最大8小时滑动平均浓度,DH08为08时逆温层高度,Tmax为日最高温度,Td24为日变压,T08为08时温度。
山东省环境空气质量统计预报系统具有动态的特性。逐日新生的污染样本及气象样本会及时地自动加入到系统数据集中,重新运行回归方程建立模块,对预报系统进行调整,使其能够反映变化中的污染状况;另一个途径是通过对模型预报结果准确性的检验,发现模型系统存在的问题,对模型系统做出调整。
3.2 神经网络模型构建
为了建立更加准确的统计预报模型,预报系统采用人工神经网络等非线性方法进行了补充。BP神经网络是针对非线性的动力系统的统计预报方法,它通过使用预测因子和预测对象(污染物浓度)以前的历史资料,求解预测因子与预测对象之间的关系,从而构建预报模型[6-13]。BP神经网络的输入层接收来自外界的输入信息(污染物的影响因子),并传递给中间层各神经元;中间层负责信息变换;最后传递到输出层向外界输出信息处理结果(输出污染物浓度);当实际输出与期望输出(实际污染物浓度)不符时,进入误差的反向传播阶段,修正各层权值,逐层反传,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。
山东省环境空气质量统计预报系统使用MATLAB构建BP Adaboost神经网络,即把BP神经网络作为多个弱分类器,反复训练BP神经网络预测样本输出,通过Adaboost算法得到多个BP神经网络分类器组成的强分类器。具体处理步骤包括:(1)输入历史数据(38个预报因子和1个输出因子,样本量为2014-2015年共六百余天日数据);(2)网络初始化;(3)弱分类器预测(该系统设置了15个弱分类器);(4)计算预测序列权重;(5)测试数据权重调整;(6)强分类函数生成。
与多元线性回归方法相似,逐日新生的污染样本及气象样本会及时地自动加入到系统数据集中,重新运行预报模型训练模块,对预报系统进行调整,使其能够反映变化中的污染状况;同时也通过对模型预报结果准确性的检验,发现模型系统存在的问题,对模型系统做出调整。
4.1 预报和实况对比
经过223天逐步回归预报和55天神经网络预报,以山东省济南市为例,对比主要污染物PM2.5日平均浓度、O3日最大8小时滑动平均浓度,及根据污染物浓度计算而得的空气质量指数AQI的预报值和实测值,经计算分析对比结论如下:
(1)逐步回归模型和神经网络模型对济南市PM2.5日平均浓度的统计预报结果和实况比较一致,预报结果与实测值的变化趋势相类似,能反映出PM2.5日平均浓度的变化规律。但预报值曲线较实况值曲线更平滑,对极值的预报效果不好。
(2)逐步回归模型和神经网络模型对济南市O3日最大8小时滑动平均浓度的统计预报结果和实况比较一致,预报结果与实测值的变化趋势相类似,能反映出O3日最大8小时滑动平均浓度的变化规律,但预报值曲线较实况值曲线更平滑,且较实况偏大,对小值的预报效果不好。
(3)根据逐步回归模型和神经网络模型对济南市各污染物浓度计算空气质量指数AQI,统计预报结果的AQI和实况比较一致,预报结果与实测值的变化趋势相类似,能反映出AQI的变化规律。
4.2 预报准确率分析
分别计算逐步回归模型和神经网络模型对山东省17地市的主要污染物PM2.5、PM10、O3和AQI的预报结果和实况的平均绝对误差、平均相对误差、级别准确率及相关系数。
相关系数
其中,P为预测值,O为观测值,n为总预报天数,m为污染物浓度或AQI实况值和预报值属于同一IAQI等级或AQI等级的天数。
经计算可知,逐步回归模型和神经网络模型对山东省17地市的主要污染物PM2.5、PM10、O3和AQI的预报均能达到一定的准确性,可以为预报制作提供参考。PM2.5和PM10的预报准确率高于O3,逐步回归模型预报准确率高于神经网络模型。
使用2014-2015年山东省17城市的空气质量监测数据和同步的气象观测数据,利用线性回归和神经网络方法建立了统计预报模型,构建了山东省环境空气质量动力统计预报系统。该系统实现了业务化自动运行,对山东省17城市的6项污染物指标(PM2.5、PM10、NO2、SO2、CO日均浓度和O3日最大 8小时滑动平均浓度)和AQI指数进行逐日预报。预报结果能较好的反应各市空气质量的变化趋势,为预报业务提供参考。
受历史数据长度有限、环境监测站和气象地面观测站点不统一、环境监测站点集中于城区、数值天气预报开展时间晚导致建模和预报使用气象数据不一致等因素,以及统计预报自身的特点和局限性,统计预报系统对极值预报效果较差,O3预报准确率较低,且统计预报系统不稳定,还需要进一步改进:
(1)统计预报模型使用数值天气预报数据计算预报因子,目前使用中国环境监测总站WRF模式预报数据。受该数据稳定性影响,统计预报稳定性较差。系统将改善数据获取途径,或者使用更为稳定且分辨率更高的GFS数据或本地运行的数值天气预报数据,改善统计预报体统稳定性。同时随着预报天气数据不断积累,使用气象预报数据进行建模,保证建模和预报数据一致。
(2)同一污染物在不同天气形势下有不同的相关性好的气象因子,可以考虑按天气类型分类分别建立统计预报模型。同时还应对影响空气质量的直接及间接气象要素进行研究,深入分析空气质量变化中物理化学区域特征及其与气象要素尤其是大气边界层要素的关联,增强统计因子的大气物理化学机理认识,更全面考虑空气质量统计预报因子及其特征[14]。
(3)目前统计预报方法选取预报因子,没有考虑预报因子之间的相关性,挑选出的预报因子由于非正交,使计算结果不稳定,给预报带来一定误差。统计预报模型可结合自然正交分解方法选取少数几个正交的预报因子,即可获得要素场空间和时间基本特征信息,改善预报模型[15]。
(4)在预报数据不断积累的基础之上,分析线性回归和神经网络模型的预报特征,使用动态加权技术对二者预报结果进行融合,提供更加准确的统计预报结果。
[1]中国环境监测总站.环境空气质量预报预警方法技术指南[M].北京:中国环境出版社,2014.23-42.
[2]孙峰.北京市空气质量动态统计预报系统[J].环境科学研究,2004,17(1):70-73.
[3]王建鹏.西安城市空气质量预报统计方法及业务化应用[J].陕西气象,2001,(6):1-3.
[4]魏璐,朱伟军,陈海山.郑州市空气质量统计预报方法探讨[J].南京气象学院学报,2009,32(2):314-320.
[5]刘闽,王帅,林宏,许荣.沈阳市冬季环境空气质量统计预报模型建立及应用[J].中国环境监测,2014,30(4):10-15.
[6]Dahe Jiang,Yang Zhang,Xiang Hu,et al.Progress in deceloping an ANN model for an air pollution index forecast [J].Atmospheric Environment,2004,38:7055-7064.
[7]Sang Hyun sohn,etc.Prediction of Ozone Formation Based on Neural Network [J].Envir.Engrg.ASCE,2000,8:688-696.
[8]Jeong-Sook Heo,Dong-Sool Kim.A new method of ozone forecasting using fuzzy expert and neural network systems [J].Science of the Total Environment,2004,325:221-237.
[9]王俭,胡筱敏,郑龙熙等.基于BP模型的大气污染预报方法研究[J].环境科学研究,2002,15(5):62-64.
[10]张宏伟,连鹏,闫晓强.最优化权值组合法用于大气质量中长期预测的研究[J].天津工业大学学报,2005,24(3):54-57,61.
[11]金龙,陈宁,林振山.基于人工神经网络的集成预报方法研究和比较[J].气象学报,1999,57(4):198-207.
[12]金龙,况雪源,黄海洪等.人工神经网络预报模型的过拟合研究[J].气象学报,2004,62(1):62-69.
[13]李祥泳,邓新民.环境污染预测的人工神经网络模型[J].成都气象学院学报,1997,12(4):279-283.
[14]Breiman L,Friedman J H,Olshen R A,et al.Classification and regression trees [M],Monterey CA:Wadsworth and Brookes/Cole,1984.
[15]佟彦超.中国重点城市空气污染预报及其进展[J].中国环境监测,2006,22(2):69-71.
Statistical Forecast System of Environmental Air Quality in Shandong Province
QU Kai1WANG Linlin2WU Xue3YOU Jiahui3
(1.Shandong Province Environmental Information and Monitoring Center,Jinan 250101,China; 2.Architectural engineering institute of Binzhou University ,Binzhou 256600,China; 3.Nanjing Nriet Industrial Co.,Ltd,Nanjing 211106,China)
Based on the correlation of the 17 cities and its historical environment change of air quality with meteorological factors in Shandong Province,the environmental air quality dynamic statistical forecast system is build by linear regression and neural network method,using meteorological data and air pollution history data. The automatic operation of the business system is accomplished through using observation data of air pollutant concentration and numerical weather prediction data,and provides Daily forecast of 6 pollutant concentration (daily average concentration of PM2.5,PM10,NO2,SO2,CO and daily maximum concentration of O38 hours moving average concentration) and AQI index of 17 cities. The prediction can indicate the trend of the air quality change,and provides a reference for the operation forecast.
environmental air quality,statistical forecasting,linear regression,neural network,Shandong Province
曲 凯,硕士,工程师,主要从事空气质量监测与预报预警工作
X87
A
1673-288X(2017)01-0054-04
项目资助:山东省重点研发计划项目(2015GGB01135)
引用文献格式:曲 凯 等.山东省环境空气质量动力统计预报系统[J].环境与可持续发展,2017,42(1):54-57.