张赛鑫,何红弟,魏海蕊
上海海事大学物流研究中心,上海 201306
近年来,随着经济的持续发展和人口的增长,雾霾越来越严重,颗粒物是形成雾霾的主要物质[1-3]。其中PM2.5与PM10对气候[4-5]、健康[6-7]和能见度[8-9]的影响巨大,进而影响人们的正常生活。PM2.5是直径小于或等于2.5 μm的颗粒物,PM10是直径小于或等于10 μm的颗粒物,两者的主要源类贡献率差别不大[10-12]。香港是全球最发达的城市之一,拥有着全球最大的人口密度和交通密度。为了控制和提高空气质量,香港环境监测中心在全市设立了14个监测站用于监测空气污染物。为了监测PM2.5与PM10,每个监测站都配备了相应的设备。由于一些监测站的地理位置非常接近,一些监测站的监测环境非常相似,还有一些监测站的PM2.5与PM10的相互关系变化类似,它们通常有相同的空气污染行为,这些可能会导致使用资源不被充分利用而增加额外费用[13-14]。因此,使用实用的分析方法用于优化空气质量监测站很有必要。
聚类分析是指将数据集分组为由类似的对象组成的多个新的具有典型变量特征群组的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类,使集群间的方差最大化和集群内方差最小化。在以前的研究中,耿红等[15]利用聚类分析研究太原市2014年春节期间常规大气污染物,以反映城市大气污染物浓度变化的时间与空间分布规律。卢伟真等[16]利用主成分分析和聚类分析研究香港地区SO2、PM10、NO2浓度,得到更有效的空气质量管理方法。他们均证实聚类分析可以用来分析和解决环境问题。
自2010年以来,香港环境监测中心在全市14个监测网点进行颗粒物监测。在这14个监测网点,污染源头及地形的相似导致某些颗粒物浓度的变化出现相同的趋势,将导致监测设备的浪费和管理的冗余。在此背景下,本文利用聚类分析方法对香港空气监测站PM2.5与PM10的监测进行优化研究。本文的目的是确定香港具有相似污染情况的地区,提出在特定条件下不同颗粒物间浓度数据可以进行相互预测,为优化空气监测站PM2.5与PM10的监测资源配置和减少相关管理费用、节约更多资源提供科学依据。
香港空气质量受道路交通密度、丘陵地带和波浪式街道的影响较大。为了更好地监测空气质量,1999年以来香港环境监测中心在香港建立了14个监测站,通常分为路边站和一般站2类[29]。路边站包括铜锣湾(CB)、中央(CT)、旺角(MK);一般站包括中西部(CW)、深水埗(SS)、东部(ET)、观塘(KT)、葵涌(KC)、荃湾(TW)、大埔(TP)、沙田(ST)、东涌(TC)、元朗(YL)、塔门(TM)。路边站的空气采样点位于距离车道不超过5 m的地方,一般站的采样点则位于城市人口集中地区的住宅或住宅/商业领域建筑的屋顶。
为了监测颗粒物污染情况,监测站都配有符合国家技术规范的设备监测PM2.5与PM10的浓度。截至目前,每个监测站PM2.5与PM10的数据都比较完整。为了对监测颗粒物的资源进行管理和优化分配,本文选取香港地区14个监测站对2011年1月1日至2015年11月30日的PM2.5与PM10的每小时质量浓度原始数据及PM2.5/PM10(PM2.5与PM10的质量浓度比,下同)进行研究[17]。
聚类分析方法是依据样本自身属性,采用数学方法按照某种相似性或者差异性指标,定量确定样本之间的相似程度,并且按照这种相似程度对样本进行聚类,常见的聚类方法有层次聚类、分割聚类与约束聚类法等。确定变量之间的相似程度,需要求出变量之间的距离,变量间距离也是聚类分析的度量指标。变量之间的距离d(i,j)求解有多种方式,如欧几里得距离法、曼哈顿距离等。应用最广泛的是欧几里得距离,计算公式为
式中:i=(xi1,xi2,…,xim)和j=(xj1,xj2,…,xjm)作为2个m维变量;xim表示i的第m个坐标值,依此类推。
距离度量也需达到一些要求:d(i,j)≥0,距离为非负的某个数;d(i,i)=0,对象与它自己的距离为零;d(i,j)=d(j,i),对称性;d(i,j)≤d(i,p)+d(p,j),满足两点之间直线最短的三角原理。
本文采用层次聚类算法,层次聚类法是聚类分析中一种较常用的算法。层次聚类包括凝聚层次聚类和分裂层次聚类。凝聚层次聚类的基本思想是在聚类开始时,每个样本属于一类,按照某种方法计算各样本间的距离,并把其中距离最小的样本聚成一小类。然后,计算剩余样本与首先聚成的一小类间的距离,并把当前距离最小的样本与小类再聚成一类,如此反复到将所有样本都聚成同一类[18]。分裂层次聚类思想与凝聚层次聚类相反。本文采用的是凝聚层次聚类法。
本文使用SPSS软件分别就PM2.5、PM10、PM2.5/PM10对香港14个监测站进行聚类分析,聚类结果用直观的树形图表示。本文的完整聚类分析过程:①将每一个监测站的一组污染物数据作为一个类,利用式(1)计算每个类之间的距离,获得一个初始化的距离矩阵。②找到距离最相近的监测站,合并它们组成一个新类。③根据式(1)计算新生成的类与其他监测站之间的距离,得到一个新的距离矩阵,选择与新类距离最小的监测站与之重新组成一个新类。④重复步骤②、步骤③,直到所有监测站属于一类。
图1(a)给出了利用SPSS分析PM2.5原始浓度数据所得的聚类图。根据分析结果将14个监测站分为4类,即A类(ST、TP、KC和TW),B类(ET、KT、SS、CT和CW),C类(MK和TM),D类(YL、TC和CB)。图1(b)给出了香港监测站的地理位置图,并根据图1(a)结果在地图上进行了标示。图2给出了各监测站PM2.5日变化特征曲线图。其中图2(a)中的监测站与图1中的A类相对应,各个监测站位于城市郊区。
图1 PM2.5监测站聚类分析树状图与监测站地理标示图Fig.1 Dendrograms and corresponding clustering station maps for pollutants of PM2.5
图2 监测站PM2.5浓度日变化特征曲线图Fig.2 Average daily profile of PM2.5 concentration at the monitoring network
从图2(a)可以看出,A类监测站PM2.5的变化趋势类似,主要受到居民活动影响。00:00—06:00居民活动较少,PM2.5的浓度逐渐下降;06:00—08:00由于阳光照射等气象因素,促使前夜积累的空气中污染物之间相互转化产生二次污染物PM2.5, PM2.5浓度则急剧增加;08:00—20:00浓度变化平缓,呈缓慢上升趋势;20:00—24:00随着夜间居民活动的减少,日照结束,二次污染物PM2.5的生成也逐渐减少,导致PM2.5浓度开始下降。另外,这些监测站周边有许多小山丘,温度相对较低、相对湿度较大、平均风速较弱等原因不利于 PM2.5扩散,所以A类监测站的PM2.5浓度整体变化较平缓。
图2(b)中的监测站与图1中B类相对应,各监测站均位于港口附近,从图2(b)可以看出,B类监测站PM2.5的变化趋势类似,呈现出明显的双峰型分布。 00:00—06:00较少的港口作业机械和轮船排放,及日光照射较弱不利于生成二次污染物PM2.5,使PM2.5浓度逐渐下降;06:00—09:00随着日照强度增强,夜间积累的污染物迅速反应生成二次硫酸盐和硝酸盐,加剧 PM2.5浓度的增加并在09:00达到峰值;09:00—13:00由于前夜积累污染物的大气化学反应接近尾声,使PM2.5浓度变化呈缓慢下降趋势;13:00太阳辐射达到最大值,大气化学反应加速,增加了PM2.5浓度,并累计在20:00时达到峰值;20:00—24:00 PM2.5浓度则开始下降。
分析结果表明,聚类分析结果与监测站的地理位置及周边污染源的排放有密切联系。处于相似地理位置的监测站,其PM2.5浓度变化具有相同的特征。因此,建议将PM2.5变化具有相同特征的监测站中的冗余仪器转移到其他地区,扩大PM2.5的监测区域。
图3(a)给出了利用SPSS分析PM10原始数据所得的聚类图。根据分析结果将14个监测站分为4类,即A类(ST、TP、KC、TW、ET),B类(MK、SS、CW、KT),C类(CT、TM、YL),D类(TC、CB)。图3(b)给出了香港监测站的地理位置图,并根据图3(a)结果在地图上进行了标示。图4给出了各监测站PM10日变化特征曲线图。其中图4(a)中的监测站与图3的A类相对应,从图4(a)可以看出,A类中各监测站的PM10浓度变化趋势类似。由于A类中的各监测站位于以工商业为主、地理特征以小丘陵为主的九龙地区,受温度相对较低、相对湿度较大、平均风速较弱等原因的影响,不利于颗粒物的扩散,A类各监测站的PM10浓度整体变化较平缓。00:00—06:00 PM10浓度日变化特征曲线逐渐下降,然而00:00—06:00则急剧上升,在09:00—20:00曲线变化呈缓慢增加趋势,20:00—24:00 PM10浓度曲线则开始下降。
图3 PM10监测站聚类分析树状图与监测站地理标示图Fig.3 Dendrograms and corresponding clustering station maps for pollutants of PM10
图4(b)中监测站与图3中B类相对应,图4(b)中各监测站PM10的变化趋势类似且都位于港口附近,00:00—06:00港口操作机械排放量较少,且由于太阳辐射较弱,大气化学反应产生的颗粒物较少,造成PM10的浓度逐渐下降,06:00—12:00港口作业机械排放和大气化学反应产生的颗粒物增多,导致PM10浓度急剧增加,09:00—20:00 PM10保持着较高浓度且波动变化幅度小,20:00—24:00日照减弱,大气化学反应程度降低,引起PM10浓度开始下降。港口操作机械周期性变化影响PM10浓度的日变化趋势。
分析结果表明,PM10的聚类分析结果与日变化平均趋势相符,且分类结果与PM2.5的分类结果有共同特点,都与监测站地理位置及周边污染源的排放有密切联系。因此,在PM10变化特征相同的监测站中,将监测PM10的冗余仪器转移到其他监测站地区,扩大PM10的监测范围。
图4 监测站PM10浓度日变化特征曲线图Fig.4 Average daily profile of PM10concentration at the monitoring network
此外,还研究了PM2.5和PM10之间的相互关系变化情况,为优化监测设备方法提供依据。本文对每个监测站中PM2.5/PM10也采取了相同的分析方法。图5(a)给出了PM2.5/PM10的聚类图。根据PM2.5/PM10分析结果将监测站分为4个集群,即集群A(KC、ST、TP、CW),集群B(MK、CB),集群C(ET、TW、CT、TC),集群D(SS、KT、TM、YL)。图5(b)给出了香港监测站的地理位置图,并根据图5(a)的分析结果在地图上进行了标示。
图5 PM2.5/PM10监测站聚类分析树状图与监测站地理标示图Fig.5 Dendrograms and corresponding clustering station maps for pollutants of PM2.5/PM10
图6给出了PM2.5/PM10日变化特征曲线图。图6(b)的监测站对应图5中集群B,图6(b)中MK与CB监测站的PM2.5/PM10曲线变化相似,从图5(b)可以看出,MK与CB都位于城市交通拥挤的地区的路边站, PM2.5/PM10变化受汽车尾气的影响较大。图6(c)的监测站对应图5中集群C,图6(c)中各监测站的PM2.5/PM10变化趋势相似,ET、TW和CT是在城市中人口稠密的居民区,监测站所处监测环境相同,空气中PM2.5在PM10中的占比也相似,从而引起PM2.5/PM10日变化平均趋势类似。同PM2.5和PM10的集群分类结果明显不同, PM2.5/PM10集群的分类不再是依据地理位置,而是依据监测站所在环境的污染排放情况。
图6 监测站PM2.5/PM10数据值日变化特征曲线图Fig.6 Average daily profile of PM2.5/PM10 concentration at the monitoring network
根据PM2.5/PM10的监测网络分析结果,提出设想:根据一种颗粒物的数据可以预测另外一种颗粒物数据。MK与CB 2个监测站PM2.5/PM10的日平均变化相似,即在相同时间点,MK监测站的PM2.5/PM10与CB监测站的PM2.5/PM10值近似相等,即
(2)
根据式(2)可知,用其中3个数值可以求出另一个数值。如果CB监测站的某一颗粒物监测仪器出现故障,其对应的数据无法直接获取,那么可以利用KC监测站的数据及CB监测站的另一种颗粒物数据进行预测。
图7(a)给出了CB监测站2015年PM2.5的预测值与实际值的散点图,是利用MATLAB进行编程,选取2015年MK监测站PM2.5与PM10的数据及CB监测站PM10的数据,根据式(2)进行数据提取,借助Origin Pro 8.0软件绘图,并进行线性拟合。拟合结果显示,线性拟合的斜率为0.985,相关系数为0.972。图7(b)给出了CB监测站2015年PM10的预测值与实际值的散点图。同样是利用MATLAB进行编程,选取2015年MK监测站PM2.5与PM10的数据及CB监测站PM2.5的数据给图并进行线性拟合。拟合结果显示,线性拟合的斜率为1.009,相关系数为0.957。表明该模型具有较高的预测精度,可靠性与可信性水平较高,能够说明和解决实际问题。
据此,在PM2.5/PM10变化相同的监测站中,用其中一个监测站的2种颗粒物数据(PM2.5、PM10)及另一个监测站的其中一种颗粒物数据(PM2.5或PM10)来预测另一种颗粒物浓度(PM10或PM2.5)是可行的。虽然促使此设想成立的必要条件较多,但希望本文可以为监测颗粒物的资源优化分配研究提供新的思路。
可见,香港许多监测站的颗粒污染物具有相同的空气污染行为,间接说明香港环境监测中心没有对资源进行最优化配置,建议将冗余设备撤销或转移到其他地区扩大监控范围。
图7 CB监测站颗粒物预测分析图Fig.7 Forecast analysis diagram of particles of CB station
利用聚类分析方法及日变化对香港14个监测站的PM2.5、PM10及PM2.5/PM10的污染行为进行分析,得出结论:
1)基于PM2.5的聚类结果为4类。A类(ST、TP、KC、TW)位于城市郊区,B类(ET、KT、SS、CT、CW)则位于港口附近,且A、B类的PM2.5日变化特征均呈现双峰型分布,峰值分别出现在09:00和21:00。基于PM10的聚类结果亦为4类,A类(ST、TP、KC、TW、ET)位于九龙区,B类(MK、SS、CW、KT)则位于港口附近,而且A、B类的PM10日变化双峰分别出现在11:00和20:00左右。以上结论表明,污染源头及地形的相似致使某些监测站颗粒物浓度的变化出现相同的趋势,导致监测设备的浪费和管理的冗余。
2)PM2.5/PM10的聚类结果同样为4类,其中B类(MK、CB)均属于路边站,C类(ET、TW、CT、TC)则位于居民区。同类监测站PM2.5/PM10数值变化相同,并且可以用其中一个站的PM2.5和PM10浓度及另一个站的PM2.5或PM10浓度预测PM2.5或PM10浓度,为优化监测资源提供了另一种新思路。
[1] BARRERO M A, ORZA J A G, CABELLO M, et al. Categorisation of Air Quality Monitoring Stations by Evaluation of PM10Variability[J]. Science of the Total Environment,2015,524/525:225-236.
[2] 乔玉霜,王静,王建英.城市大气可吸入颗粒物的研究进展[J]. 中国环境监测,2011,27(4):22-24.
QIAO Yushuang, WANG Jing, WANG Jianying. Research Progress of the Inhalable Particular in the Urban Air[J]. Environmental Monitoring in China,2011,27(4):22-24.
[3] 董海燕,古金霞,陈魁,等.天津市区PM2.5中碳组分污染特征及来源分析[J].中国环境监测,2013, 29(1):34-38.
DONG Haiyan, GU Jinxia, CHEN Kui, et al. Character and Source Analysis of Carbonaceous Aerosol in PM2.5in the Center of Tianjin City[J]. Environmental Monitoring in China, 2013,29(1):34-38.
[4] 邱粲,曹洁,王静,等.济南市空气质量状况与气象条件关系分析[J].中国环境监测,2014,30(1):53-59.
QIU Can, CAO Jie,WANG Jing, et al. Analysis on the Relation Between Air Quality Status and Meteorological Conditions in Jinan City[J]. Environmental Monitoring in China,2014,30(1):53-59.
[5] ZHOU H J, HE J, ZHAO B Y, et al. The Distribution of PM10and PM2.5Carbonaceous Aerosol in Baotou, China[J]. Atmospheric Reserch,2016,178/179:102-113.
[6] DAZ-ROBLES L A, FU J S, VERGARA-FERN NDEZ A, et al.Health Risks Caused by Short Term Exposure to Ultrafine Particles Generated by Residential Wood Combustion: A Case Study of Temuco, Chile[J].Environ Int,2014,66:174-181.
[7] FANN N, LAMSON A D, ANENBERG S C, et al. Estimating the National Public Health Burden Associated with Exposure to Ambient PM2.5and Ozone[J]. Risk Analysis,2012,32:41-95.
[8] CHOW J C, WATSON J G, KUHNS H, et al. Source Profiles for Industrial, Mobile, and Area Sources in the Big Bend Regional Aerosol Visibility and Observational study[J]. Chemosphere, 2004,54(2):185-208.
[9] FU X X, WANG X M, HU Q H, et al. Changes in Visibility with PM2.5Composition and Relative Humidity at a Background Site in the Pearl River Delta Region[J]. Science Direct, 2016,40:10-19.
[10] PIRES J C M, SOUSA S I V, PEREIRA M C, et al. Management of Air Quality Monitoring Using Principal Component and Cluster Analysis-Part I: SO2and PM10[J].Atmospheric Environment, 2008,42:1 249-1 260.
[11] 李伟芳,彭跃,赵丽娟,等.东北地区城市大气颗粒物中多环芳烃的污染特征[J].中国环境监测,2013,29(1):13-17.
LI Weifang, PENG Yue, ZHAO Lijuan, et al.Study on the Pollution Characteristics of Particulate PAHs in the Urban Northeast Region of China[J]. Environmental Monitoring in China, 2013,29(1):13-17.
[12] LU W Z, WANG X K.Investigation of Respirable Suspended Particulate Trend and Relevant Environmental Factors in Hong Kong Downtown Areas[J]. Science Direct, 2008,71:561-567.
[13] ZHAO L J, XIE Y J, WANG J J, et al. A Performance Assessment and Adjustment Program for Air Quality Monitoring Networks in Shanghai[J].Atmospheric Environment,2015,122:382-292.
[14] 解淑艳,王晓彦,吴迓名,等.环境空气中PM2.5自动监测方法比较及应用[J].中国环境监测,2013,29(2):150-155.
XIE Shuyan, WANG Xiaoyan, WU Yaming, et al. Study of the Comparison and Application of PM2.5Automatic Monitoring Methods[J]. Environmental Monitoring in China,2013,29(2):150-155.
[15] 耿红,宣莹莹,蔡夏童,等.太原市2014年春节期间常规大气污染物浓度变化及聚类分析[J].环境科学学报,2015,35(4):965-974.
GENG Hong, XUAN Yingying, CAI Xiatong, et al. Mass Concentration Variation and Cluster Analysis of Urban Air Pollutants in Taiyuan, Shanxi Province During Chinese New Year of 2014[J].Acta Scientiae Circumstantiae,2015,35(4):965-974
[16] LU W Z, HE H D, DONG Y L. Performance Assessment of Air Quality Monitoring Networks Using Principal Component Analysis and Cluster Analysis[J].Building and Environment,2011,46:577-583.
[17] Hong Kong Environmental Protection Department. Air Quality Data[EB/OL].(2011-01-01)[2015-11-30]. http://epic.epd.gov.hk/ca/uid/airdata.
[18] ZAIT M, MESSAFFA H. A Comparative Study of Clustering Methods[J]. Future Generation Computer Systems, 1997,13(2):149-159.