赵媛艺
(河北地质大学,河北 石家庄 050000)
近些年,随着经济的发展和社会的进步,人们的物质生活水平越来越高,但在生态环境和空气质量方面也付出了相当大的代价。在注重生态文明建设强调绿色低碳发展的大背景下,研究我国城市空气污染情况,空气质量检测数据的分类方法、类别特征、优劣排序等,挖掘空气质量数据隐含的重要信息,寻找改善空气质量的对策,具有重要的意义。
按照《环境空气质量标准(GB3095-2012)》,空气质量的六项主要监测污染物分别为二氧化硫(SO2)、二氧化氮(NO2)、可吸入颗粒物(PM10)、一氧化碳(CO)、臭氧(O3)和细颗粒物(PM2.5)。因此,本文考虑分析31个环保重点城市这7个具体监测指标,分别为SO2年平均浓度x1(μg/m3)、NO2年平均浓度x2(μg/m3)、PM10年平均浓度x3(μg/m3)、CO日均值第95百分位浓度x4(mg/m3)、O3日最大8小时第90百分位浓度x5(μg/m3)、PM2.5年平均浓度x6(μg/m3),再加上一年内空气质量达到及好于二级的天数x7(天),记作G-day。
1.k-means聚类简介
k-means 聚类,又称快速聚类法,是一种按样本数据的相似程度将样本分类的方法.需要提前设定聚类个数。相似程度的度量一般按样本间的距离划分,两个样本间距离越小,样本的相似程度越高。
2.k-means聚类结果
仍然以上述2019年的空气质量数据为例,读入数据,并对数据画出散点图,从样本点的分布的集中程度以看出两个变量之间的线性相关性的强弱。
从上图1可以看出,PM2.5与PM10的浓度呈正相关,而PM2.5和PM10的浓度均与一年内空气质量达到及好于二级天数(图中记为day)呈较强的负相关,PM2.5和PM10的浓度越高,好天气数越少,空气质量越差。在实际生活中,表现为雾霾严重,空气可见度低,容易引发呼吸系统疾病,危害人们的身体健康。同时可见,G-day与二氧化氮年平均浓度呈负相关。NO2的排放源于汽车尾气,日常生活中,汽车尾气排放的越多,空气质量越差。
以下利用k-means函数对31个城市2019年的空气质量数据进行k-means聚类,令聚类数k由小到大逐渐增加,同时计算类间平方和与总平方和的比值。该比值越大,说明两个类间的差异越大,则类内部的差异越小,聚类的效果越理想。利用 R 程序可计算并构造类间平方和与总平方和的比值序列,当k=3之后,组间平方和占比的增幅就很小了,变化幅度不超过0.01。组间平方和占比趋近于1。作聚类分析时既要使组间平方和占比尽量大,又要让聚类数不能太大(否则太杂乱),权衡考虑后取k=3为最佳聚类数。
利用聚类所得的3类城市的均值点的最后两列数据,将空气质量达到及好于二级的天数(即最后一列day)对三个聚类结果进行排序,如图2所示。
1.PAM聚类简介
PAM聚类针对k-means聚类法的不足,用类中心点代替质心。PAM算法鉴于k均值算法的这一不足,选取一个类中位置最接近质心的数据点作为类中心点,来代替质心,其他数据点就根据距离被分到离数据中心点中最近的那一类。反复根据一类的数据点坐标来调整类中心点,解决了离群点对结果的影响。
2.PAM聚类结果
本文运用R软件对数据做PAM聚类,运用cluster程序包中的pam函数进行聚类。从各类中选取的距离质心位置最近的中心点列表如下表1。
表1 距离质心位置最近的中心点情况
上面所得结果是各类的中心点坐标,分别为成都、济南、昆明。聚类中心点是各类城市的代表,从中心点就可以大致看出各类的空气质量。将城市空气质量由好到差排序,结果如下。
优(第三类):福州、南宁、海口、贵阳、昆明、拉萨、西宁。
良(第一类):北京、呼和浩特、沈阳、长春、哈尔滨、上海、南京、杭州、合肥、南昌、武汉、长沙、广州、重庆、成都、兰州、银川、乌鲁木齐。
差(第二类):天津、石家庄、太原、济南、郑州、西安。
对几种聚类结果观察可以发现,按照城市的空气质量好坏分类,几种聚类结果具有一致性,大致客观反映了全国31个环保重点城市空气质量状况的分类、空间分布和空气检测指标的实际情况。k-means 聚类就不变作图,但 k-means 聚类能快速聚类,节省时间,给出每一类中的具体成员。PAM聚类是一种基于质心的划分型聚类算法,与K-Means聚类的主要不同在于:第一,距离测度采用绝对聚类。聚类目标是找到类内绝对距离之和最小下的类;第二,增加判断本次迭代类质心合理性的步骤。
本文对全国31个环保重点城市的空气质量数据通过R软件做了聚类分析。所做的两种聚类分析的结果大体一致。6种主要的空气污染物中,SO2与CO之间相关性相对较强,大致主要来源于燃煤的燃烧,NO2、PM10、O3与PM2.5之间的相关性较强,大致来源于汽车尾气及扬尘污染。从31个环保重点城市空气质量数据的双坐标图中能够看出每个城市的污染类型,哪些污染物较多。
本文工作的不足之处有:主要是相关统计分析方法在深度和广度上还可进一步提高,还应该积极引入最新的多维数据分析理论和方法到空气质量数据分析过程中,所使用的数据量还不够大,有待于今后加以改进。