吴明灿 杨成 徐梦婷 卢春宇
摘要:20世纪80年代以来,伴随中国经济发展的进程,环境污染问题日益突出,已发展成为可持续发展的最大制约因素之一。经济增长与环境问题的两难冲突问题,已经引起人们思考。本文将以空气质量作为环境状况代表,搜集中国主要城市的经济发展数据和空气质量,研究经济发展水平和空气质量之间的关系。从PM2.5(ug/m3),环境空气质量综合指数AQI,空气质量等级,人口(万人),GDP(亿元)五个方面进行关联分析,找出它们之间的联系,对环境空气质量进行评价并提出相应的改善方案。
关键词:数据挖掘;空气质量;AQI ;PM2.5
1.引言
自改革开放以来,我国经济高速发展持续了30年,这期间取得了令世界为之瞩目的成就,目前中国已经成为取代日本的世界第二大经济体。然而随着我国工业化、城镇化的深入推进,经济增长和人口增长引发的城市环境问题,尤其是城市大气环境问题,得到各界高度关注。因此笔者以20个中国主要城市作为样本,运用weka以及MSBNx贝叶斯网分类工具等软件,分析研究不同城市,以PM2.5为代表污染物,结合各地区人口数量、经济发展情况进行分析评价,探求之间关联关系,为更好地贯彻“可持续发展”的方针提供数据依据,利于后续采取环境保护及经济发展的协调措施。
2.数据来源
选取20个中国主要城市作为样本,从城市、PM2.5浓度(ug/立方米)、AQI、空气级别、人口数(万人)、GDP(亿元)六个方面进行数据的处理与分析。
经过调查,并收集数据,初步处理调查结果。如下表所示
3.数据分析
在数据处理分析中,运用Weka关联规则平台、使用Apriori算法等获取关联信息并进行挖掘规则的分析。通过对上表中的数据,剔除不需要的属性值,建立关联模型(调参,建立预测模型),并对实际调查的结果进行关联规则挖掘。
支持度阈值为25%、置信度阈值为85%
对上表调查结果数据进行Apriori关联规则挖掘(支持度阈值为20%、置信度阈值为85%),对挖掘的最佳关联规则进行分析
利用Apriori关联规则对数据进行挖掘可知:
1.人口数量小于6000人与GDP小于8869亿元有强关联(lift=1.46>1);
2.空气质量指数大于0.8与GDP小于8869亿元有强关联(lift=1.46>1);
由此可见,人口数量与GDP呈正相关关系,人口数量越多,GDP量越大,即正常情况下,一个城市的人口规模发展地越大,经济发展水平会越高。城市的空气质量越好(即AQI越小),经济发展水平越高。
支持度阈值为10%,置信度阈值为55%
利用Apriori关联规则对数据进行挖掘,分析可知:
1.AQI数值越小,人口数量小于6000与GDP小于8869亿有强关联(lift=2.38>1)
2.PM2.5的浓度越小,AQI数值越小。
由此可见,PM2.5的浓度与AQI的数值呈正相关,即PM2.5浓度越小,AQI的数值越小,空气质量越好;AQI数值越小,人口数量越小,GDP量越小。
支持度和置信度是关联规则的两个重要属性,支持度确定规则可以用于给定数据集的频繁程度,而置信度确定Y在包含X的事务中出现的概率。同时满足最小支持度阈值和最小置信度阈值的规则称为强规则,作用度解决了置信度忽略规则后件中出现的项集的支持度的局限性。根据关联规则分析可粗略找出PM2.5的浓度、AQI、人口数量、GDP四者的相互关联关系,利于后续的深入分析。
4 总结及建议
利用weka软件对选取的数据样本进行处理和分析,得出的结论可知:
1.PM2.5的浓度与AQI的值呈正相关,其浓度越高,AQI值越高,则空气质量越差
2.AQI的值与人口数量和GDP的值呈正相关,说明一个城市人口规模越大,经济发展水平越高,空气质量越差。
要想实现可持续发展目标,人与环境要进行协调,实现共同发展。具体可参考如下建议:
1)调整产业结构,减少工业污染源的排放
2)开发新技术,提供产品环保保证
3)加减少大空气污染环保意识的宣传
4)控制人口增长,适当采用“计划生育”政策,限制人口爆炸增长
本次课题利用Weka软件对城市人口增长以及经济发展水平和空气质量三者之间的关系进行分析,将理论知识运用到实际问题中,发现生活中的问题,并根据分析结果提出相应的改进手段,有助于社会的可持续发展。
参考文献
[1]朱小棟,徐欣.数据挖掘原理与商务应用.立信会计出版社.2013.3.
[2]袁梅宇.数据挖掘与机器学习——WEKA应用技术与实践(第二版).清华大学出版社.2016.
[3]Jiawei Han.数据挖掘概念与技术(第三版).机械I业出版社,2012.
[4]徐新阳主编.环境评价教程.化学工业出版社.2019.09
[5]世界自然资源保护大纲1980.
[6]空气质量在线监测平台.https://www.aqistudy.cn