数据挖掘技术在生态环境保护领域的应用进展

2020-04-09 08:19林书乐
环境与发展 2020年2期
关键词:数据挖掘技术生态环境环境保护

摘要:随着生态文明建设和生态环境保护进入了数据驱动的新时代,数据挖掘技术在生态环境保护领域中应用的广度和深度都不断加强。本文首先介绍了数据挖掘的过程和当前常用的数据挖掘工具,然后从生态系统监管、企业排污状况监管、环境质量预警、环境监测与评价等角度阐述数据挖掘技术的应用。可见,环境保护工作能力的提升离不开数据挖掘技术的发展,从传统的统计分析技术到机器学习技术、从依赖计算机软件的数据挖掘技术到借助物联网和云计算的数据挖掘技术,环境保护工作正朝着更加科学、更加智能、更加高效的方向发展。

关键词:数据挖掘技术;生态环境;环境保护

中图分类号:X192 文献标识码:A 文章编号:2095-672X(2020)02-000-02

DOI:10.16647/j.cnki.cn15-1369/X.2020.02.002

Abstract: With the construction of ecological civilization and the protection of ecological environment, the application of data mining technology in the field of ecological environment protection has been strengthened. First introduce the process of data mining and the common data mining tools, and then expounds the application of data mining technology from ecosystem supervision, enterprise pollution monitoring, environmental quality warning, environmental monitoring and evaluation. Therefore, from the traditional statistical analysis technology to machine learning technology, from the data mining technology relying on computer software to the data mining technology relying on the Internet of things and cloud computing, environmental protection work is moving towards a more scientific, intelligent and efficient direction.

Key words: Data mining technology;Ecological environment;Environmental protection

数据挖掘技术的目的是从多个维度去分析数据之间的关系,并搜索隐藏于数据之中的信息,为科学研究提供决策支持,促进生产生活方式的转变。与此同时,我国生态文明建设和生态环境保护进入了数据驱动的新时代。坚决打好污染防治攻坚战、持续改善生态环境质量、不断满足人民日益增长的优美生态环境等工作中收集到的数据往往是不完整的、不明确的、大量的并且包含噪声,具有很大随机性的,因此离不开数据挖掘技术的支持。

1 数据挖掘的过程

数据挖掘是一个从不完整的、不明确的、大量的并且包含噪声,具有很大随机性的真实数据中,提取出隐含其中、有应用价值的知识或模式的过程。图1描述了完整的数据挖掘过程——以数据为核心、目标为驱动,通过挖掘数据之间的关系、控制數据模型的质量,来提取出隐含其中、有应用价值的知识或模式,并在真实环境下检验这些知识或模式的正确性、持续跟踪优化使其满足数据挖掘的目标[1]。同时,新的知识或模式的发现往往会使人们重新定义数据挖掘的目标,因此数据挖掘是一个以数据为核心的循环过程,数据挖掘技术是实施循环的关键技术。

2 数据挖掘的工具

当前,数据挖掘技术随着数理统计和人工智能的发展而不断进步,各种统计分析、智能分析的工具也广泛应用于数据挖掘过程中。

2.1 统计分析工具

数据挖掘过程运用的统计方法有:回归分析、判别分析、聚类分析、列联分析等[2]。这些统计功能大部分已经集成到常用的数据分析软件中,结合软件提供的图表功能,用户能在若干维度下挖掘并展示数据之间的关系。这些统计分析软件通常分为两类:一类是编程类软件(如SAS、Matlab、RStudio等),其功能强大适合专业统计人员使用;另一类是人机交互界面类软件(如SPSS、Statistica、Excel等),其操作简便适合非专业统计人员使用。

2.2 智能分析工具

智能分析是利用计算机根据算法进行数据挖掘的过程。常用的智能分析算法有支持向量机、朴素贝叶斯、K 近邻和决策树等传统机器学习算法以及卷积神经网络、递归神经网络和循环神经网络等深度学习算法。这些算法的编写语言主要有Python、C++、Java等。

2.3 数据分析网络平台

随着互联网技术的发展,越来越多的数据存储在云端,为数据分析网络平台的发展提供了机遇。目前,具有统计分析功能的网络平台有网易大数据、Splunk、Tableau、神策数据以及腾讯云、阿里云等,它们都是交互界面类的平台,并能按用户需求实现数据的可视化。此外,随着云计算技术的发展,谷歌、facebook、百度、腾讯云、阿里云等都推出了具有智能分析功能的数据分析平台,其中谷歌和百度的数据分析平台是免费开源的,有大量的案例供学习者参考。

3 数据挖掘技术在生态环境保护中的应用

数据挖掘融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,既能发现数据之间的规律性,也能检测出离群数据,从而为生态环境保护提供强大的技术支持。

3.1 在生态系统监管中的应用

绿水青山就是金山银山,生态系统的监管离不开对生态系统的结构、功能及其过程的调查研究。郭琼借助SPSS分析工具,采用主分成分分析法进行土地生态系统健康指标的归一化,得出反映榆次区土地生态系统健康状况的综合指数[3]。李敏在遥感数据和地理信息数据的基础上利用Matlab和SPSS分析全国森林生态系统总初级生产力与环境因子的相关性得出森林总初级生产力的主要影响因子[4]。Mehrbakhsh Nilashi等利用聚类分析和机器学习通过75个指标对128个国家进行社会可持续发展评估和生态可持续发展评估[5]。Aakash Lamba等利用深度学习技术分析动物的行为、山林的演变等,为环境保护政策制定提供依据[6]。阿里云ET环境大脑凭借阿里云飞天强大的计算能力和丰富的人工智能算法,能够提供全景生态分析、智能综合决策、智能环境监督等服务,协助环保机构监督环境变化及政府执法。无锡市借助人工智能和大数据分析模型挖掘环境要素间的相互影响关系,为环境管理、决策提供支撑。可见,数据挖掘技术的应用为生态系统的科研工作和监管工作提供可靠的工具。

3.2 在企业排污状况监管中的应用

当前,加强企业排污状况的监管已经成为环保部门的中心工作。自动监测、无人机监测、第三方环境监测、企业设备用水、用电数据等信息源源不断地流入环保部门,为物联网、大数据、人工智能等技术提供了广阔的应用前景。目前,全国、各省及地级市都已经建立了可视化的环境质量数据平台,为环境科学研究提供数据支持。河南力安科技通过对污染源和环保设备用电数据、运行工况等进行分析来辅助环保部门排查偷排企业。广东柯内特环境科技有限公司既能通过采集排污企业产污、治污、排污等维度数据来监管企业排污状况,也能通过分析公交车上环境自动监测数据、GPS传感信息和GIS地图等信息发现企业的偷排行为[7]。刘红等以企业污水处理设施的基础数据的线性网络训练和聚类分析为基础,从企业的排水行为和污水处理行为两个方面综合分析,实现对企业是否存在兑水排污行为的实时判断[8]。江苏、内蒙古等省份依托ET环境大脑构建排污许可大数据平台,根据企业的产量、能耗、规模、资源化能力、历史情况等进行评估,构建当地企业环境信用体系。可见,数据挖掘技术尤其是机器学习技术的应用正让企业排污状况的监管工作向智能化、全天候的方向发展。

3.3 在环境质量预警中的应用

环境质量预警是提高生态环境保护工作质量、保障人民生命健康安全的重要手段。目前,机器学习技术在赤潮污染预警[9]、大气污染物浓度预测[10-11]、江河水质预测[12]等领域大展身手。此外,SPSS[13-14]、Matlab[15-16]和R[17-18]等工具也被用于构建基于气象条件和污染物排放的环境污染预测模型,这些模型为全国各地的空气质量监测预报预警工作提供决策依据。同时,为提高环境质量预警能力,污染源解析工作也很重要。源解析研究通常采用三种方法:源清单法、扩散模型法和受体模型法,其中受体模型在污染源解析的过程中应用范围最广、准确性最好,而受体模型中的因子分析法/主成分分析-多元回归分析法、聚类分析法、正定矩阵因子分解法以及偏最小二乘法、支持向量机、随机森林回归等先进统计学算法都离不开数据挖掘技术的发展[19-21]。可见,数据挖掘技术在污染预测和污染源解析方面得到广泛应用,从而为环境质量预警体系的建立和科学运作提供技术支持。

3.4 在环境监测中的应用

环境监测是生态环境保护中最基础、最重要的工作之一,监测数据是生态环境保护各项工作的重要依据。SPSS是监测数据质量控制的重要工具,能及时分析监测结果的可靠性、跟踪误差的来源[22-23]。此外,数据挖掘技术还能优化监测站点布局、实现监测业务全流程优化控制,从而大大提高环境监测效率[24-27]。

3.5 在環境评价中的应用

对环境质量进行科学合理的评价能使广大群众、环境保护部门更加客观地了解环境质量,从而做出合理的生活安排以及科学的防治措施,因此环境质量评价的科学性倍受关注。我国现行的环境质量评价方法有单一因子判别法和综合污染指数评价法,但这些方法没有充分考虑环境的各种要素。为克服这些弊端,大量学者尝试使用神经网络法、支持向量机法等基于机器学习技术的环境质量评价方法。赵楠利用机器学习中的随机森林算法来评价城市环境的空气质量,通过对随机森林模型训练,找到多种空气污染物与空气质量等级之间的内在映射关系,建立随机森林评价模型,提高评价科学性[28]。毕温凯等构建了基于支持向量机的湖泊生态系统健康评价模型,并将该模型用于白云湖生态系统健康状况的评价,所建模型更加客观、科学地评价了湖泊生态系统健康状况,能够为湖泊生态系统健康管理提供一定依据[29]。吕雷昌等针对鲁中山地侧柏人工林样地采用BP神经网络和灰色关联度进行土壤肥力评价,为该地区土壤肥力的管理提供理论依据[30]。研究证明,这些基于机器学习技术的环境质量评价方法更能充分反映环境信息,更为科学。

4结语

随着生态文明建设和生态环境保护进入了数据驱动的新时代,数据挖掘技术在生态环境保护领域中应用的广度和深度都不断加强。生态系统监管、企业排污状况监管、环境质量预警、环境监测与评价等环境保护工作能力的提升都离不开数据挖掘技术的发展,从传统的统计分析技术到机器学习技术、从依赖计算机软件的数据挖掘技术到借助物联网和云计算的数据挖掘技术,环境保护工作正朝着更加科学、更加智能、更加高效的方向发展。

参考文献

[1]Robert Nisbe, Gary Miner, Ken Yale. The Data Mining and Predictive Analytic Process[M]. Handbook of Statistical Analysis and Data Mining Applications (Second Edition), Academic Press, 2018: 39-54.

[2]周桂如. 统计学方法在数据挖掘中的应用[J]. 甘肃联合大学学报(自然科學版), 2009, 23(S2): 29-31+42.

[3]郭琼.基于SPSS软件的主成分分析法探析——榆次区土地生态系统健康评价[J]. 山西农业大学学报(自然科学版), 2012, 32(01): 58-62.

[4]李敏. 基于RS和GIS的森林生态系统总初级生产力估算[D]. 西安科技大学, 2019.

[5]Mehrbakhsh Nilashi,Parveen Fatemeh Rupani,Mohammad Mobin Rupani,Hesam Kamyab,Weilan Shao,Hossein Ahmadi,Tarik A. Rashid,Nahla Aljojo. Measuring sustainability through ecological sustainability and human sustainability: A machine learning approach[J]. Journal of Cleaner Production, 2019, 240.

[6]Aakash Lamba,Phillip Cassey,Ramesh Raja Segaran,Lian Pin Koh. Deep learning for environmental conservation[J]. Current Biology, 2019, 29(19).

[7]朱斌.基于物联网及大数据分析技术的排污全过程在线监管系统研究与应用[C]. 中国环境科学学会环境信息化分会、《中国环境管理》杂志.2016全国环境信息技术与应用交流大会暨中国环境科学学会环境信息化分会年会论文集.中国环境科学学会环境信息化分会、《中国环境管理》杂志:中国环境科学学会环境信息化分会,2016:158-166.

[8]刘红,方晨昊,易越,胡大伟. 一种基于基础数据分析判断企业兑水排污行为的方法[P]. CN106600509A,2017-04-26.

[9]孙东.赤潮多源监测数据处理与综合预测预报方法研究[D].上海交通大学,2009.

[10]刘杰.北京大气污染物时空变化规律及评价预测模型研究[D].北京科技大学,2015.

[11]蔡旺华.运用机器学习方法预测空气中臭氧浓度[J].中国环境管理,2018,10(02):78-84.

[12]赵英.地表水源水质预测模型数据挖掘技术及其适用性研究[D].哈尔滨工业大学,2008.

[13]钱婧. 基于SPSS模型的陕西省大气污染物PSR指标体系情景预测[D].西安建筑科技大学,2014.

[14]Li-yan Sun, Cheng-lin Miao, Li Yang. Ecological environmental early-warning model for strategic emerging industries in China based on logistic regression[J]. Ecological Indicators, 2018, 84: 748-752.

[15]于秀丽.基于MATLAB模式识别实现环境污染等级预测的研究[J].电脑与信息技术,2017,25(05):16-18.

[16]于秀丽.基于MATLAB动态神经网络在环境污染事件预测中的研究[J].电子商务,2017(09):31-32+43.

[17]解蕾,狄光智.基于R语言的空气质量概况分析[J].电脑编程技巧与维护,2018(01):49-51.

[18]桂扬,王杨,陈甜甜.基于ARIMA模型的合肥市空气质量指数预测[J].阴山学刊(自然科学版),2018,32(02):120-123.

[19]陈雅丽,翁莉萍,马杰,武晓娟,李永涛.近十年中国土壤重金属污染源解析研究进展[J].农业环境科学学报,2019,38(10):2219-2238.

[20]李楠. 激光诱导击穿光谱技术结合化学计量学方法在城市大气颗粒污染源解析中的初步应用研究[D].西北大学,2019.

[21]田腾飞. 基于污染源解析和水质模拟的城市黑臭水体整治效果评估[D].天津理工大学,2019.

[22]单金林.SPSS软件在环境监测实验数据处理中的应用[J].高校实验室工作研究,2009(01):29-31.

[23]晓明.SPSS统计软件在环境监测实验中的应用[J].实验技术与管理,1999,16(06):66-68.

[24]郑向群,赵政,刘东生.基于数据仓库的土壤环境监测综合挖掘模型构架[J].农业工程学报,2008(08):162-168.

[25]陆志波,陆雍森.环境监测数据分析和监测网设计中SPSS10.0的应用[J].环境监测管理与技术,2002(03):12-16.

[26]高爽,朱长军,李步东.聚类分析法在水质监测断面水质分析中的应用[J].河北工程大学学报(自然科学版),2018,35(01):81-83.

[27]邱顺凡. 村镇地表水体水质监测点优化布置与水质评价方法研究[D].湖南大学,2014.

[28]赵楠.基于机器学习的城市环境空气质量评价研究[D].上海应用技术大学,2017.

[29]毕温凯,袁兴中,唐清华,高强,庞志研,祝慧娜,梁婕,江洪炜,曾光明.基于支持向量机的湖泊生态系统健康评价研究[J].环境科学学报,2012,32(08):1984-1990.

[30]吕雷昌,葛忠强,梁燕,李宗泰,杜振宇,王清华.基于BP神经网络和灰色关联度的侧柏人工林土壤肥力评价[J].山东农业科学,2019,51(10):104-110.

收稿日期:2020-02-25

基金项目:广东省高等职业教育品牌专业建设项目“环境监测与控制技术”

作者简介:林书乐(1986-),工程师/讲师,研究方向为环境自动监测。

猜你喜欢
数据挖掘技术生态环境环境保护
广东省生态环境保护“十四五”之重大(点)工程
基于Web的数据挖掘技术与相关研究
自然资源资产离任审计评价体系研究
对媒体融合生态环境中出版教育的思考
我国对外贸易促进经济发展的研究
如何强化我国生态环境监察工作
新《环境保护法》4个配套办法发布