机器学习在生态环境大数据中的应用

2023-08-31 09:46徐楚原
化工设计通讯 2023年8期
关键词:环境质量机器监测

徐楚原

(墨尔本大学 工程与信息技术学院 信息技术硕士人工智能方向,澳大利亚墨尔本 VIC 3010)

世界已跨入由数据主导的“大时代”,生态环境部办公厅印发的《生态环境大数据建设总体方案》(环办厅〔2016〕23号)中明确提出,要在未来五年内整合汇总全国各省、市、县的环境质量监测、污染物排放、环境风险评估,以及自然生态、环境执法监察等全部数据,通过对这些数据的挖掘分析,构建“互联网+”绿色生态,使环境数据互联互通并且开放、共享,实现生态环境的“综合决策科学化、监管精准化、公共服务便民化”目标。

1 生态环境大数据概述

大数据技术的迅猛发展和广泛应用,为结构各异、来源于众多部门和领域的海量观测数据提供了更加科学和高效的收集与分析手段。一般认为,生态环境大数据是为环保决策提供有效服务的技术、应用及数据集的总称,是对所汇总、集成的各类环境数据进行深入探究,并与其他相关数据关联分析后的产品。通过算法模型对采集、存储的数据进行分析,再以可视化方式展示结果,支持对环境质量的评估及规划,还能对未来生态环境的重大风险进行预测预报,为决策提供科学依据。

1.1 生态环境大数据特点

(1)多维度:生态大数据是“空天地一体”的多维海量数据,由生态环境、社会经济、气象、国土、水利、农业、林业和交通等不同领域或部门提供,反映自然生态和社会现象。

(2)高复杂:数据类型、来源、格式多样且复杂,使得感知、理解、收集、表达和计算分析等数据技术面临极大考验。

(3)不确定:生态环境数据来源于不同部门,数据采集则是通过传感器、智能手机或是社交网络等不同感知工具,导致数据格式多样化,而各部门数据的共享程度较低,即使同一指标数据也会不一致、不完整或存在错误。

(4)应用价值高:生态大数据是连续观测的流式数据,具有时空异质性,通过云端将历史数据和动态新数据实时进行清理、集成、建模,挖掘出有用部分并导出为可视化结果,能为决策提供极为有用的信息。例如借助大数据预处理技术、数据挖掘技术和云平台,能提高排放清单建立、环境质量模拟的速度和准确性,有助于制定最优化减排方案[1]。

1.2 生态环境大数据技术

1.2.1 采集技术

生态大数据采集体系中的气象监测遥感技术由3.5万多个气象站点组成,涵盖百余种数据来源,常见的是空气、地形、地表、土壤、降水、水质、湿度等数据。此外,我国也已开始构建生态遥感大数据,创新应用卫星遥感、物联网芯片、RFID、视频感知、生物传感器、光学传感器、化学传感器等技术开展全天候环境质量监测,如表1所示。

表1 生态环境大数据采集体系

1.2.2 处理技术

将原本标准化的计算流程及数据处理交由平台在云端运算、集成统计分析,利用大数据技术优化处理速度,实时提供评价以供生态研究人员在关键时刻做出判断和决策,如表2所示。

表2 大数据处理技术

1.2.3 技术应用

(1)监测评价。整合多个数据源平台,集中处理数据的交换和分析,借助网格监控及云计算支持,构建全景化环境质量监测、评价格局。

(2)模拟预测。通过神经网络模型进行机器学习,利用气象条件、空气质量、道路结构等数据构建精准预测未来72 h 内的空气质量、空气污染物、细颗粒度等指标的大气污染物时空分布模拟预测模型。区域水文环境风险评估预警系统,则用于模拟预测长江水利、三峡水库及渤海海域的水质指标和水污染事故。

(3)优化管理。大数据技术从所有生态环境流通链条中获取的监测信息来对污染溯源,已成熟应用于水污染和大气污染防控、监管领域。通过监测河道污染物的迁移扩散、堆积异常、线性趋势等信息,从关联数据中查找污染源头,即可对城市的水环境质量进行精准管控。

1.2.4 潜在价值

(1)数据感知层面。催生了多套生态环境监测网络,能提供包括环境和生态的长期多维数据,如中国科学院植物研究所建立的网站(iPlant)。

(2)商用层面。由互联网企业为政府部门、研究机构判断环境现状及分析未来趋势提供最先进的存储设备、搜索服务和信息技术支持,如惠普、谷歌、微软等美国企业。

(3)政府监管层面。依托数据高速传输技术,利用视频监控、无人机红外相机等设备。我国构建的生态环境监管网络系统已涵盖大气、水和土壤等领域。

2 机器学习在生态环境大数据中的应用

2.1 机器学习概述

机器学习(Machine Learning,ML)是人工智能核心技术,涉及系统辨识、逼近理论、优化理论、统计学、计算机科学、脑科学、神经网络等众多领域,也是一门新兴发展的学科。主要研究让计算机模仿人类学习行为来获取新知识、新技能,重组已有知识结构,不断完善机器自身性能[2]。

传统ML 是通过经验沉淀来改善系统自身性能,如今ML 大多是借助数据来改善系统自身性能,通过相应算法从样本观测中找出规律并据此对无法观测的数据进行预测,典型ML 就是利用已知数据来标注未知数据的过程。

2.2 机器学习与生态环境大数据的结合

2.2.1 机器学习的方法

生态大数据包含数据的采集、存储和预处理,以及特征处理、模型构建、数据可视化等,机器学习则通过分类、聚类、回归、协同过滤、关联规则等方法,深入挖掘数据价值并进行精准预测,进而实现数据生态的良性循环。如将各种与雾霾相关的气候特征转换到具有机器语义特征的空间,机器模拟人类大脑神经连接结构进行自动学习,得出层次化的气候特性表达,不断提高系统对雾霾预报的精准度。

2.2.2 大数据实践应用

① 应用场景:打造“督察、执法、应急指挥”全景监管平台,构建集“实时监控数据形势诊断、预警预报和会商决策”于一体的多维时空数据治理和生态环境预警会商综合体系。

② 构筑前提:借助物联网、卫星遥感、低空航测(视频监控、无人机红外摄影)等技术,基于现有空气和水环境质量监测网络,建立“空天地一体”数据感知智能系统。

③ 技术难点:智能感知、分布式集群、云计算、ML、专业化模型等相关技术、方法在生态环境领域的应用。例如,使用Hadoop的分布式文件系统(HDFS)和分布式数据库(MapReduce)批量处理环境大数据;利用决策树、贝叶斯、回归模型、关联规则、ML 等各种算法模型关联分析和深度挖掘海量数据。

④ 建设基础:以生态空间数据及环境业务数据为中心,建立多源异构大数据集成及存储系统。针对非结构化大数据的多样性及结构化数据的异构、异源特性,实现多源数据空间和时间的融合,解决数据的高效存储与清洗问题。

2.3 机器学习的应用研究

ML 技术与生态环境领域的结合发挥了大数据优势,提高各类数据模型的模拟精准度,已在污染溯源、环境质量预报预警及监管等领域得到广泛应用。以下工作是ML 在生态大数据中的应用关键。

(1)确定主体目标:大数据既可能是元数据,也可能是宏观理论概念,还可能是多学科交叉的过程,具有非常宽泛的可研究范围,因此,确定具体的研究主体及研究目标是非常重要和必要的。

(2)明确研究尺度:大数据在不同领域有不同的研究尺度,这使本就庞大、复杂的信息数据更加冗杂。如,气象学家以分钟、小时和天为单位来衡量天气的变化情况,而生态学家则以年、万年为单位关注物种在不同时空的演变……因此,一开始就必须规定好研究的尺度[3]。

(3)建立标准规范:目前,国内外都缺少统一的生态大数据采集、存储标准,阻碍了数据的有效交换与共享。为推进生态环境管理的规范、健康发展,就需要建立科学、完善的生态环境大数据标准规范体系。

3 环保智慧时代机器学习的研究发展方向

3.1 生态环境大数据共享研究

加强跨部门、跨领域数据共享与融通的研究,保证数据的及时、有效、完整和连续性;推动数据处理算法、软件、工具的研究和开发应用,提高数据处理效能;通过循环迭代优化算法,不断提高预测/预警/预报准确率;构建生态数据网络服务基础架构,共享解决方案,开放数据标准、代码及来源,改进数据共享工作流程。

3.2 建设开放的大数据云平台

基于现有的生态监测网络,以生态环境质量改善为核心,加大监测密度,扩展监测范围,构建“空天地一体”智能监测/监控体系,实现重点领域自动监测全覆盖,以便及时发现区域内的违法行为,为生态环境规划、评估及监管提供强有力的支持;

加强数据资源整体规划,建立“标准统一、动态更新、应用共享”的生态环境信息资源目录,完善大数据治理体系,建设架构开放的生态环境主题数据库及云平台,提升对数据资源的规划、采集、服务等综合管理应用能力。

3.3 基于大数据的精细化管理应用

3.3.1 预警分析

全面掌握环境质量变化情况,建立、健全监测预警标准,综合统计分析环境现状及变化趋势。

3.3.2 形势分析

建立生态环境与经济形势关联指数,分析、识别环境质量变化的主要影响因素。

3.3.3 生态环境事件举报与舆情监控

通过网络舆情采集分析技术和公众环保移动应用(包括提供电子公共服务平台、互联网服务平台等),让舆情监控由被动变主动。

3.3.4 管理支撑

在农业面源污染整治、入河/海排污口排查、黑臭水体整治、河道非法采砂整治、非法码头整治、企业关改搬迁等领域应用ML 和大数据感知等方法和技术,有益于完善督察、执法、管理手段,提高生态环境保护的工作效能[4]。

3.4 基于大数据多样性的结论验证

未来研究中,以机器学习技术对生态大数据的质量进行评估,同时辅以传统的收集方法,将能获得有代表性的信息数据。此外,利用另一个平台的数据来对抽样调查所收集的目标信息进行验证测试,就能进一步判断预测结论的稳健性。

4 结束语

机器学习构建的各类数据模型让大数据的优势得到充分发挥。通过对生态环境海量数据所蕴藏价值的深度挖掘,将其应用于生态环境众多领域,可实现精准的长时段全流程预测、预报和预警。有理由相信,在生态大数据建设中应用ML 技术,必将推动我国生态环境治理体系的现代化建设进程,有效防控和减少环境破坏,促进国民经济的健康、可持续发展。

猜你喜欢
环境质量机器监测
为了水环境质量持续向好——河北省廊坊市深入开展水污染防治攻坚战
机器狗
机器狗
特色“三四五六”返贫监测帮扶做实做细
未来机器城
湘乡市:努力推进环境质量持续改善
维护群众权益,改善环境质量
网络安全监测数据分析——2015年12月
网络安全监测数据分析——2015年11月
无敌机器蛛