□ 王强 钱文杰 王新洲 张玲玲 张浩 祖启航
随着物联网、云计算、人工智能等新技术在各个领域的不断应用,数据正在以前所未有的速度累积,大数据时代已经来临。
2015年,国务院印发《促进大数据发展行动纲要》,将大数据应用上升到国家战略。伴随着大数据技术的发展及其在各领域的广泛应用,生态环境部门也高度关注大数据技术在生态环保领域发挥的重要作用。2016年,原环境保护部出台《生态环境大数据建设总体方案》,深度推进环保大数据的建设和应用研究。
但是,如果仅仅利用环保部门的环境监测系统,还不能够实现全区域、全过程的环境综合判定。与此同时,很多其他类别的政务系统,也收集了大量的关联环境数据,这些数据的分析评价对环境执法也有积极作用。因此,有必要对区域“天地空一体”的环境数据进行采集分析,编制一个庞大的综合监测网,来更好地为生态环境管理服务。
大数据的概念早在2008年就引起了讨论。全球顶级学术期刊《Nature》在其专刊中推出Big Data,吸引了随后越来越多的学者开始关注和研究大数据。随后Agrawal等美国研究人员发表了关于大数据面临的机遇和挑战的白皮书,详细阐述了数据的经济价值,未来在各领域中的发展机遇,以及可能面临的技术瓶颈。进一步被人们广泛接受的概念,是由全球知名管理咨询公司McKinsey在2011年发布的一份关于大数据的详细报告。报告提出,“大数据”是指规模超出典型数据库工具获取、存储、管理和分析能力的数据集。这个定义带有主观性,数据集需要有多大才能被称为大数据,定义中并没有明确。当前,普遍认为大数据区别传统数据的显著体征有4个方面:数据规模大(volume)、种类多(variety)、速度快(velocity)和价值高(value),即4V定义。
生态环境大数据具有以上大数据的所有特点,是在生态环境领域进一步深入推进“互联网+”概念的实践应用。常杪等学者对环境大数据概念进行了界定,即把大数据的核心理念和关键技术应用到环境领域,对海量环境数据进行采集、整合、存储、分析与应用等。
在环境执法工作中,各有关业务系统收集了大量数据。这些监测数据不仅有传统数据库能够解析的结构化数据,还包含大量的非结构化数据,例如图片、文字、声音、视频等。面对大量复杂的数据结构,传统的关系型数据已经无法满足监管服务需求。应用大数据技术,可以存储、分析各种结构数据,实现跨系统的数据分析。同时,大数据速度快的特点可以满足实时数据流的高速处理,能够及时做到信息收集、预警、反馈,实时将污染情况传达到执法监管部门,满足环境执法必须对数据做出快速研判的需求。
大数据的分析能力将提升环境执法科学水平。大数据的“大”不仅体现在存储量大,还体现在涉及的数据面“大”。大数据技术可以采用专业分析手段,收集并综合研判各种环境关联数据,将其转换为直观的行动表达含义,为执法监管人员提供更加科学的决策参考。
当前,除了生态环境部门会实时采集企业排污情况数据,工商、国土、水务、供电、统计、财政、信访税务等多个部门的政务系统也收集了大量的排污企业关联数据。但是由于信息保密和网络环境安全等因素,各政务系统自成体系,信息数据标准大多不统一,数据很难对接,无法及时共享,给大数据应用实践带来了诸多困难。
很多城市构建的环保大数据执法监控系统,更多的是单纯将数据采集后集中展示。这些系统仅仅利用限值对比判断是否存在排污异常,并没有深度挖掘数据背后的关联关系,很难分析出企业存在的排污风险,也不能精确分析企业环境行为以及排污数据造假违法情况。这其实是浪费了数据资源,降低了数据的应用价值,没有充分发挥出大数据技术的分析优势。
Ruffino Chianti Classico Riserva-Ducale Oro DOCG (with gift box)
在线监测数据大屏
环保大数据可以分为五类,包括地面监测数据、卫星遥感监测数据、地理信息数据、社会统计数据及其他数据。卫星遥感数据主要来源于卫星遥感数据和航空遥感数据,包括地形、植被覆盖、水文、气象等;地理信息数据来源于户外采集、地图数字化、摄影测量等;社会统计数据包括人口、经济等来源于统计部门的数据;互联网数据来源于网络上与环境有关的文字、图片、视频等。
生态环保监测数据可以通过地面网络监测、卫星遥感影像、无人机监测等手段获取。
地面监测数据。地面监测数据主要来源于各地生态环境部门构建的监测系统,包括来自生态环境监测部门和非生态环境监测部门的数据。生态环境部门收集的主要包括废水污染源、废气污染源、固体废物、监察执法、环境处罚、排污许可、排污标准、设备运维等数据,这些大多以结构化数据形式存在。非生态环境监测部门的数据,主要包含工商信息、能耗、用水量、用电量、信用等级、信访投诉、舆情分析、纳税金额等,这其中包含了大量非结构化数据。
遥感监测数据。遥感技术因其具有观测范围广、信息量大、精度高、实时性和动态性强等特点,已成为生态环境监测的重要手段。遥感监测技术通过不同传感器从空中对农业、林业、地理、地质、海洋、水文、气象、资源勘探、土地管理、沙漠、矿区等不同领域情况进行监测。遥感监测不仅可以检测水体的叶绿素含量、泥沙含量、水温、水色,检测大气的气温、湿度,CO、NOX、CO2、O3、CH4等主要污染物浓度分布,还可以从全局角度获取全天时、全天候、全方位的空间遥感影像。
无人机监测数据。无人机监测作为继传统航空、航天遥感之后的第三代遥感技术,可快速获取地理、资源、环境等空间遥感信息,完成数据的采集、处理和应用分析,同时具有机动、经济、安全等优点。无人机通过搭载的各种监测设备,如航拍图像传感器、机载环境监测传感器、电化学传感器、光离子化传感器、数字相机、光谱成像仪、红外扫描仪等,可以获取区域内图片数据、光谱数据、红外数据以及重点监测的各种污染物浓度数据。通过信道综合技术、压缩和解压缩技术,将数据实时安全地传输到地面监控站。由于受飞行姿态稳定性,以及气象、区域的特殊性等因素影响,获取的图像数据往往具有旋转变形大、幅宽小、数量多、重叠不规则等特点,因此需利用影像拼接技术,结合多种处理办法,将多形式图片完成拼接,这样才可得到区域内全景影像数据。
数据质量是数据挖掘效果的重要保证。由于各业务系统不够健全、数据管理工作人员的业务水平等因素,信息采集时不可避免地存在一些不规范行为,导致存在一些缺失值、空值、错误值、噪声等“垃圾”数据。这些“垃圾”数据的存在,对大数据分析结果会产生重要影响,必须及时进行清洗。数据清洗的目的是剔除或改正监测数据中存在的错误和不一致,提高数据质量。目前已经研究出很多数据清洗的方法,常见的有删除法、插补法、极大似然估计、回归、均值平滑、离群点分析、小波法等。
由于数据量增长、数据类型繁多、结构复杂的特点,传统的数据存储系统不能满足数据存储和处理对速度的要求。比较常用的大数据存储系统有Hadoop平台和云存储平台。这种大数据存储系统相对于传统数据库而言,处理数据量大,扩展性强,容错性好,可靠性高,便于进行数据分析。对于环保数据来说,存储的数据按照生命周期配置为历史归档数据和当前使用数据,提供查询接口并对外开放。
随着大数据的不断深入发展,各大互联网公司推出了不同的大数据计算模式和系统,进一步加强了对数据分析能力的研究,如机器学习、人工智能、图像识别、自然语言识别、文本挖掘、可视化分析、人机交互等分析技术。生态环境相关部门借助这些平台系统逐步将大数据分析技术应用到了环境执法辅助中。
地面监测系统通过在采集点安装传感器,利用在线监测系统来实时监控环境状况,采集到的数据多以结构化数据形式存在。因此,可以利用大数据间的数理统计关系,多因子分析技术,挖掘这些数据的潜在价值,这也是大数据技术优于传统统计学分析的一个方面。基于历史数据和实时流数据,通常可以采用回归分析、聚类分析、相关性分析以及分类算法等多种手段。这些技术手段不仅可以分析污染物浓度随时间变化趋势,而且还可以深度挖掘关联数据对污染浓度的影响情况,找出同类型污染物之间是否有离群等异常数据,为挖掘监测数据的更多价值提供技术支持。
要对生态环境监测中采集到的各种图像进行准确判断,仅靠人工识别是不可能完成的,可以利用大数据的图像识别技术进行智能筛选。智能图像识别技术作为人工智能中的一个重要研究领域,为各类图像的有效识别提供了可靠的方法。这项技术应用在生活的各个方面,常见的有人脸识别、汽车牌照识别、机器视觉等。与在其他领域应用类似,图像识别在生态环境监测中的应用,本质上还是对图像的判定识别,分析过程一般包括预处理、边缘提取、区域分割和目标定位,其中算法研究是这一技术的核心,也是能否正确识别图像的关键所在。
当前,图像识别在水环境执法辅助中得到了长足发展。金江波等学者利用水位自动拍照,通过采用水位图像,并对图像智能识别为水位值,根据水位-流量关系来推算水量,研制开发了水位监测图像智能识别系统;曹生现等学者根据纳氏试剂分光光度法和图像比色分析法,利用摄像采集的氨氮溶液图像,分析图像数据后确定测量氨氮的最优条件,再利用氨氮溶液浓度与选定的图像颜色特征值成正比的线性关系,最终来确定氨氮的浓度。
同样,图像识别在环境空气执法辅助中也得到了具体应用。学者张晓春采用CCD黑白摄像头和图像采集卡等部件在烟气排放点拍摄采集图像数据,以此来监测烟气的排放情况。首先采集符合标准的烟气图片,通过图像处理技术后将此图片作为检测识别参考图像,然后将后续拍摄的图像与参考图像进行对比识别,从而判断某个时间段的烟气排放是否有异常。范相阁等学者采用HSI模型图像识别,将视觉主观感觉对颜色地描述与空气监测结果进行相关分析,较好地解决了人的直观感受与空气监测差异,将数据监测与视觉统一起来。
视频流分析
图像识别应用
无人机拍摄
利用视频监控系统对环境进行现场查看,能够直观发现环境污染状况。这种做法区别于单张图像的间断性判断,可以做到连续实时查看,同时也避免了传感器采集数据传输时可能存在的系统错报。通常的做法是,从视频监测大数据平台读取视频流数据,按照应用需求进行实时智能分析和监测,对分析监测出来的视频内容的异常情况进行预警。为了能在大规模的视频数据中分析环境状况,往往希望可以做到精确提取查看,所以,视频的检索技术尤为重要。视频检索技术可以对视频数据进行处理、分析和理解,通过建立结构和索引,对大规模视频数据进行检索,而且可以利用视频内容和关联内容进行镜头检测(视频结构分析、视频自动索引)和视频聚类等。在视频检索技术的研究方面,主要进行视频镜头分割、特征提取和描述。
刘毅等学者将视频监控与污染监控数据进行叠加,研制了环境质量监测的“全球眼”网络视频监控系统。这套系统实现了视频图像与监测的同屏显示,能够直接定位排污企业的视频图像,为生态环境工作人员后续执法提供依据。学者蒋鹏基于无线传感器与视频监测系统,对湿地水环境进行了监测。他利用安装在湿地小水域的传感器节点和水源入口、水体出口等重点区域的数据视频基站,采集水环境参数和视频数据,通过监测中心的处理分析,实现了对湿地全天候的实时监测。
遥感大数据的价值不仅在其海量,还在于其涉及面“全”。遥感数据是对地表的多粒度、多时相、多方位和多层次的全面反映,可以深度分析隐藏在遥感大数据背后的各种知识,如地学知识、社会知识、人文知识等。通过遥感大数据对区域环境进行监测,不仅从空间上提升了高度,而且从视角上提升了广度。一般地,遥感大数据的应用分为“遥感大数据自动分析”和“遥感大数据挖掘”两个过程。其中,遥感大数据的自动分析主要包括数据的表达、检索和理解,是进行遥感大数据挖掘、实现向知识转化的前提。遥感大数据挖掘是将数据表象转为知识的过程,是对“大数据、小知识”现象的破解,从看似无异常的数据中发现地表的变化规律,并探索出自然和社会的变化趋势,发现区域内环境变化情况。将遥感和云计算相结合,出现了遥感云技术。遥感云是将各种遥感信息资源进行整合,建立基于遥感云服务的新型业务应用与服务模式,提供面向公众的遥感资源一体化的地球空间服务。遥感云技术的长足发展,为遥感大数据在环境监测中的应用提供了安全保障。
我国于2008年9月发射了首颗专门用于环境与灾害监测地新型卫星——“环境一号”,前期由两颗光学小卫星HJ-1A和HJ-1B组成,又于2012年11月将一颗合成孔径雷达小卫星HJ-1C发射成功,至此,“环境一号”组网完成。这颗卫星对区域环境空气质量监测、大型水体环境质量监测和宏观生态环境监测起到了重要作用。随后,我国开展了高分专项工程建设,先后发射了高分一号、二号、四号卫星,实现了亚米级高空间分辨率与高时间分辨率的有机结合。2018年5月发射升空的高分五号是高分专项的重要组成部分,是我国实现高光谱分辨率对地观测能力的重要标志,将满足环境综合监测等方面的迫切需求。高分五号卫星正式交付对动态监测大气气溶胶、细颗粒物、二氧化氮、二氧化硫、臭氧等污染状况,对打赢蓝天保卫战具有重要意义。同时,这颗卫星还可以监测水环境、土壤环境和生态环境,为打好污染防治攻坚战提供了有力支撑。
所有监测的最终目标都是帮助监测执法人员看到分析结果,而大数据技术的应用,就是要解决人工无法从大量数据中精准识别的困难。可视化技术和人机交互是目前大数据平台中最常用的解释方法。可视化分析是一种通过交互可视化界面来辅助用户对大规模复杂数据集进行分析推理的科学技术。一幅图胜过千言万语,通过可视化分析技术,执法工作人员可以迅速有效地筛选出环境污染数据流,直接判断分析出污染情况。人机交互是人与系统之间通过某种对话语言,在一定的交互方式和技术支持下的信息交互过程。人机交互可以让执法工作人员在一定程度上了解和参与具体的数据分析过程,利用交互式的数据分析过程来引导执法人员逐步分析,不断了解分析结果的由来,使得到的结果能够更好地被理解和表达。
大数据技术在生态环境领域的应用,将发挥传统计算机技术不能完成的监管任务。利用大数据技术对生态环境进行监测监管,从多角度对区域环境形成综合评判,将有助于深度发现可能存在的环境风险。现在需要的是,打破不同系统之间的壁垒,消除数据保护主义,形成统一的信息交换平台,实现数据相互流通。同时,要加强对环境监测人员的培养,提高他们的数据敏感性和数据分析能力。只有这样,才能将大数据应用真正落地,充分发挥大数据技术在环境执法辅助中的作用。