李瑞强,敖 丹,李明娜,李 妍,石艳菊,王晓东
(1.内蒙古自治区环境在线监控中心,内蒙古 呼和浩特 010011;2.内蒙古自治区生态环境综合执法中部直属队,内蒙古 呼和浩特 010011;3.内蒙古自治区生态环境综合行政执法总队,内蒙古 呼和浩特 010011;4.内蒙古 自治区环境监测总站,内蒙古 呼和浩特 010011)
为贯彻落实习近平总书记重要指示批示精神,促进内蒙古自治区矿产资源领域突出问题专项整治工作顺利推进,相关部门加快了推进矿产资源领域监管领域大数据决策分析能力建设。本文通过对生态环境领域涉矿信息采集整合,清洗治理后,将符合要求的涉矿信息共享给牵头部门,为内蒙古自治区矿产资源领域突出问题专项整治工作提供数据支撑。同时实现生态环境领域纸质文件电子化及三类矿产资源领域生态环境相关数据系统化、可视化,以提升数据在环境污染防治中的价值[1]。
自治区生态环境领域积累了大量数据,包括环评审批、环境执法、日常监管、污染源普查、企业基本信息、信访举报等数据[2],但数据分散在各个业务系统里或以纸质文件进行存档,系统各自独立,存储分散,可用性差,未形成矿产资源类的业务数据库,部分数据仍然存在部门利益、安全陷阱、问责压力[3],数据调用与共享存在困难,不具备跨部门共享有关矿产资源类业务数据库的能力。
目前,生态环境领域涉及矿产资源数据种类繁多且分散,数据结构复杂,时间、空间跨度大[4],主要表现在以下方面:①来源分散,数据主要来源国发系统、硬盘、纸质报表,无法通过接口实现对接,难以保证数据更新的及时性;②数据标准不统一[5],同样类型的数据,由于产生时间不一致,主键、数据类型不同,导致数据处理的准确性和关联性较差;③数据分散在各业务单位,沟通协调难,甚至有些业务单位还存在“不敢共享、不愿共享、不能共享”的思想[6],导致协调业务单位实时共享、导出、收集纸质材料难度大,经常无功而返。
按照自治区矿产资源领域的相关要求,急需筛选出煤、铁、有色金属三类矿产(简称“三矿”)资源领域企业清单,作为重点监管对象,并进一步关联生态环境领域数据。但业务数据通常是按照业务管理属性或国民经济行业进行分类和编码,如何从海量数据中准确筛选出煤、铁、有色金属三类矿产资源企业也是本项目的主要难点。
目前掌握的涉矿数据类别多、时间长、来源广,差异大。从数据数量看,量大类多,来源复杂。从数据质量上看,同类数据存在不同的结构和形式,多为冗余状。从数据存储方式看,不同历史时期格式各异,数据说明或者数据字典残缺,数据部分丢失,存在数据管理不到位问题。如在这些庞大的数据中,有很多重复、不规范的污染源信息, 污染源名称不统一,将无法围绕污染源信息实现数据共享,如何在复杂数据中进行清洗治理,提高数据质量和关联性亦是难点[7]。
经过前期调研和梳理,生态环境领域涉及矿产资源数据主要包括行政处罚、信访数据、双随机、环评审批、企业基本信息、第二次污染源普查数据等。针对不同特点的业务数据进行主动采集和被动采集。主动采集,是指定时或者实时从其他业务系统中获取相关数据;而被动采集,是工作人员手工导入或通过填报系统向数据库上报数据。根据数据的实际情况采用必要的数据采集方式。经过多方协调,获得数据情况如表1。
表1 数据采集情况
早期,由于行政处罚和信访数据涉及的企业基础信息是人工录入,存在企业名称不全、无所属行业信息、无企业统一信用代码等情况,故本次筛选是通过企业基本信息、第二次污染源普查和环评审批数据进行。
第一步:按照行业筛选后取多源数据的交集。基于第二次污染源普查数据中的行业,按行业分类中关键字“煤”“铁”“有色”进行筛选,筛选出煤、铁、有色金属相关行业的企业;同时基于企业基本信息中行业大类,按照国民经济标准分类B类采矿业[8]、企业名称包含关键字“煤”“铁”“有色”“矿”以及经营类别详细描述中包含关键字“煤”“铁”“有色”“矿”,筛选出煤,铁,有色金属和矿产相关行业的企业,提取其中经营状态为存续(在营、开业、在册)的数据,根据统一社会信用代码和企业名称或曾用名称作为合并的关联关系,将2次筛选数据交集作为最初始的三矿企业名录,做一类标识。
第二步:用第二次污染源普查数据进行二次筛选、补充。由于第二次污染源普查数据的区域广、行业多、精准度较高[9],行业类别精确到二级甚至是三级,例如:褐煤开采洗选、炼铁、煤炭开采和洗选专业及辅助性活动、其他常用有色金属矿采选、其他常用有色金属冶炼、其他煤炭采选。故将其作为可用数据进行二次筛选,去除行业名称里含以上三类矿产关键字但不属于三矿开采类的行业,如“煤制合成气生产(行业代码2522)”“煤制液体燃料生成(行业代码2523)”“煤制品制造(行业代码2524)”“铁路机车车辆配件制造(行业代码3715)”“铁路专用设备及器材、配件制造(行业代码3716)”“铁路运输设备修理(行业代码4341)”“铁合金冶炼(行业代码3140)”“其他常用有色金属冶炼”“炼铁”,保留行业为“采矿业”“其他煤炭加工”“煤气生产和供应业”的企业,形成二次筛选数据,补充进入三矿企业名录,并做二类标识。
第三步:用其他数据进行三次筛选、补充。将企业基本信息(剔除1次筛选后已纳入的企业),环评审批数据作为参考进行三次筛选及补充,经筛查,企业基本信息已经全部涵盖了环评数据,共筛选出经营范围包括“开采”关键字的企业。通过人工甄别,剔除掉诸如“许可经营项目:萤石开采、加工、销售(凭采矿许可证并在有效期内经营)等冗余数据,筛选出非金属类矿产矿石开采的企业,补充进入三矿企业名录,并做三类标识;仅标明矿产品开采的且无法通过企业名称判断是否属于三类矿产企业的,补充进入三矿企业名录,并做四类标识。最终得到相对精准的三矿企业名录。
基于三矿企业清单建立标准企业库,通过对数据清洗匹配、编码统一,实现行政处罚、信访数据、双随机、环评审批、企业基本信息、第二次污染源普查等数据的关联,并实现数据标准化存储[10]。
由于涉矿企业的环评审批、双随机、环境执法、行政处罚、信访举报系统都是独立存在的。在这些庞大的数据中,有很多重复、不规范的污染源企业信息, 比如污染源名称不统一,无法围绕污染源名称实现数据关联匹配,致使无法对各业务系统数据的进行整合交换。首要问题是必须将各业务系统的企业标识进行统一,利用统一社会信用代码将各业务系统内独立存在的企业进行关联匹配,在不改变企业在原系统的名称及属性的基础上对企业名称进行标准化,从而实现各业务系统围绕企业标识(统一信用代码)进行业务数据的集成整合[11]。
由于建设时期不同,业务系统涉及到的环境公共代码及标准存在不一致现象,例如:污染物代码、行业代码、行政区划代码、排放口代码等信息,在不同的系统中标准不同,标识千差万别。为保证数据统计分析结果的一致性,在统一污染源的同时,必须建立统一的环境公共代码,按照统一的公共代码,对相关环境代码进行标准化统一处理。
按照相关部门要求,在完成数据采集、整合、清洗治理和建立全区矿产资源生态环境监管业务数据库后,搭建矿产资源信息管理与共享系统,同时有意识地加强数据安全保护,分权限限制访问,避免数据泄露[12]。
系统地针对分散的、不同特点的业务数据采用主动采集和被动采集的数据采集方式,主动采集由全区矿产资源生态环境监管业务数据库定时或者实时从其他异构业务系统中获取相关数据,被动采集由工作人员手工导入或通过填报系统上报数据,并建立了数据采集机制,保证数据的及时性、完整性、准确性[13],确保了系统可持续、稳定的提供服务。同时在数据采集过程中,实现了环评审批数据电子化,在满足全区矿产资源生态环境监管业务和数据共享的基础上,既保证了环评审批数据存储的安全性,又为后期对新增环评审批数据登记、统计分析提供了工具,具有很高的实用性。
系统利用数据治理的方法从海量数据中筛选出三矿企业清单,并利用企业基本信息中企业标准名称对各生态环境业务系统数据进行清洗统一,结合人工识别,最终取得三矿企业标准企业名称。以三矿企业清单为标准,通过标准企业名称、统一社会信用代码关联其他业务数据,实现了多类生态环境业务数据按企业标识进行集成,为后续其他业务系统数据集成提供了借鉴,同时也满足了生态环境部门按企业进行多业务数据的统一查询、分析、共享的实际需求。
系统借助GIS技术,将三类矿产资源企业相关生态环境信息结合地图上进行汇总[14],建立三类矿产企业生态环境信用档案,实现涉矿企业档案的展示、查询、分析,对三类矿产企业环评审批及日常监管中存在的违规、违法行为自动冒泡,及时发现矿产资源领域的违规违法行为,实现精准执法,为矿产资源领域突出问题专项整治工作提供决策支持。
本文通过对生态环境领域涉矿业务数据的采集整合、精准筛选、清洗治理进行了深入研究,建立了生态环境领域涉矿数据共享系统,实现了涉矿数据跨部门、跨区域共享,实现路径具有一定的创新性和示范性。生态环境涉矿数据共享系统以固定污染源统领业务数据的方式,既实现了生态环境部门对三类矿产企业的日常监管需要,又为自治区矿产资源大数据监管奠定基础。未来,横向可以通过矿产资源领域向全行业扩展,如整合治理电力、食品制造、化工、水泥、造纸等行业数据,以固定污染源为核心开展全行业信息整合治理,大数据分析。纵向可以扩展固定污染源全生命周期的数据,包括项目筹建期的建设项目环评审批数据,施工建设期的竣工验收报告、排污许可证审批数据、企业基本信息等,生产运营期的监测数据、监察执法记录、行政处罚记录、信访举报记录、督查问题记录、舆情情况等,停产关闭期的排污许可证吊销、生态恢复情况等数据,将企业从筹建到消亡的全生命周期的数据进行汇总,形成企业全生命周期档案[15]。