◆刘艺绚
基于数据挖掘的污染环境犯罪预警模型构建初探
◆刘艺绚
(中国人民公安大学 北京 100038)
污染环境犯罪作案手段隐蔽,危害后果的浮现具有延迟性,给侦查工作带来极大的阻碍,本文基于污染环境犯罪的特点,结合近几年公安大数据侦查蓬勃发展的现状,提出基于数据挖掘技术的污染环境犯罪预警模型的构建设想,论述其必要性与可行性,以及构建预警模型的整个流程,以期能够为污染环境犯罪的有效打击提供一些借鉴和帮助。
污染环境犯罪;数据挖掘;预警模型
大数据侦查具有获取渠道多元、信息分析客观全面、处理数据信息高效、打击与预测一体化等优势,为侦查系统技术的进一步提升带来了不可或缺的贡献。近年来,公安机关利用大数据进行挖掘分析,实现打击现行、监测预警已经成为大趋势,各地公安业务部门纷纷举办数据建模大赛,涉及刑侦、经侦、反恐、禁毒等各个业务面,成果十分丰富[1]。数据挖掘技术可以从海量数据中运用特定的方法搜索出那些先前并不知道的、隐藏的、有潜在使用价值的信息[2],这一功能恰好与侦查工作的需求相吻合,因此被广泛应用于各类犯罪预警模型的构建。例如,对于侦查机关而言,获取污染环境犯罪线索的传统模式是接受群众举报以及接受相关行政部门的案件移送,通过污染结果找到污染物,再通过污染物溯源找到嫌疑企业。利用数据模型进行预警可以改变传统的线索来源方式的被动性和滞后性,实现对污染环境犯罪的高效打击。
以N市食药环侦支队为例,支队先后建成“企业非法处置危废”、“易制毒、易制爆行业非法处置危废”、“环保监测数据造假”等数据分析研判模型,有效汇聚整合全市6000多家产废企业,易制毒、易制爆化学品使用企业共计30余万条数据,开辟数据模型赋能打击污染环境犯罪新路径,有力提升了实战效能。
根据最高检公布的消息,2018年1月至2020年8月间,全国检察机关共批捕污染环境犯罪案件5364件9517人,同比分别上升64.47%和80%;起诉7226件16687人,同比分别上升47.44%和72.99%[3],全国污染环境案件查处数量总体呈明显上升趋势。
根据我国危险废物处置规定,除极个别允许自行利用和合理存放的情况之外,不允许企业私自处置。但交由具有资质的专门经营单位处理需要支付费用,部分企业为了降低成本,将产生的危险废物少做或不做登记申报,不经正规处置。甚至出现了专门收集、倒卖,倾倒、再加工危险废物的地下产业链。涉及金属表面加工业、玻璃制造业、染料制造业、食品药品制造业、再生油加工业、废旧机械收购拆解业等行业,领域非常广,侦查部门难免兼顾乏力。尽管各行业都有对应的行政监管部门,但总有人偷钻监管漏洞、顶风作案。
污染环境犯罪案件中,不法商人为了逃避打击,选择在城乡接合部、偏远农村地区、荒郊野岭以及正规园区的厂中厂建厂,通过支付较高租金、拉拢村干部以及熟络关系人等形式无证开办黑工厂、黑加工点;另外,这些黑工厂、黑加工点在生产经营过程中为掩人耳目,逃避查处,往往选择闭门经营、夜间生产,作案时利用暗管、渗坑偷排,有的直接向城市网管偷排,花样层出不穷。加之污染环境犯罪侵犯的是生态环境、公众权益,案件中往往没有直接受害的自然人,群众监督的力度和广度受到限制。2019年S区查办的一起污染环境犯罪案件,犯罪嫌疑人在没有相应资质的情况下,以低价承诺为某企业处理工业废液,在深夜时分多批次用灌装车辆运输工业废液至芦苇滩地,车辆经过区域偏僻荒凉,皆为道路监控盲区,若非民警在走访过程中“嗅觉”敏锐,顺线深挖,极有可能让这一非法处置危废的团伙逃脱制裁。
与传统的杀人、盗窃等犯罪不同,污染环境犯罪没有特定直接受害人,并且损害后果往往不是立刻浮现的,具有很长的潜伏期。20世纪中叶“富山痛痛病”的发现引起人们对环境与健康问题重视与思考,从污染物排放到公害病引起关注,危害后果的潜伏期长达几十年。除此之外,危险废物一旦非法排放,便会污染附近的土壤和水质,渗入地表,甚至污染地下水,仅仅依靠水和土壤的自然修复,往往需要数十年甚至数百年的历程,污染一次可能需要好几代人付出沉重代价。危险废物惰性的化学属性,决定了合理处置的高额成本,并且我国当前修复危险废物污染源的技术尚不够成熟。所以,环境一旦被污染,想要短时间修复原貌极其困难。
信息转移原理是物质交换原理在信息时代的发展与完善,信息转移原理表明犯罪过程中信息转移现象是必然发生的。首先是由犯罪行为的物质性原理决定的。行为人将内心的犯意外化为现实的行动,用物质力量去侵犯犯罪对象时才称之为犯罪发生[4]。这种物质的力量必然会破坏事物原有的状态,引起信息转移的出现。与犯罪活动相关的信息以各种各样的形式散存于客观与主观世界之中,侦查人员需要做的就是利用侦查学专业知识和手段尽量完整地搜集这些碎片式的信息,经过加工处理形成信息链条,还原犯罪发生时的状态。
数据挖掘正是通过对大宗信息数据的分析处理来发现犯罪端倪、实现监测预警,在这个数据爆炸的时代,人们出行、住宿、支付、通信等社会活动无一不被纳入电子信息的大网,犯罪嫌疑人也不例外。以污染环境犯罪为例,企业生产经营过程中会产生购买、出售、库存、耗能、排污等信息;雇佣或者受雇于他人非法处置污染物会产生通话记录、网络聊天记录、转账记录等信息;共同作案可能会有同住宿记录并呈现手机信号的伴随;利用车辆运输倾倒污染物会产生交通轨迹信息。这些看似分散的信息经过模型的研判,可以反映出污染环境犯罪中一些共性的现象或者核心关联关系。当某种行为遗留的信息痕迹满足这种共性的现象或者关联关系,我们可以认为这种行为存在涉嫌污染环境犯罪的风险。
一个犯罪行为的存在,必定离不开“时空人事物”等要素,只是有些关联浅显易得,有些关联复杂深藏,不易察觉。如果仅靠侦查人员的主观经验和直觉去判断分析,精准性很难保证。为切实解决污染环境案件线索发现难的问题,必须坚持以专业打职业,通过资源整合共享、数据聚合关联、信息综合研判,变被动为主动,利用数据挖掘技术全面准确地发掘相关关系,建立指标体系,实现精准监测预警,在节省人力物力时间的同时,高效获取线索。
以N市食药环支队建立的“企业非法处置危废”预警模型为例,该模型立足企业生产工艺和物料平衡原理,发掘出企业生产原材料购入量、企业生产耗能量、企业产品产出量和产废量等信息之间的关联,立足此种关联实现对涉嫌非法处置危险废物的产废企业的预警。简单来说,其企业投入生产使用的用电量、用水量与企业产品产出量有联系,产品产出量与废物产生量又有内在联系,也就是说,企业能耗与企业危险废物的产生有一定的关联性。如果某企业的用电量、用水量与环境保护部门备案的危险废物正规处置量关联性发生异常,那么该企业就有可能存在非法处置危险废物的可能性,模型将发出预警信号,待侦查人员前去落地查控。若经查实,预警所依据的数据也将成为重要证据,避免届时很多数据都被刻意篡改,人证流失,现场也被清理,侦查工作将陷入被动。
预警的过程,就是收集情报信息、利用情报信息、发出情报信息的过程[5]。预警模型的构建也遵循这样一个过程。构建流程大致包括数据收集、数据预处理、建立模型、评估校正、预警输出五个环节。当然,在建立预警模型之前,我们首先要明确业务需求,模型要解决的问题是对有高度可能涉嫌污染环境犯罪的行为自动推送预警信号,接下来的五个环节都要围绕这个核心需求进行操作。
数据收集之前,我们要理解到底哪些数据可以反映某行为高度涉嫌污染环境犯罪。可能需要大量的污染环境犯罪历史数据,主要是案卷信息,以此为抓手发掘出更为精准的跟踪指标。可能需要大量的地理环境监测数据来实时掌握污染情况。可能需要企业被环保行政执法以及处罚的次数来判断其行为升级、实施犯罪的风险等等。集中数据资源不仅包括将原本分散在各侦查业务部门的数据加以整合,还包括针对与侦查工作有密切联系的社会数据建立资源共享机制[6]。数据收集是大数据挖掘技术能充分发挥作用的基础,数据收集越全面、越充分,运算出的结果越客观准确。
为了更加准确地对污染环境犯罪行为实施预警,应当尽可能全面地收集与其相关的数据,应当包括但不限于以下几类:
(1)公安机关内部数据:污染环境犯罪历史案卷、出租厂房登记数据、重点涉污行业场所管理数据、旅馆住宿人员数据、道路卡口视频监控数据等。
(2)地理环境监测数据:包括对空气质量、水质、土壤、植物、动物、微生物等的在线监测数据;通过遥感采集、地图数字化、现场踏勘和摄影测量等采集的地形地貌、水文土壤、行政境界、社会经济数据等。
(3)行政部门相关数据。包括金属表面加工业、玻璃制造业、染料制造业、食品药品制造业、再生油加工业、废旧机械收购拆解业等产污行业的工商登记数据,企业环评数据,环保部门行政执法、处罚数据,企业内部监测设备采集数据、企业危废处置记录等。
(4)互联网涉案数据。主要包括网络通讯数据以及在各类网站、论坛、APP、物流平台等抓取的相关数据等,通过关键词追踪抓取比如与污染环境犯罪有关的曝料、感慨、指责等等。
(5)其他社会数据。包括易制毒易制爆化学品购买数据、银行交易数据、能源使用数据、通信数据、出行数据等。
数据挖掘是通过挖掘算法在给定的数据集中建立评估模型,数据挖掘过程的进度决定于原始数据的质量[7]。在收集的大量数据中并非所有数据都是有效的,数据在采集过程中,可能存在因为采集设备故障、人员操作失误等原因造成的数据属性值缺失,数据不规范等情况;与其他部门共享的数据,规格也并不一定相同,因此需要通过预处理来筛选和清洗,补全缺失的数据,转化非结构化数据,删除不需要的数据,将收集到的原始数据转换成能够符合挖掘算法要求标准的目标数据。数据预处理整合来自不同数据源的多维异构数据,主要操作有数据清洗、数据集成、数据规约和数据转换等[8]。
图1 构建污染环境犯罪预警模型所需数据
模型的搭建是大数据挖掘技术的重要环节,分为发掘相关关系和建立预警模型两步。
首先,将经过预处理的污染环境犯罪的历史数据录入,选择合适的算法发掘不同因素之间的相关关系,结合实战经验,确立最能反映污染环境犯罪行为的影响因子,建立合理的预警指标体系。比如一年内污染物排放超标次数[9]、一年内在线监测报警次数、一年内行政处罚次数[9],以及危险废物处置数据异常指数、罐车进出污染环境高危区域次数、水电等能耗量异常指数等。其次,基于相关关系的分析建立预警模型。笔者设想的污染环境犯罪预警模型分为污染环境犯罪监测子系统和污染环境犯罪预警子系统。其中监测子系统包括犯罪行为反映指标跟踪模块、犯罪风险评估模块;预警子系统包括犯罪行为预警模块和应急处置模块。
犯罪行为反映指标跟踪模块负责对污染物排放超标次数、在线监测报警次数、危险废物处置数据异常指数、车辆进出污染环境高危区域次数、水电等能耗量异常指数等指标进行跟踪监测。
犯罪风险评估模块负责对一些异常情况进行涉嫌污染环境犯罪的风险评估,通过对历史数据的分析以及侦查人员丰富经验的运用,为各指标设立阈值,超出阈值即发出预警信息。例如,按照工艺流程某企业应该产生的工业废物数量与实际上报正规处置的危废数量明显超出合理差值,风险评估模块结合异常指标的数量以及异常的程度进行风险的评估,划定等级。包括对区域、时段以及具体犯罪行为的风险评估。
犯罪行为预警模块主要负责根据风险等级进行预警和处置。对污染环境犯罪高危区域、高危时段,以及犯罪风险等级较高的异常行为进行预警,由侦查部门立刻介入调查。犯罪风险等级低的异常情况可以选择继续监控或者交由环保部门去检查整改。
应急处置模块根据对所有数据的综合研判,对于污染的程度进行判断,针对一些紧急情况给出处置预案,比如切断水源供应、转移群众、停工停学等,防止造成更为严重的后果。
图2 污染环境犯罪预警模型
模型建立之后,应当对模型的效果进行评估。包括指标设置、阈值设置、算法适用、预警情报精准度等方面,常用的评估方法是输入历史犯罪数据进行滚动运算,看模型能否推送预警信息。除此之外,犯罪与侦查处在你追我赶的较量中,当污染环境犯罪行为能够被侦查部门精确监控预警之后,犯罪分子必然会寻找新的犯罪手段来躲避侦查,隐藏犯罪事实。预警模型能对犯罪行为做出预测,较之于人工巡查更为客观高效,但是,预警模型的短板在于一旦指标建立、算法确定,它只会按照既有设定进行运算,难以实现自发自动地与时俱进,一旦犯罪发生新的变化,模型的预警即会失效。侦查人员在借助污染环境犯罪预警模型工作的同时也要及时了解新的犯罪手段,经常关注环保前沿动态,对周围群众进行调查走访,根据实际情况的变化来调整监测指标,调整系统算法和结构,以实现污染环境犯罪精确预警[10]。
模型经过分析研判,对涉嫌污染环境犯罪风险系数较高的区域、时段、个体进行预警[10]。
(1)风险地区预警
通过地理环境监测数据和污染环境犯罪历史数据的分析,可以实现区域的预警。一方面是根据环境指标异常对已经发生污染环境行为的区域发出预警,另一方面是对于尚未发生污染环境犯罪行为,但属于犯罪分子较为青睐的犯罪实施地,需要加强监控、重点关注的区域发出预警。
(2)风险时段预警
通过大数据分析出某些时段是污染环境犯罪行为多发的时段,侦查部门就可以对症下药,一方面加强对高发时段企业监测设备所呈现数据真实性的警惕,另一方面结合区域预警结果,在高发时段增加巡逻警力、增强巡逻力度,并且严密排查此时段往来于高危区域的运输货车,先发制人。
(3)风险个体预警
通过对企业各项数据的监测分析,结合特情信息收集以及轨迹研判,定位到具体某一个企业、某些人员、某辆货车涉嫌实施污染环境犯罪行为,然后部署警力,落地查控。
目前,利用数据挖掘技术建立模型,实现线索挖掘、监测预警已经成为公安机关打击犯罪的重要方式,在打击污染环境犯罪这方面,大数据技术还有很大的应用潜能可供挖掘,需要侦查人员拓展思路,积极主动探索,更好地发挥大数据在侦查中的价值。依靠大数据技术来分析研判对于打击污染环境犯罪来说固然准确高效,但不能完全依赖。公安机关仍然要做实基础工作,强化阵地管控,着力提高基层工作水平,进一步强化对辖区内重点行业场所的基础管理,在企业内部关键岗位人员中物建信息员和耳目,交警部门也在从事货物运输的驾驶员中物建信息员,多点布情,点面结合,确保涉及环境污染的案件能够及时被发现,最大限度地挤压污染环境违法犯罪活动生存的空间。
[1]陈刚.现代侦查技战法论坛.第五卷[M].北京:知识产权出版社,2020.12:29-31.
[2]李邮.数据挖掘技术与会计伦理—基于技术伦理学内在路径的分析[D].上海:上海交通大学,2017.01 .
[3]最高检:近三年全国批捕污染环境犯罪5364件9517人[EB/OL].(2020-10-28)[2021-04-07].https://k.sina.com.cn/article_6105713761_16bedcc6102000ss4i.html.
[4]刘品新.论犯罪过程中的信息转移原理[J].福建公安高等专科学校学报,2003.01.
[5]姚得水.情指行一体化背景下新质处警能力生成模式探究[J].武警学院学报,2020,36(07):79-84.
[6]杨剑.大数据条件下任务式指挥的侦查运用研究[J].武警学院学报,2020,36(07):90-96.
[7]宗万里.基于数据挖掘的食品安全数据分析与应用[D].青岛:青岛科技大学,2020.5.
[8]翟运开,高亚丛,赵杰,等.面向精准医疗服务的大数据处理架构探讨[J].中国医院管理,2021,41(05):14-18+31.
[9]黎一盈,王恒俭,李宏超,等.大数据时代高危污染源的预警研究[C]. 2016全国环境信息技术与应用交流大会暨中国环境科学学会环境信息化分会年会论文集.北京:中国环境管理杂志社,2016.12:38-45.
[10]钟政.大数据背景下多发性侵财犯罪预警模式研究[J].河南司法警官职业学院学报,2015,13(03):55-57.