基于案例推理和机器学习的场地污染风险管控与修复方案推荐系统构建技术

2020-11-26 01:17张秋垒黄国鑫王夏晖毕二平季国华陈茜卢然
环境工程技术学报 2020年6期
关键词:案例库页面检索

张秋垒,黄国鑫,王夏晖,毕二平,季国华,陈茜,卢然

1.生态环境部环境规划院 2.中国地质大学(北京)水资源与环境学院

目前,我国场地土壤和地下水污染风险管理正处在初始阶段,面临着场地污染风险管控和修复效果的不确定性较大,精准化、智能化、高效化技术与管理水平欠缺,治理修复投入成本高,风险管控措施效率低,修复效果不理想,修复方案选择不合理等突出问题[1-2]。

随着大数据技术在环境领域应用的日益广泛和环境海量数据的日益增长[3-4],大数据技术与场地环境管理深度融合提高场地污染风险管控与修复的精准化、智能化、高效化、低成本化成为亟待解决的技术问题。近年来,案例推理(case-based reasoning,CBR)在机器学习和环境应急决策领域得到广泛研究,如环境突发应急决策[5-7]、突发化学品污染应急处置[8]、地震类突发事件[9]和建筑成本预测[10]等,其中CBR增强了突发性环境污染事件中的快速反应能力[11]。CBR是利用过去事件案例中求解问题的经验和方法,结合新问题的特征进行调整,从而获得当前问题求解的一种推理模式,即在求解问题时,从案例库的源案例中找出相似度高且成功的案例,直接复用或经过调整、修改后复用,从而获得目标案例的解决方法[6,9-13]。但目前,案例推理乃至耦合大数据深度挖掘技术(如机器学习)在场地土壤和地下水污染风险管控与修复方案推荐方面的研究鲜有报道,可以借鉴的经验有限。

鉴于此,笔者借助大数据平台,通过基于案例推理的结构化层次存储和搜索技术,基于CBR、K最近邻算法(K-nearest neighbor,KNN)和层次分析法(analytic hierarchy process,AHP),构建风险管控与修复方案推荐系统案例库,开展场地污染风险管控与修复方案推荐系统的结构设计和系统开发,实现目标场地案例的风险管控与修复方案推荐,以期为场地污染风险管理实践提供理论依据和技术支持。

1 系统结构及内容设计

1.1 系统的需求

场地污染风险管控与修复方案推荐系统的目的是将已有的历史风险管控和修复场地案例(源案例)组成案例库,总结与分析案例库中各源案例的各指标因子,使检索时能够快速判定相似度最高的前3个案例,为新污染场地(目标案例)制定风险管控与修复方案提供决策参考。

利用238个污染场地的风险管控和修复案例,考虑区域自然、经济、社会环境概况,场地基本情况,特征污染物,污染迁移途径,敏感目标,风险管控和修复技术的环境、经济、社会指标,筛选确定24项场地特征指标,并构建三级指标体系(图1)。其中,特征污染物主要关注GB 36600—2018《土壤环境质量 建设用地土壤污染风险管控标准(试行)》中的85项污染物。

图1 场地污染风险管控与修复方案推荐系统的指标体系Fig.1 Index system of site pollution risk control and remediation scheme recommendation system

场地污染风险管控与修复方案推荐流程:首先,对于目标场地经过综合分析生成待解决的问题,进而生成案例特征属性;其次,遍历案例库,计算目标案例与源案例之间的相似度;再次,推荐相似度最高的前3个案例给决策者;最后,将匹配度、相似度最高的源案例的风险管控与修复方案写入目标案例中,存放于案例库中间表中,待日后目标案例的其他相关信息补充完全后,进一步考虑是否将其加入案例库中。

场地污染风险管控与修复方案推荐系统需包含以下内容:1)案例简介。出现在案例系统展示页面首页,介绍案例有关场地名称、所在地区和行业分类,并提供每个案例的单独链接,显示案例详情,如案例风险管控与修复方案信息。2)数据管理。进行新案例的输入、已有案例的编辑和各页面信息的维护。基础功能包含案例信息的增加、删除、修改、保存以及数据的导入和导出。3)检索查询。根据不同检索需求,提供模糊查询、条件查询。可直接从案例库中获取案例数据,供查询的因素有场地名称、所在地区、行业分类等;亦可在目标案例信息输入页面选择输入24项场地特征指标信息,实现案例之间的相似度查询。4)结果展示页面。在方案推荐页面,可浏览相似度最高的前3个案例,主要显示源案例的基本情况、污染迁移途径、敏感受体、风险管控与修复方案以及案例匹配相似度等信息。5)系统设置。用于系统用户登录与权限的管理、个人信息维护等。

1.2 系统总体架构

图2 场地污染风险管控与修复方案 推荐系统的层次结构示意Fig.2 Hierarchical structure of site pollution risk control and remediation scheme recommendation system

1.3 数据库设计

根据数据需求分析,场地污染风险管控与修复方案推荐系统应包括基础信息数据库、PostgreSQL数据库、HBase数据库和Impala数据仓库。其中,基础信息数据库是由从案例的地块调查、风险评估、风险管控或修复以及效果评估报告中获取的场地概况、污染源、污染物迁移途径、敏感受体、风险管控与修复技术、风险管控与修复方案、实施效果等方面的225个信息项汇总而成;HBase数据库用于存储基础信息数据库中案例的全部基础信息,包括结构化及非结构化数据;PostgreSQL作为地理数据库存储案例名称和经纬度坐标相关信息,用作统计分析与展示;Impala数据仓库提供数据分析与挖掘功能,为场地污染风险管控与修复方案推荐系统提供数据分析和逻辑计算支持。

基础信息数据库主要用于对案例的搜索、查询、增加、删减和修改,是整个系统平台的基础数据库。通过对案例信息的分析,可以获得统计性的结论和规律。为此,案例中信息的储存方式显得极其重要。本研究中案例记录的信息主要通过数据和描述性语言2个方面来储存。案例库信息如表1所示。

表1 案例库信息

2 系统开发与模块

2.1 案例表现方法

案例表现部分包括源案例的大数据信息查询和案例信息的描述。该模块中每个案例包括场地概况、污染源、污染物迁移途径、敏感受体、风险管控与修复技术、风险管控与修复方案、实施效果等方面的225个信息项,同时该模块也有新案例信息导入功能。案例展示和单个案例详情展示页面分别见图3和图4。

图3 场地污染风险管控与修复方案案例展示页面Fig.3 Case display page of site pollution risk control and remediation scheme

图4 场地污染风险管控与修复方案单个案例详情展示页面Fig.4 Detailed case display page of site pollution risk control and remediation scheme

在案例的信息描述中对案例进行编码,确保检索系统能够高效、精准、快速地进行检索。该模块还具有新案例的输入,已有案例的编辑、添加、删除及导入与导出功能。

2.2 案例检索

2.2.1案例检索系统

案例推理的核心是案例的检索系统。将案例检索功能分为2种:1)通过对案例的主要信息(如企业名称、所在地区和行业分类)进行单项或多项混合查询,输出匹配的查询结果;2)采用24个场地特征指标进行相似度计算,得出与目标案例相似度高的前3个案例。

图5 场地污染风险管控与修复方案推荐系统目标案例信息输入页面Fig.5 Target case information input page of site pollution risk control and remediation scheme recommendation system

为实现案例检索,检索系统需能输入目标案例24项场地特征指标信息(图5),且检索结果在案例推荐页面中呈现(图6)。在图5所在地区项中,根据《国务院关于调整城市规模划分标准的通知》[14]确定所选城市对应的城市等级;在所属行业项中,分为化学原料和化学制品制造业、黑色金属冶炼和压延加工业、金属制品业、医药制造业、有色金属冶炼和压延加工业和石油、煤炭及其他燃料加工业等子项;在土地利用规划项中,根据GB 36600—2018中的建设用地分类标准,分为城镇住宅用地、住宅用地、绿地与广场用地、公园与绿地、居住用地、教育用地、商业用地、医疗卫生用地、社会福利设施用地、工业用地、物流仓储用地、商服用地、道路与交通设施用地、公用设施用地、公共管理与公共服务用地、除社区公园或儿童公园用地外的绿地与广场用地子项;在干湿指数项中,分为极端干旱、干旱、半干旱、半湿润、湿润、潮湿、过潮湿子项;在特征污染物项中,根据GB 36600—2018的要求,涉及85项污染物;在包气带渗透系数最大岩性和含水层最主要岩性中,分为砾石、砂及砂卵砾石、粗砂、中砂、回填土、素填土、碎石土、细砂、石灰岩、砂岩、砂质粉土、杂填土、粉砂质黏土、砂质黏性土、粉土、粉质黏土、黏土子项。

图6 场地污染风险管控与修复方案推荐系统结果展示页面Fig.6 Result display page of site pollution risk control and remediation scheme recommendation system

2.2.2案例检索方法

相似度检索时,采用KNN计算源案例与目标案例之间的相似度,实现从案例库中检索出与目标案例相似度最高的前3个源案例。源案例与目标案例相似度的计算采用欧式距离sim(s,t)公式,具体如下:

(1)

式中:i为检索属性编号;m为检索属性的总个数;wi为编号i检索属性的权重;Di(s,t)为源案例与目标案例在编号i检索属性上归一化处理后的距离。检索属性的数据类型有逻辑型和数值型2种,其Di(s,t)计算公式如下:

(2)

(3)

di(s,t)=|Psi-Pti|

(4)

式中:Psi为源案例编号i的属性值,Pti为目标案例编号i的属性值s;di(s,t)为源案例和目标案例在编号i检索属性上的距离;maxi为编号i的属性值在案例库中的最大值;mini为编号i的属性值在案例库中的最小值。

对于逻辑型指标,按照既定规则的文本型进行匹配,当2个案例的特征属性完全匹配时,得0分;不匹配时,得1分,样表见表2所示。其中,对于特征污染物指标,按照污染物类型进行分类(图1),以“、”进行分割,每个类型中各污染物均作为独立标识,判断源案例与目标案例的同类型污染物是否存在交集。当有交集时,赋值为0,否则为1,从而计算出待求解的目标案例与案例库中源案例之间的相似度。

表2 逻辑型指标比选规则样表

2.2.3 一致性检验与权重赋值

采用层次分析法(AHP)确定各场地特征指标的权重。先根据各场地特征指标对方案推荐的影响程度确定其重要性,分为4个等级:最重要、中等重要、重要和次重要(表3),进而建立层次模型,构建判断矩阵(式5)。

表3 各特征因素的重要程度层次分值

(5)

判断矩阵运算过程中涉及2个重要参数:

IC=(λmax-n)(n-1)

(6)

RC=ICIR

(7)

式中:λmax为判断矩阵的最大特征根;n为构建判断矩阵的特征因素个数;RC为一致性比率;IC为一致性指标;IR为随机一致性指标。

运算式(5),生成判断矩阵的λmax(26.236 73)和其对应的特征向量;再根据式(6)、式(7)进行判断矩阵的一致性检验,确定IC为0.097 25,当n=24时,IR为1.651 1,RC为0.058 9(<0.1),表明一致性可接受[15-17];最后,通过归一化处理得到各场地特征指标的权重(表4)[7,18-19]。

表4 各场地特征指标的权重

2.3 案例推荐

搜索结果呈现相似度最高的前3个案例(图6),每个案例包括基本信息、污染情况、污染迁移途径、敏感受体和其他指标,其中基本情况又包括修复方案、相似度、所属行业、场地现状等。此外,由图6中左侧不同颜色的旗帜,可查看图4展示的相应案例的详细信息。

3 结语

针对我国场地污染风险管控与修复方法体系的弊端和不足,借助大数据平台,通过基于结构化层次存储和搜索技术,运用案例推理和机器学习,构建了场地污染风险管控与修复方案推荐系统。通过研究案例库实现途径和内容,进行了方案推荐系统的结构设计和系统开发,建立了基于Web技术的案例检索查询页面。采用KNN和AHP,计算目标案例与源案例之间的相似度,进而实现推荐相似度最高的前3个案例给决策者的功能。通过快速搜索与查找匹配源案例,提供了相对优化的方案选取参考工具。研究成果有利于提高我国场地污染风险管理的精准化、智能化、高效化和低成本化。在现有研究成果基础上,建议后续加强风险管控与修复方案再用的分类研究。

猜你喜欢
案例库页面检索
心血管外科教学案例库的建设及应用研究
刷新生活的页面
《宁夏大学学报(自然科学版)》入选2021年度中国高校科技期刊建设示范案例库
国内首个海事司法案例库正式上线
答案
基于实践应用的基坑工程设计案例库建设研究
让Word同时拥有横向页和纵向页
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究