王 晓 爽,李 吉 东,徐 海 红,诸 云 强,代 小 亮,周 天 墨,6
(1.中国科学院地理科学与资源研究所/资源与环境信息系统国家重点实验室,北京 100101;2.中国科学院大学,北京 100049;3.北京市生态环境局综合事务中心,北京 100048;4.东营市生态环境局,山东 东营 257091;5.生态环境部环境工程评估中心,北京 100012;6.应急管理部信息研究院,北京 100029)
大气污染执法是大气环境防治以及实现我国碳达峰、碳中和目标的有效监管措施,其包含大气污染发现、现场调查取证、处罚决定和整改监督等阶段,由不同生态环境部门负责实施。由于不同执法阶段的负责人对执法相关知识的认知角度和理解存在差异,致使出现执法尺度不一和量裁不准情况。因此需要建立统一的知识语义基础,实现大气污染执法知识有效组织和规范表达,促进大气污染执法数据资源有效整合集成和知识的一致性理解,推动智能化执法发展。大气污染执法各阶段可视为多个事件衔接而成,每个事件发生在大气执法不同阶段的特定时间、空间和语义环境下,由若干个角色参与,表现为若干动作特征[1]。由于大气污染执法的事件性特征,需要一种基于事件的知识组织方法实现对领域内知识的组织和规范表达。事理图谱从认知智能角度出发,以事件为中心能有效描述大气污染执法事件信息、事件关系和事理逻辑[2]。在特定研究领域的事理图谱构建中主要采用自顶向下的方式[3]构建事件本体,在本体的指导下利用自下而上的抽取方法挖掘形成事理图谱,其中事件本体是针对研究领域事件类系统模型明确的形式化规范说明。
目前事件本体的构建具体可归纳为3个阶段:1)依据传统领域本体建模理论,描述具有动态过程特征的对象领域知识,定义领域事件并对事件及事件关系进行定义和分类,形成事件表示模型。例如:ABC模型[4]以事件为驱动,通过事件、情景、动作和Agent等概念及其关系描述事件,从而构建共享概念模型;简单事件模型(Simple Event Model,SEM)[5]将事件类型定义为个体或类,采用事件、参与者、地点和时间描述事件实例,可实现事件概念的重用;Lode模型[6]重点针对某个特定时间和动作定义发生的事件,可从关联数据集中收集实体,发现数据间的复杂关系;EO(Event Ontology)模型[7]采用事件演算的思想,通过地点、时间、产品、要素和Agent等概念描述事件。上述模型注重对事件及相关概念的规范表述,具有完备的事件概念层结构,但不具备事件层结构,难以对事件的关系和演变规律进行描述,特别是难以实现时空的动态表示和事件推理。2)基于基本事理逻辑构建事件本体模型。例如:OSL_EO模型[8]构建了关于事件和事件关系的上层本体模型,该模型能描述事件间逻辑关系,但对事件的表示阐述不完善且缺乏实证;H_EO模型是基于历史事件建立的模型[9],建模时考虑了事件的基本要素(事件的原因、结果),定义了事件表示的语义逻辑,但未明确区分事件和动作,也未定义事件非结构关系。3)基于事件类层次结构构建事件本体模型。以事件为研究单元,通过事件要素完成对事件的定义,描述事件分类和事件关系,从而设计事件本体结构模型。刘宗田等[1]提出了较完善的事件定义,规定事件由动作、对象、时间、环境、断言和语言表现六要素组成,将事件本体结构定义为事件类集合、关系集合和推理规则三元组,通过提取事件间关系形成事件本体建模理论。基于该理论,学者们提出了不同领域的事件本体模型。例如:刘菲京等[10]结合大气污染突发事件特征,抽象出大气污染突发事件定义、类别和相关事件要素,建立大气污染突发事件关系和突发事件本体模型;朱文跃等[11]结合突发事件领域特征,将事件类六要素定义为触发词、对象、时间、地点、状态和语言表现,从而将事件本体结构定义为描述事件分类体系的上层事件类、以事件关系组成的事件格结构的下层事件类、事件关系、事件推理规则和事件实例的五元组,完整、准确地描述突发事件,具有较强的可扩展性;朱宇倩等[12,13]结合领域特征,构建了安全信息认知事故本体模型和煤炭安全事件本体模型。
上述事件本体模型通过事件要素描述事件,采用事件动作描述事件发生机理,建立事件间层次结构和关系,可更完整地描述研究对象;但该类模型主要通过时间、地点描述事件内容,通过建立事件间的语义关系表现事理发展规律,并未通过事件的时空间要素构建事件之间复杂的时空变化关系。由于大气污染执法由各执法事件衔接而成,执法者需要在各执法事件发生发展过程中通过追踪大气污染行为的时空变化规律,精准定位污染源所在位置并对污染行为进行取证。因此,在构建大气污染执法事件本体时,需要顾及各执法事件间的时空关系和语义关系,准确、规范化描述执法过程,建立顾及时空特征的大气污染执法事理图谱。
本文结合大气污染执法特点,对已有事件本体模型进行改进,采用时间、空间位置、执法参与对象、动作、状态5类事件要素对执法事件进行描述,并对各执法事件间的时间关系、空间关系和语义关系进行规范化定义,形成充分考虑时空特性的大气污染执法事件本体表示模型,进而构建大气污染执法知识体系和事件本体,实现大气污染执法事件知识的组织和管理;以某热力生产公司经营的燃气锅炉超标排放执法案件为例,抽取案例事件要素和事件时间、空间、语义关系,构建大气污染执法事理图谱实例,采用Neo4j图数据库对大气污染执法知识图谱进行存储管理和可视化展示,并深入分析大气污染执法事件间的时空演化规律和逻辑演变规律。
由于大气污染执法是以执法事件为核心,包含多个执法阶段的动态过程,其中每个执法阶段均由多个事件组成[14],因此,大气污染执法事件本体表示模型(Air Pollution Law Enforcement Event Ontology Presentation Model,APLEEOPM)采用四元组结构,对大气污染执法事件(APLE_Event)、事件关系(APLE_Relations)、事件实例(APLE_Individuals)以及事件间推理规则(APLE_Rules)进行规范化表达(式(1))。其中,最为核心的是大气污染执法事件(APLE_Event),其是对特定时空范围下污染大气行为的行政管理活动,具有动态性和规律性等特征,可进一步通过大气污染执法事件发生的时间(APLE_Time)、空间位置(APLE_Location)、参与对象(APLE_Object)、事件动作(APLE_Action)、事件状态(APLE_Status)进行定义(式(2))[15]。1)APLE_Time包括瞬时时间和时间段[10],前者通常为一个时间点(如执法调查时间、投诉举报时间等),后者表示事件持续时间(如超标排放时长、整改时限等)。2)APLE_Location包括事件发生地点(污染发生地点、调查地点)或受影响空间区域(环境功能区划、行政区划等),可由区域名称、经纬度、地址、四至范围等描述。3)APLE_Object包括执法者、违法者、法规标准、大气污染物、大气环境对象和罚没财物6类:执法者是对污染事件进行调查取证,依据相关法规对违法企业下达处罚的执法人员,具有名称、所属机构、证件编号等属性;违法者指违规排放大气污染物的企业,包括固定污染源和移动污染源,具有行业类别、企业名称、注册地址、生产环节、生产工艺、环保设施、排放源编号、企业名称、注册地址、车牌号、车架号等属性;法规标准指在执法过程中依据的大气污染治理方面相关的法规和技术标准(如《北京市大气污染防治条例》《锅炉大气污染物排放标准》(DB11/139-2015)等);大气污染物根据形态可分为气态污染物(氮氧化物、挥发性有机物等)和颗粒状污染物(扬尘、粉尘、砂石等),具有类别、体积/浓度、含量等属性;大气环境对象指受污染的大气环境要素,通过国控空气质量监测站点主要监测指标(二氧化硫、二氧化氮、可吸入颗粒物和细颗粒物等)表征;罚没财物指执法人员判处违法企业缴纳一定数额罚金或查封、扣押相关财物等。4)APLE_Action指大气污染执法事件全过程各参与对象的行为,如执法人员处罚违法企业、违法企业排放大气污染物等。5)APLE_Status指大气污染执法事件发生后的状态描述。
APLEEOPM::=(APLE_Event,APLE_Relations,
APLE_Individuals,APLE_Rules)
(1)
APLE_Event::= (APLE_Time,APLE_Location,
APLE_Object,APLE_Action,APLE_Status)
(2)
1.2.1 大气污染执法事件概念体系 根据大气污染执法阶段,在顶层可将执法事件分为(图1):1)大气污染事件,根据污染行为进一步划分为大气污染物泄露事件(包括工业生产和服务活动泄露污染物、餐饮油烟排放、工业扬尘和油气泄露4类事件)和大气污染物超标排放事件(包括固定污染源、移动污染源超标排放事件)。2)执法调查事件,包括污染发现(可分为环境监测结果异常、重点行业巡检、投诉举报发现)和现场调查两类子事件。3)现场检测取证事件,包括检测取证(污染检测和违规现象取证)、获得检测取证结果(获得检测结果和获得取证结果)和判断检测取证结果(判断依据标准和判别检测结果性质)3类子事件。4)处罚决定事件,由判断违法行为性质事件和作出处罚决定事件组成(判断判罚依据法规事件、限期整改事件及罚款处罚事件)。5)整改监督事件,根据处罚方式分为缴纳罚款、设施整改和停产整改3类子事件。
图1 大气污染执法事件体系Fig.1 Air pollution law enforcement event system
1.2.2 大气污染执法事件关系确定 大气污染执法事件关系主要有时间关系、空间关系和语义关系。
(1)大气污染执法事件时间关系指各事件时间要素间的相互关系,体现事件间时间变化特征,通常用时间拓扑关系(Event Temporal Topological Relation,ETTR)表达,包括包含(include)、早于/晚于(earlier/later)、部分重叠(partial overlap)和相等(equal)关系等。大气环境监测指标易受气象气候条件等因素影响,因此大气污染源污染时间段与指标变化时间段为包含关系或部分重叠关系。
(2)大气污染执法事件空间关系可定义为执法事件中地理实体对象之间的空间关系。根据位置形状和属性不同,大气污染相关地理实体对象可表述为点对象(烟筒、加油站等大气污染固定排放源)和面对象(行政区域、住宅小区等大气污染受影响范围)[16],其空间关系包括:1)空间拓扑关系(Event Spatial Topological Relation,ESTR),表示大气污染执法事件中地理实体之间的邻近和关联程度[17],包括包含(include)/被包含(included)、相邻(adjacent)、相离(separate)、重叠(overlap)和部分重叠(partial overlap)等。本文采用基于维数扩展的9-交模型(Dimensionally Extended nine-Intersection Model,DE-9IM)(式(3))[18],通过事件中两个地理实体的内部(interior)、边界(boundary)、外部(exterior)构建矩阵以描述空间拓扑关系。2)空间方位关系(Event Spatial Orientation Relation,ESOR),包括方位定性表达和方位定量表达。3)空间距离关系(Event Spatial Distance Relation,ESDR),包括距离定性表达和距离定量表达。空间方位关系和空间距离关系通常在大气污染执法中描述违法者经营的污染源和受大气污染影响区域之间、违法者与执法者之间等的相对空间位置关系,据此可以确定违法者或污染对象的位置。例如:某投诉举报信息为“举报距离本村西南300米或距离本村较近烟筒排放黑烟,味道刺鼻。”其中,“西南”为方向定性表达词,“300米”为方向定量表达词,“较近”为距离定性表达词,描述了举报人所在位置与污染源之间空间方位关系和空间距离关系。执法者需根据这些信息在现场调查事件中进一步明确污染源调查的具体地点。
(3)
式中:RDE-9IM(a,b)代表DE-9IM模型描述的地理实体间的空间拓扑关系;a、b代表不同大气污染执法事件中的地理实体;I、B、E分别代表地理实体的内部、边界和外部。对地理实体a、b内部、边界和外部进行求交计算,结果可分为空集、点、线和面4类,分别取值-1、0、1、2,将-1定义为F,0、1、2定义为T,其他情况为*,则可将9类相交情况用字符串组织表示拓扑关系,如字符“T*****FF*”表示包含关系。
(3)大气污染执法事件语义关系(Event Semantic Relation,ESR)指执法相关行为发生的事理逻辑关系,包括:1)包含关系,指大气污染执法事件之间的层次关系或父子关系,如大气污染事件包含大气污染物超标排放事件和大气污染物泄露事件;2)组成关系,指事件由几个子事件类组成或某事件的实例由另几个子事件的实例组成,如执法调查事件由污染发现事件和现场调查事件组成;3)因果关系,指因某事件的发生导致另一事件的发生,如检测取证事件导致获得检测取证结果事件;4)顺承关系,指某事件发生后,另一事件以一定概率伴随发生[13],如现场调查事件之后伴随污染检测事件发生;5)并发关系,指在一定时间范围内,两个事件可能同时发生,如责令违法者限期整改事件和对其罚款处罚事件几乎同时发生。具体事件关系[19]如图2所示。
图2 大气污染执法事件关系分类Fig.2 Relation classes of air pollution law enforcement events
1.3.1 大气污染执法事理图谱案例知识抽取 利用构建的大气污染执法事件本体模型可从多模态数据资料中抽取大气污染执法事件的要素、要素属性和事件关系。大气污染执法案件原始语料数据包括结构化数据(污染源相关关系型数据库)和非结构化文本数据(执法文本数据,如处罚决定书、现场调查单和投诉举报单等)。针对结构化数据,可通过结构化数据表直接映射的方式获取案件中的事件要素和属性知识;对于非结构化文本数据,则需利用基于规则或深度学习的自动抽取方法[20,21],进行事件要素和要素属性的抽取,如从处罚决定书文本中抽取现场调查事件和处罚决定事件中时间、空间位置、参与对象(执法者、违法企业等)、行为(调查、处罚等)、状态等事件要素的实例信息。通过对非结构化文本数据中抽取事件的时间要素进行判别和排序可获得时间关系;采用Geos开源库的空间操作算子[22,23]可抽取地理实体对象间的空间关系[22]。本文利用DE-9IM模型描述大气污染执法事件地理实体间的拓扑关系,由不同字符串表示不同拓扑关系情况。将字符串与自然语言描述建立对应关联[24],实现“拓扑关系—矩阵字符串—自然语言描述”的映射关系[25](表1)。以某案件污染发现事件与现场调查事件间的空间关系为例,执法者以某乡镇区域大气质量指标变化为依据,现场调查发现区域内污染企业排放源超标排放。在完成非结构化文本中乡镇区域和污染源地址的相关信息提取后,通过DE-9IM模型描述拓扑关系与自然语言描述的对应关联,利用Geos开源库提取该乡镇区域与污染企业排放源的空间包含关系,并建立与自然语言描述的对应关系;通过获取案件文本中空间方位和距离的表达词可提取事件中地理实体间的相对位置关系,也可采用Geos库提取地理实体间的方位关系和定量距离,实现事件间空间关系提取;通过提取事件要素和要素属性后获得案例具体事件知识,通过构建事件本体模型中的事件语义关系确定案例中具体事件间语义关系。
表1 事件空间拓扑关系与自然语言描述对应关系Table 1 Corresponding relation of event spatial topology and natural language description
1.3.2 大气污染执法事理图谱案例知识存储 抽取大气污染执法事件案例信息后,需将事件及其要素、属性和关系等进行统一表达和存储。首先,基于资源描述框架(Resource Description Framework,RDF)三元组,对大气污染执法事件及事件要素、要素属性等进行表达;然后利用Neo4j、JanusGraph、OrientDB图数据库等对其进行储存管理,在图数据库中,基于带标签的属性图模型特点,将大气污染执法具体案例事件、事件要素实例、要素属性存储为节点,进而支撑后续的基于图查询语言、图挖掘算法的大气污染执法知识推理计算[26]。大气污染执法案例知识存储策略如表2所示。
表2 图数据库具体案例知识存储策略示例Table 2 Example of case knowledge storage strategy in graph database
本文选择固定污染源超标排放执法案件中某热力生产公司经营的燃气锅炉超标排放执法案件,实现大气污染执法事理图谱构建,案例数据包括案例的处罚决定书、污染发生同时期和污染源所在同区域的大气质量监测数据以及大气污染相关法规标准文献资料。案件污染源—燃气锅炉位于北京市大兴区榆垡镇规划区盛平街9号,大兴区生态环境监察执法人员通过2018年12月17-23日北京市大气污染粗颗粒度(TSP)浓度排名,分析大兴区榆垡镇TSP浓度值为218,在北京市所有乡镇(街道)中位居第一。考虑污染发生时间为秋冬季,北京市大气污染现象常见原因为秋冬季供暖时期锅炉超标排放污染物。因此,执法人员重点对榆垡镇区域内运营的锅炉房进行排查,发现某燃气锅炉超标排放氮氧化物,通过现场调查和检测确定污染事实,依法对其进行处罚。根据前述提出的大气污染执法事理图谱构建方法,系统建立了案件中具体事件的实例以及事件要素和事件关系(表3)。
表3 锅炉超标排放案件实例Table 3 Case of excessive emission of boiler
(1)根据已构建的大气污染执法事理图谱案例知识存储策略,构建具体执法事件节点以及具体事件中时间、空间位置、参与对象、状态等要素节点,建立事件要素在事件中的角色关联和事件参与对象间动作关联,并在已构建具体执法事件基础上建立事件语义关系。创建该燃气锅炉超标排放执法案件具体事件节点、事件要素节点和事件语义关系的Cypher语句如下:
create(e1:Event{name:”锅炉超标排放事件”})
create(t1:time{name:"2018年12月预估"})
create(l1:location{name:"北京市大兴区榆垡镇规划区盛平街9号"})
create(em1:emission{name:”燃气锅炉”,number:”WNS-1.25-YQ”,volume:”1蒸吨”})
create(p1:pollutant{name:”氮氧化物”})
create(s1:status{name:”锅炉超标排放氮氧化物状态”})
match(em1:emission{name:"燃气锅炉",number:"WNS-1.25-YQ",volume:"1蒸吨"}),(p1:pollutant{name:"氮氧化物"})
create(em1)-[er15:APLE_Action_emit]->(p1)
return er15
构建事件语义关系Cypher语句如下:
match(e1:Event{name:"锅炉超标排放事件"}),(e2:Event{name:"污染发现事件"})
create(e1)-[r:ESR_cause]->(e2)
return r
本文创建锅炉超标排放事件要素和要素关系,并建立6个事件实例和事件间语义逻辑关系关联,形成链状事件演化规律(图3),能为不同执法阶段提供知识关联推理和自动推荐案件处理环节中所需信息。
图3 锅炉超标排放案件事件语义关系和部分事件要素Fig.3 Event semantic relation and part of event factors of boiler excessive emission case
(2)基于大气污染执法事理图谱抽取各事件时间要素,并进行判别和排序,通过事件间时间要素的关联展现事件发生的时间关系。创建时间关系的Cypher语句如下:
match(t1:time{name:"2018年12月(预估)"}),(t2:time{name:"2018年12月17日至23日"})
create(t1)-[tr1:ETTR_include]->(t2)
return tr1
随着大气污染执法事件发展,能发现其时间变化特征。执法者通过确定区域大气TSP浓度变化的时间段,进而排查在该时间段可能致使大气污染的潜在污染源,通过现场调查和现场检测取证确定污染源排放事实。图4展示了大气污染执法案件调查和检测过程的时间变化特征,锅炉超标排放事件的时间段(2018年12月)包含(ETTR_include)污染发生事件中区域TSP浓度指标变化时间段(2018年12月17-23日),在区域TSP浓度指标变化时,执法者现场调查和检测污染源。因此,TSP浓度指标变化时间段与现场调查事件时间点(2018年12月19日)之间为包含关系(ETTR_include),现场调查时间点早于(ETTR_earlier)现场检测取证时间点(2018年12月27日)。
图4 锅炉超标排放案件中事件间时间关系Fig.4 Event time relation in boiler excessive emission case
执法者通过确定大气TSP浓度较高区域,进而排查区域内有污染贡献的污染源,准确查证污染源所在位置,并在污染源周边取样检测取证污染行为。
在执法过程各事件中逐步精准定位污染源位置,形成事件间空间关系。采用DE-9IM模型描述污染源所在行政区域(大兴区榆垡镇)和污染源(地理点实体)、污染源检测样点(地理点实体)之间的拓扑关系,采用Geos空间操作算子构建地理实体对象,提取地理实体之间的空间拓扑关系,形成大气污染执法事件之间的空间拓扑关系。如图5所示,通过大兴区榆垡镇的经纬度范围建立面状对象;利用污染源经纬度坐标、检测样点经纬度坐标建立点状对象,提取空间拓扑关系。其中大兴区榆垡镇为污染源所在行政区域,与污染源是空间包含关系(ESTR_include),污染源与该区域是空间被包含关系(ESTR_included),污染源与其他检测样点是空间相邻关系(ESTR_adjacent),该关系具有对称性。
大气污染执法事理图谱通过抽取案例各事件相关地理实体对象间空间关系作为事件间空间关系,展现各事件发生的空间变化情况,创建事件空间关系的Cypher语句如下:
match(l1:location{name:"北京市大兴区榆垡镇规划区盛平街9号"}),(l2:location{name:"北京市大兴区榆垡镇"})
create(l1)-[sr1:ESTR_included]->(l2)
return sr1
剖析大气污染执法过程中的时空变化特征和事理发展规律,是准确描述大气污染执法过程、实现执法案件有效溯源的关键。本文通过改进现有事件本体模型,提出大气污染执法事件本体模型并梳理大气污染执法事件知识体系,形成顾及时空特征的大气污染执法事件本体;在本体的指导下提出大气污染执法案例知识抽取和存储方法,完成大气污染执法事理图谱的构建;通过事理图谱实例可视化展现,描述了大气污染执法事件的时空变化特征,进而分析事件逻辑演化规律。
通过构建顾及时空特征的大气污染执法事理图谱能弥补事理图谱研究中较少关注事件间时空演变关系的不足,助推事理图谱构建理论发展。在实践层面上,大气污染执法事理图谱对于促进大气污染执法不同阶段数据资源整合与共享、大气污染执法案件全程关联和跟踪监督等方面具有重要意义。针对目前实例较少的问题,未来将采用更多的大气污染执法案件数据创建实例,完善现有事理图谱,并从大量的案件实例中分析和挖掘事件间的时空关系信息,为大气污染执法提供智能辅助解决方案。