王泽正,张 帅,王利民,张文静*,杜尚海
基于贝叶斯网络拓扑结构的水环境风险溯源——以饮马河流域为例
王泽正1,2,张 帅3,王利民3,张文静1,2*,杜尚海1,2
(1.吉林大学地下水资源与环境教育部重点实验室,吉林 长春 130021;2.吉林大学新能源与环境学院,吉林 长春 130021;3.吉林大学计算机学院,吉林 长春 130021)
为了解决流域水环境风险诊断过程中污染来源不清、污染贡献难以量化等问题,提出了一种基于贝叶斯网络拓扑结构的污染源追责量化方法.该方法首先通过互信息的计算实现流域水环境典型污染物的准确识别,在此基础上通过贝叶斯网络拓扑结构分析与启发式搜索算法快速辨析流域内典型污染来源及其污染贡献.本次选取吉林省饮马河流域2017~2020年水质监测数据进行分析.结果表明,氨氮为流域内的典型污染物;靠山南楼、靠山大桥、刘珍屯3个站点的污染来源分别为:杨家崴子、新立城大坝、砖瓦窑桥.其中靠山南楼有63%的污染来源于杨家崴子,靠山大桥有30%的污染来源于新立城大坝,刘珍屯有75%的污染来源于砖瓦窑桥.本次评估方法的构建可为流域水环境风险溯源及污染责任认定提供技术支撑.
水环境污染;风险溯源;互信息;贝叶斯网络;启发式搜索;饮马河流域
随着经济社会的进步,我国流域水环境问题日趋严重,风险源的类型和数量不断增加,水环境风险问题凸显[1].为更好地解决水环境问题并进行科学的水环境管理,有必要将水环境管理理念从传统的被动式应急管理转向主动式风险管理,开展水环境风险识别和评估,从源头识别风险,防患于未然[2-3].
国内外针对水环境风险源识别开展了大量研究,主要分为现场取样测定法和数学模型法两大类[4].现场取样测定法[5-6]精度较高,但是需要对上下游企业废水进行现场取样和仪器分析,工作量大.数学模型法具体分为确定性方法和数理统计方法[7].通过求解数学物理方程或寻求污染源和汇之间的数值联系进行风险溯源的研究[8].此类方法具有快速、高效、可操作性强的特点.然而,传统的数学模型方法主要通过对流-弥散方程构建正问题模型,然后通过直接求解、模拟优化法或概率统计法对反问题进行求解[9-10].该方法将理想水流条件下模型模拟的结果作为反问题模型的输入,但实际问题中往往具有较多的不确定性,传统的数学模型方法能够取得较好的效果,但是不能满足实际水环境执法中所面对的责任认定等需求[11].
研究针对上述瓶颈,本文提出了基于贝叶斯网络拓扑结构与启发式搜索算法相结合的流域污染源识别方法,该方法仅利用流域实测的水质监测资料,构建了能够适用于任何河网的风险溯源模型,避免了传统数学模型法因对环境条件及数据信息要求严格而导致不能应用于实际的问题.本文以吉林省饮马河流域2017年1月~2020年9月国家控制断面的污染物实测数据为典型案例,对流域水环境污染源诊断方法进行应用和验证,研究结果将为环保执法过程中污染风险的溯源和责任认定提供支撑.
针对流域水环境监测信息的数据类型繁多、计量单位不统一、指标毒性各异等特点,明确流域水环境的典型污染物是开展风险溯源的第一环节[12].本次通过将监测数据归一化并计算各个监测指标与水质级别之间的互信息,确定流域水环境的典型污染物.在此基础上,结合流域上下游及干支流之间的补排关系,构建关于典型污染物的贝叶斯拓扑结构图,通过实验和启发式搜索的方法,对拓扑结构图进行调整,从而确定流域水环境风险的污染来源及其贡献.本次方法体系的构建路线图详见图1.
图1 实施路线
互信息是信息论中衡量随机变量之间相互依赖程度的度量,两个事物之间的互信息代表了两者的关联度.当两个变量之间完全无关或者相互独立时,互信息的值最小,结果为0,两个变量之间没有重叠的信息.反之,互信息的值越大,两个变量之间的依赖程度越高,所包含的共同信息就越多[13].互信息的计算公式为:
式中x表示第种污染物根据水质标准划分后对应的等级,表示地表水水质等级.
由于不同的指标数值变化范围太大,为了满足贝叶斯建模的要求,首先需要对所获取到的数据进行归一化处理,不同污染物的等级划分标准依据《地表水环境质量标准(GB3838-2002)》[14].例如对于氨氮实测值<1.5mg/L,经归一化后取值为1.对于水质等级,如果为III类水,经归一化后取值为3.
根据计算得到的污染物与水质等级之间的互信息,判断互信息的大小.互信息越大表明该污染物对水质的影响越大,亦表明该污染物对水环境风险的贡献越大.本次将选取互信息最大的污染物为流域的典型污染物.
贝叶斯定理是关于随机事件和的条件概率的一则定理[15-16],其中表示在发生情况下发生的概率,其公式为:
本次基于贝叶斯定理,考虑到流域的上下游及干支流关系,构建了适用于流域水环境风险追责的贝叶斯网络拓扑图.贝叶斯网络拓扑图为具有概率分布的有向无环图,其中每个节点代表数据变量,节点间的弧段代表数据变量之间的概率依赖.一条弧段由一个数据变量指向另外一个数据变量,说明数据的取值可以对数据变量的取值产生影响[17].在本次贝叶斯网络拓扑图中,数据变量代表流域中的典型污染物,2个节点之间连接的弧段代表上游水质对下游有影响,通过分析贝叶斯网络拓扑图的对数似然,可以明确流域水环境风险的主要来源.对数似然之和的计算公式为:
而针对贝叶斯网络拓扑图中的关系认定和量化计算还存在如何进行贝叶斯网络结构优化的问题[18].本次引入了启发式搜索来确定最优的贝叶斯网络拓扑结构,以实现流域水环境风险源确定的目的.启发式搜索是在状态空间搜索中对每一个搜索的位置进行评估,得到最好的位置,再从这个位置进行下一步搜索直到目标.这样可以省略大量无谓的搜索路径,提高评估效率,为流域水环境风险的快速追责提供了简单、快速的方法.在启发式搜索中,对损失函数的选取十分重要.采用不同的损失函数可以有不同的效果[19].本次确定损失函数为:
根据构建的贝叶斯网络拓扑结构与启发式搜索算法,建立流域污染源识别的方法
根据流域干支流与上下游之间的关系,建立贝叶斯网络拓扑图,拓扑图中的数据变量为流域中的典型污染物.
将流域中的典型污染物数据提取,构造以站点为行坐标、时间为纵坐标的表格,每个节点表示对应的污染物浓度.根据水环境质量标准中不同污染物浓度对应的等级,将数据进行离散化处理.然后将离散化结果在数据挖掘平台中进行统计处理,计算出上游监测站不同条件时,下游监测站某一结果产生的概率.根据贝叶斯网络概率估计的思想以及绘制的网络拓扑图,采用贝叶斯公式计算网络拓扑图的联合概率及对数似然之和.
通过计算对数似然之和,能够判断贝叶斯网络拓扑图与数据的拟合程度,对数似然之和越大表明贝叶斯网络拓扑图对水质模型的拟合程度越好.
吉林省河流、湖泊水域面积26.55万hm2,其中流域面积在20km2以上的大小河流有1648条,根据吉林省2017~2020年全省86个国控监测断面的监测数据来看,吉林省水环境状况不容乐观.省内的IV类、V类、劣V类比例超过了30%,其中饮马河流域断面的IV类、V类、劣V类比例高达60%.大部分断面超标指标为高锰酸盐指数、氨氮、总磷、化学需氧量、生物需氧量,少部分断面还包括石油类、挥发酚和阴离子表面活性剂等[20].水环境污染问题已影响了饮马河流域范围内民众的饮水安全[21],本文选取饮马河流域作为研究对象,进行水环境风险溯源研究.
饮马河流域位于吉林省中部,发源于磐石市驿马乡呼兰岭,介于东经124°35¢~126°24¢、北纬43°1¢~44°54¢之间,流经磐石、永吉、双阳、九台区、德惠市、农安县等,在农安县靠山乡红石垒屯东南汇入松花江.主要支流有:伊通河、双阳河、岔路河、雾开河.
图2 饮马河流域水质监测站点分布
饮马河流域干流及支流共设置10个水质国家控制断面(图2),靠山南楼水质检测站位于饮马河上,用于监测德惠市排污后饮马河的水质状况,靠山大桥站位于伊通河上用于监测伊通河汇入饮马河前的水质状况.本文选取全部的10个水质国家控制断面,确定上游各个断面对流域下游断面影响关系,以选取对目标断面有影响的断面进行控制.本研究的基础数据来源于政府部门实际监测,选取10个水质国家控制断面2017年1月~2020年9月的367组水质监测数据,包括氨氮、化学需氧量、溶解氧等9个常规污染指标及水质等级.
首先进行数据的归一化,然后利用公式(1),计算各个污染物与水质等级之间的互信息,结果见图3.从表中可以看出污染物与水质等级之间的互信息值由高到低依次为氨氮、化学需氧量、总磷、总氮、高锰酸盐指数、生化需氧量、氟化物、溶解氧、挥发酚、粪大肠菌群.对于选取的10个断面、2017年1月~2020年9月的405条数据,总氮的平均浓度为2.2mg/L,超过了V类水的标准,总共有151条达到或超过了V类水标准,占数据的37%.而对于化学需氧量,平均浓度为23.2mg/L,达到了IV类水的标准,有83条达到或超过V类水.其他指标为V类水的次数均未超过氨氮,因此利用互信息确定流域的典型污染物较为合理.最终选取氨氮为本流域的重点控制污染物,这也与该流域氨氮污染较为严重的污染现状相吻合.
图3 污染物与水质等级之间的互信息值
本文结合饮马河流域干支流的补排关系,生成初始贝叶斯网络结构拓扑图(图4):
图4 初始贝叶斯网络拓扑结构
经过互信息的计算发现,氨氮对水污染等级的影响最大,因此网络中的节点表示氨氮的浓度.然后对其进行离散化.根据构建的贝叶斯网络拓扑图(图4)计算对数似然,经计算,其结果为-299.923.
图5 第一次改进的贝叶斯网络拓扑结构
图6 不同节点的熵值
图7 第二次改进的贝叶斯网络拓扑
计算新的拓扑图的对数似然之和,结果为-276.275,与初始拓扑图相比,改进后提高了对数似然之和.
相较于以往的贝叶斯方法需要进行大量的数值计算以对流域污染状况进行模拟,本方法能够在几秒钟的时间内完成网络推理,因此较为高效.
图8 靠山南楼站水质为V类时杨家崴子站水质等级概率
当刘珍屯站水质为V类水时,砖瓦窑桥站水质为IV或V类的概率为75%(图9),而烟筒山站、官厅桥站对应的概率分别为12%、16%.
图9 刘珍屯站水质为V类时砖瓦窑桥站水质等级概率
对于靠山大桥站计算与新立城大坝站水质等级相同的概率为30%.此数据可用来量化上游监测点对下游监测点的污染贡献的大小.
3.1 构建了基于贝叶斯网络的流域污染源识别方法,将其应用于饮马河流域的实际案例中.结果表明,氨氮对水质等级的影响最大,其对应与水质之间的互信息值为1.05.
3.2 将杨家崴子、新立城大坝、烟筒山三个断面的污染源分别作为靠山南楼、靠山大桥、刘珍屯的污染源时,贝叶斯网络的拓扑图对数似然最大,为-276.275.靠山南楼有63%的污染来源于杨家崴子,靠山大桥有30%的污染来源于新立城大坝,刘珍屯有75%的污染来源于砖瓦窑桥.因此在饮马河流域的水污染治理过程中,应该重点关注杨家崴子、新立城大坝、烟筒山三个断面周围的污染源.当下游发生水污染问题时,此三个断面应当承担更多的责任.
[1] 张 晓.中国水污染趋势与治理制度 [J]. 中国软科学, 2014,286(10): 11-24.
Zhang X. Trend of the governance system of water pollution in China [J]. China Soft Science, 2014,286(10):11-24.
[2] 孙滔滔,赵 鑫,尹魁浩,等.水环境风险源识别和评估研究进展综述 [J]. 中国水利, 2018,(15):41-44.
Sun T T, Zhao X, Yin K H, et al. Review on study progress of identification and evaluation of water environment risk sources [J]. China Water Resources, 2018,(15):41-44.
[3] 虢清伟,邴永鑫,陈思莉,等.我国突发环境事件演变态势、应对经验及防控建议 [J]. 环境工程学报, 2021,15(7):2223-2232.
Guo Q W, Bing Y X, Chen S L, et al. Pattern of evolution, experience of response, and suggestions of prevention and control of environmental emergencies in China based on typical case studies [J]. Chinese Journal of Environmental Engineering, 2021,15(7):2223-2232.
[4] Zhu Yinying, Chen Zhi, Asif Zunaira. Identification of point source emission in river pollution incidents based on Bayesian inference and genetic algorithm: Inverse modeling, sensitivity, and uncertainty analysis [J]. Environmental Pollution, 2021,(8):117497.
[5] 陈正侠,丁 一,毛旭辉,等.基于水环境模型和数据库的潮汐河网突发水污染事件溯源 [J]. 清华大学学报(自然科学版), 2017,57(11): 1170-1178.
Chen Z X, Ding Y, Mao X H, et al. Source identification of accidental water pollution in a tidal river network based on a water environment model and database [J]. Journal of Tsinghua University (Science and Technology), 2017,57(11):1170-1178.
[6] 孟志龙,杨永刚,秦作栋,等.汾河下游流域水体硝酸盐污染过程同位素示踪 [J]. 中国环境科学, 2017,37(3):1066-1072.
Meng Z L, Yang Y G, Qin Z D, et al. Isotopic tracing for nitrate pollution process of water body in the lower reaches of Fenhe River [J]. China Environmental Science, 2017,37(3):1066-1072.
[7] Jiang D X, Zhu H, Wang P, et al. Inverse identification of pollution source release information for surface river chemical spills using a hybrid optimization model [J]. Journal of Environmental Management, 2021,doi:10.1016/j.jenvman.2021.113022.
[8] 许晓彤,陶月赞,席道瑛.用地质统计学方法评价点污染源对河流水质的影响 [J]. 水资源保护, 2005,(4):42-46.
Tao Y Z, Xi D Y. Geostatistical method for evaluating the influence of point pollution source on river water quality [J]. Water Resources Protection, 2005,(4):42-46.
[9] 沈一凡.河流突发污染事故溯源关键技术研究 [D]. 杭州:浙江大学, 2016.
Shen Y F. Research on the key techniques of locating the source of pollution emergency occurred in river channel [D]. Hangzhou: Zhejiang University, 2016.
[10] 杨海东,肖 宜,王卓民,等.突发性水污染事件溯源方法 [J]. 水科学进展, 2014,25(1):122-129.
Yang H D, Xiao Y, Wang Z M, et al. On source identification method for sudden water pollution accidents [J]. Advances in Water Science, 2014,25(1):122-129.
[11] 刘晓东,王 珏.地表水污染源识别方法研究进展 [J]. 水科学进展, 2020,31(2):302-311.
Liu X D, Wang J. Advances in methods for identifying surface water pollution sources [J]. Advances in Water Science, 2020,31(2):302-311.
[12] 张 鹤.辽河流域控制单元划分与典型污染物识别 [D]. 沈阳:辽宁大学, 2011.
Zhang H. Division of control units and identification of typical contaminants in Liao River Basin [D]. Shenyang:Liaoning University, 2011.
[13] 范雪莉,冯海泓,原 猛.基于互信息的主成分分析特征选择算法 [J]. 控制与决策, 2013,28(6):915-919.
Fan X L, Feng H H, Yuan M. PCA based on mutual information for feature selection [J]. Control and Decision, 2013,28(6):915-919.
[14] GB 3838-2002 地表水环境质量标准[S].
GB 3838-2002 Environmental quality standards for surface water [S].
[15] 朱 军,胡文波.贝叶斯机器学习前沿进展综述 [J]. 计算机研究与发展, 2015,52(1):16-26.
Zhu J, Hu W B. Recent advances in Bayesian machine learning [J]. Journal of Computer Research and Development, 2015,52(1):16-26.
[16] 曹若馨,曾维华,李 晴,等.基于贝叶斯公式的不确定性水环境容量研究——以北运河为例[J]. 中国环境科学, 2021,41(2):743-754.
Cao R X, Zeng W H, Li Q, et al. Uncertain water environmental capacity based on Bayesian formula———taking Beiyunhe River as exmple [J]. China Environmental Science, 2021,41(2):743-754.
[17] 黄影平.贝叶斯网络发展及其应用综述 [J]. 北京理工大学学报, 2013,33(12):1211-1219.
Huang Y P. Survey on Bayesian network development and application [J]. Transactions of Beijing Institute of Technology, 2013,33(12): 1211-1219.
[18] 李东亮,许 伟,吴 迪,等.贝叶斯网络结构学习优化方法研究 [J]. 海军工程大学学报, 2019,1(6):61-64.
Li D L, Xu W, Wu D, et al. On learning method of Bayesian network structure [J]. Journal of Naval University of Engineering, 2019,31(6): 61-64.
[19] 黄解军,万幼川,潘和平.贝叶斯网络结构学习及其应用研究 [J]. 武汉大学学报(信息科学版), 2004,(4):315-318.
Huang J J, Wan Y C, Pan H P. Bayesian network structure learning and its applications [J]. Geomatics and Information Science of Wuhan University, 2004,(4):315-318.
[20] 李 俊,盛 晟,柏海霞,等.饮马河流域长春段污染现状与水环境负荷演变特征 [J]. 四川环境, 2021,40(1):127-135.
Zhang J, Sheng S, Bai H X, et al. Current situation of water environmental pollution and water environment load evolution in Changchun section of Yinma River Basin [J]. Sichuan Environment, 2021,40(1):127-135.
[21] 杨 猛.吉林省松花江流域水质变化趋势及对策研究 [D]. 长春:吉林大学, 2019.
Yang M. Current situation of prevention and control of water pollution in Songhua River Basin in Jilin Province [D]. Changchun: Jilin University, 2019.
Water environmental risk tracing based on the combination of Bayesian network topology:A case study of Yinma River Basin.
WANG Ze-zheng1,2, ZHANG Shuai3, WANG Li-min3, ZHANG Wen-jing1,2*, DU Shang-hai1,2
(1.Key Laboratory of Groundwater Resources and Environment ,Ministry of Education, Jilin University, Changchun 130021, China;2.College of New Energy and Environment, Jilin University, Changchun 130021, China;3.School of Computer Science, Jilin University, Changchun 130021, China)., 2022,42(5):2299~2304
In order to solve the problems of unclear pollution sources and difficult to quantify pollution contribution in the process of watershed water environment risk diagnosis, an accountability quantification method of pollution sources based on the combination of Bayesian network topology and heuristic search algorithm was proposed in this paper. The method can accurately identify typical pollutants in watershed water environment according to the quantitative evaluation of mutual information. In addition, Bayesian network topology analysis and heuristic search algorithm can quickly identify typical pollutant sources and their pollution contributions in the watershed. In this study, the monitoring data of Drinking Horse River Basin in Jilin Province from 2017 to 2020 were selected for the water quality analysis. Ammonia was a typical pollutant in the watershed; the three sections of Khao San Nan Lou, Khao San Bridge and Liu Zhen Tun were polluted by Yang Jia Weizi, Xin Li Cheng Dam and Zhuang Wa Yao Bridge respectively. 63% of the pollution in Khao San Lou came from Yangjia Weizi, 30% of the pollution in Khao San Qiao came from Xinlizheng Dam, and 75% of the pollution in Liu Zhen Tun came from Brick Wayao Bridge. This assessment method can be constructed to provide strong technical support for the tracing of water environment risk and pollution responsibility determination in the basin.
water pollution;risk traceability;mutual information;Bayesian network;heuristic search;yinma river basin
X522
A
1000-6923(2022)05-2299-06
王泽正(1999-),男,山东德州人,吉林大学硕士研究生,主要从事水环境风险溯源研究.
2021-09-22
国家重点研发计划项目(2019YFC1804804)
* 责任作者, 教授, zhangwenjing80@hotmail.com