马春龙,施小清,许伟伟,任静华,王 佩,吴吉春
(1.表生地球化学教育部重点实验室/南京大学地球科学与工程学院,江苏 南京 210023;2.自然资源部国土(耕地)生态监测与修复工程技术创新中心/江苏省地质调查研究院,江苏 南京 210018;3.常州市环境科学研究院,江苏 常州 213022)
随着城市化进程加快以及产业结构调整,我国大批企业关停或搬迁,遗留下来的工业污染场地(即棕地)超过50多万块[1]。由于棕地具有污染程度重、污染物组成复杂、土壤和地下水均受到污染等特点[2],对居民食品安全、饮用水安全、生态环境、人居环境健康、经济社会可持续发展造成了严重威胁与挑战[1,3−4]。因此,亟待开展污染场地的调查评估、风险管控和修复。
为进行场地污染风险管控和修复,首先需要开展场地土壤和地下水的污染状况调查。完成第一阶段场地污染状况调查后,在第二阶段调查中需采集场地样本,初步采样分析和详细采样分析中将获得大量包含土壤和地下水的污染数据。数据样本数量大,监测项目多,数据结构复杂,其中隐含着大量的特征信息、关系信息以及分类信息,例如污染物在地下水和土壤两种介质中存在何种关联性,能否通过大数据分析进行场地污染源追溯。如何采取有效方法从大数据中提取价值信息成为一个重要的研究问题[5-6]。
受人力、物力以及财力的限制,无法对污染场地取大量样品并对所有指标逐一测试分析,如何在不影响污染场地客观评价的条件下,尽可能减少需检测的污染指标数目,降低场地检测费用,也是一个值得研究的问题。
目前,众多多变量方法已被应用于污染场地数据分析,如主成分分析(PCA)、因子分析(FA)、判别分析(DA),层次聚类分析(HCA)等[7-11],以此减小或消除数据中的冗余。然而由于污染数据本身的复杂性,应用传统数据分析方法存在较大局限性[12]。传统数据分析方法,如主成分分析,无法处理复杂的大数据集[13],在污染样本数和检测指标数较多的情况下,可能无法满足使用该方法的前提条件,即前三个主成分累积方差贡献达不到70%[14]。另一方面,传统多变量分析方法一般是线性方法,当数据结构不满足线性条件时,分析结果具有迷惑性,可能不准确[15]。
随着计算能力的提高,神经网络算法开始被应用于各种数据挖掘任务,自组织映射神经网络(selforganizingmap,SOM)便是其中之一。SOM是一种无监督人工神经网络,由于对大数据集有优秀的处理和解释能力[16-17],近些年被逐渐应用于各类环境监测项目产生的多变量数据处理,如水文过程的预测、地表和地下水水质评估、地表水和地下水的时空相关关系、生态群落的研究等[12,18−25],但在场地污染数据分析中的应用很少。SOM与传统多变量分析方法都可用于数据降维,从数据中提取主要特征。但对于缺失数据、离散或复杂的数据类型,传统多变量分析方法具有局限性,例如只能通过线性插值或须剔除存在缺失值的变量,处理文本标签数据时存在低效的问题。而SOM是一种基于无监督的机器学习算法,一方面由于具备自学习特性,可以更好地构建输入和输出之间的关联模式[26]。SOM允许缺失值的存在,无需删除或插值,可最大程度保留原始数据特征。另一方面,由于SOM是一种非线性映射方法,可直接处理非线性数据[13,27−28]。
本文采用自组织映射神经网络以及机器学习和模式识别领域常用的K均值聚类算法,通过对地下水和土壤中污染指标的相关性分析和聚类分析,尝试减少数据冗余,削减污染场地后续检测中的污染指标数目,以此降低场地检测费用。同时,本文还对污染物在地下水-土壤系统中的相关性进行了分析探讨。本文提出的数据挖掘框架可为污染场地数据分析和决策管理提供技术支持。
研究区污染地块位于江苏省某工业区(图1),面积约1 km2。20世纪70年代开始有多家化工企业在此设厂,至2009年全部停产搬迁。地块内企业主要产品有农药原药及制剂、农药中间体、化工中间体、甲萘胺、工业级甲萘酚、染料及染料中间体等。由于长期以来粗放的环境安全管理模式、无序的工业废水排放或泄漏导致污染物进入土壤和地下水中,成为有机污染场地,该场地污染类型多样,污染状况复杂。
图1 研究区及采样点分布Fig.1 Study area and distribution of sampling sites
场地地貌类型属长江三角洲冲积平原,整体地势平坦,地表高程约5m,出露第四系冲积层,自上而下主要存在四个含水层,即孔隙潜水含水层和Ⅰ、Ⅱ、Ⅲ承压含水层。潜水含水层主要由浅部填土和黏土、亚黏土组成。底板埋深6.0~8.0m,潜水水位埋深1.50m左右,富水性差。Ⅰ承压含水层分为上下两段,上段由粉砂、亚砂土组成,顶板埋深4.0~15.0m,厚度2 ~20m,水位埋深3~5m,具有微承压性质,富水性较好;下段由粉细砂组成,顶板埋深25~35m,厚度2~13m,富水性一般。图2为图1中A-A’水文地质剖面,研究区地块30m内自上而下主要组成为填土、黏土、亚黏土、粉砂、亚黏土。
污染地块内的土壤和地下水样品采集点见图1。土壤和地下水采样按规范和技术导则[29−32]执行。
图2 A-A’水文地质剖面Fig.2 Hydrogeological profile of long Line A-A’
场地的土壤样品采集,分为表层土壤和下层土壤采集。表层土壤样品采集时,用取样铲适当刨去裸露在空气中的表面土后,再用取样铲取土,装入专用密实袋。下层土壤采用钻机钻取土样,达到规定深度后,拔出钻杆取出土样,采集人员戴一次性的无污染橡胶手套,根据取样深度和个数要求取得所需深度的土样,装入密实袋。表层土壤,5m以内每隔0.5m采集一个土壤样品,5~10m每隔1m采集一个土壤样品,下层土壤,10~30m每隔2m采一个土壤样品。不同深度采集土壤样本总计753个。
在地下水监测井疏浚稳定24 h后,进行地下水采样。水样采集后,迅速装入带有保护剂的专用样品瓶中,并保存在装有冰袋的冷藏箱中,最大程度地避免样品间交叉污染。在距地表15m处(Ⅰ承压含水层上部,微承压)共采集地下水样本167个。
本文采用自组织映射神经网络结合K均值聚类算法对污染指标进行相关性分析和聚类分析。
自组织映射(self-organizingmap,SOM)是一种竞争学习型的无监督神经网络(图3),由芬兰学者Kohonen[23]提出。其使用无监督训练将高维输入数据映射到低维空间,同时保留输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到二维输出层中的邻近神经元,因此被广泛应用于数据降维[26]。
图3 自组织神经网络结构图[26]Fig.3 Structure of the self-organizing map
SOM网络中的输出层神经元以矩阵方式排列在二维空间中,每个神经元具有与之相连接的权向量,在接收到一个训练样本后,每个输出层神经元会计算该样本与自身携带的权向量间的距离,距离最近的神经元成为竞争获胜者,称为最佳匹配单元(bestmatching unit,BMU)。然后,最佳匹配单元及其邻近神经元的权向量将被重新调整,以缩小权向量与当前样本的距离。此过程不断迭代,直至收敛。
在获得自组织映射结果之前,需要设置输出神经元的数量,根据文献[12,21],神经元数量最优设置为为样本数量。
本研究采用赫尔辛基理工大学Vesanto等[29]开发的SOM工具箱在MATLAB中计算。
K均值算法(k-means clustering)是流行于数据挖掘领域的聚类算法。其步骤是预先随机选取K个对象作为初始聚类中心,随后计算每个对象与各个聚类中心的距离,将每个对象分配到最近的聚类中心,聚类中心及其分配的对象代表一个聚类。一旦全部对象完成分配,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。此过程不断重复直至聚类中心不再变化[33]。K均值聚类算法的具体实现过程详见文献[34],此处不再赘述。
表1为SOM输入数据统计特征(已剔除浓度低于检测限的指标和无机监测指标),根据地下水质量标准(GB/T 14 848—2017)中IV类水标准,该场地地下水中主要有机污染物为邻二甲苯、氯苯、四氯化碳、1,2-二氯乙烷、间二甲苯和对二甲苯、三氯甲烷、乙苯以及二氯苯。
按相似度对SOM输出图重排序(图4),每种污染物对应一种映射图,其中的颜色梯度可用来识别污染指标间的相关性,相同或相似颜色梯度指示正相关性,相似程度越高,相关性越强[12,21−22]。由此可知,1,3-二氯苯、1,4-二氯苯、1,2-二氯苯、1,2,3-三氯苯、2,4-二氯酚、2,6-二氯酚,溴苯间存在较强的相关性;三氯甲烷(氯仿)、锰、甲苯、乙苯、二甲苯、砷、二硫化碳、1,3,5-三甲苯、异丙基苯、苯、苯酚、4-氯甲苯、丙酮、4-甲基-2-戊酮、1-萘胺存在良好相关性;以及四氯化碳、三氯乙烯、四氯乙烯相关性极好,氯苯、1,2-二氯乙烷、2-氯甲苯间也存在较好相关性。
表1 地下水中污染物数据统计特征Table 1 Statistical characteristics of pollutant data in groundwater
在SOM映射结果基础上,进一步结合K均值算法,得到如图5所示的聚类结果。污染指标被分为4类,根据图3污染指标映射图,可将聚类与具体污染指标一一对应。
第一类(Cluster-1)包含绝大部分样本点,相关指标包括氯苯、1,2-二氯乙烷等,说明第一类中的污染物空间分布范围最为广泛。第二类(Cluster-2)包含1,2,4-三氯苯、1,4-二氯苯、1,2-二氯苯等8个指标,第三类(Cluster-3)包含邻二甲苯、间二甲苯和对二甲苯、甲苯、乙苯、三氯甲烷等。第四类(Cluster-4)为三氯乙烯、四氯乙烯和四氯化碳。
图4 地下水中污染物指标SOM映射图Fig.4 Component planes for the pollution indicators analyzed in the SOM of groundwater
由相关性和聚类结果可知,除个别污染物外,该场地中绝大部分污染物均存在与之相关的污染指标。相当的正相关性说明场地污染物可能具有相似的来源特征,如工业中常用三氯乙烯制备四氯乙烯和四氯化碳,故三者有良好的相关性,同时其在环境介质中可能存在相似的生物化学降解以及迁移扩散途径等行为特征。
图5 SOM-K均值聚类结果(根据SOM映射图可将污染物与聚类一一对应)Fig.5 Sampling sites clustering patterns in SOM-K means(according to the SOM map,the pollutants can be one-to-one corresponded to the cluster)
进一步分析,发现其相关性主要表现在空间分布的相似性,图6为不同聚类污染物空间分布特征。从中可知,从属于同一聚类的污染物,其浓度空间分布具有高度相似性,有基本一致的高值区。据此本文提出在场地污染物后续检测中可根据相关性的不同,对污染指标施行先分类后分级的筛选策略,即将同一类(相关性强)中的污染指标根据超标倍数或环境风险进行分级检测,在同一聚类中筛选少数污染指标,总体上达到削减检测费用的目标。表2为根据SOMK均值聚类以及《地下水质量标准》(GB/T 14848—2017)进行的污染物优化筛选结果,本文根据超标倍数在Cluster-1—Cluster-4类中分别选择氯苯,1,4-二氯苯,邻二甲苯和四氯化碳。
由于污染场地通常需要采样分析大量指标,本文提出的方法可能有助于减少场地检测费用。
图6 同一聚类的污染物表现出相似的空间分布特征(取样深度15 m)Fig.6 The pollutants in the same cluster showed similar spatial distribution characteristics(groundwater samples at depth 15 m)
为探究污染物在地下水和土壤中的相关性,本文采取相同及邻近监测点,考虑到污染物先进入土壤后进入地下水,将15m处的地下水水质数据和8~15m处的土壤数据(土壤采样点高于地下水)进行综合分析。表3为土壤和地下水中部分污染物的统计特征。图7为经SOM训练输出的自组织映射图,根据前文,映射图颜色梯度相似度指示污染指标相关性。由图7及土壤和地下水中污染物相关系数矩阵(图8)可知,除个别污染物如二甲苯外,同种有机污染物在土壤和地下水中具有较高相关性,不同污染物如苯、甲苯、三氯甲烷、异丙基苯在土壤和地下水两种介质中也存在较好相关性。
地下水和土壤中污染物的相关性表现在空间分布特征的相似性,以四氯化碳、氯苯、三氯甲烷(氯仿)为例,由图9可知,3种污染物在地下水和土壤中浓度高值区一致,地下水和土壤中污染物关系密切,其原因可能是该地块低渗介质分布广泛,同时场地地下水水力坡度很小导致地下水渗流速度缓慢,污染物未能发生较大规模的侧向迁移,地下水中污染物主要来自于化工厂污废水排泄以及污染物在土壤中的持续释放。少数监测位点差别较大,三氯甲烷和氯苯在个别监测点土壤中浓度高,而地下水中浓度低(图9),可能原因为该区域黏土层较厚(图2),大部分污染物仍滞留在土壤中。
表2 地下水中污染物聚类分级优化筛选结果Table 2 Clustering optimization results of pollutants in groundwater
(1)对于有机污染场地,基于自组织映射神经网络结合聚类算法的大数据分析框架,发现地下水中除个别污染物以外,多个污染指标之间存在良好关联性,表现显著聚类特征,同一聚类中污染物浓度空间分布具有高度相似性。对于该污染场地的后续检测中可根据相关性在同一聚类中只检测少量关键指标,即氯苯,1,4-二氯苯,邻二甲苯和四氯化碳,既使场地检测有的放矢,又减少检测费用。
(2)对于该污染场地,由于地下水流速缓慢,相同有机污染物在两种不同环境介质中存在较强相关性,不同污染物如苯、甲苯、三氯甲烷、异丙基苯在土壤和地下水两种介质中存在较好相关性,表现为空间分布的一致性,该结果可能有助于场地污染源的追溯。
(3)本次研究未对深层地下水采样分析,也未在不同时间段进行采样,因此土壤和地下水检测数据的相关性分析时,未考虑在污染物浓度垂向不同深度的变异性以及随时间的变化过程,这是本研究的不足之处。另外,污染物在土壤和地下水两种环境介质中的良好相关性,后续需要更多地球化学和生物证据佐证说明污染物相似的来源特征。
表3 地下水和土壤数据统计特征Table 3 Statistical characteristics of groundwater and soil data
图7 土壤和地下水中的污染物SOM映射结果Fig.7 Component planes for the pollution indicators analyzed in the SOM of groundwater and soil
图8 土壤和地下水中污染物相关系数矩阵Fig.8 Correlation coefficient matrix of pollutants in soil and groundwater
图9 四氯化碳、氯苯、三氯甲烷在地下水和土壤中的空间分布情况对比Fig.9 Comparison of the spatial distribution of carbon tetrachloride,chlorobenzene and chloroform in groundwater and soil