李晓婷,刘勇,王平
山西大学黄土高原研究所,山西 太原 030006
基于支持向量机的城市土壤重金属污染评价
李晓婷,刘勇*,王平
山西大学黄土高原研究所,山西 太原 030006
以太原市城区周边的80个土壤样品为研究对象,测定了土壤中Ni、Cr、As、Cu、Zn、Pb、Cd和Hg8种重金属的含量,运用支持向量机模型进行土壤重金属污染评价,并与 Hakanson指数法和内梅罗综合污染指数法的评价结果进行对比,探讨支持向量机模型在土壤重金属污染评价中的应用。结果表明,(1)重金属元素的变异系数由高到低顺序分别为:Hg>Pb>As>Cd>Cu>Ni>Zn>Cr。Hg含量在0.02~0.39 mg·kg-1之间,变异系数为0.648,最大值为最小值的19.5倍;而土壤中Pb的含量在17.4~86 mg·kg-1之间,变异系数为0.409;即使变异系数最小的Cr元素的最大值为109 mg·kg-1,最小值为54.7 mg·kg-1,变化范围也到达了54.3 mg·kg-1,可见太原市土壤中各元素含量的变异很大。各元素的含量的平均值除Ni以外均大于太原市的元素背景值,但都在国家土壤质量质量标准的二级标准值之下。(2)内梅罗综合污染指数法、Hakanson指数法和支持向量机的评价结果中,评价等级为2A、2B、2C的样品数分别为:41、47和45,37、29和33,2、4和2,评价结果相差不大,内梅罗综合污染指数法与支持向量机方法的评价结果相同率为70%,Hakanson指数法和支持向量机的评价结果相同率为 65%。(3)对评价结果有差异的样品进一步分析可知,支持向量机方法的评价结果更为准确。相比较内梅罗综合污染指数法和Hakanson指数法而言,支持向量机降低了人的主观判断对评价结果的影响,在进行综合评价的时候能考虑到各因素的综合影响,使评价结果更接近真实情况,有较为严格的数学基础,泛化能力好,在土壤重金属污染评价中有广泛的应用前景。
土壤重金属;Hakanson指数法;内梅罗综合污染指数法;支持向量机
由于城市的迅速扩张,由其产生的人口压力、交通压力和经济压力也越来越大,在解决这些矛盾的同时,对环境造成的影响也越来越大,严重影响了当地人们的生产生活和社会发展(郑海龙等,2006;闫宝环等,2012;宋姻先,2001)。对水和大气污染的研究已经相当成熟,但是对土壤污染的研究还有待深入。到目前为止对土壤污染主要从评价方法、影响因子、存在形态等方面进行研究(范拴喜,2010;吴呈显,2013;李飞,2012)。
土壤重金属污染评价的研究方法有很多,孟宪林等(孟宪林等,2011)运用改进的层次分析法对土壤重金属污染进行了评价,并与层次分析法和模糊综合评价法对比,表明改进的层次分析法与其它方法相比,结果更为合理;易昊旻等(易昊旻等,2013)用基于正态模糊数的区域土壤重金属污染综合评价方法对江苏省T市的土壤重金属污染进行了评价;石平等(石平等,2010)对潜在生态危害指数、地积累指数法2种方法在土壤重金属污染评价中的应用进行研究;谢婧等(谢婧等,2010)将深圳市农林地分为4种不同的用地类型,并对其土壤重金属现状用内梅罗综合污染指数法和单因子指数法进行评价。
但是这些方法都有一定的缺点,如受主观因素的影响较大,计算过程较为复杂,过于偏重某一元素或各元素的危害权重不易确定,对各元素的综合危害程度不能准确度量等。目前国内外研究的新方向是采用机器学习方法进行土壤评价(沈掌泉,2004)。机器学习方法具有超强的容错和容差能力,可以有效消除人为和外界干扰,并且在实现的时候操作简单,速度比较快,具有很强的实用性。支持向量机(Support vector machine,简称SVM)具有严格的数学基础,并且在小样本的条件下,泛化能力较强,与已有的统计方法相比,几乎不运用任何的概率和大数定律等数学理论。从本质上看,支持向量机不是按照传统的归纳总结的方法得到结果,而是运用转导理论,将分类和回归问题尽量简化。支持向量机在综合评价中已经有较多的应用,如王晓光等(王晓光等,2012)将支持向量机运用于对给水管网的水质质量评价中;刘德地等(刘德地等,2008)运用支持向量机对洪水灾情进行综合评价,并与其他方法进行比较发现,该方法适合于综合评价,相比其他方法有一定的优势;陈末等(陈末等,2013)用支持向量机对吉林西部的地下水水质进行评价;张成成等(张成成等,2013)用SVM和SCO 2种评价方法对太湖的富营养化进行评价,评价结果表明SVM方法在综合评价中是适用的,综上可知,支持向量机在综合评价中有实现过程简单、评价结果更加客观等优点。
文在对太原市城区周边布点采样、分析测定重金属含量的基础上,对土壤重金属含量水平进行了统计分析,并采用内梅罗综合污染指数、Hakanson指数和SVM 3种方法对土壤重金属污染进行了评价,对评价结果进行比较,以期找出其中更为准确的评价方法,同时,评价结果也为当地治理重金属污染提供科学依据。
太原市是山西省省会,也是我国重要的能源重工业基地之一,市区东、西、北三面为山脉,汾河自北而南贯穿全市,中部地区为平原,太原市从东到西的最长距离约为 144 km,南北的最大距离为107 km,南面较宽,北面较窄,形成扇形盆地。
太原市的主要经济来源为重化工企业,城市西部、北部和东部分布有许多煤炭企业和化工、钢铁企业,南部沿汾河灌区分布有较多农田,受城市化和工业化的影响,工业三废以各种方式渗入土壤,使土壤中污染物增加。南部大部分农田由污水灌溉,污水中的重金属元素等污染物滞留在土壤,形成土壤污染。
太原市区分为杏花岭区、迎泽区、小店区、尖草坪区、万柏林区和晋源区6个区。本文以太原市尖草坪区、晋源区和小店区为主要研究区域,对城市周边不同土地利用类型的土地进行采样。土地利用类型以农田、蔬菜、林地和草地为主,该地区农田大量种植的是玉米,蔬菜地种植有白菜、豆角等。研究区域采样点分布见图1。
2.1 采样设计
样点主要设置在太原市尖草坪区汾河灌区、化工企业较多的晋源区以及污灌较多的小店区,3个行政区的总面积约为867 km2。其中尖草坪区采样点位于汾河灌区,其农田主要是从汾河引水灌溉;晋源区采样点位于重化工企业分布较多的区域,土地利用类型以林地、草地和耕地为主;小店区采样点以农田为主,农田多以太榆退水渠的污水进行灌溉。
2.2 样品采集
按照采样设计,采样时结合土地利用现状、交通状况和污染源的情况具体,沿着一定的线路,按照“随机”、“等量”和“多点混合”的原则进行采样。采用梅花形形布点采样,避开路边、田埂、沟边、肥堆等特殊部位,用GPS定位后,采集10个点0~20 cm的表层土,混合均匀后用四分法得到土壤样品,即为该采样点的样品,共采集样品 80个,分布如图1所示。土样经登记编号后,用聚氯乙稀塑料袋封装,在实验室自然风干后,提出杂质,研磨,过200目筛、混匀后待测。
2.3 样品测定
土壤重金属元素包括了Cu、Zn、Pb、Cr、Ni、Cd、As和Hg共8种。其中Cu、Zn、Pb、Cr、Ni5种重金属元素采用日本生产的以流气式气体正比计数器(F-PC)作为探测器的ZSX PrimusⅡ型X射线荧光光谱仪测定;Cd元素的含量测定使用的是常用的采用石墨炉原子吸收分光光度法;As、Hg元素含量的测定则使用由北京地质仪生产的灵敏度和重现性都比较好的 XDY-2A型双道原子荧光光度计,检测方法为还原气化-原子荧光光谱法。山西省国土资源检测中心对80个样本的8种重金属元素含量进行了测定,并且通过实验得到该检验方法的检出限、精密度如表1所示(陈素兰等,2006;齐文启等,2004;卓尚军等,2003)。
2.4 评价标准
本文利用SVM进行土壤重金属污染评价的标准是参考国家土壤质量标准GB 15618─2008,以及山西省的土壤元素背景值确定。由于分类结果中,大部分的土壤都属于国家土壤质量标准的二级水平,不能准确反映当地土壤重金属污染的实际情况,因此,为了能更好地表征太原市 80个采样点的土壤污染程度差异,本次评价标准参考了国家土壤质量标准的二级标准,同时结合山西省土壤元素背景值、本次测定的最大最小值,将评价结果分为3个级别,这3个级别基本都落在了国家土壤质量标准的二级范围内,分别用2A、2B、2C来表示污染从轻到重,具体的指标标准见表2。
图1 研究区采样点分布图Fig. 1 Sampling location in research area
表1 土壤重金属元素分析检出限和精密度Table 1 The detection limits and precision of test methods
3.1 传统评价方法介绍
单因子指数法作为一种传统的评价方法,在很多方面的应用都很成熟(宋静宜等,2013)。但是单因子指数法只适用于对单种元素污染的研究,不能综合体现土壤重金属污染程度。因此,本文选用内梅罗综合污染指数和Hakanson指数2种方法对8种重金属污染水平进行评价。内梅罗综合污染指数法的表达式为:
其中,Pi为综合污染指数,(Ci/Si)max为各重金属元素污染指数中的最大值,(Ci/Si)av为各重金属元素污染指数的算数平均值,Ci为各重金属元素的实测值,Si为各重金属元素的参照值,本文采用山西省土壤元素背景值作为参照值。将表2中各元素2A、2B、2C的评价标准值代入到公式(1)中,得到基于内梅罗综合污染指数的评价分级,如表 3所示。
Hakanson指数法计算过程简单,考虑各污染因子的危害程度给予权重,更能真实地反映实际污染情况(时亚坤等,2012;郑立保等,2013)。Hakanson指数法具体实现的方法如下:
表2 土壤重金属污染评价标准Table 2 The criterion of soil heavy metal pollution mg·kg-1
表3 内梅罗综合污染指数和评价分级Table 3 The classification of Nemerrow comprehensive pollution index results
表4 潜在生态危害指数和评价分级Table 4 The classification of Hakanson index results
3.2 支持向量机
支持向量机(SVM)模型是在1995年由Vapnik等人提出来的一种针对线性不可分问题的机器学习方法,其数学原理与其他机器学习方法相比较为严格,主要的数学原理是VC维理论和结构风险最小原理,该方法在有限的样本的信息下能做到在较高的学习精度同时,学习能力较好,以达到最好的推广能力。SVM方法经过核函数的运算,将低维空间上不可分的变量转换到高维空间上,进而求取最优分类超平面,对其进行分类。在二维空间中线性可分的时候,不仅只是将样本无误分类,同时做到2类的分类间隔最大的直线,做到以上2点才能使经验风险和置信风险同时达到最小,从而使分类达到准确,在SVM中被称作最优分类线,如图2所示。而在高维空间中,想要达到准确分类,则需要找出最优分类面。而与最优分类线也即最优分类超平面相平行的线或者面上,有一些样点,这些样点即为支持向量,如图3所示。
图2 最优分类超平面Fig. 2 Optimal separating hyperplane
图3 最大距离的支持向量Fig. 3 Support vectors with maximum margin
在本文中的具体实现过程如下:
(1)在Matlab中根据评价标准,插值得到训练和测试样本。
(2)用训练样本在Matlab中进行训练,在训练过程中要用用交叉验证的方法选择惩罚参数c和核函数g,并拿测试样本对已经训练好的SVM模型的精确度进行检测。支持向量机在实现时做到了训练样本与测试样本的随机性与不相关性,所以其具有更加严格的数学基础。
(3)当模型的精确度达到最高时,对实测数据用训练好的模型进行分类。
4.1 统计结果分析
80个样点的土壤重金属元素的含量经统计分析后,结果如表5所示。从表5可以看到,重金属元素的变异系数由高到低顺序分别为:Hg>Pb>As>Cd>Cu>Ni>Zn>Cr。Hg含量在0.02~0.39 mg·kg-1之间,变异系数为0.648,最大值为最小值的19.5倍;而土壤中Pb的含量在17.4~86 mg·kg-1之间,变异系数为0.409;即使变异系数最小的Cr元素的最大值为 109 mg·kg-1,最小值为 54.7 mg·kg-1,变化范围也到达了54.3 mg·kg-1,可见太原市土壤中各元素含量的变异很大。将其平均值和山西省土壤元素背景值相比,除 Ni元素的含量稍低于背景值以外,其他元素含量平均值均大于背景值,但是均小于国家 2008年土壤质量标准的二级标准,可见太原市的土壤重金属污染水平为轻度-中度污染。
4.2 Hakanson指数法和内梅罗综合污染指数法的评价结果比较
采用 Hakanson指数法和内梅罗综合污染指数法对 80个土壤样点的重金属污染进行评价,结果如图4所示。可知,Hakanson指数法的评价结果为:土壤污染等级为2A有47个,2B有29个,2C有4个。内梅罗综合污染指数法的评价结果为:土壤污染等级为2A有52个,2B有23个,2C有5个。对比2种评价方法,有16个样品的评价结果有差异,进一步对有差异的样品进行分析表明,由于Hakanson指数法将各污染元素的不同的危险指数考虑进去,而内梅罗综合污染指数法只是将各元素简单的加权平均,所以 Hakanson指数法的评价结果更接近实际的污染状况。
图4 内梅罗综合污染指数法和Hankson指数评价结果Fig. 4 The classification results the index of Nemerrow method and Hakanson
表5 土壤元素测定值的统计分析Table 5 Descriptive Statistics of soil elements
图5 参数的优化Fig. 5 The optimization of parameter
4.3 支持向量机的创建及其评价结果
4.3.1 SVM模型的实现过程
(1)根据本文制定的SVM评价标准(表2)在Matlab中进行非线性插值,得到2A,2B,2C 3个等级的土壤样本各200个共计600个。
(2)将插值得到的 600个样本中,每个等级(2A,2B,2C)随机选取80%的样本作为训练样本,其余20%作为测试样本,这样共得到480个训练样本和120个测试样本。对数据进行归一化以后,进行训练和预测。同时筛选支持向量机的惩罚参数 c和核函数参数 g 2个参数,最终得到的参数c=0.000977,g=0.00296,如图5所示。由图6可知120个测试样本的经过SVM分类,结果和实际情况完全相同。
(3)在对600个样本训练和预测的基础上,得到训练好的支持向量机模型,由测试样本的的结果来看,该模型的分类结果的精度达到了 100%。基于已经建立好的模型,对太原市实测的 80个土壤样品进行评价。评价结果如图7所示。结果表明,等级为2A的土壤样品有45个,等级为2B有33个,等级为2C有2个。
4.3.2 支持向量机与传统方法的评价比较
图7 80个土壤样本的评价结果Fig. 7 Evaluation results of 80 Soil samples
图8 三种评价方法评价结果的比较Fig. 8 Results comparison of three evaluation methods
将支持向量机评价结果与2种传统的综合评价法进行比较,结果如图8所示。内梅罗综合污染指数法与SVM的评价结果比较发现,80个土壤样品中,有 24个样品的评价结果不同,结果的相同率达到70%。对于有差异的样品进行分析,其中有8个样品的内梅罗综合污染指数法评价结果更为准确,其余16个样品均是SVM的评价结果较为准确。Hankson指数和SVM的评价结果相比较,其中有28个样品的结果有差异,分析各重金属元素的实际测量值,5个土壤样品的评价结果是Hankson指数的结果比较准确,其余23个样品SVM的评价结果更为准确。
(1)太原市的各重金属变异系数从高到底分别为:Hg>Pb>As>Cd>Cu>Ni>Zn>Cr,Hg和Pb的变异系数较大,分别达到了0.648和0.409,最大值分别是最小值的19.5和4.94倍,即使是变异系数最小的Cr元素的最大值为109 mg·kg-1,最小值为54.7 mg·kg-1,变化范围也到达了54.3 mg·kg-1,可见在太原市土壤中重金属元素的含量空间差异较大。将各重金属元素的平均值与山西省元素背景值进行对比,发现除 Ni以外各重金属元素含量的平均值均介于背景值和国家土壤质量标准的二级标准值之间,太原市的土壤重金属污染程度为轻度-中度。
(2)就3种方法的评价结果对比可见,内梅罗综合污染指数法、Hakanson指数法和SVM的评价结果中 2A、2B、2C的样品数分别为:41、47和45,37、29和33,2、4和2,评价结果相差不是很大,但是具体比较每个样点的评价结果,发现内梅罗综合污染指数法、Hakanson指数法和SVM的评价结果相比分别有22和28个样品的评价结果不同,评价结果的相同率分别达到了 70%和 65%,Hankson指数法因考虑到不同重金属元素对土壤质量的危害程度并赋以相应权重,比内梅罗综合污染指数法更能反映实际污染情况。但与SVM方法相比,这两种方法的准确性和合理性还有所欠缺。SVM 方法泛化能力较好,需要设定的参数相对较少,分类面简单、拟合精度高,且根据需要可以对不一致结果进行分析。
(3)对3种评价方法进行分析发现,支持向量机相比较传统的方法而言,降低了人的主观判断对于结果的影响,评价结果更加符合实际情况。支持向量机有较为严格的数学基础,泛化能力较好,具体实现过程简单,在土壤重金属污染评价中有广泛的应用前景。
Chih-Chung Chang and Chih-Jen Lin. 2011.LIBSVM: a Library for Support Vector Machines. Department of ComputerScience National Taiwan University, Taipei, Taiwan.
Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin. 2010. A Practical Guide to Support Vector Classification. Department of ComputerScience National Taiwan University, Taipei, Taiwan.
T G Sitharam. Pijush Samui P. 2008. Anbazhagan Spatial Variability of Rock Depth in Bangalore Using Geostatistical, Neural Network and Support Vector Machine Models. Geotechnical and Geological Engineering. Volume 26, Issue 5, pp 503-517.
陈末, 卢文喜, 侯泽宇, 等. 2013. 基于支持向量机的吉林西部地下水水质评价[J]. 节水灌溉, 05: 29-33.
陈素兰, 胡冠九, 周春宏, 等. 2006. X射线荧光光谱法测定土壤及底泥中多种元素[J]. 环境监测管理与技术, 18(4): 15-18.
范拴喜, 甘卓亭, 李美娟, 等. 2010. 土壤重金属污染评价方法进展[J].中国农学通报, 26(17): 310-315.
李飞, 黄瑾辉, 曾光明, 等. 2012. 基于三角模糊数和重金属化学形态的土壤重金属污染综合评价模型[J]. 环境科学学报, 32(2): 432-439.
刘德地, 陈晓宏. 2008. 基于支持向量机的洪水灾情综合评价模型[J].长江流域资源与环境, 03: 490-494.
孟宪林, 郭威. 2011. 改进层次分析法在土壤重金属污染评价中的应用[J]. 环境保护科学, 27(103): 34-36.
齐文启, 汪志国. 2004. X射线荧光分析法及其在环境监测中的应用[J].环境监测管理与技术, 16(4): 9-12.
沈掌泉, 周斌, 孔繁胜, 等. 2004. 应用广义回归神经网络进行土壤空间变异研究[J]. 土壤学报, 41(3): 471-475.
石平, 王恩德, 魏忠义, 等. 2010. 青城子铅锌矿区土壤重金属污染评价[J]. 金属矿山, 4: 172-175.
时亚坤, 李凯荣, 闫宝环. 2012. 铜川三里洞煤矿煤矸石风化土壤重金属分布及污染状况分析[J]. 水土保持研究, 01: 187-191.
宋静宜, 傅开道, 苏斌, 等. 2013. 澜沧江水系底沙重金属含量空间分布及其污染评价[J]. 地理学报, 03: 389-397.
宋垠先. 2011. 长江三角洲沉积物和土壤重金属生态地球化学研究[D].南京, 南京大学.
王晓光, 周慧, 张有君. 2012. 支持向量机的给水管网水质综合评价研究[J]. 沈阳理工大学学报, 03: 63-67.
吴呈显. 2013. 农业土壤重金属污染来源解析技术研究[D]. 浙江, 浙江大学.
谢婧, 吴健生, 郑茂坤, 等. 2010. 基于不同土地利用方式的深圳市农用地土壤重金属污染评价[J]. 生态毒理学报, 5(2): 202-207.
徐争启, 倪师军, 庹先国, 等. 2008. 潜在生态危害指数法评价中重金属毒性系数计算[J]. 环境科学与技术, 02: 112-115.
闫宝环, 李凯荣, 时亚坤. 2012. 铜川市三里洞煤矸石堆积地风化土壤重金属污染及植物富集特征. 土壤通报. 32(3): 47-51.
易昊旻, 周生路, 吴绍华, 等. 2013. 基于正态模糊数的区域土壤重金属污染综合评价[J]. 环境科学学报, 33(4): 1127-1134.
张成成, 沈爱春, 张晓晴, 等. 2013. 应用支持向量机评价太湖富营养化状态[J]. 生态学报, 33(23): 7563-7569.
郑海龙, 陈杰, 邓文靖, 等. 2006. 市边缘带土壤重金属空间变异及其污染评价. 土壤学报, 43(1): 39-45.
郑立保, 陈卫平, 焦文涛, 等. 2013. 某铅蓄电池厂土壤中铅的含量分布特征及生态风险[J]. 环境科学, 09: 3669-3674.
卓尚军, 吉昂. 2003. X 射线荧光光谱分析[J]. 分析实验室, 22(3): 102-108.
Assessment of Urban Soil Heavy Metal Pollution Based on Support Vector Machine
LI Xiaoting, LIU Yong*, WANG Ping
Institute of Loess Plateau, Shanxi University, Taiyuan 030006, China
In order to evaluate urban soil heavy metal pollution statement of Taiyuan City, we measured soil nickel(Ni), chromium(Cr), arsenic(As), copper(Cu), zinc(Zn), lead(Pb), chromium(Cd), and mercury(Hg) contents of 80 soil samples around the research area. Moreover, soil heavy metal pollution was assessed using support vector machines (SVM). By comparing to Hakanson index and Nemerow pollution index, we discussed the applicability of support vector machines in soil heavy metal pollution evaluation. Results showed that: (1) The variation coefficient of Hg and Pb were 0.648 and 0.409 respectively. Maximum variation coefficients of Hg and Pb were 19.5 and 4.94 times of the minimum. Contents of Hg and Pb were highly heterogeneous in spatial distribution in Taiyuan. Except Ni element, average contents of each element were higher than their corresponding background values in Taiyuan, but are under the secondary standard value. (2) The evaluation results of Nemerow comprehensive pollution index, Hakanson potential ecological risk index, and SVM methods have no great difference. The evaluation results of Nemerow comprehensive pollution index and SVM was 70% identical. The evaluation results of Hakanson potential ecological risk index and SVM was 65% identical. (3) Further analysis of samples with different evaluation results showed that the evaluation results of SVM were more accurate. Comparing to Nemerow comprehensive pollution index and Hakanson potential ecological risk index, SVM could reduce the impact of man's subjective judgment to the evaluation result. Meanwhile, SVM could produce a more comprehensive evaluation result involving various factors. Evaluation results were closer to the truth. Besides, SVM had more strict mathematical foundation and good generalization ability. It could be widely applied in the evaluation of soil heavy metal pollution.
Soil heavy metal; Hakanson potential ecological risk index; Nemerrow comprehensive pollution index; Support vector machine
X53
:A
:1674-5906(2014)08-1359-07
李晓婷,刘勇,王平. 基于支持向量机的城市土壤重金属污染评价[J]. 生态环境学报, 2014, 23(8): 1359-1365.
LI Xiaoting, LIU Yong, WANG Ping. Assessment of Urban Soil Heavy Metal Pollution Based on Support Vector Machine [J].Ecology and Environmental Sciences, 2014, 23(8): 1359-1365.
国家基金“基于支持向量机的土地生态风险评价研究”(41271513)
李晓婷(1990年生),女,硕士研究生,主要从事区域生态学、土壤污染方面的研究。E-mail: luckablk@163.com
*通讯作者:刘勇(1970年生),男,副教授,主要从事土地生态学、3S技术在资源环境中的应用等研究。E-mail: liuyong@sxu.edu.cn
2014-05-09