基于GA-SVM的土壤重金属污染评价研究

2017-06-19 19:20李国祥王晓飞邓渠成周中华
江西农业学报 2017年6期
关键词:土壤环境向量重金属

尹 娟,李国祥,王晓飞,邓渠成,杨 妮,周中华

(1.广西财经学院 管理科学与工程学院,广西 南宁 530003;2.广西大学 轻工与食品工程学院,广西 南宁 530004;3.广西壮族自治区环境监测中心站,广西 南宁 530028;4.澳大利亚国立大学 克劳福德公共政策学院,澳大利亚 堪培拉 541004;5.北京大学 南宁附属实验学校,广西 南宁 530029)

基于GA-SVM的土壤重金属污染评价研究

尹 娟1,2,李国祥1,王晓飞2,3*,邓渠成4,杨 妮1,周中华5

(1.广西财经学院 管理科学与工程学院,广西 南宁 530003;2.广西大学 轻工与食品工程学院,广西 南宁 530004;3.广西壮族自治区环境监测中心站,广西 南宁 530028;4.澳大利亚国立大学 克劳福德公共政策学院,澳大利亚 堪培拉 541004;5.北京大学 南宁附属实验学校,广西 南宁 530029)

在研究区域采集227个土壤样品,对其Cu、Zn、Pb、Cd和As含量进行测定,并分别应用单因子指数法、GA-SVM 模型和内梅罗综合污染指数法计算、评价了各采样点的土壤环境质量等级。结果表明:GA-SVM模型的最佳惩罚参数C为21.939,RBF核函数的最优参数g为12.995,均方百分比误差MSPE为1.3958,该模型对训练集(150个样本)、测试集的平均分类精度达到97.33%;GA-SVM 模型对77个测试样本的土壤环境质量等级评价结果与单因子指数法的评价结果一致,与内梅罗综合污染指数法评价结果的变化趋势一致。

支持向量机;土壤;重金属;污染;评价

近年来,土壤重金属污染[1]已经危及农业生产[2]及食品安全[3],严重威胁人体健康[4-6]。2014年4月环境保护部会同国土资源部发布了《全国土壤污染状况调查公报》,公报中指出:全国土壤环境状况总体不容乐观,部分地区土壤污染较重,耕地土壤环境质量堪忧,工矿业废弃地土壤环境问题突出。其中,镉、汞、砷、铜、铅、铬、锌、镍八种无机污染物点位超标率分别为7.0%、1.6%、2.7%、2.1%、1.5%、1.1%、0.9%、4.8%,镉、汞、砷、铅四种无机污染物含量分布呈现从西北到东南、从东北到西南方向逐渐升高的态势。可见我国区域土壤重金属超标范围较大,对生态系统及人体健康潜在风险较高。2016年5月国务院印发了《土壤污染防治行动计划》,指出按污染程度将农用地划分为3个类别:未污染和轻微污染的为优先保护类;轻度和中度污染的为安全利用类;重度污染的为严格管控类。因此,为了完善土壤环境质量分类清单,有必要依托土壤污染状况详查结果,开展土壤环境质量评价,为相关部门制定“土十条”管理方案提供依据。

目前,国内外常见的土壤重金属污染评价方法主要有指数法、灰色关联度分析法、层次分析法、模糊综合评判、多元统计法等[7-8]。上述评价方法各自有不同的侧重点,且部分计算过程复杂;同时,因土壤重金属调查过程中样本数量有限,上述评价方法在实际评价过程中不能很好地处理评价因子与土壤环境质量等级之间复杂的非线性映射关系,导致评价结果缺乏一定的客观性。鉴于土壤重金属污染评价的小样本、高噪声、非线性及模糊性的数据特点,本研究选取支持向量机(Support Vector Machine, SVM)数据挖掘技术在统计样本数量少的情况下寻求最好的泛化能力,解决现实中小样本的评价问题。支持向量机模型因具备非线性模式识别的能力[9],目前已经被广泛应用于环境领域中的水质评价[10-11]、生态环境评价[12]、可持续发展评价[13-15]等方面。而将该方法应用于土壤污染评价领域尚鲜有报道。本文采用支持向量机方法评价了某铅锌矿溃坝影响区土壤的环境质量,旨在为土壤环境质量评价提供新思路、新方法。

1 模型基本理论

支持向量机是基于统计学习理论的一种新的通用学习方法,是从线性可分情况下的最优分类面发展而来的,其在解决小样本、非线性及高维模式识别问题中优势明显。SVM分类的基本原理是:求解凸二次规划问题时寻找一个最优超平面,使其能尽可能多地将两类数据点准确地区分开,并使分开的两类数据点距离分类面最远[16]。

1.1 SVM函数基本理论[17]

存在样本集{(x1,y1),(x2,y2),...,(xn,yn)},x∈Rd,y∈R,应用f(x)=x·w+b对其拟合。假设所有训练样本均可以在精度为ε下无误拟合,即:

(1)

(2)

同理,优化目标变成:

(3)

(4)

回归函数为:

(5)

对于非线性SVM,可以通过非线性变换将其转化为某个高维空间中的线性问题,在高维空间中进行内积运算,采用适当的内积函数K(xi,yi)就可以实现非线性变换后的线性拟合,而不增加计算复杂度,则式(4)~式(5)变化为:

(6)

(7)

1.2GA模型基本理论

遗传算法模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程,是一种通过模拟自然进化过程搜索最优解的方法。利用遗传算子使个体组合成新一代的候选解群,重复此过程,直到满足某种收敛指标为止。遗传算法通过适应度函数值来评价个体的好坏,适应度函数值越大,解的质量越好。适应度函数是遗传算法进化过程的驱动力,它的设计应结合求解问题的实际要求而定[18]。

1.3GA-SVM建模思路

在实际问题应用中,SVM模型选取合适的参数才能在应用过程中表现出良好的性能[19],而惩罚参数C以及核函数中参数的取值在很大程度上决定了支持向量机的性能。预测者一般根据经验,通过反复试验来选取合适的参数,这样操作会存在一定的误差。基于此,运用GA对SVM的参数进行优化,可以减少SVM模型预测带来的局限性,具体操作流程如图1所示[20]。

2 应用实例

2.1 研究区域概况

土壤样品采集区域位于广西环江毛南族自治县,总地势为北高南低,四周山岭绵延,中部偏南为丘陵,最高海拔为1693m,最低海拔为149m,年均气温南丘陵一带为19.9 ℃,年平均降雨量北部为1750mm,空气平均相对湿度79%。此地2001年铅锌金属矿区尾砂坝坍塌使大面积的农田受到污染。本文通过采集此地区的土壤,分析其污染状况。

采用网格法均匀布点,将整个研究区域按25.8m×25.8m划分网格,围绕每个网格布设中心点1个分点及四周4个分点,采样深度0~20cm,共取5个分点的土壤样品,组成一个约1kg干重的土壤混合样品,共采集227个样品,土壤采集点分布见图2。根据土壤环境监测技术规范要求,将采集的土壤样品运回实验室,置于通风避光干燥的地方自然风干,剔除其中的碎石块和植物根茎等杂质,将风干的土样粗磨后再用玛瑙研钵细磨,分别过20目和100目的尼龙筛,装袋,供分析用。

图1 GA-SVM优化模型的具体思路和流程

2.2 土壤理化性质测定及质量控制

用pH计测定土壤pH值,土液比为1∶2.5;土壤重金属Cu、Zn、Pb和Cd的全量测定采用硝酸-盐酸-氢氟酸三酸—微波消解的方法,并采用电感耦合等离子体质谱法测定[21]。

图2 土壤采样点分布

土壤样品理化性质的测定设置3个平行。在测定土壤重金属全量时,使用标准物质GSS-22来进行质量控制,回收率在95%~105%之间。为了保证仪器的稳定与准确,在用电感耦合等离子体质谱仪测定消解液和消化液中重金属含量时,每10个样品反测1次标样。

2.3 土壤中重金属含量测定结果

研究区域蔗田土壤pH值和5种重金属含量测定结果见表1。由表1可知:该甘蔗地块呈酸性;土壤重金属Cu、Zn、Pb、Cd和As的平均含量总体上低于土壤环境质量标准(GB15618─1995)[22]二级标准规定的含量限值,但土壤Zn、Pb、Cd三种重金属元素含量的平均值均超过了土壤背景值[23-24],说明重金属Pb、Cd和Zn在研究区域土壤中存在不同程度的累积,具有重金属Pb、Cd和Zn污染的特征。

表1 土壤重金属含量测定和统计结果

2.4 GA-SVM模型的构建、应用和验证

本研究以MATLAB R2015b为操作平台构建模型及进行相关计算。核函数不同则构造的SVM也相应不同,且对SVM的性能影响较大。在SVM中常用的核函数有Sigmoid 核函数、径向基函数 (RBF)、多项式函数、线性核函数。借鉴相关研究的结果,本文选用参数较少的RBF核函数的支持向量机模型进行后续分析。土壤环境质量评价模型的建立由训练和测试两个部分构成,因此需选择合适的训练样本和测试样本。根据土壤环境质量分级标准 (GB 15618─1995),使用MATLAB中的Rand函数生成随机训练样本150个,以剩余的77个样本为测试样本。5种参评因子的分级标准如表2所示。

表2 土壤环境质量标准GB 15618─1995(部分) mg/kg

根据GA-SVM模型的构建思路,对种群数量、参数搜索范围、遗传种植迭代条件进行设置。利用GA算法对惩罚参数C和RBF核函数参数g进行最优化。将公式(8)作为适应度函数,其中分类精度是指寻优过程中模型对测试集的分类正确率,它反映模型对问题的分类识别能力,其计算公式为[18]:

(8)

式(8)中: Td是被正确检测的事件模式的组数; Tn是被正确检测的非事件模式的组数; Tc为所有输入模式的组数。最大进化代数为200,种群最大数量默认为20。参数C的变化范围为(0,100),参数g的变化范围为(0,1000)。经50次迭代计算后,最终得到最优的惩罚参数C=21.939,RBF核函数的最优参数g=12.995,均方误差MSE为13,均方百分比误差MSPE为1.3958。该算法对训练集、测试集的平均分类精度达到97.33%,适应度值变化见图3。

图3 适应度值的变化

2.5GA-SVM评价结果的检验

为了验证GA-SVM方法的评价结果,采用内梅罗综合污染指数法对各采样点进行评价并分类,对两种方法的评价等级结果进行GIS表征,如图4、图5所示。从图4、图5可知,内梅罗综合污染指数法的评价等级结果与GA-SVM评价方法的评价等级结果渐进变化趋势较为一致,评级结果基本吻合。

“ 2”表示土壤环境质量为二级;“■ 3”表示土壤环境质量为三级;“4”表示土壤环境质量超过三级标准。

图4 GA-SVM的测试样本土壤质量评价等级分布

3 讨论

当前大尺度的土壤污染调查尤其是土壤环境质量普查,需要采集大量的点位土样进行实验室分析,然后应用评价方法对分析结果进行计算,得到区域土壤质量等级,可见传统土壤环境质量评价工作量大。而应用支持向量机模型评价方法可以以较少的点位数据得到与传统评价方法一致性高达97.33%的结果,说明应用经训练的SVM学习算法对土壤的重金属污染状况进行分类评价是可行的。今后可结合土壤环境监测技术规范,在优化布点的基础上,进一步完善支持向量机模型在大尺度的土壤污染调查与评价中的应用。

图5 内梅罗综合污染指数法土壤质量评价等级分布

[1] 张小敏,张秀英,钟太洋,等.中国农田土壤重金属富集状况及其空间分布研究[J].环境科学,2014,35(2):693-704.

[2] 吕晶晶,张新英,吴玉峰,等.广西大新县铅锌矿区某屯耕地土壤重金属污染特征及评价[J].广西师范学院学报:自然科学版,2014,31(1):101-104.

[3] 伍钧,吴传星,孟晓霞,等.重金属低积累玉米品种的稳定性和环境适应性分析[J].农业环境科学学报,2011,30(11):2160-2167.

[4] 李小飞,陈志彪,陈志强,等.南方稀土采矿地土壤和蔬菜重金属含量及其健康风险评价[J].水土保持学报,2013,27(1):146-152.

[5] 马静,魏益民,郭波莉,等.铅对人体和动物毒性作用[J].中国公共卫生,2009,25(3):369-370.

[6] Plum L M, Rink L, Haase H. The essential toxin: impact of zinc on human health [J]. International Journal of Environmental Research and Public Health, 2010(7): 1342-1365.

[7] 何东明,王晓飞,陈丽君,等.基于地积累指数法和潜在生态风险指数法评价广西某蔗田土壤重金属污染[J].农业资源与环境学报,2014,31(2):126-131.

[8] 黄夏,郭海荣,许桂苹,等.广西某农灌溉蔗区土壤重金属含量及污染评价[J].南方农业学报,2014,45(12):2183-2187.

[9] 邓乃扬,田英杰.数据挖掘中的新方法:支持向量机[M].北京:科学出版社,2004.

[10] 张成成,陈求稳,徐强,等.基于支持向量机的太湖梅梁湾叶绿素a浓度预测模型[J].环境科学学报,2013,33(10):2856-2861.

[11] 毕温凯,袁兴中,唐清华,等.基于支持向量机的湖泊生态系统健康评价研究[J].环境科学学报,2012,32(8):1984-1990.

[12] 陈莉.基于PCA-GASVM的晋陕甘宁地区生态环境评价[J].干旱地理,2015,38(6):1262-1269.

[13] 任永泰,马雪倩,张贵杰.基于GA-SVM的水资源可持续利用评价[J].数学的实践与认识,2013,43(3):149-154.

[14] 李佳,张一敏,刘振宇,等.基于改进支持向量机的石煤提钒行业清洁生产评价研究[J].环境科学学报,2016,36(3):1113-1120.

[15] Marjanovic' M, Kovacˇevic' M, Bajat B, et al. Landslide susceptibility assessment using SVM machine learning algorithm [J]. Engineering Geology, 2011, 123: 225-234.

[16] 李湘梅,周敬宣,张娴,等.城市生态系统协调发展仿真研究:以武汉市为例[J].环境科学学报,2008,28(12):2605-2613.

[17] 叶航超,黄民翔,唐学用,等.基于GA-SVM的电力系统可靠性基础数据挖掘[J].华东电力,2013,41(1):121-126.

[18] 刘志强,吕学,张利.基于多分类GA-SVM的高速公路AID模型[J].系统工程理论与实践,2013,33(8):2110-2115.

[19] 奉国和.SVM分类核函数及参数选择比较[J].计算机工程与应用,2011,47(3):123-128.

[20] Lee J H, Lin C J. Automatic model selection for support vector machines [R]. Taipei: Taiwan University, 2000.

[21] 苏荣,王晓飞,洪欣,等.微波消解-电感耦合等离子质谱法测定土壤中10种重金属元素[J].现代化工,2015,35(1):175-177.

[22] GB 15618─1995,土壤环境质量标准[S].

[23] 刘菊梅,栗利曼,沈渭寿,等.黄河包头段灌区玉米重金属污染及人群健康风险评价[J].南方农业学报,2015,46(9):1591-1595.

[24] 广西壮族自治区环境局.广西壮族自治区土壤环境背景值图集[M].成都:成都地图出版社,1992:3-15.

(责任编辑:黄荣华)

Evaluation of Soil Heavy Metal Pollution Based on GA-SVM

YIN Juan1,2, LI Guo-xiang1, WANG Xiao-fei2,3*, DENG Qu-cheng4, YANG Ni1, ZHOU Zhong-hua5

(1. College of Management Science and Engineering, Guangxi University of Finance and Economics, Nanning 530003, China; 2. College of Light Industry and Food Engineering, Guangxi University, Nanning 530004, China; 3. Environmental Monitoring Center of Guangxi Zhuang Autonomous Region, Nanning 530028, China; 4. Crawford School of Public Policy, Australian National University, Canberra 541004, Australia; 5. Nanning Experimental School Affiliated to Peking University, Nanning 530029, China)

A total of 227 soil samples were collected in the study area, and the contents of heavy metal elements Cu, Zn, Pb, Cd and As in these soil samples were measured. By using single-factor index method, GA-SVM (Support Vector Machine) model and Nemero’s comprehensive pollution index method, the soil environmental quality level of each sample was calculated and evaluated respectively. The results indicated that: the optimal punishment parameterCof GA-SVM model was 21.939; the optimum parametergof RBF kernel function was 12.995; the mean square percentage errorMSPEwas 1.3958; the average classification accuracy of this model for training set (150 samples) and test set (77 samples) reached 97.33%; the results of environmental quality level of 77 tested soil samples evaluated by GA-SVM model were the same as those did by single-factor index method, and they had the same change trend as those did by Nemero’s comprehensive pollution index method.

Support vector machine; Soil; Heavy metal; Pollution; Evaluation

2017-03-01

广西自然科学基金项目(2015GXNSFEA139001);广西重点学科“管理科学与工程”建设经费项目;广西财经学院校级科研 课题(2013A005)。

尹娟(1984─),女,湖南永州人,讲师,博士生,从事土壤污染控制技术及环境管理研究。*通讯作者:王晓飞。

X53

A

1001-8581(2017)06-0116-05

猜你喜欢
土壤环境向量重金属
向量的分解
聚焦“向量与三角”创新题
重金属对膨润土膨胀性的影响
测定不同产地宽筋藤中5种重金属
有机氯农药对土壤环境的影响
土壤环境安全及其污染防治对策
土壤环境质量监测的现状及发展趋势
6 种药材中5 种重金属转移率的测定
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线