基于改进主成分分析法的土壤重金属污染评价模型

2021-04-09 06:26轩诗垚王占刚
关键词:原始数据分析法重金属

轩诗垚,王占刚

(北京信息科技大学 信息与通信工程学院,北京 100101)

0 引言

重金属污染是土壤污染中最为常见的类型,随着工业化以及城市化的迅速发展,工业排放的污染物、城市生活垃圾以及农业生产中化肥的大量使用都使得土壤重金属污染逐渐增加。由于重金属对人体的健康危害较大,治理土壤重金属污染一直是许多国家亟待解决的重要问题。当前,国内外对于土壤重金属污染评价的方法较多,比如单因子指数分析法、内梅罗综合污染指数法、地累积指数法、富集因子法等。其中,单因子指数法侧重于显示某一种污染物对土壤环境的影响;内梅罗法综合考虑土壤中各种污染物对环境的整体影响;地累积指数法除了考虑人为污染因素以及环境地球化学背景值以外还考虑了自然成岩作用引起背景值变动的因素[1];富集因子法采用了双重归一化的计算方法试图消除各种不确定因素的影响,通过计算得到污染元素的富集程度以判断和分析其来源[2]。

众多对土壤污染的研究发现,某一区域的土壤污染情况不仅仅取决于某一种污染元素,而往往是多种污染元素共同作用使得土壤环境中的某些指标超标。所以在研究与分析某区域土壤环境中的污染元素时,使用前文提到的传统的研究方法找出主要的几种污染元素会比较困难。针对这一问题,本文引入了机器学习中常用的数据降维方法——主成分分析法(principal component analysis,PCA)[3],通过对主成分分析法进行改进,根据研究区域污染因子的单因子指数进行数据加权处理,得到更加符合研究区域实际情况的土壤重金属污染情况评价结果。

1 算法模型构建

1.1 主成分分析法

主成分分析法将研究对象的多个具有一定相关性的指标组合成一组新的不相关的指标的集合。新组合成的指标集合包含了研究对象所有指标的绝大部分信息,可以代替原来的维数较高的指标集合,达到化繁为简的目标[4]。主成分分析法的具体步骤如下:

假设有n个试验样品,对每个样品进行观测获得其p项指标,从而获得原始数据资料。

为了消除数量级较大以及量纲较多带来的影响,对原始数据进行标准化处理:

(1)

(2)

令Z1,Z2,…,Zm作为样本的新指标,则有如下关系:

(3)

对于方程组(3),可以根据以下原则来确定其系数zij:

1)Zi与Zj(i≠j)不相关;

2)Z1是X1、X2、…、Xp的所有线性组合里方差最大的,Z2是与Z1不相关的X1、X2、…、Xp所有线性组合中方差最大的,……,Zm是与Z1、Z2、…、Zm-1都不相关的X1、X2、…、Xp所有线性组合中方差最大的。

由此得到的Z1、Z2、…、Zm即为原数据指标X1、X2、…、Xp的第一、第二、……第m主成分[7]。

1.2 单因子指数法

单因子指数法侧重于描述土壤中某单个污染因子对土壤污染的程度,污染指数越小说明该污染因子对土壤污染程度越轻。在实际应用中,该方法较多用于分析重金属元素对土壤的污染程度。该方法计算较为简便,通过对待评价样本与相应的评价标准之间的比值进行筛选得到主要污染因子。计算公式如下:

(4)

式中:Pi为第i个因子的单项污染指数;Ci为第i个因子的实测浓度值;Si为第i个因子的评价标准值。规定Pi的值大于1时表示受到污染,否则表示未受到污染。

1.3 改进的主成分分析法

传统的主成分分析法可以实现在土壤重金属污染评价中将多个污染因子进行分析处理得到几种主成分,比如第一主成分往往包含了这几种污染因子大部分信息,使用主成分来代替多种污染因子进行土壤重金属污染的评价可以达到降维目的,优化评价过程。

但是传统主成分分析法在土壤重金属污染评价中容易忽视各个污染因子的差异性,而不同的研究区域各污染因子的影响程度不尽相同,生成的主成分中各污染因子的载荷难以贴合研究区域的实际污染情况。为解决这一问题,可以结合单因子指数法,在主成分分析过程中对原始数据进行标准化,消除量纲和方向的影响之后对数据进行添加权重的处理。改进后的方法考虑到各个污染因子的差异性,由各个污染因子在研究区域的污染程度决定数据处理结果中各个污染因子的载荷系数,从而改善传统主成分分析法对污染因子污染程度差异性考虑不足的缺陷。

改进后的主成分分析模型构建步骤如下:

首先,利用式(1)对土壤污染原始数据进行标准化,得到各重金属污染因子的污染数据矩阵;然后使用式(4)得到各自的单项污染指数,并采用环比评分法对所有重金属污染因子进行评分,再通过式(3)得到各重金属的加权矩阵;最后计算得到各主成分因子的特征值、贡献率以及累计贡献率并得到其载荷矩阵。通过载荷矩阵便可得到主成分因子中各种金属元素的比重,从而可以确定研究区域主要的污染元素。

其中环比评分法的具体步骤如下:根据各重金属污染因子对土壤污染程度的影响大小,对其在土壤重金属污染数据中的重要性进行评分。然后计算各重金属污染因子的得分比重,用于处理主成分分析法中标准化之后的数据矩阵。设重金属污染因子Xi的重要性评分为Bi,则Xi的权重为

(6)

改进的主成分分析法在土壤重金属污染数据处理过程中能够结合研究区域土壤污染情况,通过计算各个土壤重金属污染因子的权重,使主成分分析的结果与研究区域重金属污染的实际情况更加贴合。

2 改进算法模型的应用

2.1 土壤重金属污染数据集构建

研究区域为我国北方某工业城市的郊区地带,按照国家制定的《土壤质量 土壤采样技术指南(GBT 36197-2018)》共采集获得样本数据216个,样本采集深度为0~20 cm,包含常见的7种重金属污染元素:砷、镉、铬(六价)、铜、铅、汞、镍的含量以及样本采集地点的经纬度、采集深度等数据信息[10]。土壤重金属污染数据集字段信息如表1所示。

表1 土壤重金属污染数据集字段信息表

2.2 评价过程

1) 对数据集进行删减。只保留原始数据集中7种重金属污染因子的浓度数据,构建一个216×7的数据矩阵作为此次模型评价的数据集。

2) 对目标矩阵进行标准化处理,消除量纲影响,得到标准化数据矩阵,部分数据如表2所示。

表2 部分土壤重金属污染因子标准化数据矩阵

3) 通过单因子指数法确定各重金属污染因子的权重。根据式(4),使用各重金属污染因子的平均浓度值与《土壤环境质量 建设用地土壤污染风险管控标准(试行)(GB36600-2018)》中提供的土壤污染风险筛选值计算得到各重金属污染因子的单因子污染指数,具体结果如表3所示。

表3 各重金属污染因子单因子指数值

4) 根据上一步得到的各重金属污染因子的单因子指数值,利用环比评分法计算出各重金属污染因子的分值即权重值,将所得权重赋给之前得到的标准化数据矩阵,从而得到加权后的标准化土壤重金属污染数据矩阵,部分数据如表4所示。

表4 部分土壤重金属污染数据加权矩阵

5) 计算7种重金属污染因子之间的相关系数矩阵,为之后求解贡献率做铺垫,相关结果如表5所示。

表5 重金属污染因子相关系数矩阵

6) 计算主成分因子的特征值、贡献率、累积贡献率,结果如表6所示。可以看出Z1、Z2、Z3的累积贡献率已达到92%,所以用这3个主成分因子替代原始数据中7种重金属污染因子不会损失太多的信息量。

表6 主成分因子特征值、贡献率、累积贡献率

主成分载荷矩阵表示原始数据中各重金属污染因子在主成分因子中的权重系数,从表7所示的载荷矩阵可以看出第一主成分中铬和铅的比重最大,说明在使用生成的主成分因子进行土壤环境评价时,这两种重金属对评价结果的影响较大。

表7 主成分因子载荷矩阵

2.3 评价结果对比与分析

根据以上的评价结果可以看出,由改进的主成分分析法得到的3个主成分因子囊括了原始数据中7种土壤重金属污染因子的大部分信息,并且通过表7主成分因子的载荷系数可以看出在第一主成分中铬和铅所占比重较大,这表示原始数据中较多的信息量体现在这两个重金属污染因子中。为说明改进模型的数据处理效果,使用传统主成分分析法对上述原始数据集进行处理,并得到主成分因子载荷系数,如表8所示。

表8 传统主成分分析载荷矩阵

对比表7和表8,可知传统主成分分析与改进之后的主成分分析所得到的主成分因子都是3个,但是其载荷系数有所区别。传统主成分分析法所得第一主成分的载荷系数中镉和铜的值较大,而改进之后的主成分分析法所得第一主成分中铬和铅所占比重较大。查阅近几年研究区域所在城市土壤环境研究数据得知铬与铅的含量相对较高,这与改进的主成分分析法所得第一主成分中占比较大的污染因子相符合,说明利用单因子指数法在主成分分析过程中赋予污染因子权重的改进方法是有效的。通过此改进的模型可以在使用主成分分析处理研究区域土壤重金属污染数据时利用已有数据计算土壤污染重金属元素的单因子指数,进而为待分析的各污染因子加权处理,使改进后的主成分分析的结果更具有实际意义。

3 结束语

传统主成分分析法解决了土壤重金属污染评价过程中指标数量过多、计算量过大等问题,但是不同的研究区域有不同的特点,主要污染物也不尽相同。为解决这一问题,利用单因子指数法确定各重金属污染因子的权重,在主成分分析过程中对重金属污染数据进行加权处理。通过试验验证,可得出结论:经过单因子指数加权处理的主成分分析法用于土壤重金属污染评价,对目标研究区域具有较好的针对性,可以对不同重金属污染因子的影响能力有所判断,从而为后续土壤重金属污染评价过程提供良好的数据基础。但目前此方法仍然存在一些问题,如特征值分解存在局限性,变换的矩阵必须是方阵以及在非高斯分布情况下得出的主元可能并不是最优解等,有待更深入的研究与分析。

猜你喜欢
原始数据分析法重金属
异步机传统分析法之困难及其克服
沉淀/吸附法在电镀废水重金属处理中的应用
基于DEA分析法的全国公路运输效率分析
受特定变化趋势限制的传感器数据处理方法研究
基于层次分析法的智慧城市得分比较
基于层次分析法的智慧城市得分比较
鱼头中重金属含量真的很高?
吃蘑菇不会重金属中毒
电化学发光分析法测定糖尿病相关二肽
论航空情报原始数据提交与应用