曹 伟
(新疆水利水电科学研究院,新疆 乌鲁木齐830049)
土壤以及地下水中水溶性盐类的定量化分析,是研究土壤盐分动态、确定土壤盐渍化程度以及进行盐渍土改良应用的关键环节之一[1]。在描述土壤水中盐分状况时,常用的指标是矿化度和水溶液电导率,但由于土壤水中总盐含量的检测化验过程较为复杂且其与水溶液有着密切联系,故实际应用中通常采用水溶液电导率这一参数来表征土壤水矿化度的实际状况。水溶液电导率包含了水中盐分及离子组成等丰富信息,且该参数具有简便、快捷、可比性强等特点[2,3]。
电导率法测定土壤水矿化度时,溶液中盐分离子组成、盐分浓度、溶液温度和电导池常数等都会不同程度地影响土壤水电导率的大小[4]。在以上诸多影响因素中,许多文献认为土壤水中的离子组成和浓度对电导率的影响明显大于其余各因素[3]。
鉴于以上原因,本文在前人研究的基础上,利用主成分分析法判断影响土壤水电导率的主成分因子,并研究土壤水电导率与各主成分之间的相关关系,建立土壤水电导率的预测模型,为进一步研究土壤水盐运移理论提供一种新思路。
试验区位于新疆尉犁县西尼尔镇境内,其地理位置为41°35'~41°37'N,86°09'~86°12'E,海拔高度 895 ~ 903 m之间。试验区属暖温带大陆性荒漠气候,多年平均降水量53.3~62.7 mm,集中于6~8月份,且多以大到暴雨的形式出现。多年平均蒸发量2 273~2 788 mm,多年平均相对湿度为45% ~47%,多年平均气温10.5℃,夏季炎热,极端最高气温达43.6℃,冬季寒冷少雪,1月份平均气温-9.4℃。全年以晴天为主,日照时间长,太阳总辐射633 KJ,昼夜温差大。多年平均日照时数3 036.2 h,大于10℃的年积温4 285℃以上,多年平均无霜期188 d。
该区域农田灌溉水为孔雀河河水,河水矿化度1.0~1.1 g/L。土壤水取样位置采取随机定位方式,共计取样点50处。将采集的水样带回实验室,按照相关程序化验其电导率和盐分离子组成(主要为HC、Cl-、S、Ca2+、Mg2+、Na+与 K+这7种离子)。
1933年由Hotelling提出的主成分分析(principal component analysis,以下简称PCA)利用降维的思想,把多指标转化为少数几个不相关的综合指标的一种多元统计分析方法,从可观测的显式变量中提取信息,组成不能直接观测的隐含变量。所采用的主要原则是使方差最大,不改变样本的数据结构,尽可能多地保留原变量所包含的信息,同时用尽可能少的主成分替代原有变量,从而使问题简化,其主要步骤[5,6]如下:
(1)原始指标数据标准化
假设有n个土壤水样本,有p项评价指标,可得数据矩阵X=(Xij)n × p。其中:i=1,2,…,n;j=1,2,…,p;Xij为第 i个样本的第j项指标值。为消除量纲的影响及数量级差别,可用Z-score法对数据进行标准化变换:
式中:xij为第i个指标在第j个样本点的原始数据;xi和σi分别为第i个指标的样本均值和标准差。
(3)计算特征值与特征向量,根据特征方程|λI-R|=0,求出特征值 λi(i=1,2,…,p),并使其按大小顺序排列,然后分别求出对应于特征值λi的特征向量ei(i=1,2,…,p),‖ =1要求‖ei,即 表示向量ei的第j个分量。
(4)计算主成分zi贡献率和累计贡献率,一般取累计贡献率大于 85% 的特征值 λ1,λ2,…,λm所对应的第一、第二,…,第m个主成分。
(5)计算主成分荷载。
将50个土壤水样的盐分离子与其电导率值进行主成分分析。
将原始数据按式(1)进行标准化后求出相关系数矩阵,见表1。
表1 相关系数矩阵
解相关系数矩阵的特征方程以计算特征值,并按上述主成分计算步骤(4)计算特征值方差累计贡献率(见表2)。按照主成分选取标准确定主成分的个数,根据表2,第一、二、三主成分的特征值分别为 4.978 5,0.866 1,0.609 8,方差贡献率分别为 71.122%,12.373%,8.711% ,其累计方差率达到了92.206%,说明它们基本包含了以上7个指标的所有信息。其中,第一个主成分又是最重要的,包含的信息最多,对土壤水溶液电导率变化影响最大。
表2 特征值和主成分贡献率及累积贡献率
计算各评价指标在主成分中的荷载值(见表3)。从主成分荷载大小来看,与第一主成分密切相关的是Cl-、S、Na+,它们与第一主成分的相关系数绝对值都超过了0.90。与第二主成分密切相关的是HC、K+。在第三主成分中,Ca2+和Mg2+荷载绝对值较高。从方差贡献率可以看出,第一主成分方差贡献率71.122%,大于第二、三主成分的贡献率12.373%和8.711%。所以,电导率主要是由第一主成分,即 由 Cl-、S、Na+控制,其次受控于水溶液中的HC与K+。
对各指标进行KMO检验和Bartlett球度检验,KMO值为0.612 4,根据统计学家Kaiser给出的标准,适合因子分析;同时Bartlett球形检验给出的相伴概率远小于显著性水平0.01,因此,应该拒绝零假设,原始变量之间存在相关性,适合进行基本主成分模型的因子分析。
表3 主成分荷载值
在对水溶液盐分离子与其电导率进行主成分回归建模之前,有必要先对这7种离子进行多重共线性诊断。目前,在诊断自变量系统中是否存在多重相关性时,经常采用方差膨胀因子(VIF)诊断法[7]。如果 VIFi>10,表示多重相关性将严重影响到系统的模拟值。
针对该系统,水溶液盐分离子与电导率的共线性诊断结果见表4。
表4 方差膨胀因子
由表4可以看出,7种盐分离子之间存在较为严重的多重共线性,可以用主成分回归模型来加以分析。
在经过主成分分析与多重共线性诊断后,将3个主成分的得分值代替原来的自变量进行多重回归分析,得到标准化自变量与因变量间的回归模型:
该回归方程通过了相关系数法的统计检验,是可靠的,可以用第一、第二、第三主成分的得分值来对水溶液电导率进行预测,如表5所示,建立的主成分回归方程,各回归系数均通过t检验,达到极显著水平。
表5 主成分回归方程系数值
1)本文通过主成分分析,得出该区域土壤水电导率主要受 Cl-、SO42-、Na+这3种离子的影响,其次受控于水溶液中的HCO3-与 K+这2种离子。
2)影响土壤水电导率的7种离子之间存在严重的多重共线性,应用主成分回归方法建立电导率的预测模型能够对水溶液电导率的变化作出精确的预测。
3)土壤水溶液电导率的大小在一定程度上反映其矿化度的大小,但在相同电导率的情况下,由于土壤水中各盐分离子组成及含量的不同,而导致土壤水矿化度的不同。因此,在研究该区域土壤水盐运移过程中,有必要专门对Cl-、SO42-、Na+这3种离子的运移做深入研究。
[1]Marshal T J,Holmes J W.Soil Physics[M].London:Cambridge University Press,1979.
[2]Rhoades J D,Shouse P J,Alves N A.Determining soil salinity from soil electrical conductivity using diferent models and estimates[J].Soil Sci.Soc.Am.J.,1990,54:46 - 54.
[3]Bhoades J D,Chanduvi F,Leseh S.Soil Salinity Assessment.FAO Irrigation and Drainage Papers,1999,(57):3 -7.
[4]中国土壤学会盐渍土专业委员会.中国盐渍土分类分级文集[C].南京:江苏科学技术出版社,1989.
[5]马虹.主成分分析法在水质综合评价中的应用[J].南昌工程学院学报,2006,25(1):65 -67.
[6]郭天印,李海良.主成分分析在湖泊富营养化污染程度综合评价中的应用[J].陕西工学院学报,2002,18(3):1-4.
[7]刘国旗.多重相关性的产生原因及其诊断处理[J].合肥工业大学学报:自然科学版,2001,24(4):607 -610.