林 晶
山仔水库蓝藻水华因子主成分多元回归分析*
林 晶
福州市环境监测中心站
2012年6月~2015年5月期间,通过对山仔水库5个点位蓝藻数量、pH、水温、溶解氧、叶绿素a、透明度、总氮、氨氮、硝酸盐氮、总磷、可溶性正磷酸盐、高锰酸盐指数、氮磷比等13项因子进行测定,利用主成分多元线性回归来模拟ln蓝藻与水质因子的关系。根据主成分分析特征值大于1的原则,得到4个累积贡献率达到76.127%的主成分,建立第一主成分与ln蓝藻的回归方程,进一步筛选出蓝藻水华4个最相关因子,分别为pH、叶绿素a、透明度、氮磷比,与ln蓝藻建立多元回归方程。结果表明,预测值与实测值具有相同趋势,能较好反映蓝藻水华变化规律。
山仔水库 蓝藻水华 主成分分析 回归分析
一直以来,湖库富营养化和蓝藻水华问题都备受关注。近年来,国外成功开发并应用了有针对性的水华预警模型,用以预测湖泊和水库藻类生长和富营养化程度,国内也有学者着眼于湖泊的综合水质预报和大流域的水质预警研究[1-4]。
山仔水库位于福建敖江下游,于1994年11月开始蓄水,调节库容1.06×108m3,是福州第二水源。山仔水库夏秋季常见蓝藻水华爆发,但目前对于其爆发机理还不完全清楚,有必要对其生长影响因子开展深入研究。本文采用主成分分析法(principal components analysis)对原始多变量数据进行线性投影, 运用降维找出几个由原始变量线性组合的潜在变量[5],在减少初始信息的最小损失量的基础上,筛选出对蓝藻水华影响最大的因子,继而进行多元线性回归,探索建立蓝藻水华预测模型,以期为控制山仔水库富营养化状况和蓝藻水华预警提供参考。
1.1 采样点位和频次
在山仔水库布设5个采样点位(见图1),分别为坝前(出口)、库心、七里(进口)、日溪(支流进口)、皇帝洞。从2012年6月至2015年5月期间,每月采样1次。
图1 山仔水库采样监测点位图
1.2 样品采集和处理
(1)样品采集方法根照《湖泊生态调查观测与分析》[6]进行。
(2)水质监测项目主要有pH、水温(WT)、溶解氧(DO)、叶绿素a(Chl a)、透明度(SD)、总氮(TN)、氨氮(NH4-N)、硝酸盐氮(NO3-N)、总磷(TP)、可溶性正磷酸盐(PO43--P)、高锰酸盐指数(CODMn),分析方法依据《水和废水监测分析方法(第四版)》[7]。
(3)浮游植物定量采集0.5m水深的表层水,取1L水样置于塑料瓶中,现场用鲁哥氏液固定,样品带回实验室后静置沉降48h,沉淀浓缩后用浮游植物计数框计数。
1.3 统计分析方法
主成分分析法是一种利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。其原理是:设对某一事物的研究涉及个指标,分别用1,2,……,X表示,由个指标构成维随机向量。对X进行线性变换,可以形成新的综合变量,用表示,也就是说,新的综合变量可以由原来的变量表示,其基本数学模型为:
式中,为处理后提取的主成分,1…ZX为原始变量矩阵经过标准化处理的值,11…mn是原始变量矩阵X的协方差阵的特征值对应的特征向量(n是变量个数, m为样本个数)[8]。1,2,…,n分别称为原始变量的第一个主成分,第二个主成分,…,第个主成分。其中各综合变量在总方差中占的比重依次递减,最终只挑选前几个方差最大的主成分,从而达到简化系统结构和抓住问题实质的目的。
本实验所有数据均采用Excel 2003和SPSS 17.0进行录入、图表处理和结果统计分析。
2.1 水库水质因子检测数据描述性分析
对山仔水库5个点位13项指标共180组检测数据进行SPSS描述性统计分析,结果如表1所示。其中,pH、溶解氧变异系数较小,表示变量离散程度较小。蓝藻细胞密度、可溶性正磷酸盐、氨氮、叶绿素a、硝酸盐氮、总磷等变量离散程度较大,说明此类水质因子波动幅度较大。结合实际情况来看,监测历时3年,加上库区面积较大,不同时期不同点位的水环境质量必然存在差异。对比各项数据的中值和均值,除了蓝藻细胞密度差异较大,其他因子的中值和均值都较为接近,离群的观测数组数据较少。
表 1 水质因子描述性统计分析结果
2.2 蓝藻水华主要影响因子主成分分析
由于藻类细胞密度数量级别太大,与其他变量的对应关系往往会造成分析结果失真。为使数据获得正态分布,本次采用统计学中常见的数据优化手段,将蓝藻细胞密度进行ln对数转换,SPSS统计过程中自动剔除少量数值为0的样本。
2.2.1相关性分析
藻类细胞密度能直接说明水体中藻类的多少和水华爆发强度[9],以蓝藻细胞密度和水质主要影响指标进行相关性分析和显著性检验,结果见表2。根据相关性分析,ln蓝藻与pH、水温、高锰酸盐指数、叶绿素a浓度、总磷、溶解氧呈显著正相关(P<0.01),与氨氮呈正相关(P<0.05),与透明度、氮磷比呈显著负相关(P<0.01),与可溶性正磷酸盐、总氮、硝酸盐氮相关不显著。初步分析得知,磷源可能是山仔水库蓝藻水华爆发的潜在限制性因素,氮源可能不是主导因素。
表 2 蓝藻与水华主要影响因子相关性
注:**表示在 0.01 水平(双侧)上显著相关;*表示在 0.05 水平(双侧)上显著相关
2.2.2 主成分分析
2.2.2.1 水质因子主成分的获得
检验统计量(KMO)的值为 0.718, 该数值大于0.5,说明本研究中的监测数据适合用于主成分分析。由表3主成分分析的特征值可知,有4个主成分(F1,F2,F3,F4)特征值>1。
特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大。所以本次分析根据特征值大于1的提取法则,将12个水质因子简化成4个主成分,最大限度减少自变量个数,同时使分析数据保留更多的信息,反映出主成分与原始变量间的相似性和关联性。
表3列出了4个主成分对于原始数据的方差贡献率及累积贡献率。方差贡献率解释为各个主成分的变化对水质变化的贡献份额,前4个主成分的累积贡献率达到76.127%, 表示这4个主成分包含并解释了76.127%以上的原始数据信息量。F1方差贡献率为32.879%,大于第二、第三、第四主成分的方差贡献率,表明F1反映的信息量最大,山仔水库水质因子主要由第一主成分控制。
表 3 总方差的解释
2.2.2.2 原始变量与主成分的相关性
表4计算了各个原始变量对于主成分的因子载荷,即原始变量与主成分的相关性。其中,F1对原始数据提供了32.879%的方差贡献率,pH、总磷、透明度、高锰酸盐指数、氮磷比在第一主成分上荷载较大,透明度、氮磷比负相关程度较高,pH、总磷、高锰酸盐指数正相关程度较高,这些因子相关性绝对值均大于0.6。第一主成分中,总磷、氮磷比同时作为关键因子出现,可知磷源是山仔水库富营养化的主要限制因子;pH、透明度、高锰酸盐指数说明水环境酸碱度、悬浮物、水体中有机及无机可氧化物质污染程度也是山仔水库水质影响的关键因子。F2对原始数据提供了23.219%的方差贡献率,其中水温、总氮、硝酸盐氮在第二主成分上荷载较大,水温负相关程度较高,总氮、硝酸盐氮正相关程度较高。第二主成分反映出氮源是山仔水库水质的主要影响因子。F3对原始数据提供了11.503%的方差贡献率,溶解氧在第三主成分上荷载较大,正相关程度较高。F4对原始数据提供了8.527%的方差贡献率,氨氮、叶绿素a在第四主成分上荷载较大,正相关程度较高,说明二者也是水体富营养化的重要因素。
表 4 成分矩阵
2.2.2.3 蓝藻与主成分的回归模型
用成分矩阵中的数据除以主成分相对应的特征值开平方根,便得到主成分中每个指标所对应的系数,即特征向量值。代入得出四个主成分方程:
F1=0.383×pH+0.284×水温+0.247×溶解氧+0.394×总磷+0.187×可溶性正磷酸盐+0.080×总氮-0.084×硝酸盐氮+0.157×氨氮+0.180×叶绿素a-0.420×透明度+0.353×高锰酸盐指数-0.387×氮磷比
F2=-0.101×pH-0.418×水温+0.164×溶解氧+0.247×总磷+0.354×可溶性正磷酸盐+0.514×总氮+0.504×硝酸盐氮+0.078×氨氮+0.170×叶绿素a-0.056×透明度-0.141×高锰酸盐指数+0.159×氮磷比
F3=0.421×pH+0.091×水温+0.635×溶解氧-0.116×总磷-0.382×可溶性正磷酸盐+0.217×总氮-0.028×硝酸盐氮+0.148×氨氮-0.163×叶绿素a+0.172×透明度-0.104×高锰酸盐指数+0.340×氮磷比
F4=0.104×pH-0.053×水温+0.064×溶解氧-0.100×总磷-0.215×可溶性正磷酸盐+0.080×总氮+0.001×硝酸盐氮+0.700×氨氮+0.615×叶绿素a+0.003×透明度+0.205×高锰酸盐指数+0.102×氮磷比
由于4个主成份对蓝藻生长的贡献率各不相同,所以以ln蓝藻和F1、F2、F3、F4做相关性分析。结果显示,ln蓝藻与F1显著正相关(P<0.01),与F2、F3相关不显著,与F4正相关(P<0.05),Pearson系数分别为0.680,-0.040,-0.145和0.181。F1中,总磷与其相关性极显著;F2中,总氮与其相关性极显著,所以根据蓝藻与F1相关性最大、与F2相关不显著这一结果,可间接推导出山仔水库蓝藻水华爆发的潜在限制性因子为磷元素。经计算和检验,选择建立蓝藻与水质因子的主成分模型如下:
ln蓝藻=12.281+1.018F1
其中,R2=0.462 (P<0.01)。
2.3 蓝藻与原始变量的多元线性回归分析
通过上述分析可知,主成分F1对山仔水库蓝藻水华的贡献最大,但蓝藻与主成分回归模型R2决定系数不高,仅为0.462,推测除了F1中的关键影响因子,可能还有其他原始变量对蓝藻生长影响较大。由于ln蓝藻与F2、F3相关系数很小,故剔除F2、F3影响因子,考虑存在弱相关性的F4中的重点因子。因此,在主成分分析的基础上,初步选择与F1关系最为密切的原始变量pH、总磷、透明度、高锰酸盐指数、氮磷比,与F4关系最为密切的原始变量氨氮、叶绿素a,建立和ln蓝藻的线性回归方程。由表5可知,各原始变量对回归方程的显著性水平不一,其中总磷、氨氮和高锰酸盐指数的显著性检验P均大于0.05,不适宜入选。因此,最终选择pH、叶绿素a、氮磷比和透明度4个因子,重新建立蓝藻与原始变量的多元线性回归方程如下:
ln蓝藻=7.218-0.021×透明度+0.967×pH+0.043×叶绿素a-0.038×氮磷比
其中,R2=0.593。方程显著性检验P=0.000<0.01,表明方程有效。
表 5 多元线性回归系数
综合山仔水库2012年6月至2015年5月期间各点位均值来看,库区蓝藻数量与筛选出的4个主要影响因子氮磷比、叶绿素a、透明度、pH密切相关,结果如图2所示。
许多学者研究了不同水体中蓝藻水华和水质影响因子间的关系,并作出了不同解释。但多年来,基本观点都认同氮、磷营养元素在蓝藻生长中所起的关键作用。国际经合组织(OECD)大量研究表明,磷为惟一主导因子的水体占80%,氮为主导因子的占11%,其余9%的水体为氮和磷共同起作用[10]。而现在越来越多学者认为氮磷比与藻类的生长有更直接的关系,藻类正常代谢所需的氮磷比为7,当氮磷比大于7时,磷是可能的限制性营养盐;当氮磷比小于7时,则氮可能是限制性营养盐[11]。本次研究比对筛选出氮磷比是山仔水库蓝藻水华的主要影响因子,从图2可以看出,蓝藻数量与氮磷比呈明显的相反走势。据各点位均值统计,监测期间山仔水库氮磷比变化范围为4.1~43.6之间,36次监测中,氮磷比大于7的有33次,占监测总数的92%,可见山仔水库是典型的磷限制性水体。
叶绿素a是表征浮游植物生物量最常用的指标之一, 是藻类细胞的重要组成成分。叶绿素含量高低与水体中藻类的种类、数量等密切相关。图2显示,山仔水库叶绿素a与蓝藻细胞数量存在明显趋同走势,叶绿素a最高值出现在2012年7月,达到46.4mg/m3,最低值出现在2013年1月,仅为2.5mg/m3。这与蓝藻生长规律一致,一般表现为夏季最高,冬季较低。
水体的透明度和悬浮物是影响水柱透光深度的主要控制因素,透明度低将导致水中光照不足,使水中的藻类没有充足的能量来充分利用水中的养分,进而影响藻类的生长数量和种群的演替。图2显示,山仔水库蓝藻数量与透明度呈明显相反走势,蓝藻数量增多带来透明度降低,而透明度持续过低又可能反向制约藻类生长,成为蓝藻水华的主控因子。
有研究表明,水体pH值偏碱性有利于水华发生[12]。监测期间山仔水库pH平均值为8.34,适宜蓝藻生长,如图2所示,蓝藻数量与pH值成正向相关,pH接近9的月份更容易发生蓝藻水华。
图 2 2012-2015年山仔水库库区蓝藻与最相关因子趋势变化图
利用回归方程计算所得的ln蓝藻与2012—2015年监测期间实测值进行比对,得到预测值与实测值线性方程如下(R2=0.5928):
=0.5877+5.5471
从蓝藻实测值与预测值比对图来看(图3),两者变化趋势一致,说明模型在预测蓝藻水华大周期上具有指示作用。但是预测模型在蓝藻数量骤升骤降时表现出反应灵敏度不足,对夏季蓝藻高峰期的预测存在一定缺陷。究其原因,山仔水库作为开放性水域,水域面积大,受水流、风速等环境因素以及周边生活区居民活动影响,使水质营养状态经常处在变化之中,因而诱发蓝藻水华发生的条件也可能不断变化,尤其是夏季水华爆发期间,水体理化性质更为复杂。对其进行较准确的预测,仍有待长期的连续观测和相关数据的积累,从而优化、提高预测模型的准度和精度。
图 3 蓝藻实测值与预测值比对
3.1 对山仔水库2012年6月至2015年5月期间5个点位的监测数据进行分析,相关性分析结果表明,ln蓝藻细胞密度与pH、水温、高锰酸盐指数、叶绿素a浓度、总磷、溶解氧呈显著正相关(P<0.01),与氨氮呈正相关(P<0.05),与透明度、氮磷比呈显著负相关(P<0.01),与可溶性正磷酸盐、总氮、硝酸盐氮相关不显著。
3.2 对监测数据进行主成分分析,提取了4个影响水体富营养化的主成分。F1为第一主成分,其中pH、总磷、透明度、高锰酸盐指数、氮磷比荷载较大,考虑到总磷、氮磷比同时作为关键因子出现,推测磷源可能是山仔水库富营养化的主要限制因子。F2中,水温、总氮、硝酸盐氮荷载较大,反映出氮源是山仔水库水质变化的主要影响因子。F3中,溶解氧荷载较大。F4中,氨氮、叶绿素a荷载较大。
3.3 建立ln蓝藻与F1的主成分模型。通过ln蓝藻与F1、F2、F3、F4的相关性分析得知,蓝藻与F1相关性最大,与F2相关不显著,由于F1中,总磷和氮磷比为相关性最密切因子,F2中,总氮、硝酸盐氮为相关性最密切因子,从中可间接推测出对比氮、磷源,磷元素才是山仔水库蓝藻水华爆发的潜在限制性因子。
3.4 在主成分分析基础上,建立了ln蓝藻和相关因子的多元线性回归方程,简单明了地确定出与蓝藻水华关系最密切的4个因子,分别是:pH、透明度、氮磷比和叶绿素a。对回归方程进行检验,结果显示预测值与实测值趋势一致,表明结合主成分分析和多元线性回归分析法,能更好地找到山仔水库蓝藻水华的关键因子,更合理地预测水华发生规律。但鉴于山仔水库所处地形使藻类分布受水流、风速等环境影响很大,容易聚集在个别点位,造成某点位藻细胞密度骤然增大;同时山仔水库库区水体环境除了受所选因子的影响外,还可能受其他未入选因素的影响,本次研究受条件限制未能做更多分析。所以本次模型预测仍然存在一定的局限性,还需要获取更长周期、更多因子的监测结果,进一步优化模型以提高预测准度和精度。
[1] Thebault J M. Simulation of a mesotrophic reservoir (Lake Pareloup) over a long period(1983-1998) using ASTER 2000 biological model[J]. Water Research, 2004,38(2):393-403.
[2] Fabbro L D, Duivenvoorden L J.A two-part model linking multidimensional environmental gradients and seasonal succession of phytoplankton assemblages[J]. Hydrobiologia, 2000,438:13-24.
[3] 王兆群,张宁红,张咏.洪泽湖藻类与环境因子逐步回归统计和蓝藻水华初步预测[J]. 中国环境监测,2012,28(4):17-20.
[4] 贾振睿,孙力平,钟远,等.天津水上公园景观湖叶绿素a与水质因子的主成分线性多元回归分析[J]. 生态科学, 2015,34(4):125-130.
[5] 聂馥霖.浅谈统计综合评价中主成分分析法的应用[J]. 陕西综合经济, 2007(5): 46−48.
[6]黄详飞,陈伟民,蔡启铭. 湖泊生态调查观测与分析[M]. 北京: 中国标准出版社,1999.
[7] 国家环境保护总局. 水和废水监测分析方法[M]. 4版. 北京: 中国环境科学出版社,2002.
[8] 王群妹,梁雪春.基于主成分分析的水质评价研究[J].水资源与水工程学报,2010,21(6): 140−154.
[9] 于海燕,周斌,胡尊英,等.生物监测中叶绿素a浓度与藻类密度的关联性研究[J].中国环境监测,2009,25(6):40-43.
[10] 谢允田,魏民,吕军,等.南湖叶绿素a含量与湖水理化性质的多元分析[J].东北水利水电,1999(1):43-45.
[11] 翁笑艳.山仔水库叶绿素a与环境因子的相关分析及富营养化评价[J].干旱环境监测,2006,20(2):73-78.
[12] 黄钰铃,纪道斌,陈明曦,等.水体pH值对蓝藻水华生消的影响[J].人民长江,2008,39(2): 63-65.
福建省科技厅社会发展重点项目(2012Y0023)。