林徐达
摘 要:本文对商品饮用水进行调查统计的基础上,运用主成份分析的方法,对样本的特征性指标进行分类分析.分析结果表明:饮用水的特征性指标主要由钾离子,钠离子,镁离子,钙离子,偏硅酸和pH值组成;钾离子与钠离子为同一类指标、镁离子和钙离子为同一类、偏硅酸与pH值也是一类.此结论基本上是正确合理的,对商品水的质量控制及其质量检验部门的初步检测等都具有一定的指导作用,可以减少检测步骤、提高检测效率、节约检测成本,为选用步骤少效率高低成本的检测对象来反应饮用水质量提供了理论依据.
关键词:饮用水主成份分析特征性指标
中图分类号:X824 文献标识码:A 文章编号:1674-098X(2012)07(c)-0030-03
市场上的饮用水有多种,每种饮用水成分基本相同,如各种金属离子、水处理残留物、微量有机物和深层矿物产物等。但含量各异,且具有一定相关性。在参考了中国饮用水标准检验方法[1]和国外有关饮用水的理念[2][3]之后,本文应用主成份分析法针对饮用水各成分含量相关性进行研究,对市面上常见饮用水的特征性指标进行归纳总结,以期为水处理产业提供新的思路。在相关领域,主成份分析法被用于二滩水质监测[4]、湖泊营养类别的评判[5]等,都取得了较好的效果。将饮用水的特征性指标进行主成份分析,可以在初步检测中选取主成份中易于检测的指标来代表整个主成份的含量,进而可以通过三个主成份含量来代表样本整体的成分含量情况。
1 数据来源
本文所有的数据都收集自商品饮用水外包装。厂方自己标明的指标无法完全代表其产品中成份的含量,但是就研究而言有一定价值。对于一些饮用水未标明的成份,为了使得分析更为精确,用此类指标的平均数值进行代替,同时也能使得其对整个分析造成的影响最小。饮用水特征性指标原始数据见表5。表中只列出了常规的特征性指标,而一些较少的指标,对于分析研究没有很大影响,便没有在表中列出。且当厂方标明的特征性指标处于某一范围时,为了数据分析的准确,取其范围中的平均值。
2 主成份分析法(Principal Component Analysis, PCA)
主成份分析法也称主分量分析或矩阵数据分析,通过变量变换的方法把相关的变量变为若干不相关的综合指标变量。[6]
若某研究对象有两项指标ζ1和ζ2,从总体ζ(ζ1,ζ2)中抽取了N个样品,它们散布在椭圆平面内(见图1),指标ζ1与ζ2有相关性.η1和η2分别是椭圆的长轴和短轴,η1⊥η2,故η1与η2互不相关。其中η1是点ζ(ζ1,ζ2)在长轴上的投影坐标,η2是该点在短轴上的投影坐标。从图1可以看出点的N个观测值的波动大部分可以归结为η1轴上投影点的波动,而η2轴上投影点的波动较小。若η1作为一个综台指标,则η1可较好地反映出N个观测值的变化情况,η2的作用次要。综合指标η1称为主成份,找出主成份的工作称为主成份分析[7]。
可见,主成份分析即选择恰当的投影方向,将高维空间的点投影到低维空间上,且使低维空间上的投影尽可能多地保存原空间的信息,就是要使低维空间上投影的方差尽可能地大[8]。
3 主成份分析法的应用
3.1 原始数据的处理和标准化
由于原始数据矩阵庞大,如对全部指标进行分析,将而导致主次要成因相混淆;若仅选其中部分指标,又可能会影响分析结果的代表性和完整性。此外,为了克服不同变量数值差异过大而造成的主成份分析误差,按照主成份分析法要求,应对原始数据矩阵进行标准化,进而得到进行主成份分析的11个变量的相关系数矩阵,见表1。
3.2 饮用水特征性指标主成份分析的计算结果
主成份分析的计算结果中,新变量所代表的方差(即对应的特征值)贡献率和由原变量变换为新变量的线性变换系数(即对应的特征向量)就成为我们进行综合分析的重点。在主成份分析中一般要求少数新变量的累积方差贡献率应大于70%[9]。下列表2、表3和表4分别给出了原始数据的公因子方差、各个主成份的解释的总方差和主成份的计算结果。图2则是各个主成份的特征值。
图2表明,前三个主成份积累方差贡献率达到81%,根据主成份分析法的一般原理,可取前三个具有明显代表性的主成份。原有的6个变量可用三个主成份表示,如表4所示。
本文可以依据以上计算结果绘出成份图,表明新旧变量之间的关系。同时,也可以为原始的饮用水特征性指标分类,得到成份图,如图3。
3.3 结果分析
由主成份分析的计算结果可以看出,原变量的方差在新变量中的集中度很高,根据饮用水特征性指标的实际状况和主成份分析的要求,本文取前3个主成份来反映原来的6个变量,其方差的累计贡献率已达到81.98%,三个主成份的贡献率分别为36%,29%和17%,三个主成份在81。98%的程度上反应了某一样本的水质情况与离子条件。可以认为,这三个主成份基本上能够反映出原变量的变化所代表的饮用水水质标准。
在第一主成份中,钠离子、钾离子两个指数所占权系数较大,并且两个指标变化方向一致,呈正相关。说明引起这两个指标变化的原因相似,而处理的方式也相关。钾盐和钠盐都是人体所必须的成份,在很多自来水净化时并不会刻意处理。而商品饮用水的处理更加严格,在降低含盐量的处理中,钾盐和钠盐会同步被处理。故而钾离子与钠离子的含量可以用第一主成份来表示,本文将此命名为:钾钠成份。
在第二主成份中,镁离子、钙离子两个指数所占权系数较大,并且两个指标变化方向一致,呈正相关。说明二者的来源相似,处理相近。镁离子和钙离子是饮用水硬度的组成部分,在硬水软化的过程中,会同时将镁离子和钙离子沉淀去除,使得碳酸镁与碳酸钙含量减少。这样,水中的镁离子与钙离子就被同步去除[10],所以镁离子与钙离子的含量可以用第二主成份来表示,且将之命名为:钙镁成份。
在第三主成份中,pH值、偏硅酸两个指数所占权系数较大,并且两个指数变化方向一致,呈正相关。说明二者来源相似,处理相近。饮用水中含有一定量的偏硅酸,尤其是矿泉水,因为溶解了许多地下岩层的二氧化硅。而水中的偏硅酸导致饮用水呈弱酸性,在调节pH的工序中,会同步调节pH值与偏硅酸含量。故pH值与偏硅酸含量可以用第三主成份表示,将之命名为:酸碱成份。
4 结语
主成份分析法结果表明,饮用水的成份可以分为三类:钾钠成份,钙镁成份和酸碱成份。每种成份中所包含的变量都是正相关的,故在饮用水初步检测时,可以仅抽取主成份中的一个变量进行检测,以代表整个主成份的含量,所得出的结论与完全检测所有指标得出的结论相近程度达81.98%,可以大大减少初步检测的成本和工作量.主成份分析法是提高水处理效率的一种很好的工具,其分析结果对水处理厂家和饮用水商家具有指导作用。
参考文献(Reference)
[1] 中国国家标准化委员会.GB/T 5750-2006生活饮用水标准检验方法[S].北京:中国标准出版社,2007.
[2] 张欣.欧美及日本对饮用水评价的研究[J].西北建筑工程学院学报(自然科学版),1999.24(3)54-57.
[3] Nives Stambuk-giljanovic.Water quality evaluation by index in Dalmatia.Water Research.1999.33(16)3423-3340.
[4] 黄胜,王斌,丁桑岚,陈秀眉,陈德川.主成份分析法在二滩水质监测数据综合分析中的应用实例[J].重庆环境科学,2003.25(2)53-56.
[5] 温淑瑶,王京,丁根宏.应用主成份分析法评判湖泊营养类别[J].河海大学学报,1997.25(4)86-90.
[6] 汪应洛.系统工程[M].北京:机械工业出版社,2009.54-60.
[7] 方开泰.实用多元统计分析[M].上海:华东师范大出版社,1989.291-302.
[8] 王学仁,王松桂.实用多元统计分析[M].上海:上海科技出版社,1990.270-272.
[9] 方开泰.实用多元统计分析[M].上海:华东师范大学出版社,1989.291-302.
[10] 张岚,陈亚妍.生活饮用水标准检验方法[J].环境与健康,2007,24(8):638-640.