李新虎,赵成义
(中国科学院新疆生态与地理研究所,乌鲁木齐 83001)
芦苇是湿地资源的重要组成部分,芦苇不仅可以作为建筑和轻工业的原料,还具有观光、旅游、娱乐等多种功能。芦苇作为湿地植物,能吸收二氧化碳等温室气体,处理工业发展所造成的环境污染[1],具有很高的经济、社会、生态效益。近些年来,芦苇在北美的持续扩张[2-3],而在在欧洲却发生退化[3-4],芦苇分布的变化以及生态学特性引起了许多学者的兴趣,因此芦苇的生态调查也成为研究的一个热点。芦苇的生态学调查是一个典型的多因素问题,例如其形态学特征包括株高、密度、茎粗、产量、壁厚、节数等多个因素,其环境因素,又包括土壤、水质、水量等因素,而多因素问题往往具有高维、非正态特性而不适合用传统统计方法进行分析的实际,因此这是有必要引入一种方法,将多因素问题转化为单因素问题。
投影寻踪[5](Projection pursuit,PP)是一能将多维问题转化为一维问题的有效方法,能够避免人为因素的干扰,客观的反映实际结果。PP是用来处理和分析高位数据,尤其是来自非正态整体一类统计方法。PP方法能够成功的客服高维数据的“维数祸根”所带来的严重困难。PP的关键在于找到观察数据结构的角度,得到完全由原始数据构成的低维特征量,反映原始数据的结构特征。随着科学技术的发展和计算机的普及,高维数据的分析显得越来越重要。大量的非正态、非线性数据的出现和计算机技术的发展,使投影寻踪技术迅速表现出了它的优势[6]。
主成分分析(Principal Components Analysis,PCA)也属于处理多因素问题的方法,但是PCA只考虑了二阶矩会遗漏数据中一些隐藏的部分[7],也有学者[8-9]认为传统的 PCA通常不能给出一个合理的结果。Caussinus和Ruiz-Gazen[10]也注意到相对于PCA投影寻踪的应用较少。
Friedman[11]指出投影寻踪非常强烈的依赖优化算法去寻找最优的投影方向,因此寻找最优的投影方向是应用投影寻踪的一个关键问题。根据目前出版的相关文献可以看出,对于投影方向的寻优大部分采用遗传算法[7,12-15],还有很多学者使用粒子群算法[16-17],但是这些算法不能解释自由、不确定的个体行为,而且也容易落入局部最优的情况,因此本文引入一种新的算法自由搜索算法(Free Search,FS)[18]来优化投影指标函数,许多学者[18-19]通过实例也证明了该算法在寻优的结果上优于其遗传[20]、粒子群[21]等算法。
本研究的芦苇调查的内容主要包括芦苇的分类和芦苇环境影响因子的评价。本文以新疆博斯腾湖实地芦苇为应用实例,将基于自由搜索算法的投影寻踪模型(FSPP)应用于湿地芦苇的统计调查,对为芦苇调查及其生态环境保护提供一条新的思路。
20世纪60年代末70年代初,Kruscal首先提出了投影寻踪方法[22],1974年,Friedman和 Tukey[6]等对投影寻踪方法作了深入的研究,明确地提出了投影寻踪思想,1985年Huber关于投影寻踪的综合性叙述论文的发表,系统的阐述了投影寻踪理论,标志着投影寻踪理论的正式形成[23]。投影寻踪[24-26]方法的基本思路是:将高维数据投影到低维子空间上,采用投影指标函数来衡量投影暴露某种结构的可能性大小,寻找出使投影指标函数达到最优的投影值,再根据投影值分析高维数据的结构特征,或根据投影值与研究系统的输入输出值之间的散点图构造适当的数学模型来模拟系统输出。
投影寻踪模型的建模过程包括如下3个步骤:
步骤1 构造投影指标函数Q(a)
对于回归问题不仅要求投影值z(i)能尽可能大地提取x(i,j)中的变异信息,同时要求z(i)与y(i)的相关系数的绝对值尽可能大。这样得到的投影值就可望尽可能多地携带原指标系统x(i,j)的变异信息,并且能够保证投影值对因变量具有很好的解释性。基于此,投影目标函数可构造为:
式中,Sz为投影值z(i)的标准差;的相关系数的绝对值。
步骤2 优化投影指标函数
当各指标值的样本集给定时,投影指标函数Qc(a)和Qe(a)只随着投影方向就是最大可能暴露高维数据某类特征结构的投影方向反映不同的数据结构特征,因此可以通过求解投影指标函数最大化问题来估计最佳投影方向,即:
最大化目标函数
约束条件
这是一个以a为优化变量的复杂非线性问题,尤其当a维数较大(研究问题的指标较多)时,用常规的优化方法处理比较困难。本文引入FS算法,令算法迭代过程中每个动物个体的位置向量代表投影方向,可以简便有效地求解上述优化问题。
FS[18]是Kalin Penev和Guy Littlefair提出的一种新算法,该算法原理简单,需要用户确定的参数不多,操作也很简便,是一种基于群体的优化方法。FS中所仿照的是一些高等群居动物在进行生物行为时,如寻找水源或食物,从种群整体而言,处于一种有序的进程之中,其中的个体又存在着与整体进程相协调的个体随意行为[5]。这种动物群体的行为特性主要依靠以下两种动物本能:直觉和运动。运动是获得最终目标的手段,是在直觉指引下的一种具体的决策实施过程。每个动物个体可以有两种运动:在邻域附近的小步幅搜索和在全局范围的大步幅勘测。
步骤3 把步骤3求得的最佳投影方向a*带入(13)式后可得各样点的投影值z*(i)。将z*(i)与z*(j)进行比较,二者越接近,表示样本i与j越倾向于分为同一类。若按z*(i)值从大到小排序,可以将样本从优到劣进行排序。对于回归问题,再根据z*(i)—y(i)的散点图建立相应的数学模型。
博斯腾湖地处干旱内陆地区,由大湖、小湖群、苇沼三部分组成,包括和静、和硕、焉耆、博胡、尉犁5个县和库尔勒市及10个兵团农业团场,总面积14.9万km2。博斯腾湖是开都河的尾闾,又是孔雀河的源头,兼有开都河来水的水资源调控、孔雀河流域农田灌溉、工业及城乡用水、流域生态保护等多种功能。
据水源、地理位置条件,博斯腾湖芦苇湿地可分为三大片[27]:黄水沟片、大湖西岸片、西南小湖区片,总面积约3.58×104hm2。黄水沟位于大湖北部,二十四团、清水河农场及包尔图以南,焉耆县五号渠乡、东风干渠以北,面积约0.59×104hm2;大湖西岸区位于大湖以西,焉耆东风干排以南到西南大河口,博湖县塔温觉肯乡、本布图乡、乌兰乡以东地带,湿地面积约0.08×104hm2;西南小湖区片位于大湖以西,孔雀河以北、解放一渠以东的焉耆县四十里城子乡、二十七团、永宁乡、博湖县查干诺尔乡、才坎诺尔乡以南地带,湿地总面积约2.88×104hm2。各片地理位置、芦苇分布面积和蕴藏产量见表1。
表1 博斯腾湖芦苇分布一览表Table 1 The reed distribution in Bosten Lake
根据博斯腾湖芦苇分布选取17个区域共计82个样点为研究对象,分别观测这82个点的株高、密度、茎粗、产量、壁厚、节数和最长节间长和水深,并采取土壤和水质样品,土样分析有机质、速效氮、全磷、速效磷、全磷、全盐,水样分析pH和COD。土壤有机质采用重铬酸钾—浓硫酸外加热法,土壤速效氮采用扩散法,土壤总磷用钼锑抗比色法,土壤总盐采用烘干法,pH值采用玻璃电极法,COD采用重镉酸钾法。
2.3.1 聚类
以芦苇的株高、密度、茎粗、产量、壁厚、节数和最长节间长7个生理特征指标,根据前述投影寻踪分类模型建模步骤,经过优化计算得到最大投影指标函数值和最佳投影方向分别为0.9894和a*=(-0.43737 0.3573 0.3189 0.0416 0.5540 0.3436 0.3948),再把 a*带入(13)式得到最佳投影值,再进行分类结果见表2。博斯腾湖芦苇按其生理特征可以分成4类(表2),和文献[27]的结果比较一致,说明投影寻踪在芦苇分类中的应用是可行的,这也同时说明芦苇的种类及群落特征没有发生显著的变化。
2.3.2 回归
芦苇的生长受到环境因素的影响,例如土壤养分、土壤水分、气候等对芦苇的生长起着重要的作用,但是对于芦苇的生长这些环境因子对芦苇的影响程度却不一样,基于前述投影寻踪回归模型建模步骤,对博斯腾湖的芦苇生长的相关环境因子进行了评价。模型计算优化得到最大投影指标函数值为1.0748,根据芦苇产量与环境综合因子(投影值)散点图分布的趋势性,可采用二次曲线描述芦苇产量与投影值之间的函数关系,所得的芦苇产量与环境综合因子数学模型为:
式中,y为芦苇产量(kg),Z为投影函数值。
表3 各环境因子投影方向排序Table 3 The ordering and projection direction of enviroment factors
最佳投影方向各分量的绝对值反映了各环境因子对芦苇产量的影响程度,各投影方向及排序结果见表3。从计算结果(表3)可以看出水的pH以及COD和水深和各土壤环境因子相比顺序均靠前,也就是说水质及水量是影响芦苇产量的主要影响因子,这主要是因为水是限制植物生长的主要因子,博斯腾湖芦苇大部分为沼泽芦苇,土壤表层均有积水,水质的好坏和水层深度直接影响到芦苇的生长;李冬林[28]报道了地表积水深度对芦苇个体茎粗度、节间长度、节数均有着显著的影响。邓春暖[29]等通过实验分析发现随着水深的增加,芦苇株高、生物量以及叶绿素含量等逐渐增加。Maucham[30]等的研究发现,部分淹水(50%和80%的叶片面积被淹)可以显著促进芦苇生长,增加生物量。王铁良等的研究表明芦苇是在不同水深情况下形态变异较高的物种,且在15 cm水层深度生长状况最好。
氮对产量的影响大于磷,速效磷大于全磷,这也说明芦苇对氮的吸收大于对磷的吸收,这是符合芦苇生长需肥规律[31]的;土壤氮素含量在一定范围内12—123.8mg/kg),含量越高芦苇产量也越高;土壤速效磷含量(5.3—20.9mg/kg)与芦苇产量无显著相关性,这和本研究的结果部分一致。芦苇虽然为耐盐植物,但是博斯腾地处干旱区,湖泊盐化情况严重,湿地土壤盐分含量高,在一定程度上限制了芦苇的生长;宋健[32]等的研究表明芦苇是拒盐植物;王铁良等[33]也报道了盐度和水深均是制约芦苇生长和产量的重要因子;沼泽芦苇多为腐殖质沼泽土和泥炭土,土壤有机质含量高,基本都能满足芦苇生长的需要,因此土壤有机质对芦苇的影响最小。
从总的排序情况来看,前4位分别为pH、COD、土壤速效氮和土壤全盐,后4位分别为水层深度、土壤速效磷、土壤全磷、土壤有机质,而排序靠前的pH、COD和土壤全盐和芦苇的生长呈负相关,随着pH、COD和土壤全盐的增加芦苇的产量下降。赛迪古丽[34]的研究也证明了芦苇株高和芦苇冠幅收受土壤pH值影响较大。而pH、COD和土壤全盐的增加均来源于上游农田排水和工业污水排入,博斯腾湖每年有近400万t工业污水排入,开都河灌区每年通过农田排水带入博斯腾湖盐分高达5.299×105t[14],致使博斯腾湖矿化度和COD含量增加,pH值升高生态环境恶化,由此可以看出要想提高芦苇的产量保护湿地芦苇,限制上游污水排入(包括农田和工业污水)是首要问题,因此通过芦苇产量与其环境影响因素的分析就可以反映出博斯腾湖的主要生态环境问题,这也为芦苇湿地的环境治理得出一个启示,保护芦苇湿地首先应该控制污染物的排放包括农田和工业污水的排放。
(1)本研究通过应用基于自由搜索算法的投影寻踪模型对博斯腾湖湿地芦苇进行了统计调查。以芦苇的株高、密度、茎粗、产量、壁厚、节数和最长节间长7个生理特征指标为基础结合投影寻踪模型对芦苇进行了分类,结果表明博斯腾湖芦苇按其生理特征可以分成4类,博斯腾湖芦苇的种类及群落特征没有发生显著的变化。
以芦苇的8个环境因素(土壤速效磷、土壤全磷、土壤有机质、土壤速效氮、水层深度、pH、COD、和全盐)为环境指标,利用投影寻踪模型对博斯腾湖的芦苇生长的相关环境因子进行了评价。从总的排序情况来看,前4位分别为pH、COD、土壤速效氮和土壤全盐,后4位分别为水层深度、土壤速效磷、土壤全磷、土壤有机质。在8个环境因子中水质及水量是影响芦苇的主要环境因子,氮对产量的影响大于磷,速效磷大于全磷,土壤盐分在一定程度上限制了芦苇的产量,土壤有机质对芦苇的产量影响最小。
(2)应用基于自由搜索算法的投影寻踪模型在芦苇调查中进行了应用,将芦苇指标作为多个投影参数来寻求其投影方向,由最佳投影指标函数来反映各类芦苇的特征,避免了人为赋予权重的干扰,不仅可以反映湿地芦苇的实际情况,还可以通过对芦苇的分析反映中整个湖泊湿地的生态环境问题。通过实际应用表明投影寻踪模型在芦苇调查中的应用有效可行,客观性强,为湿地芦苇调查提供了一条新的思路。
[1]Li JG,Li B G,Liu F,Wang D W,Chen G S.Reed resource and its ecological function&utilization in Baiyangdian Lake.South-to-North Water Transfers and Water Science& Technology,2004,2(5):37-40.
[2]Mack R N.Predicting the identity and fate of plant invaders:emergent and emerging approaches.Biological Conservation,1996,78(1/2):107-121.
[3]Graveland J,Coops H.Decline of reed belts in Netherlands:causes,consequences,and a strategy foreversing the trend(in Dutch).Landschap,1997,14:67-76.
[4]Ostendorp W.Schilfuckgang am Bodensee-Untersee Ursachen.Aquatic Botany,1989,51:87-101.
[5]Friedman JH,Turkey J W.A projection pursuit algorithm for exploratory data analysis.IEEE Transactions on Computers,1974,C-23(9):881-890.
[6]Wang X.Study on Application of Projection Pursuit to the Assessment of Region Forest Resources Difference[D].Beijing:Beijing Forest University,2003.
[7]Berro A,Marie-Sainte S L,Ruiz-Gazen A.Genetic algorithms and particle swarm optimization for exploratory projection pursuit.Annals of Mathematics and Artificial Intelligence,2010,60(1/2):153-178.
[8]Li G Y,Cheng P.Some recent developments in projection pursuit in China.Statistica Sinica,1993,3:35-51.
[9]Chang H,Shi J,Chen Z.Projection pursuit principal component analysis and its application to meteotology.Acta Meteorologica Sinica,1990,4:254-263.
[10]Caussinus H,Ruiz-Gazen A.Exploratory projection pursuit//Govaert G.Data Analysis(Digital Signal and Image Processing Series).New Jersey:John Wiley& Sons,2009:95-150.
[11]Friedman J H,Stuetzle W.Projection pursuit regression.Journal of the American Statistical Association,1981,76(376):817-823.
[12]Wang SJ,Zhang X L,Yang Z F,Ding J,Shen Z Y.Projection pursuit cluster model based on genetic algorithm and its application in Karstic water pollution evaluation.International Journal of Environment and Pollution,2006,29(3/4):253-260.
[13]Fu Q,Xie Y G,Wei Z M.Application of projection pursuit evaluation model based on real-coded accelerating genetic algorithm in evaluating wetland soil quality variations in the Sanjiang Plain,China.Pedosphere,2003,13(3):249-256.
[14]Achard V,Landrevie A,Fort JC.Anomalies detection in hyperspectral imagery usingprojection pursuit algorithm,image and signal processing for remote sensing X//Bruzzone L.Proceedings of the SPIE,2004:193-202.
[15]Guo Q,Wu W,Questier F,Massart D L,Boucon C,De Jong S.Sequential projection pursuit using genetic algorithms for data mining of analytical data.Analytical Chemistry,2000,72(13):2846-2855.
[16]Larabi Marie-Sainte S,Berro A,Ruiz-Gazen A.An efficient optimization method for revealing local optima of projection pursuit indices//ANTS'10 Proceedings of the 7th International Conference on Swarm Intelligence.Heidelberg:Springer-Verlag,2010:60-71.
[17]Jones M C,Sibson R.What is projection pursuit?.Journal of the Royal Statistical Society:Series A,1987,150(1):1-36.
[18]Penev K,Littlefair G.Free search-a comparative analysis.Information Sciences,2005,172(1/2):173-193.
[19]Wang B,Zhang Z Y,Zhang GH,Chen ZP.Free search:A novel algorithm for optimizing irrigation schedule.Advances in Water Science,2008,19(5):738-741.
[20]Holland J H.Genetic algorithms.Scientific American,1992,(4):44-50.
[21]Kenndy J,Eberhart R C.Particle swarm optimization//IEEE International Conference on Neural Networks.Perth Australia:IEEE,1995:1942-1948.
[22]Kruskal JB.Toward a practical method which helps uncover the structure of a set of multivariate observations by finding the linear transformation which optimizes a new index of condensation//Milton R C,Nelder JA.Statistical Computation.New York:Academic Press,1969:427-440.
[23]Huber P J.Projection pursuit.Annals of Statistics,1985,13(2):435-475.
[24]Fu Q.The Data Processing Method and Application of Agriculture.Beijing:Science Press,2006:283-323.
[25]Friedman JH,Stuetzle W,Schroeder A.Projection pursuit density estimation.Journal of the American Statistical Association,1984,79(387):599-608.
[26]Friedman JH.Exploratory projection pursuit.Journal of the American Statistical Association,1987,82(397):249-266.
[27]Xia J,Zuo Q T,Shao M C.Sustainable Utilization of Water Resources of Bosten Lake-Theory,Method and Practice.Beijing:Science Press,2003:97-103.
[28]Li D L,Zhang J L,Pan W M,Zhu Y Q.Effect of surface water accumulation on morphological structure and biomass of Phragmites australis.Journal of Jiangsu Forestry Science& Technology,2009,36(3):17-20.
[29]Deng CN,Zhang GX,Li H Y,Li RR.Eco-physiological responses of Phragmitesaustralis to different water-salt conditions in Momoge Wetland.Acta Ecologica Sinica,2012,32(13):4146-4153.
[30]Mauchamp A,Blanch S,Grillas P.Effects of submergence on the growth of Phragmites australis seedlings.Aquatic Botany,2001,69(2/4):147-164.
[31]Wang G S,Huang X S,Zhong Y S.The study on relation between reed yield and ratio of uptake N,P and K.Liaoning Agricultural Sciences,1989,(1):32-35.
[32]Song J,Yang L X,Nie L L,Zhang Y,Liu Z Q.Comparative study on physiological characteristics of salt tolerance between Phragmitescommunis and Puccinellia tenuiflora.Tianjin Agricultural Sciences,2010,16(6):10-12.
[33]Wang T L,Wang L Y,Su L L,Zhang X Y,Li G.Reasonable irrigation model of reed under saline water irrigation.Journal of Irrigation and Drainage,2009,28(2):120-123.
[34]Sadigul H,Hamid Y.Spatial variability of soil ph value and its effects on the growth of Phragmitesaustralis in Keriya oasis Taking Karki Village as an example.Journal of Xinjiang Normal University:Natural Sciences Edition,2012,31(2):9-15.
[1]李建国,李宝贵,刘芳,王殿武,陈桂珅.白洋淀芦苇资源及其生态功能与利用.南水北调与水利科技,2004,2(5):37-40.
[6]王昕.投影寻踪技术在区域森林资源差异性评价中的应用研究[D].北京:北京林业大学,2003.
[19]王斌,张展羽,张国华,陈子平.一种新的优化灌溉制度算法——自由搜索.水科学进展,2008,19(5):738-741.
[24]付强.数据处理方法及其农业应用.北京:科学出版社,2006:283-323.
[27]夏军,左其亭,邵民诚.博斯腾湖水资源可持续利用——理论、方法与实践.北京:科学出版社,2003:97-103.
[28]李冬林,张纪林,潘伟明,朱轶群.地表积水状况对芦苇形态结构及生物量的影响.江苏林业科技,2009,36(3):17-20.
[29]邓春暖,章光新,李红艳,李然然.莫莫格湿地芦苇对水盐变化的生理生态响应.生态学报,2012,32(13):4146-4153.
[31]王国生,黄溪水,钟玉书.芦苇产量与植株吸收氮磷钾比例关系的研究.辽宁农业科学,1989,(1):32-35.
[32]宋建,杨迎霞,聂莉莉,张越,刘仲齐.芦苇和碱茅耐盐生理特性的比较分析.天津农业科学,2010,16(6):10-12.
[33]王铁良,王立业,苏芳莉,张潇予,李刚.芦苇微咸水适宜灌溉模式研究.灌溉排水学报,2009,28(2):120-123.
[34]赛迪古丽·哈西木,海米提·依米提.于田绿洲土壤pH值的空间异质性及其对芦苇生长的影响研究——以喀尔克乡为例.新疆师范大学学报:自然科学版,2012,31(2):9-15.