王洪礼,倪 强,郭嘉良,孙 静
(1.天津大学管理与经济学部,天津300072;2.天津大学机械学院,天津300072)
人类社会、经济的发展,既依赖于环境和自然资源的支持,又对环境质量产生不利的影响。随着我国社会经济的高速发展,资源需求不断增加,环境污染问题日益突出,尤其是在海岸带区域,由于人口趋海移动的压力、大量陆源污染物排泄入海以及不合理开发造成的破坏,海岸带生态经济系统面临着严重的冲击和挑战。海岸带污染十分严重,海洋生态灾害频发。生态环境问题已成为制约我国经济持续、快速发展的瓶颈。如何处理好经济发展与生态环境之间的关系,使二者之间协调发展,已成为我国目前亟待解决的科学难题[1]。
本文以海洋渔业生产值为对象,从陆源污染物排放方面分析海岸带生态经济系统的胁迫因素,建立了基于随机梯度Boosting方法的海洋渔业生产值预测模型。利用该模型分析了各胁迫因素在海洋生态经济系统中的影响程度,并提出了相应的对策。
近年来,机器学习领域中的多个问题引起了专家学者的强烈研究兴趣,讨论较多的问题主要有集成学习技术。集成学习技术应用领域十分广泛,包括预测分析、语音识别、知识发现、数据挖掘、医疗诊断等多个方面。其主要思想是将多个基础学习器组合起来得到一个组合模型进行学习,利用不同的组合规则,使得组合模型的性能好于单个基础学习器。由于单个基础学习器之间存在差异性,因此组合模型拥有较好的泛化性能,性能比单个基础学习器较好。
随机梯度回归是Friedman[2]提出的一种回归预测方法。将多个基础学习器组合成一个模型,基础学习器一般选取回归树。借助最速下降优化思想,利用损失函数负梯度产生的伪残差(损失函数关于F(x)的负梯度)建立迭代回归树。按照Bagging思路,每次利用伪残差建立回归树的过程中,没有使用所有伪残差,而是随机选取一部分用来得到回归树,最后得到的模型就是一些回归树的线性组合。
式中:Tm(x)为棵回归树;αm为线性组合系数。
在循环过程中,回归树以及相应的组合系数是由全部样本中随机抽取一部分来建立。令{yi,xi为全部样本,{π(i)为自然数{1,…,N}的一个随机排序,则一个随机子样本就是 {yπ(i),xπ(i),且N<~N,则有
{Rjm}=J个叶节点的回归树
其中k=~N/N体现了算法的随机性,即k越小,紧挨着的两次循环选择的子样本不同的概率越大,整个算法的随机性越大。由于选择部分样本,计算的代价以比例k减少,但在每次循环中使用较少样本,回归树的偏值会增大。随机模拟表明,k最好的选择在0.5左右[3]。
基于回归树的随机梯度Boosting算法性能较好,兼顾了回归树的优点,同时避免了单棵树的许多缺点:当采用单棵回归树时,是不连续的,而采用多颗回归树的线性组合,则避免了单棵树的不连续性,因此,其预测性能较单棵树有很大提高;同时单棵树存在不稳定的缺点,而随机梯度Boosting连续使用多棵回归树,在统计意义上它就平均了每棵树的误差,因此提高了稳定性;此外,采用单棵回归树还存在分割难度较大等困难,而采用随机梯度Boosting则减小了这个难度,从而提高了模型的稳定度。因此,随机梯度Boosting的应用范围十分广泛。
海岸带生态系统属海陆相交的过渡带,具有高生产力、高梯度变化和高脆弱性等特征,具有非常重要的生态、经济和社会价值。由于海岸带生态系统的高价值服务功能和人居适宜性,世界大约1/3的城市人口居住在离海岸60公里以内的范围。我国沿海地区是经济发展最迅速的区域,其面积占全国的14%,而人口则占全国的40%,GDP总产值占全国的60%以上。然而,沿海经济的迅速发展给海岸带生态系统带来了巨大压力,其突出表现就是物种多样性大幅度减少、调节气候、储水分洪、抵御风暴潮及护岸保田等的能力大大降低。
加拿大统计学家兰珀德和佛兰德最早提出“压力、状态、响应”(PSR)概念。为了评价世界环境状况,经济合作和开发组织(OECD)与联合国环境规划署(UNEP)于20世纪80年代末,共同提出了环境指标的PSR模型,即“压力、状态、响应”模型。该模型的主要思想是:基于“原因、效应、响应”的思维逻辑,描述了人类生态经济系统中社会、经济与环境三者之间的相互作用关系。在生态经济系统中,人类为了推动社会、经济发展,需要向自然界索取各种生存发展所需要的资源,同时将发展经济中所产生的废弃物又排放至自然环境中。因此,人类行为从自然资源质量与环境质量两方面都改变了自然环境的状态,既减少了自然资源的储存量,又加重了环境承载废弃物的压力,从而影响了环境状态。随着环境状态的变化,人类的社会经济活动受到影响。为了消除这种影响,人类通过约束社会经济发展活动,制定相应环境政策、经济政策等措施,对环境状态的变化进行积极控制。这样一个“作用→反馈→再作用”的循环过程,充分体现了人类生态经济系统中社会、经济与环境三者之间的压力、状态、响应关系。
PSR模型主要分为人类对环境施加的压力指标、生态经济系统的状态指标以及人类为改善环境状态做出的响应指标。其中,压力指标描述了人类发展社会经济过程中对环境的影响,包括自然资源的消耗,尤其是人类社会人口增长对资源需求的增长、物质资源的开采、由于生产发展的不合理,而导致生产过程中产生的废弃物排放处理,以及各种产业活动对自然生态系统的破坏和干扰。状态指标描述了在某一时段内生态环境的状态以及状态变化趋势、变化幅度等情况,包括自然生态系统中生物的保有量、自然环境的现状以及生态经济系统中其他状态量。响应指标则描述了人类为改善环境状态,通过在环境、经济、土地等方面制定的政策或管理措施所做出的努力,包括从思想认识方面制定的相应宣传保护政策、从实际行动方面开展的禁捕等措施,从而使得人类活动对环境的负面影响被减轻、阻止和预防,因此环境状况能够得到逐步的恢复和改善。PSR模型体现了生态经济系统的输入、状态、反馈的逻辑框架,其思维逻辑是从原因、结果、响应三个方面来考虑。选择该模型,需要分析生态经济系统中压力指标和状态指标的因果关系,从而判断该如何做出响应。PSR模型具有非常好的实际意义,广泛地应用于多个领域。
本文利用PSR模型,对海岸带渔业生态经济系统进行了分析。从压力方面考虑,人类开展社会经济活动必然要从自然界索取各种生物资源、环境资源,这也就形成了对海岸带生态经济系统进行开发的驱动力。与此同时,生产的废弃物排放至自然环境中,又造成了对环境的压力。从状态方面考虑,可考虑以下两个方面:一方面是海岸带经济子系统的状态,如海岸带区域内的渔业产值;另一方面是海岸带区域的环境质量,如空气质量等。最后从响应方面考虑,人类必须制定出相应的对策。
1.压力层面因素
近年来,海岸带地区的资源和环境问题日益严重。由于获取各种自然资源的利益驱动,人类开展了多种生产经营活动。海岸带生态经济系统在多个方面遭受着强烈的压力。主要有社会发展带来的人口压力及对自然资源的需求压力、经济发展带来的污染物排放压力等因素。
(1)人口增长。由于海岸带生态系统的高价值服务功能和人居的适宜性,因此世界大约1/3的城市人口都居住在离海岸60公里以内的区域中。我国沿海地区面积仅占全国的14%,而人口则占全国的40%,容纳了全国50%左右的大中城市,由此就带来了巨大的人口压力。经过多年发展,上海市社会经济发展水平快速提高,人口也持续增长,因此对上海市海岸带生态经济系统带来了巨大的压力。自从建国以来,上海市的常驻户籍人口一直呈现出稳定增长的态势。
(2)社会经济发展。上海市的工业发达,工业产业结构又以重工业为主。在工业的发展过程中消耗了大量的水、能源,同时向环境排放出大量的废水、废气及固体废弃物等污染物。
(3)海岸带开发。近年来,大量围绕海岸带区域的开发活动日益加剧,如围海造地、港口建设、大规模人工养殖、筑堤、海洋石油开采等。由于这些活动改变了海岸带的物理环境,从而导致了海岸带区域内生态环境及生态系统的较大恶化。
2.状态层面因素
状态方面考虑以下两个方面:一方面是海岸带经济子系统的状态,如海岸带区域内的渔业产值;另一方面是海岸带区域的环境系统的质量状态,如海岸带区域的空气质量。本文选取上海市海岸带区域空气中的主要污染物:烟尘、二氧化硫等。
3.响应层面因素
针对海岸带生态经济系统区域内的现状,人们做出了许多响应,如制定了相关的开发保护政策,在确保经济增长的情况下为保护环境减少工业废水、废气、废弃物的排放以及加大环境保护的投入力度等。因此,研究海岸带生态经济系统可选如下指标:状态指标选取海岸带区域城市上海市的渔业经济产值;压力指标可将社会经济活动产生的压力简化为生产经济活动中产生的废水、废气及烟尘的排放量等;由于制定的响应政策无法直接量化,因此响应指标选用废水、废气的排放量的变化量。
采用以上三方面的指标,利用随机梯度回归Boosting算法,具体对上海市海岸带生态经济系统的经济状态进行如下分析。
1.研究指标
本文选取典型的沿海城市上海,以其海洋渔业生产值为研究对象,分析陆源污染物对海岸带生态经济系统的影响。其中陆源污染物包括工业废水排放量、生活废水排放量及烟尘排放量、二氧化硫排放量。
2.样本数据
本文的数据来源于《上海统计年鉴》(1991—2008年),其中个别在年鉴中没有体现的数据,用线性插值代替。具体数据见表1。为了消除各个因子由于量纲和单位不同带来的影响,对样本的输入和输出变量分别用下式进行规范化处理,即
式中:zi和yi分别为规范前后的变量;zmax和zmin分别为z的最大值和最小值。
3.实证分析
采用上述随机梯度Boosting算法建立回归树模型,其中重要参数取值为:Shrinkage=0.001,Bagging的Fraction=0.5,每棵树的叶结点数J=3,即每棵树最多有3个变量进行交互作用。对于树的数目M,采取如下方式:首先生成足够多的树,然后再从中确定最优的树的数目M[3]。将表1中1991—2005年15组数据作为训练样本,预留2006—2008年的3组数据进行检验。在随机梯度Boosting回归模型的运算过程中,平方误差随着循环次数的变化(见图1)。从图1可以看到,当循环次数为4 900左右时,平方误差基本收敛。
图1 平方误差
在实际应用中,对得到的预测函数进行解释是十分重要和有用的[4-5]。这也包括对输入变量进行解释、分析哪些变量对预测函数的影响最大。从作用方面来说,预测函数反映了目标函数的性质,因此能分析输入变量和输出变量之间的潜在关系。
当给定独立的输入变量xj时,得到的预测函数形式为F(x)。其中最重要的概念就是对相对影响程度Jj的描述。Jj的具体形式有
由于通过决策树生成的预测函数不连续,不存在一阶偏导,因此上述公式不存在。经研究得到一个对影响程度计算函数的估计式
式中:T为拥有L个结点的树;t为树的第t个非叶结点;vt为与结点t相关的分割变量;为由于分割造成的损失的相应的经验平方误差。
对于通过Boosting得到的决策树集合 ,可以将式(4)推广到所有的树上。
判断变量重要性的思路是在树的生成过程中,认为每个变量拥有同等的概率被选作分割变量,则当一个变量被选作分割变量的次数多于其他变量时,即可认为该变量对树的影响程度高于其他变量。根据这一思想,利用随机梯度Boosting算法可得到各个变量的相对影响程度(见图2)。由此可见,工业废水排放量是影响程度最大的一个因素,它从侧面反映了人类经济活动的活跃程度,在较大程度上影响着渔业产值。烟尘排放量对渔业产值的影响次之。生活废水排放量反映了人类经济活动的活跃程度,也在一定程度上影响着渔业产值,其影响排在第三位。结果表明,二氧化硫排放量的影响程度相对较小。
表1 上海市生态经济系统指标数
2000 37.92 7.25 12.12 14.12 46.49 2001 40.13 6.80 12.70 13.52 47.26 2002 45.13 6.49 12.72 10.74 44.66 2003 49.21 6.11 12.11 11.54 43.54 2004 49.90 5.64 13.70 12.27 47.31 2005 51.64 5.11 14.86 11.52 51.28 2006 55.25 4.83 17.54 11.29 50.80 2007 54.19 4.76 17.9 10.60 49.78 2008 57.11 4.41 18.19 10.63 44.61
图2 相对影响程度
本文运用随机梯度Boosting回归方法建立了海岸带渔业生态经济系统模型,确定了主要影响指标。通过模型分析了海岸带渔业生态经济系统,计算了各指标的影响程度。当选取影响上海市海岸带渔业经济发展的主要指标为生活废水排放量、工业废水排放量、烟尘排放量及二氧化硫排放量时,通过分析得到各指标对渔业经济产值的影响程度,最大的是工业废水排放量,最小的是二氧化硫排放量。因此,控制海岸带生态经济系统内工业废水排放量,能较显著地保护区域内环境质量,从而保护海岸带渔业生态经济系统。上述研究对加强海岸带渔业生态经济系统的理论研究,分析生态环境子系统与经济子系统之间的作用机制,找出影响因素的关键因子,对于加强生态环境保护投资,修复海岸带渔业生态系统,改善环境,从而保持海岸带渔业生态经济的可持续发展,具有十分重要的实际意义。
[1] Arrow K,Bolin B,Costanza R,et al.Economic growth,carrying capacity,and the environment[J].Environment and Development Economics,1996,15(1):104-110.
[2] Freidman J H.Greedy function approximation:A gradient boosting machine[J].Annals of Statistics,2001,29: 1189-1232.
[3] Breiman L,Friedman J H,Olshen R A,et al.Classification and Regression Trees[M].New York:Chapman and Hall,1984.
[4] 李 栋,王洪礼,杜忠晓,等.城市生活用水量的支持向量机回归预测[J].天津大学学报:社会科学版,2006,8 (1):64-67.
[5] Breiman L.Bagging predictors[J].Mach Learn,1996,24 (2):123-140.
[6] Tibshirani R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society,1996,58 (1):267-288.