陈文灿 张伟东 申屠惠良 郑春茂(国家林业局华东林业调查规划设计院 浙江杭州 310019)
摘要:采集生物量建模数据过程中,因季节、天气变化、立地条件,以及外业调查人员对数据采集过程的把握,诸多因素均会对采集到的数据产生影响,导致部分数据异常。异常数据称为扰动数据,若参与建模,会引起建模结果的异常,应该剔除。从残差分析的角度,对如何从众多数据中过滤出扰动数据提出了解决方案。关键词:扰动数据;残差分析;三倍标准差中图分类号:TP391 文献标识码: B 文章编号:1004-7743(2012)01-0061-04
生物量建模过程中剔除扰动数据方法探讨
陈文灿 张伟东 申屠惠良 郑春茂
(国家林业局华东林业调查规划设计院 浙江杭州 310019)
摘要:采集生物量建模数据过程中,因季节、天气变化、立地条件,以及外业调查人员对数据采集过程的把握,诸多因素均会对采集到的数据产生影响,导致部分数据异常。异常数据称为扰动数据,若参与建模,会引起建模结果的异常,应该剔除。从残差分析的角度,对如何从众多数据中过滤出扰动数据提出了解决方案。
关键词:扰动数据;残差分析;三倍标准差
中图分类号:TP391 文献标识码: B 文章编号:1004-7743(2012)01-0061-04
生物量建模数据的准备分为外业数据采集和内业数据处理两个阶段。外业数据采集阶段,按树根、树干、树枝、树叶四个部位,采集样木的鲜重数据,以及样木各部位样品的鲜重数据。内业数据处理阶段,主要是测定样木各部位样品干重与含水率,根据样木鲜重、样品鲜重与样品干重,计算样木整体干重,即生物量。
此处,样木指调查主体;样品指样木的一部分,用来测定生物量。生物量的具体计算过程如下:
其中M为样木总体生物量;iW为样木各部位鲜重;iw为样木各部位样品鲜重;iz为样木各部位样品干重。
经过外业调查和内业数据处理,获得某个树种的生物量总体建模数据,实际样木数量51株,各样本平均值、最大值、最小值的特征数据见表1。
选择生物量模型形式:M =a(D2H)bV,其中a、b为模型参常数;D 为样木胸径;H为样木树高;V为样木材积。
表1 生物量建模样木特征数据
2.1 建立回归方程
使用普通最小二乘法(OLS),对生物量建模样木数据进行多元非线性回归计算,获得模型的参数a、b,由此建立回归方程,根据此回归方程,计算模型估计值。
2.2 残差分析
生物量建模数据中,样木实测生物量称为观察值,根据回归模型计算的生物量称为估计值,观察值和估计值之差,称为残差。为了消除负数对分析过程的影响,将残差的平方作为统计量。
残差平方的方差:
其中:n为样木总数。
2.3 扰动数据剔除依据
根据《国家森林资源连续清查技术规定》,正常样木的估计区间为。在生物量建模过程中,可以引用此标准,其中为残差平方的平均数,若残差的平方超过样本估计区间范围的样木,即为扰动数据,不能参与回归方程的计算。
以上述生物量调查数据为例,使用普通最小二乘法(OLS)对生物量样木数据进行多元非线性回归计算,结果见表2。
表2 生物量建模结果
按此分析方法,确定的异常样木虽然只有1株,剔除这株样木以后,可以看出,模型参数趋向稳定,确定系数从0.9586到0.9697,有明显的提高;复相关系数从98.50到98.86,也有所改善;因样木建模数据本身的复相关系数较高,所以预估精度没有变化。由附表二可以看出,按此方法,对建模数据进行分析,剔除扰动数据后,明显提高了模型的质量。
[1] 国家林业局.国家森林资源连续清查技术规定. 2004.
[2] 张会儒,唐守正,胥辉. 关于生物量模型中异方差问题. 林业资源管理,1999,01.
2012-01-21