基于多种统计方法对林分类型的简单识别

2017-03-31 09:51屈晓阳
时代金融 2017年8期
关键词:主成分分析

【摘要】林分类型信息的提取是遥感影像分类中的热点和难点,而大兴安岭地区又是我国重点林区和天然林主要分布区之一,植被类型丰富,种类繁多,为林分类型精确识别带来了很大的难度。本文采用的数据为黑龙江省大兴安岭地区塔河县塔河林业局盘古林场的SPOT-5影像和不同时相的RADARSAT-2全极化SAR影像组合而成的11个波段为变量,其数据为像元值,目视解译选取的训练样本分为落叶松(Larixgmelinii)、樟子松(Pinussylvestrisvarmongolica)、白桦(Betulaplatyphylla)、非林地、水体,五类共计1250个象元值。旨在通过分析五类总体的统计学性质,为提高林分类型的分类精度提供新思路。

【关键词】林分类型 判别分析 主成分分析 多维标度法

一、多元正态分布均值向量和协方差阵的检验

(一)单一总体协方差阵Σ未知时均值向量的检验

选取白桦为总体

则H0:μ=μ0 H1:μ≠μ0

其中μ0为选取的为小兴安地区的白桦象元均值,目的考察不同地区同一树种象元值是否

μ0=(.244156192,.692591546,.041963218,.064344538,.1375 43219,.885053115,.090804954,.055939596,.097414752,.21043111, 43.71188295)

假设H0成立,检验统计量为

利用Spss求得样本离差阵S,并由matlab求解得:■0.1041*(250-11)/(250-1)*11)=0.01225

查表在0.01水平下F(11,239)=1.57>0.01225接受原假设μ=μ0均值检验说明不同地域之间的相同树种对应的像元值平均偏差不大,也就是说同种树种象元识别受地域影响不大。

(二)单一总体协方差检验

检验假设:H0:Σ=Ip H1:Σ≠Ip

统计量为:■

由一中的样本离差阵S计算-2lnλ=1.18426;

0.05水平下χ2(66)=48.305>-2lnλ,

0.005水平下χ2(66)=40.158>-2lnλ,

在給定水平下均接受原假设,即说明选取的变量之间的相关程度不高,即波段之间相关性不强。

二、判别分析

对新样本70个待定象元划入五个总体进行判别分析:

(一)马氏距离判别法

则待判定样本到各组的马氏距离是:■

判别规则为:若■,则X判别为第i类。

可以设■,则:■,计算得到W后,可得:

以X=(0.2444 0.6791 0.0395 0.0786 0.1146 0.9252 0.0643 0.0953 0.0848 0.3309 52.0485),分别计算得到五个马氏距离,其中■=2.005最小,故该样品用距离判定法得到的结果为第2类,即为落叶松。

(二)贝叶斯判别法和费希尔判别法

费希尔判别:

在分析中使用第一个4规范判别式函数。

1通过4的显著性为0.000,表示四个判别函数可以显著区分各类;2通过4与3通过4的显著性为0.00,表示除去一,二函数能将各类显著区分;4的显著性大于0.05,表示除了前三个函数不能区分各类。

根据标准化系数和未标准化系数来分别判别计算每个个案的判别得分。利用计算得到的每类的重心在平面上的位置,可用于距离判别。下面计算各组先验概率,在此选择的是各组先验概率相等,进而计算每组的分类函数,用于贝叶斯判别分析。

得到最终分类结果。分类结果对66.2%的个案进行了正确分类。分类结果精度较低,原因在于总体间的差异性较小,从专业角度分析由于树种对不同波段的反射特性基本差别不显著,导致象元值之间的差异也不显著,这点在组间差异检验中有所体现。但是就遥感分类来说,能达到期望精度要求。

三、主成分分析

(一)利用主成分分析降维去相关

本章选取了20个行业15个经济指标做分析。自2011年起,统计口径为年主营业务收入2000万元及以上的工业企业。分别是:X1:流动资产合计,X2:应收帐款,X3:产成品,X4:资产合计,X5:负债合计,X6:主营业务收入,X7:主营业务成本,X8:主营业务税金及附加,X9:销售费用,X10:管理费用,X11:财务费用,X12:利息支出,X13:利润总额,X14亏损企业亏损额,X15:应交增值税,单位统一为亿元。

数据采用15个经济指标对行业的发展情况进行评判,采用主成分分析减少指标个数。虽然变量单位相同,但是数据大小差异大,先对数据进行标准化。在软件计算时spss会自动标准化,所以输入原始数据就可以了。通过计算初始变量的相关系数矩阵表,可以看到多个变量之间的相关系数较大,且对应的显著性普遍偏小,说明变量之间存在显著的相关性。特别是很多变量达到了0.8甚至0.9以上,说明其相关程度很大,因此进行主成分分析很有必要。

通过对原始数据进行主成分提取,可以得到主成分的特征值与各自贡献率表。实际应用中常取累计方差贡献率大于等于90%),确定主成分的个数。可以看出,前4个主成分的累计贡献率已经达到92.908%,因此,取前4个主成分即可满足要求。则将维度由15降到了4。

(二)利用主成分分析进行综合评价

由相关系数矩阵计算特征根为及特征根对应的特征向量,通过分析,我们以15个特征根为权计算综合得分。进而得到各行业综合得分及排名,由计算结果可以看出木材加工和木、竹、藤、棕、草制品业在这几个经济指标下,综合排名在第一,而原始数据也反映该行业存在明显优势。

四、多维标度法

为分析不同省份森林受灾水平,用多维标度法对27个省份进行分析,将结果呈现在图上。选用:森林火灾次数(次),火场总面积(公顷),森林病虫鼠害发生面积(万公顷),森林病虫鼠害防治率(%)这4个变量。利用标准化后的这四个变量计算出距离阵,用spss分析,可得到结果,即样品间的距离阵,这里采用的是欧式距离,距离阵为欧式距离阵。输出结果得到Young压力指数为0.14486K压力指数小于15%,RSQ为93.781%,所以认为该模型拟合的结果还是可以接受的。

通过绘制,得到在二维平面上直观的反应27个省在森林灾害4个指标体系中所处的位置。27(新疆)21(海南)距离最远,从原始数据来看新疆海南森林灾害较为严重,特别是鼠害面积上在27个省中显得尤为突出。而海南在林火面积上位于第一,3(内蒙古)综合林火面积与鼠害面积因而距离也远。17(广西)与其他省比鼠害防治率低,19(四川)鼠害不严重,防治较好,但林火严重。综合分析第一维横轴主要是林火灾害水平,第二维纵轴主要是鼠害水平。得到的线性拟合图是欧式距离模型线性拟合的散点图,由散点图可以看出,欧式距离(实际距离)与差异点(拟合距离)在y=x直线附近,这说明模型拟合的效果是比较理想的。

作者简介:屈晓阳(1992-),女,满族,辽宁凤城人,辽宁大学硕士研究生在读,应用统计。

猜你喜欢
主成分分析
Categorizing Compiler Error Messages with Principal Component Analysis
关于AI上市公司发展水平评价
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用