基于聚类分析法的黑龙江省国有林区小城镇建设评价

2016-04-06 06:05关凤丽顾凤岐
中国林业经济 2016年1期
关键词:分类

关凤丽,顾凤岐

(东北林业大学理学院,哈尔滨,150040)



基于聚类分析法的黑龙江省国有林区小城镇建设评价

关凤丽,顾凤岐

(东北林业大学理学院,哈尔滨,150040)

摘要:根据收集到的黑龙江省40个国有林业局(样品集)2008—2012的各指标数据,选取比较主要的14个指标作为考察特征,应用系统聚类法对黑龙江省40个国有林业局小城镇建设情况进行了分类;并确认分四类为最优聚类方案。根据聚类结果,对目前国有林区小城镇建设现状提出针对性评价。

关键词:系统聚类法;国有林区;小城镇建设;分类

1 国有林区小城镇建设概况

黑龙江国有重点林区总经营面积为1 009.8万hm2,林地面积857万hm2;活立木总蓄积8.33亿m3;森林覆盖率85%;黑龙江国有林区现有40个林业局、627个林场、17个林产工业、4个林机修造企业以及公检法司、科研院所、文教卫生、森林调查、建筑施工等处级以上企事业单位140个。林区总人口为160.8万人,职工72.5万人。在生态建设方面,坚持以营林为基础的方针,大力进行人工造林,人工造林保存面积达到293.8万hm2。在经济发展方面,木材产量最高时占全国33.5%,累计为国家生产木材5.19亿m3,占全国产量的21%;上缴利税119亿元。在社会发展方面,在昔日人迹罕至、基础设施几近于零的原始林区,建起了星罗棋布的小城镇[1]。

2 指标选取

黑龙江省国有林区小城镇建设包括生态文明、经济发展、产业结构、人口就业、居民生活等方面[2],影响因素众多,提取出可以评价小城镇建设水平的重要的14个指标,分别为人口密度、城镇登记失业率、医疗人员占总人口比例、在职大中专及其以上学历比例、人均住房使用面积、人均铺装道路里程;经济系统方面的选取GNP、人均GDP、第三产业产值比重、人均第三产业产值;生态系统方面选取的是森林覆盖率、人均林地面积、绿化覆盖率。

3 数据收集与整理

黑龙江省40个林业局作为聚类对象,14个指标作为聚类特征。收集黑龙江省四十个国有林业局2008—2012的数据资料,主要包括内容如:年度地区生产总值(GDP)、年度末总人口、年度第三产业总产值、年度住房总面积、年度总道路里程、森林面积、绿化覆盖面积等数据样本(略)。根据计算公式整理得14个指标数据(见表1)。其中的13个指标计算公式如下:人口密度(人/公顷)=年度总人口/辖区面积,人均GDP(元)=本年度地区生产总值(GDP)/本年度末总人口,第三产业比重(%)=本年度第三产业总产值/本年度地区生产总值(GDP),人均第三产值(元/人)=本年度末第三产值/本年度末总人口,万元GDP耗水量(吨/万元)=耗水量/本年度地区生产总值(GDP),城镇登记失业率(%)=(城镇登记失业人口/总人口)×100%,医疗人口比例(%)=(医疗人口总数/总人口)×100%,在职大中专及其以上学历比例(%)=(在职大中专及其以上学历职工总数/在职职工总数)×100%,人均住房使用面积(m2/人)=本年度住房总面积/本年度末总人口,人均铺装道路里程(m/人)=本年度总道路里程/本年度末总人口,人均林地面积(m2/人)=森林面积/本年度末总人口,绿化覆盖率(m2/人)=绿化覆盖面积/本年度末总人口,森林覆盖率(%)=(森林面积/辖区面积)×100%。

4 数学模型

4.1样本数据标准化

13个影响指标的数据单位口径各不同,为便于选择聚类分析的相似度度量方法,在聚类分析前首先对各指标数据进行标准化处理,标准化公式为

4.2相似性度量及距离的选取与定义

4.2.1相似性度量选取

本文采用夹角余弦cosθij衡量相似度rij大小,将两个变量数据xi和xj看作为两空间向量,两向量的夹角余弦可用下列公式计算,令rij= |cosθij|,显然,rij≤1。

这里,rij越近似于1时,说明两变量xi和xj非常相似,可以聚为一类;反之,rij越接近于0时,说明两变量xi和xj差别很大,不能聚为一类。根据公式(2)计算得到变量间相似度矩阵R=(rij)40×40。

4.2.2样品间与类间距离的定义[3]

样品间距离定义有三大类:闵氏距离、马氏距离、兰氏距离,但一般在实际聚类过程中,为了计算方便,我们也常作一个变换

或者

用dij表示变量间的距离远近,dij小则xi和xj先聚成一类。

类间距离的定义也有8种:最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。归类步骤基本一致,差异仅在于计算方法的不同。

设X={x1,x2,…x40}是样品集,G1,G2,…Gm是X的非空子集,且满足

则称G1,G2,…Gm是X的一个分类。用Drs表示Gr和Gs间的距离,又设nr和ns分别为Gr和Gs中样品的个数,dij表示Gr中第i个样品与Gs中第j个样品之间的距离。这里用类平均法定义类间距离,公式如下

4.3聚类

应用SPSS软件上选择系统聚类法中的组间连接的聚类方法,相似性度量选择余弦值度量法,输出相似性矩阵R=( rij)40×40与聚类分析树状图(见图1)。

相似矩阵中的相似度r的选取的不同,分类结果也发生变化。简述即为,r越大,对相似度要求越高,聚得的类别越多,反之,r越小,对相似度要求越低,聚得的类别越少。

聚类结果为:r=0.971时,{x12,x5}为一类,其他各为一类,聚为三十九类;r=0.969时,{x12,x5}为一类,{x19,x10}为一类,其他各为一类,聚为三十八类;r = 0.966时,{x12,x5}为一类,{x19,x10}为一类,{x32,x35}为一类,其他各为一类,聚为三十七类;……,r=0.744时,{x9,x22}为一类,{x33,x38,x37}为一类,{x5}为一类,其他为一类,聚为四类;r=0.739时,{x9,x22}为一类,{x5}为一类,其他为一类,聚为三类;r =0.687时,{x5}为一类,其他为一类,聚为两类。

4.4最优聚类结果的选取

4.4.1树状图法

图1为40个林业局样本集聚类分析树状图,样本相当于最左端的枝叶,依次连接在树上,树根在最右边;顶端尺度表示样品、类之间的距离[4]。比如样本6与样本22的距离最远,因为从样本6出发必须一直下到最右端树根部,再沿另一枝条到达样本22;而样本6与样本15则无需下到最右端树根部。由图形非常直观地看出,聚类不应该多余12类,这样得到的分类中样本之间都能有相当的距离。如果分成6类,只需设想从顶端距离尺度约15~20单位长度中间竖直下切,连接样本的树枝就被分割成6个大枝条,同一枝条上的样本归属于同一类;如果分成4类,只需设想从顶端距离尺度约20~25单位长度中间竖直下切,连接样本的树枝就被分割成4个大枝条,同一枝条上的样本归属于同一类。根据分析问题实际需要选择方案或者根据下面的公式法详细计算选择。

4.4.2公式法

计算得将40个林业局聚为四或六类时对应的F值进行比较,聚为4类时对应的F值较大,F = 15.714。

5 结果与分析

最优聚类方案:桦南和通北两个林业局聚为一类,红星、双鸭山和林口三个林业局聚为一类,东方红林业局为一类,其余林业局聚为一类。根据聚类结果分析得,东方红林业局一直独自聚为一类的原因在于,其施业区面积最大,约58万hm2,林木种类繁多且野生资源丰富,创造的经济价值极大,是唯一由国家统计局认定为中国100家最大木材采运企业,林区基础设施建设基本完善,交通便利,人口素质普遍较高;桦南和通北两个林业局均地处黑龙江省北部,生态林木资源及经济发展情况相似,发展水平较好,与其他林业局相比交通

运输情况一般,新型小城镇建设情况良好;红星、双鸭山和林口三个林业局,虽经济繁荣,交通便利,但人才素质偏低,人才流失现象较多且人口处低增长趋势;其他林业局小城镇建设各方面稳步进行,发展状况良好。

参考文献:

[1]黑龙省人民政府.黑龙江省主体功能区规划[EB/OL].(2012-05- 18)[2015- 12- 18]http://www.chinaneast.gov.cn/c_ 131595917.htm.

[2]国家发改委,国家林业局.大小兴安岭林区生态保护与经济转型规划(2010- 2020)[EB/OL].(2010- 12- 23)[2010- 12- 23]http: //www.gov.cn/zwgk/content_1771668.htm.

[3]朱建平.应用多元统计分析[M].北京:科学出版社, 2006.

[4]管宇.实用多元统计分析[M] .杭州:浙江大学出版社. 2011.

[5]常建斌,顾凤岐,温广玉,等.大兴安岭林火气候的区划[J].东北林业大学学报, 1995(5):98- 102.

[责任编辑:路实]

改革实践

理论研究

Evaluation of Small Town Construction in State- owned Forest Region of Heilongjiang Province Based on Cluster Analysis

GUANFeng- li, GUFeng- qi
(Northeast Forestry University, Harbin Heilongjiang150040, China)

Abstract:According to the collected index data of forty each state- owned forest bureau in Heilongjiang province (2008- 2012 sample sets), this paper selected the main fourteen indexes as characteristics, application of system clustering method on forty state- owned forest administration in Heilongjiang province (the fortysamples)clustered; it is concluded that the four classes for fortystate- owned forest bureau together is the optimal clustering scheme. According to the result of clustering, this paper put forward the construction situation evaluation and suggestions to.the current state- owned forest region small towns.

Key words:system clustering method; the state- owned forest region; construction of small towns; classification

通讯作者:顾凤岐(1963-),男,黑龙江五常人,教授,研究方向:生物数学。

作者简介:第一关凤丽(1991 - ),女,黑龙江龙江县人,硕士研究生。

收稿日期:2015- 01- 06

DOI:10.13691/j. cnki. cn23- 1539/f. 2016.01.002

中图分类号:F326.27

文献标识码:A

文章编号:1673- 5919(2016)01- 0008- 03

猜你喜欢
分类
2021年本刊分类总目录
分类算一算
垃圾分类的困惑你有吗
星星的分类
我给资源分分类
垃圾分类不能有“中梗阻”
分类讨论求坐标
数据分析中的分类讨论
按需分类
教你一招:数的分类