基于遗传模拟退火优化的FCM算法在西部省区经济发展状况分类的研究

2016-07-24 03:36韦艳玲林飞盈柳州职业技术学院电子信息工程系广西柳州545006广西科技大学财经学院广西柳州545006
广西科技师范学院学报 2016年1期
关键词:遗传算法

韦艳玲,林飞盈(.柳州职业技术学院电子信息工程系,广西柳州 545006;.广西科技大学财经学院,广西柳州 545006)



基于遗传模拟退火优化的FCM算法在西部省区经济发展状况分类的研究

韦艳玲1,林飞盈2
(1.柳州职业技术学院电子信息工程系,广西柳州 545006;2.广西科技大学财经学院,广西柳州545006)

摘要:模糊C-均值聚类(FCM)算法属于局部搜索优化算法,遗传算法和模拟退火算法的有机结合能使FCM算法更为有效准确。文章依据2013年的有关数据,利用主成分分析对聚类的特征变量降维,采用基于遗传模拟退火优化的模糊C-均值聚类算法,对西部各省区经济发展状况进行分类和分析,提供了分析大区内子区域经济发展状况的有效新方法,为西部省区经济发展状况的分析及制定相应对策探索了一条新途径。

关键词:西部经济;模糊C-均值聚类;遗传算法;模拟退火算法

西部大开发以来,西部地区经济虽然发展快速,但目前还存在突出问题:一是大部分西部省区经济发展水平还很落后,西部整体与东部相比还远远落后;二是内部各省区发展不平衡现象严重,部分省区有地区生产总值排名严重靠后的迹象,而且产业结构也不够合理.对西部省区经济发展状况进行分类分析,制定相应的针对性促进西部各省区经济发展的政策,不仅很有必要,也具有重要现实意义.

已经有许多学者对西部地区经济进行定性或定量的分类分析,其中定量分类分析又包括模糊分类和硬性分类两种.模糊分类是一种软分类,弹性好,也适合西部各省区经济发展状况分类模糊的实际情况.在众多的模糊聚类算法中,Bezdek提出的模糊C-均值聚类(FCM)算法在各行各业中应用很广泛[1-4],在区域的分类中也有应用.

传统的FCM算法初始值影响着该算法的效果,属于局部搜索优化算法;采用遗传算法优化FCM算法初始值是一个好办法,但遗传算法有未成熟收敛问题,即几代最优染色体不进化或近似度高,而模拟退火算法可解决遗传算法未成熟收敛问题.遗传算法和模拟退火算法的结合能使FCM算法更为有效、快速收敛到全局最优解.

本文基于遗传模拟退火优化的FCM算法,对西部省区经济发展状况进行初步分类,并找出最佳分类,以此作为进一步分析西部经济的基础,并与文献[5][6]采用的传统FCM算法进行比较.

经济指标原始数据有复杂的非线性关系,多有相关关系,所以,首先利用主成分分析法消除相关性,获取少量互不相关的综合指标,再采用基于遗传模拟退火优化的FCM算法进行西部省区经济发展状况分类,为西部省区经济发展状况分析提供一种新型、有效的分类方法.

1 基于遗传模拟退火优化的FCM算法

1.1传统FCM算法

设有n个数据样本:X={x1,x2,…,xn}c为要划分的类别数,各类别的聚类中心点 v={v1,v2,…vc};A={A1,A2,…Ac}表示相应的c个类别,i为数据样本下标(i=1,2,…,n),k为类别下标(k=l,2,…,c);U为其相似分类矩阵,是样本xi对于类Ak的隶属度.FCM算法目的是求最佳分类,该分类使目标函数Jb值最小.

FCM算法可以表示为数学规划[2]

式(1)中: i=1,2,…,n;k=1,2,…,c;dik为第k类中心点与第i个数据样本间的欧几里德距离;b∈[1,∞]是一个加权参数;Uik∈[0,1]为样本xi对于类Ak的隶属度.

由以下公式求得:

式(2)中:i=1.2,…,n;k,j=1.2,…,c .

c个聚类中心由以下公式求得:

式(3)中:i=1.2,…,n;k=1.2,…,c .

用式(2)和式(3)反复修改数据隶属度、聚类中心和进行分类,当算法收敛时,得到各类的聚类中心以及每个样本对于各类的隶属度,完成模糊聚类划分.

FCM算法步骤[5]:

第一步 设好聚类数目c、加权系数b、迭代截止误差,随机生成聚类中心初始值.

第二步 由公式(3),计算聚类中心.

第三步 代入公式(2),求新的隶属度值.

第四步 由公式(2)和公式(3)迭代多次,(已证实当b〉1时算法收敛[3],得到最小的目标值Jb,从而得到最佳分类.

1.2基于遗传模拟退火优化的FCM算法

基于遗传模拟退火优化的FCM算法步骤[4]

第一步 设置遗传算法的控制参数.包括种群个体大小SizePop,最大进化次数G,交叉概率PC,变异概率Pm,设定退火算法的初始温度T0,温度冷却系数k,终止温度Td.随机初始化聚类中心.

第二步 生成遗传算法初始种群,计算各样本隶属度和每个个体的适应度值.

第三步 进入循环,设循环变量初值gen=0.

第四步 进行遗传操作,计算新个体的聚类中心、各样本隶属度、每个个体的适应度值.如新适应度值〉旧适应度值,则新个体代替旧个体.否则,采用模拟退火算法替换旧个体.

第五步 当gen〈最大进化次数,则转第三步.否则转第六步.

第六步 如果温度Ti〈设定的结束温度Td,则算法结束,得到全局最优解.否则执行降温操作(对应于物体的退火).

基于遗传模拟退火优化的FCM算法过程如图1所示.

2 实证检验

2.1指标构建和数据说明

图1 基于遗传模拟退火优化的FCM算法过程

反映一个地区经济发展状况的指标,通常包括规模指标、结构指标、质量指标.规模指标主要包括经济总量,用来反映经济发展的总体能量.结构指标主要包括三次产业结构、各产业内部行业结构、城乡结构等,用来反映经济发展的高级化程度,如第三产业增加值比重、城市化率越高,一般说明产业结构、人口结构越高级.质量指标主要指基于人口、面积等的平均数,用来反映经济发展的效益,如人均水平、地均水平越高,一般说明经济发展效益越好.

反映西部各省区经济的指标很多,但有些指标数据采集很困难或难以完整采集,因此,从数据的易采性出发,仅选用各级统计年鉴都有的指标.选取10项指标以反映西部各省区经济发展状况,即GDP (X1)、人均GDP(X2)、地均GDP(X3)、固定资产投资总额(X4)、人均社会消费品零售额(X5)、第二产业增加值比重(X6)、第三产业增加值比重(X7)、居民人均可支配收入(X8)、国内专利申请授权量人均占比(X9)、城市化率(X10).

其中,规模指标有2个:GDP、固定资产投资总额;结构指标有3个:第二产业增加值比重(%)、第三产业增加值比重(%)、城市化率;质量指标有5个:人均GDP、地均GDP、人均社会消费品零售额、居民人均可支配收入、国内专利申请授权量人均占比①该指标既可在一定程度上反映经济结构,即该指标数值越高,一般说明科技发达、经济越现代化:也可在一定程度上反映经济质量,即该指标数值越高,一般说明经济发展中运用创新驱动、节约集约效应越好。本文将该指标划为质量指标。.

样本集用S表示,样本对象为西部12省区,即内蒙古、广西、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆,分别表示为s1、s2、s3、s4、s5、s6、s7、s8、s9、s10、s11、s12.

数据说明:原始数据均来源于《中国统计年鉴(2014)》及西部各省区2014年统计年鉴,选取主要反映西部12个省区2013年经济发展状况的10个指标数据. 2.2原始数据的预处理

首先求出原始数据矩阵的方差累积贡献率.由于各指标的量纲和单位不同,本文对原始数据进行了标准化处理.主成分分析得到前3个主成分的方差贡献率如表1所示,其累加和为87.51%,前3个主成分作为反映经济发展实力的综合指标.每个主成分由各原始指标线性组合,Y1、Y2、Y3主成分作为新的综合指标,各原始指标系数对应关系如表1所示.

表1 主轴(对应主成分)信息表

2.3实验参数选择

对算法的参数设定如下:

FCM参数选择:加权参数b的选择一般认为有用值在1.1~5之间[5],试验中选择b=4;从本文研究的实际出发,最优聚类数目定在2~6之间,以目标值Jb为最小确定.

遗传算法及退火算法参数选择:最大代数为80,采用目标函数值的倒数作为个体的适应度值.交叉概率Pc为82%,变异概率Pm为1%,变异位数为10,变异个体数为18,链长为30,初始温度T为100度,温度衰减系数为0.9,容差为10-3,撒种个数为3.规定算法终止的条件是同时满足两个条件:①该指标既可在一定程度上反映经济结构,即该指标数值越高,一般说明科技发达、经济越现代化:也可在一定程度上反映经济质量,即该指标数值越高,一般说明经济发展中运用创新驱动、节约集约效应越好。本文将该指标划为质量指标。最低温度不小于0.05;②经退火后最优个体适应度与上次退火后最优个体适应度的差的绝对值小于容差.

2.4聚类分析

采用基于遗传模拟退火优化的FCM算法(下称本文算法)进行聚类后,当分为6类时,目标值=0.0331最小,重复运行多次,目标值和分类均保持不变,故初步可认为分为6类是本文算法的最好分类.分为6类时的样本S对于类Ak的隶属度数据对应表V如表2所示(把相似分类矩阵U转置后即为隶属度数据对应表V).

表2 隶属度数据对应表

设表2中元素Vij表示j省属于i类的隶属度。例如:第1列的数据值表示内蒙古属于各类的隶属度,V11=0.016表示内蒙古属于第1类的隶属度为0.016,从第一列上看,V21的值0.915最大,根据最大隶属度原则,内蒙古属于第2类;第3列中最大值V11=0.946,根据最大隶属度原则,表示重庆属于第1类;广西属于第5类的隶属度为0.262,属于第4类的隶属度为0.239,根据最大隶属度原则,广西属于第5类;依此类推,得到西部省区的初步分类如表3所示.

表3 西部省区初步分类

2.5与传统FCM算法的比较及经济发展状况分析

采用相同的原始数据,使用参考文献[5][6]所用的传统FCM算法,同样也分成六类,发现每次运行得到的分类和目标值均不一致,这与传统FCM算法的缺陷有关.重复运行多次,选目标值最小的一次,目标值等于0.694,得到传统FCM算法分类是:第一类是内蒙古,第二类是重庆、四川和陕西,第三类是青海、宁夏、新疆,第四类是广西,第五类是贵州、云南、甘肃,第六类是西藏.

重庆是西部地区唯一的直辖市和国家中心城市,也是长江经济带的龙头.在西部各省区中,重庆的地均GDP、国内专利申请授权量人均占比都排名第一且远高于第二名,而人均社会消费品零售额、城市化率、居民人均可支配收入也排名第二;重庆工业基础雄厚,是重庆现代服务业的强大根基;重庆享受国家各种支持其发展的优惠政策;总的来看,重庆有人口密度大、城镇人口规模大、教育科研力量雄厚、政策优势、工业优势、现代服务业发展迅速、产业基础好的特点[6],具有辐射带动周边地区发展的条件和能力,可在西部经济发展中发挥独特作用,故本文把重庆单独列为一类.但传统FCM算法并没有把重庆单独列为一类,这和重庆的现状并不吻合.

广西、贵州、云南地理位置相邻,都有大量的山区,都属于经济发展仍较落后的省区,而且广西各项指标都与贵州、云南、甘肃比较接近,并不呈现鲜明的独特性,故不宜把广西单独列为一类.而传统FCM算法却单独把广西列为一类,这与广西实际并不符合.

本文算法与传统FCM算法都把内蒙古单独列为一类,西藏单独列为一类,青海、宁夏、新疆列为一类,而且四川、陕西都属于一类,贵州、云南、甘肃都属于一类,这与各省的经济状况比较吻合,也说明传统FCM算法的分类也有一定的准确性.

综合以上的分析,与参考文献[5][6]所用的传统FCM算法分类相比,本文算法与我国西部的实际经济状况更为贴近,分类结果更为准确.

3 结论

本文采用基于遗传模拟退火优化的FCM算法对西部各省区经济发展状况进行了初步的分类及分析,分类比较符合客观实际,也实证了西部内部发展不平衡现象严重.大力发展经济是所有西部人的期望,“长江经济带”、“丝绸之路经济带”给西部发展带来了新的历史机遇.长江经济带把东部发达省市和西部地区联系在一起,打破了区域的界限,有利于辐射带动西部沿江地带的贫穷山区经济,使沿江地带甚至更广泛地区的经济结构、要素得到合理配置.“丝绸之路经济带”包括除内蒙古、西藏、贵州外的九个西部省区,更把作为战略后方的西部地区推到了前台,把远离海洋和经济发达地区的西部内陆省区变为开放的窗口和交通枢钮.国家应因不同类型的西部省区而制宜,针对性实施促进发展的政策措施,进一步促进西部整体大发展.西部各省区也应抓住新的历史机遇,结合自身实际和特点,加强内涵建设,提高创新能力,优化产业结构,尽快融入“长江经济带”、“丝绸之路经济带”等大区域战略,提高经济软实力,促进经济持续、快速、健康、协调发展.

[参考文献]

[1]李嘉雯,杜文莉,李进龙,等.改进模糊C均值聚类算法的乙烯裂解原料识别[J].化工学报,2013,64(12):4366-4372.

[2]高新波.模糊聚类分析及其应用[M].西安:西安电子科技大学出版社,2004:51-52.

[3]Hathaway R J,Bezdek J C. Local convergence ofthe fuzzy c-means algorithms[J].Pattern Recognition,1986,19(6):477-480.

[4]武兆慧,张桂娟,刘希玉.基于模拟退火遗传算法的聚类分析[J].计算机应用研究,2005(12):24-26.

[5]Cannon R L,Dave J V,Bezdek J C.Efficient implementation of the fuzzy c-means clustering algorithms[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1986,8(2):248-255.

[6]姚璐.重庆现代服务业发展现状与发展条件研究-基于SWOT模型的分析[J].经济研究导刊,2014(24):167-168.

(责任编辑:李洁坤)

The Research of Fuzzy C-Means Algorithm Based on Genetic Algorithm and Simulated Annealing Algorithm to Classification of the Economic Development Situations of All Provinces in Western Regions

WEI YanLing1,Lin FeiYing2
(1.Department of Electronic and Information Engineering,Liu Zhou Vocational & Technical College,Liuzhou,Guangxi,545006 China;2.College of Finance and Economy,Guangxi University of Science and Technology,Liuzhou,Guangxi,546006 China)

Abstract:The Fuzzy C-Means(FCM)algorithm belongs to the local search optimization algorithm. The combination of genetic algorithm and simulated annealing algorithm makes C-means(FCM)algorithm more effective and accurate. According to the relevant data of 2013,using principal component to analyze the characteristics of clustering variable dimension reduction,adopting Fuzzy C-Means(FCM)algorithm based on the genetic simulated annealing optimization,classifying and analyzing economic development status of the western provinces and regions,this paper provides an effective new method for the regional economic development for the analysis of the western provinces and regions economic development and formulates corresponding measures to explore a new way.

Key words:economy of the western regions;Fuzzy C-Means;genetic algorithm;simulated annealing algorithm

中图分类号:TP391;F127

文献标识码:A

文章编号:2096-2126(2016)01-0127-05

[收稿日期]2016-01-18

[基金项目]广西教育厅广西高校科研项目“基于数据挖掘的西部省区经济发展状况分析模型研究”(LX2014532);广西哲学社会科学规划2013年度研究课题“基于数据挖掘的西部地区经济增长差异及协调发展研究”(13FJL006).

[作者简介]韦艳玲(1970—),女(仫佬族),广西罗城人,硕士,副教授,研究方向:数据挖掘、区域经济。

猜你喜欢
遗传算法
基于遗传算法的高精度事故重建与损伤分析
基于遗传算法的模糊控制在过热汽温控制系统优化中的应用
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法的加速度计免转台标定方法
基于遗传算法和LS-SVM的财务危机预测
协同进化在遗传算法中的应用研究
遗传算法在试题自动组卷中的应用
软件发布规划的遗传算法实现与解释
基于遗传算法的三体船快速性仿真分析
基于改进的遗传算法的模糊聚类算法