包鑫
由于财政工作经常与数据打交道,财政政策制定实施过程中数据分析测算是非常重要的基础工作。对于财政实务部门来说,统计计量方法应用本身具有一定知识门槛,如从学界高度复杂的论文中学习相关统计计量方法,更是增加了应用的困难性。所以说财政实务部门迫切需要适用性强、操作简单、结论直观的统计计量方法来解决一些实际问题。本文介绍聚类分析这种统计计量方法,并以浙江省县市区转移支付分档为例,通过统计软件SPSS计算得出结果。该方法的适用性良好,能够揭示数据后规律,并能在一定程度上真正指导实际工作。
所谓物以类聚,人以群分。聚类分析便是研究多要素事物分类问题的数量方法,是当代分类学与多元分析的结合。其基本原理是,根据样本自身的属性,即在样本多指标的情况下,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的相似程度关系,并按这种关系程度对样本进行归类。简而言之,聚类分析就是按照各事物之间不同的特性进行辨认,将具有相似特性的事物归别为同类。
聚类分析的方法可以大致分为两类,系统聚类法(Hierachical Cluster)和非系统聚类法(Non-hierarchical Clustering)。其中K-means Cluster便是非系统聚类分析中最常用的K-均值聚类法,其基本原理是对样本按照设定的类别数进行快速聚类,将某些样本作为今后各类的初始核心,通过计算得出各类的中心位置,进而重新计算达到初始核心位置并再次分类。与系统聚类相比,快速聚类的计算量较小,但适用范围较窄,如要求事先明确分类数量,所使用的变量数据都必须是连续变量,并且对数据的多元正态、方差齐次等数据假设要求较高。同时,如样本量大于100,则需考虑是否使用快速聚类。
系统聚类法(Hierarchical Clustering)是目前国内外使用最多的一种方法,其基本思想是:先将n个样本各自看成一类,计算类与类之间即样本间的距离;然后选择距离最小的一对并成一个新类,计算新类和其他类的距离;再将距离最小的两类合并,这样每次减少一类,直至所有的样本都成为一类为止。系统聚类法的优点在于利用样本在多维度下之间的距离最近原则进行聚类,对数据的要求没有快速聚类方法高,提供的运算方法也多样。缺点是计算速度没有快速聚类快,但在现有计算机硬件水平下基本可以忽略。本文将采用系统聚类法。
本文以浙江省转移支付县市区分类为例,从而说明该方法可以在省级层面,服务于较中观的财政政策制定。这一案例适用的前提原因便是省级的样本量可以满足分类的需要。
转移支付是政府间平衡财力,促进下级政府有效发挥经济发展、民生保障、维持运转等各项职能的重要工具。为此,浙江省财政厅于2015年发文《浙江省财政厅关于深化财政体制改革的实施意见》(浙财预〔2015〕50号),其中提出“优化完善转移支付地区分类分档体系,建立换档激励奖补机制。以各市、县(市)经济社会发展水平、经济动员能力、财力状况等因素为依据分为二类六档。”具体如下:
一类一档:淳安县、文成县、泰顺县、开化县、庆元县、松阳县、景宁县等7个县。转移支付系数为1。
一类二档:苍南县、永嘉县、武义县、磐安县、衢州市、龙游县、常山县、江山市、岱山县、嵊泗县、丽水市、青田县、云和县、龙泉市、缙云县、遂昌县、仙居县、天台县等18个市、县(市)。转移支付系数为0.9。
一类三档:三门县、平阳县、舟山市、兰溪市等4个市、县(市)。转移支付系数为0.8。
二类一档:金华市、安吉县、建德市、桐庐县、临安市、嵊州市、新昌县、浦江县、东阳市、临海市等10个市、县(市)。转移支付系数为0.6。
二类二档:海宁市、桐乡市、平湖市、嘉善县、海盐县、长兴县、德清县、诸暨市、瑞安市、乐清市、永康市、义乌市、温岭市、玉环县等14个县(市)。转移支付系数为0.4。
二类三档:杭州市、嘉兴市、湖州市、绍兴市、台州市、温州市等6个市。转移支付系数为0.2。
转移支付系数越低,当地经济能力、财政实力也越强,其中二类三档主要是浙江10个市区中的6家(除宁波),而金华市、舟山市、衢州市和丽水市则分布在其他类档。据笔者了解,转移支付档次划分使用十多个指标,有经济类、财政类、社会类等,并赋予不同权重从而构成一个复杂的指标体系,这汇聚了浙江省财政厅预算部门整个团队的智慧。本文仅是从国民经济发展角度,对全浙江省县市区进行分类分档,对照省财政厅现有分档结果,对本文做法进行一定的检验。
数据来源于《浙江统计年鉴2015》中各市、县国民经济主要指标,同时本文根据多重共线性和缺失值情况对相关指标进行了筛选,最终纳入户籍人口数、GDP、工业增加值①“营改增”分成调整后,该指标更为重要。、人均GDP、社会消费品零售总额、固定资产投资、财政总收入、地方财政收入、地方财政总支出、城乡居民储蓄存款额。本文认为这些指标完全能够反映当时的地方经济实力、财政实力以及政府动员经济社会能力。
1.缺失值计算
缺失值在年鉴中较为常见,但如果因为少量缺失值便舍去整个指标,对数据是一种浪费。比如对金东区的城乡居民储蓄存款额缺失,可以使用Missing Value Analysis进行测算,其中已知EM(即期望最大化)方法,一般均要优于Regession多重线性回归方法,其SPSS操作如下:
(1)Analyze→Missing Value Analysis;(2)Quantitative Variables框选择所有数量指标;Label Cases by选择地区指标;Estimation选择EM;EM选项下选择save completed data;file选项下输入估计出新文件如abc;(3)点击continue,点击ok结果如表1所示。
表1 EM均值a
这是EM估计给出的均值,下方是Little的MCAR检验,结果认为数据缺失是完全随机的。同时在新的文件中给出金东区城乡居民储蓄存款额的估计值153.56亿元。之后进入正式演算环节。
2.数据演算
其操作步骤与之前基本一致,具体操作如下:
(1)Analyze→Classify→Hierachical Cluster;(2)Variables框选择所有连续数据变量;Label Cases by选择地区;Cluster选择Cases;在plots选项中选择Dendrongram;(3)点击continue;在Method选项中选择标准化Z-Scores,这是因为各变量的单位不统一;点击ok结果根据树形图简化如表2。
我们可以发现,浙江省内整体可以分为三类,杭州市区、宁波市区第一类,绍兴市区、温州市区第二类,其他地区为第三类。其他地区数量较多,本文剔出第一类和第二类地区后,再将第三类进行细化,聚类为四类,根据树形图简化得到表3。
表2 初步聚类结果情况表
从表3可知,经过细分,如将表2中的第三类分为四档,余杭区、慈溪市、鄞州区、萧山区和台州市区整体经济体量较大,可以是第三类第一档;第二档为余姚市、诸暨市、湖州市区、嘉兴市区、瑞安市、乐清市、温岭市、金华市区、义乌市、舟山市区、柯桥区;第三档为苍南县、临海县、永嘉县等地区;第四档为遂昌县、松阳县等地区。与省厅分类分档有一定相似之处,特别是上下限。
表3 对第三类地区分档情况表
综合前文计量分析和按照简化类别的目的,浙江省全省县市区按照经济发展情况可以分为六类,从简便起见,可以利用各类别的均值来分析各类特征,且由于各类之间指标最大值与最小值相差过大,可以将相近两类进行分析比较。
表4 各类地区指标均值比较情况表
由表4可知:
1.第一类地区
杭州市区、宁波市区作为整个浙江省社会经济最发达的市区,各项指标均遥遥领先第二类地区。从指标数值看,人口为377万人,GDP达到6283亿元,工业增加值约为2463亿元,人均GDP为176948元,社会消费品零售总额2703亿元,固定资产投资超过3000亿元,财政总收入接近1500亿元,地方财政收入为770亿元,地方财政总支出735亿元,地方财政收支略有盈余,城乡居民存款年末余额超过4328亿元。与第二类地区相比,GDP以及工业增加值均为第二类地区的2.8倍;固定资产投资为2.8倍;社会消费品零售总额是近3倍,财政总收入为4.8倍;财政总支出则为近4倍。其中仅人均GDP均值为176948元,相差较少倍数,为1.5倍。人均GDP以2014年末美元汇率中间价格1∶6.1190计算,为28918美元,城市已经实现现代化目标,成为经济发达城市。
2.第二类地区
绍兴市区和温州市区是浙江省社会经济次发达市区,这是相比杭州市区和宁波市区而言。从指标数值看,人口接近于200万,GDP达到2000亿元以上,工业增加值接近900亿元,人均GDP约为11500元,社会消费品零售总额超过1000亿元,固定资产投资超过1200亿元,财政总收入超过300亿元,地方财政收入超过180亿元,地方财政收支大致平衡,城乡居民存款年末余额超过1700亿元。但可以发现,二三类地区间指标差距比一二类地区间要小很多,即GDP值(二三类相差820亿元)、社会消费品零售总额(二三类相差560亿元)、固定资产投资(二三类相差553亿元)以及城乡居民存款年末余额(二三类相差为777亿元),这些为相差大于300亿元的指标,而在地方财政收入、财政总支出方面则相差50亿元左右,甚至第二类地区人均GDP要低于第三类4242元,二类比三类人口数多72万人。二类地区人均GDP换算为18789美元,超过1万美元,标志工业化已经成熟,处于后工业化发展的后期。同时,可以发现第二三类地区间的差别主要是城市人口规模因素。
3.第三类地区
余杭区、慈溪市、鄞州区、萧山区是浙江经济实力排名前列的区或县级市,台州市区经济实力则与之相近。从指标数值看,人口超过110万人(其中台州市区人口最多达到158万人),GDP接近1300亿元,工业增加值超过600亿元,人均GDP约为120000元,社会消费品零售总额接近500亿元,固定资产投资接近700亿元,财政总收入超过230亿元,地方财政收入超过130亿元,地方财政总支出同上,地方财政收支大致平衡,城乡居民存款年末余额接近1000亿元。与第四类地区相比,优势较大超过100亿元的指标为GDP(相差462亿元)、工业增加值(相差257亿元)、城乡居民存款年末余额(相差124亿元)、财政总收入(相差116亿元)、城乡居民存款年末余额(相差约320亿元)。人均GDP相差27148元。三类地区人均GDP为19485美元,超过1万美元,接近2万美元,说明该地区即将完成城市现代化,达到经济发达城市水平。同时,相比第四类地区,第三类地区的工业经济水平要更突出。
4.第四类地区
第四类地区中,4个市区为湖州市区、嘉兴市区、金华市区、舟山市区,1个市辖区柯桥区,其他6个均为县级市,可以看作省内最为发达的县级市第一梯队。从指标数值看,人口接近100万人,GDP超过830亿元,工业增加值超过350亿元,人均GDP约为92000元,社会消费品零售总额约为360亿元,固定资产投资超过500亿元,财政总收入约为117亿元,地方财政收入为67.3亿元,地方财政总支出约为83亿元,地方财政收支差额为15.7亿元,城乡居民存款年末余额约为662亿元。相比第五类地区,超过100亿元差距的指标主要有GDP(相差约413亿元),相比二三类的差距较小;工业增加值(相差约160亿元),相比二三类的差距较小;社会消费品零售总额(相差190亿元),相比二三类其差距更大;固定资产投资(相差260亿元),相比二三类差距更大,城乡居民存款年末余额(相差约为370亿元),相比二三类差距更大。而财政地方收支也不同于前几类的略有盈余、总体平衡,开始明显存在赤字。人均GDP换算为15048美元,同为超过1万美元,处于向后工业化发展的中期。相比第五类地区,可以发现在城市建设水平、消费能力、服务业发展水平等方面更高。
5.第五类地区
第五类有27个地区,其中市区有2个为衢州市区和丽水市区,市辖区3个奉化区(规划已调整)、上虞区、富阳区,其余为县级市或县,基本上反映了经济能力的中等水平,也相当于平均线。从指标数值看,人口约为64万人,GDP约为419亿元,工业增加值接近200亿元,人均GDP约为71000元,社会消费品零售总额约为169亿元,固定资产投资超过250亿元,财政总收入约为61亿元,地方财政收入约34亿元,地方财政总支出约为46亿元,地方财政收支差额约为12亿元,城乡居民存款年末余额约为293亿元。与第六类比较,发现各项指标,除人口数和人均GDP外,均高于第六类1-3倍。人均GDP换算为11593美元,超过1万美元,处于后工业化的前期。
6.第六类地区
第六类共有26个地区,除金东区为市辖区外,其他均为县级市或县,为浙江经济实力整体最欠发达地区。其中温州2个、台州3个、舟山2个、金华4个、衢州3个和丽水8个。从指标数值看,人口均值约为35万人,GDP约为133亿元,工业增加值约54亿元,人均GDP约为41000元,社会消费品零售总额约为56亿元,固定资产投资约93亿元,财政总收入约为15亿元,地方财政收入约9亿元,地方财政总支出约为24亿元,地方财政收支差额约为13亿元,城乡居民存款年末余额约为106亿元。人均GDP同上换算为6679美元,不到1万美元,高于4000美元,说明还处于城市初步实现现代化,工业化尚未进入成熟阶段。
2017年全面“营改增”后增值税中央、地方分成重新确定,由原来的75%∶25%调整为50%∶50%,浙江省财政管理体制也随之调整。转移支付制度是财政管理体制的三大内容之一,按照上文分析结果,可以针对浙江省提出一些完善建议。
1.转移支付系数设置原则由公平向公平和效率兼顾调整
从浙江省财政厅二类六档的转移系数设置看,基本原则大体是经济越发达财力越雄厚的地区,转移系数越低。从全省均衡发展、共同建设实现小康社会的角度来说,意义重大。但如果从转移资金机制来说,存在一定“原地踏步”的逆向激励效应。以转移支付系数最高地区为例,由于人口要素等因素影响,晋升上一档的动力小,难度也大,激励不足。很可能存在情况是前一档地区努力开拓经济,工作量较大,财政经济实力得到一些提升,但经过转移支付,两档地区财政经济发展得到的效用可能是基本相同。因此建议设置动态类别档位,递进激励机制与收入激励机制相协调,并将转移支付系数设置为“前低-中高-后平均”。其中,“前低”是发达地区转移系数低,本身最为发达,较易理解;中游地区转移支付系数最高,主要是因为中游地区的财政收支矛盾表现最为明显,而且处于后工业化发展时期中前期,本身已经具备了一定发展基础。“后平均”是指经济实力最落后的地区则采用稍高于省基本保障水平的平均系数,“保基本”是主要目标。这是因为尚处于工业化阶段,落后其他地区较多,以及人口规模较少,大部分处于生态保护地区,发展潜力相对较弱。
2.适当调整各档内地区
以二类三档位为例,按照上文分析,杭州市整体经济实力远远超过其他地区,而绍兴市区和温州市区属于第二类,台州市区属于第三类,嘉兴和湖州则位于第四类。将这些市区统一转移支付系数为0.2,有所不妥。可将杭州市继续定为系数最低一档,转移支付系数保留为0.2;绍兴、温州次之为0.3;分析中第三类慈溪、鄞州、余杭区分属杭州和宁波,故可将台州与第四类地区合并,该类地区转移支付系数定为0.4;接下去便是全省中游地区即上文分析的第五类,可将系数定为1,满足其争先进位的需要;而最后一类地区则高于平均数即可,可为0.6。
3.适当向宁波市倾斜
由于宁波市为计划单列市,财政管理体制直接向中央负责,基本与浙江省级平行,所以省内转移支付地区无宁波。从上文分析中可知宁波是浙江省内发展水平仅次于杭州的城市,也是拉动周边地区发展的重要城市增长极,宁波也成为全国首个“中国制造2025”试点示范城市。从全省一盘棋角度出发,按照“干在实处,走在前列,勇立潮头”的浙江精神要求,发挥好宁波制造业桥头堡以及港口经济作用,重要性不言而喻。建议将宁波也作为转移支付地区,支持宁波发展建设,落实好省级重要部署工作,也十分有必要。可渐进倾斜,将整体的转移支付系数定为0.1,先包含市区,再扩大到各县及县级市。
本文介绍了聚类分析这一统计计量方法在财政工作中的应用,在实际问题应用中的一般思路为:一是明确分析需求,寻找合适分析方法。本文分析需求是将数量众多的地区进行简化分类,使用分析方法为聚类分析。二是进行数据说明和定性处理。这一方面需要满足样本量的有效性,另一方面则需要通过定性分析说明各指标可以满足分析需要。三是统计数据计算,即使用统计软件按照相应操作输出结果,本文说明了SPSS操作的各步骤。四是分析计算结果,提出建议。本文通过计算各类地区均值数据来说明类别特征,根据分析出的特征及结果,提出相应工作建议。在本文分析中,聚类分析方法表现出了良好的实用性和直观性,其应用思路和聚类分析方法使用在财政实际工作中具有一定指导意义。
需要说明的是,本文对该方法的应用并不完美:在转移支付案例中,未使用主成分分析从而定量剔出多重共线性,有可能会影响少许结果。同时还应该考虑使用最新年度数据,以及多年度数据如近三年数据进而综合动态得到各县市区分类,这样的结果也更加科学。在解释类别特征上,利用城市经济发展相关理论,不仅仅说明各指标数字特征和利用人均GDP来解释发展阶段,从而使得分析说明上更加丰富和具有说服力。
[1]马海祥.聚类分析的方法及应用[EB/OL].http://www.mahaixiang.cn/sjfx/746.html.