王 卓 高 丛
(西安石油大学 油气资源经济与管理研究中心,陕西 西安 710065)
基于信息论的熵值法的算法改进
——以陕西省环境规制强度评价为例
王卓高丛
(西安石油大学 油气资源经济与管理研究中心,陕西 西安 710065)
摘要:基于信息论的视角对熵值法的原理——赋权依据进行了论证,证明了指标的权重实际上是指标所传递的信息量占所有指标所传递的总信息量的比例,并基于此对传统算法进行了改进,由此选取了5个指标以改进的熵值法对陕西省2005—2013年环境规制强度进行了评价,最后说明了熵值法的局限性与权重的大小有关,并非与其自身的重要性直接相关。
关键词:熵值法; 算法改进; 环境规制; 差异性系数
0引言
在决策评价的过程中确定指标权重,一般采用两种方法:主观赋权法和客观赋权法[1]9,熵值法则属于客观赋权法的一种。由于较少受主观因素影响,熵值法近年来得到了广泛的应用。熵值法中指标权重的大小是基于指标数据所提供的信息多少而定的[2]99-103。尽管这一原理早被提出,但现有文献并未对此进行严格的证明就直接给出了算法,同时传统算法是从构建差异性系数的角度进行的,使得一部分学者在使用这一方法时对其原理及适用范围产生了一些疑问。为此,本文在回顾了熵值法提出的背景及其演变过程之后,直接以熵值法的原理对其算法进行了改进,以便更好地理解熵值法的思想。
1熵值法的研究状况
熵最开始是作为一个热力学概念出现的,它是由德国物理学家Clausius于1865年提出,并用以衡量能量的不可用程度的方法。在此之后,奥地利物理学家Boltzmann从分子运动论角度证明了表征系统宏观状态的熵与该宏观状态对应微观态数W的对数值lnW成正比。即:
S=klnW
(1)
(1)式中,k为玻尔兹曼常数。熵成为了衡量分子运动混乱水平的物理量[3] 24。
(2)
(2)式中,C=常数>0。
事实上,如果令C=1/lna,则:
(3)
可见常数C的不同取值只是改变了熵函数对数的底,这样信息量被定义为熵的减少量,即:不确定程度的减少量。一般进行理论推导时都使用自然对数为底,而对应不同的底,信息量的单位也不同,详见表1所示。
表1 信息量的单位
20世纪90年代以来,熵理论逐渐进入决策过程中。1991年,顾昌耀和邱菀华第一次定义了复熵,且在决策分析过程中对其进行了应用[5]206。1994年,郭显光提出了熵值法可以应用于指标赋权[6]56-60,1998年,他又提出了改进的熵值法,但这只是对原始极端数据的改进。之后出现的大量文献,都是直接采用熵值法对不同对象进行评价。然而,也有极少数文献探讨了熵值法的原理。如:郭秀英依据客观赋权的原理和序列信息熵的含义给出了确定各区间数指标权重的一种熵值法[7]32-34,朱喜安和魏国栋对熵值法中无量纲化方法进行了探讨[8]12-15。由此可以看出,自熵值法提出后绝大部分文献都是基于某种方法而进行了实证,部分文献虽探讨了数据处理等方面的改进意见,但都未直接对其原理进行详细论证。因此,这些文献在探讨熵值法的适用性的时候,往往难以进行详细说明。本文试图对熵值法的算法从原理方面进行改进,并在此基础上达到对其适用性能更好地理解的目的。
2熵值法的算法及其改进
为了对熵值算法进行改进,现将传统熵值法*熵值法由郭显光教授提出,熵权法由邱菀华教授提出,但是其算法基本上一致,为统一本文记号遵照郭显光教授的定义。的算法介绍如下:
假设有m个待评方案,n个评价指标,构造原始决策矩阵X=(xij)m×n。首先对某项指标j进行列向量比例化,得到比例列向量(p1j,p2j,…,pmj)T,之后计算比例列向量的熵,并采用除以最大值*关于最大值,事实上是需要严格证明的,可以参见式(4)至式(10)的证明。lnm的方法进行归一化*这里隐含着,熵函数是非负的,且最小值为0。事实上,由于0pij1,故lnpij0,所以,pijlnpij≥0。如果我们定义函数f(x)=xlnx在区间[0,1]上是连续函数,由。则当任一pij=1,且其余值为0时,熵函数取得最小值0。有些文献中称pij不能为0,则是一种误解。,得到ej,接着定义差异性系数:gi=1-ej,然后对差异性系数进行比例化,得到权重aj。最后即可计算第i个方案的得分ajpij。
由表1可知,对熵归一化的过程本质上相当于将对数的底由e换成常数m,虽使熵的单位改变了。但之后构造的差异性系数与熵值法原理的直接联系并不是很大,也不利于从根本上把握熵值法的本质。
接下来证明差异性系数gj实质上是指标j的份额列向量所传递的信息量。本文以Nat为信息量的单位,并记指标j的份额列向量的熵为Hj。
事实上,求解列向量(p1j,p2j,…,pmj)T最可能分布的数学模型为:
(4)
(5)
建立拉格朗日方程:
(6)
根据库恩-塔克定理[9]162,其一阶必要条件为:
Lpij=-lnpij-1-λ≤0,pij≥0满足互补松弛条件
(7)
(8)
若∃i∈m使pij=0,则-lnpij=+,明显不满足Lpij≤0,故∀i∈m,pij>0,且Lpij=0。
由此得到:
lnp1j=lnp2j=…=lnpmj=-λ-1
(9)
联系式(8)得到:
(10)
由此观测到指标j所传递的信息量就等于观测前后列向量熵的减少量,即:
=lnm-Hj
=(lnm)gj
(11)
得到:
(12)
参考(3)式可知,如果将份额列向量传递给我们的信息量Ij(以Nat为单位),并转化为一个未定义单位的信息量,即得到传统算法所定义的差异性系数gj。可见传统算法中的差异性系数gj在本质上也是信息量,但却采用了一个未定义的单位。
由此可见,传统算法中,将差异性系数gj进行比例化的过程,实际上正是在计算指标j所传递的信息占所有指标所传递总信息的份额。
为了更好地体现熵值法原理,下面从信息论的角度对其算法进行改进,改进后的算法如下:
第一,对原始数据预处理得到归一化矩阵:Y=(yij)m×n。
由于指标列向量的量纲不同,需要先对列向量进行归一化处理。
(13)
(14)
若为越大越优指标,则按照(13)式进行处理,若为越小越优指标,则按照(14)式进行处理。
第二,对列向量比例化得到列比例矩阵:P=(pij)m×n,其中,
(15)
第三,计算各指标所传达的信息量Ij,其中,
(16)
第四,将信息量比例化得到各指标权重aj,其中:
(17)
第五,计算各个待评方案得分vi,其中:
(18)
3陕西省环境规制强度的评价
由于环境规制的主体是政府,但政府并没有单一的规制工具,这就造成了在实证研究中对环境规制强度测定的困难。早期的研究多采用单一指标来衡量规制强度,但是单一的指标往往被质疑选取的标准过于随意。鉴于此,近年来很多研究都采用了多指标综合评价的方法,如:傅京燕等利用废水排放达标率、二氧化硫去除率、烟尘去除率、粉尘去除率、固体废物综合利用率等5个指标构建了环境规制综合指数[10]87-98,187,尤济红等以环保投入为出发点,选取了治理工业污染项目投资额等10项指标来构建规制强度系数[11]1211-1219,韩晶等选取了工业废水、废气、废渣作为评价指标层,建立了环境规制评价体系[12]61-67。本文根据以上学者的研究方法,在考虑数据可得性的基础上,从对工业三废的处理强度和环保投入的角度出发,构建出新的环境规制强度评价指数。
本文结合陕西省实际情况选取了5个指标,并采用改进后的熵值法对陕西省2005—2013年的环境规制强度进行了评价,其具体指标分别为:
X1:废水治理设施本年运行费用;
X2:废气治理设施本年运行费用;
X3:工业固体废物综合利用率;
X4:环境污染治理投资额;
X5:排污费征收额。
其中,X1及X2以原始值所占第二产业增加值的比例表示,X4及X5以原始值所占国内生产总值的比例表示。
本文数据选自2006—2014年的《中国环境统计年鉴》和《陕西统计年鉴》。由于2011年以后,环境统计口径进行了大幅度修订,对指标的选取和数据的处理则做一些说明。废水排放达标率和二氧化硫去除率等数据不再公布,因此,本文选用了对应的治理设施本年的运行费用。工业固体废物综合利用率在修订之后不再公布,改为公布一般工业固体废物综合利用率,而工业固体废物可分为一般工业固体废物和危险工业固体废物,由于新的统计年鉴对工业固体废物的两种成分的数据均进行了披露,为前后口径一致,本文合成了2011—2013年的工业固体废物综合利用率*工业固体废物综合利用率=工业固体废物综合利用量/(工业固体废物产生量+综合利用往年贮存量)。2011年之后未披露的综合利用往年贮存量可用如下公式合成:综合利用往年贮存量=一般工业固体废物综合利用往年贮存量+危险工业固体废物综合利用往年贮存量=一般工业固体废物综合利用往年贮存量+[(工业固体废物综合利用量-危险工业固体废物综合利用量)/一般工业固体废物综合利用率-(工业固体废物产生量-危险工业固体废物产生量)+危险工业固体废物综合利用往年贮存量]。。
本文所选取的5个指标均为越大越优,即数据越大,说明环境规制强度越强,再将陕西省2005—2013年各项指标数据分别代入(13)、(15)、(17)式,由此得到各个指标所传递的信息量及其权重,详见表2所示。
表2中所得到的各项指标所传递的信息量是以Nat为单位的。根据(15)式可以得到各数据的列比例矩阵*由于篇幅所限,本文未报告此矩阵。,将此矩阵与表2的各项指标的权重代入(18)式,可以得到2005—2013年陕西省环境规制强度指数,并对环境规制强度指数进行排名,详见表3所示。
表2 陕西省环境规制指标传递的信息量及其权重
表3 2005—2013年陕西省环境规制强度指数及名次
为了清楚地看出2005—2013年陕西省环境规制强度的变化情况,本文再利用以上年份指数绘制折线图,详见图1所示。
由图1可以看出,2005—2013年陕西省的环境规制强度并不是想象中逐年增大的,而是在经历了2005年的最强规制之后,规制出现了下降的趋势,并在2009年下降到低谷,与此同时,规制强度伴随着轻微的波动并在2013年达到最低。
图1 陕西省环境规制强度指数
4结语
在对环境规制强度进行评价时,最为关键的两步是规制指标的选取和指标权重的确定。由于熵值法是目前使用最广泛的确权方法,本文对指标权重的确定进行了重点讨论,并在回顾了熵值法提出的历史后,从决策矩阵中各个指标列向量所传达的信息量出发对熵值法原理进行了论证。由此可以看出,决定指标权重大小的并不是熵,而是熵的减少,即信息量。因此从本质上讲,熵值法或者熵权法都不如信息量权法更为确切。这也从另一个角度反映了熵值法的局限性,即某项指标的权重小并不意味着该指标不重要,只是数据所传递给我们的信息比较少,这也是我们在应用熵值法进行评价时需要特别注意的问题。熵值法本质上属于客观赋权法,如果仅仅依靠数据来确定权重,就有可能忽略了决策者的主观信息。因此,熵值法对于某些十分重要但却不能从数据中获得信息的指标就显得无能为力了,这时候就必须发挥主观赋权法的作用,所以,我们在使用熵值法时应对其适用性准确把握。
[参考文献]
[1]李亮.评价中权系数理论与方法比较[D].上海:上海交通大学,2009.
[2]郭显光.改进的熵值法及其在经济效益评价中的应用[J].系统工程理论与实践,1998(12).
[3]王彬.熵与信息[M].西安:西北工业大学出版社,1994.
[4]朱雪龙.应用信息论基础[M].北京:清华大学出版社,2001.
[5]邱菀华.管理决策与应用熵学[M].北京:机械工业出版社,2002.
[6]郭显光.熵值法及其在综合评价中的应用[J].财贸研究,1994(6).
[7]郭秀英.区间数指标权重确定的熵值法改进[J].统计与决策,2012(17).
[8]朱喜安,魏国栋.熵值法中无量纲化方法优良标准的探讨[J].统计与决策,2015(2).
[9]阿维纳什 K 迪克西特.经济理论中的最优化方法[M].2版.上海:上海三联书店,2006.
[10] 傅京燕,李丽莎.环境规制 要素禀赋与产业国际竞争力的实证研究:基于中国制造业的面板数据[J].管理世界,2010(10).
[11] 尤济红,高志刚.政府环境规制对能源效率影响的实证研究:以新疆为例[J].资源科学,2013(6).
[12] 韩晶,陈超凡,施发启.中国制造业环境效率 行业异质性与最优规制强度[J].统计研究,2014(3).
(责任编辑王栓芹)
Algorithm Improvement of Entropy Method Based on Information Theory—with the Assessment of Environmental Regulation Intensity in Shannxi Province as an Example
WANGZhuo,GAOCong
(TheResearchCenterofBusinessManagementofOil-GasResources,Xi`anShiyouUniversity,Xi`an,shaanxi,710065,china)
Abstract:From the perspective of information theory,the principle of entropy method,namely,the basis ofempowerment,isexpounded and verified.It is proved that the index weight is actually the proportion of the information conveyed by the index in all indices,based on which,the traditional algorithm is improved.Then five indices are selected to assess the environmental regulation intensity of Shannxi province from 2005 to 2013 by the improved entropy method.Finally it is explained that the limitation of entropy method is related to the size of the weight,but is not directly linked to its own importance.
Key words:entropy method;Algorithm improvement;environmental regulation;difference coefficient
收稿日期:2015-08-10
作者简介:王卓,男,河南镇平人,西安石油大学经济管理学院硕士研究生,研究方向:资源经济与产业经济。
基金项目:西安石油大学全日制硕士研究生创新基金(2014cx130945)。
中图分类号:F224
文献标识码:A
文章编号:1008-5645(2016)01-0022-05