俞立平 潘伟波
(1.浙江工商大学 统计与数学学院 杭州 310018;2.浙江工商大学 统计数据工程技术与应用协同创新中心 杭州 310018)
在学术评价中,采用指标体系多属性评价已经成为重要的研究方法。目前的一些主流评价,如泰晤士报世界大学排名、软科世界大学学术排名、北京大学核心期刊评价、南京大学CSSCI期刊评价、教育部学科排名等等,均广泛采用指标体系评价方法。采用指标体系评价,具有评价内容全面、信息量大、更加贴近管理需要的优点,即使在破“五唯”背景下,采用指标体系进行多属性评价仍然是非常重要的研究方法。
指标体系多属性评价方法包括线性评价方法与非线性评价方法。所谓线性评价方法,就是评价得分与评价指标是严格的线性相等关系。计算时首先采用某种方法确定评价指标权重,然后将评价指标进行标准化,最后再进行加权汇总得到评价结果。所谓非线性评价方法,就是指评价得分与评价指标之间是非线性关系。评价方法包括主成分分析、因子分析、灰色关联分析、DEA数据包络分析、TOPSIS、VIKOR、康拓对角线等等。在实际应用的学术评价体系中,大部分采用的是线性评价方法。
权重问题是学术评价中非常重要的基础问题。在线性评价中,所有的评价方法均离不开权重,在非线性评价中,许多评价方法也用到权重。由于实际的学术评价应用以线性评价方法为主,这样权重问题就变成一个非常突出的问题。
分析整体权重与个体权重是个全新的视角。所谓整体权重,就是作为评价对象总体而言,其指标总体的相对重要性问题,这也是传统研究中较多得到关注的。个体权重是个新的概念,所谓个体权重,就是指在线性评价中,针对某个具体的评价对象,其评价指标在评价得分中的相对重要性。对于个体权重,学术界较少关注。相关问题包括,整体权重与个体权重的计算方法?它们与设计权重即专家权重的关系?实际权重与设计权重一致吗?如果不一致,其产生的原因是什么?设计权重与实际权重不一致的伪权重问题能否消除以及如何消除?伪权重对整体权重与个体权重的影响如何?整体权重、个体权重中的伪权重问题对学术评价具有什么影响?
整体权重、个体权重的计算及与设计权重的关系研究是学术评价的基础问题,对于推进科技评价理论与多属性评价方法具有重要意义。鉴于研究的基础性,以JCR经济学期刊为例,针对线性评价方法开展相关研究,但是其涉及的个体权重与整体权重问题其实广泛存在于大学评价、学术期刊评价、学科评价、团队评价等应用中。研究主要创新体现在,首次提出个体权重问题,并与整体权重放在一个框架下开展研究,分析整体权重、个体权重对设计权重与实际权重的影响,从而丰富了科技评价权重理论。
权重问题是学术评价的基础问题,广泛应用在评价指标设计、专家权重分配、指标体系评价方法、指标体系权重应用、科技评价指标关系的分析中。
在学术评价指标设计的相关权重研究中,Hagen[1]认为在进行学者影响力学术迹评估时,采用合作者等权重会造成平均或夸大影响力偏差。Abbas[2]指出对于合作论文,第一作者权重应大于第二作者,第二作者权重应大于第三作者,总权重为1。唐璞妮等[3]为平衡论文合著者的贡献,在学术迹的基础上引入作者贡献率,以更准确地评价不同学者学术影响力及其贡献。郑美莺等[4]提出基于期刊质量权重的影响因子计算方法,采用期刊影响因子占所有期刊影响因子的比重作为该刊质量的权重。许海云等[6]对计算影响因子时期刊文献类型等同进行改进,结合专家建议和序关系转换权重原理,得到基于期刊文献类型的序关系转换权重的影响因子。
在同行评议不同专家的权重赋值研究中,Ganesh[6]在假设专家之间相互熟悉的前提下,通过专家之间的互评来确定专家权重。张立军等[7]在学术评价中运用信度系数建立专家权重,在模糊综合评价模型的专家评分环节考虑评审专家的水平差异。林强[8]按知识结构、课题熟悉度、社会知名度、学术地位建立专家综合水平模型,以确定专家权重。
在指标体系评价方法的权重研究中,Hagerty等[9]区分评价主体存在与否,证明算术平均赋权是能够减少分歧的最佳赋权方法。Edwards等[10]指出序和法对重要属性权重赋值偏低,提出秩重心权重法,通过序数的倒数计算权重。张爱琴等[11]在学术期刊评价研究中,发现加权TOPSIS法不具有权重单调性,提出了分子加权TOPSIS方法,解决了权重单调性问题。熊国经等[12]以图情类期刊为例,构建PLS路径模型得到各指标外部权重,然后采用熵权法的差异系数对外部权重进行修正,得到各指标的权重,最后用加权TOPSIS法进行评价。王瑛等[13]采用CRITIC法和理想解法构建了基于复合权重科技成果立体综合评价模型。此外还有大量的研究集中在权重赋值方法与权重优化的研究中。
在指标体系评价的权重应用研究中,俞立平[15]将权重分为设计权重、自然权重、实际权重,从理论上分析了三者之间的关系,并提出了动态最大均值逼近标准化方法,彻底消除了自然权重问题。郭晓晶等[15]采用专家层次分析法、对比排序法、直接评分法作为主观赋权法代表,采用CRITIC、熵权法、标准离差法作为客观赋权法代表,综合确定科技评价指标体系权重。杜向民等[16]在同行评议评价中,提出学术规范、科学性、研究价值、创新度、难易度的指标体系,并采用AHP方法确定指标权重。该领域的权重研究成果众多,绝大多数指标体系评价均涉及到权重相关问题研究。
在评价指标关系的相关权重研究中,李亮等[17]以《情报学报》为例,基于社会网络分析法,对国内情报学领域的合著网络进行系统分析,得到核心作者网络。孙桂娟等[18]采用DANP方法分析高校智库国际影响力、决策影响力、网络影响力、学术影响力之间的网络关系和权重。刘洋等[19]引入论文权重因子表示论文质量,提出一种带权重的社会网络模型来表示合著网络。需要特别说明的是,评价指标的筛选是整个评价的基础[20]。
从现有的研究看,权重已经进入学术评价的方方面面,在评价指标角度,包括不同作者权重、不同单位权重、不同引用关系权重、不同文献类型权重等等;在不同专家权重的研究中,涉及根据不同专家的学术水平与影响力来设置不同的权重进行评价;在多属性评价方法中,权重与评价方法密切相关;在多属性评价方法的应用中,涉及采用不同的权重赋值方法;在指标体系涉及的变量关系研究中,基于社会网络分析、回归分析的许多研究也离不开权重。总体上,在以下方面有待进一步深入:
第一,在学术评价中,整体权重涉及的自然权重、设计权重、实际权重问题已经得到讨论,至于其解决方法,有待进一步拓展。
第二,关于个体权重的研究尚处于探索之中,现有的研究中,有一些研究谈及权重对评价个体的影响,但个体权重的计算方法、包括对其进行的全面系统分析缺乏,有待进一步深入。
第三,关于个体权重的影响因素,该领域相关研究缺乏,需要进行全面的分析。
第四,关于个体权重与整体权重的关系,以及在整体权重视角下如何看待个体权重,包括评价对象个体如何应对评价的权重导向,这方面也需要进一步研究。
在传统的学术评价中,权重相关问题一般都是缺省指向整体权重的,因此首先对整体权重进行分析,然后再分析个体权重的相关问题。
a.线性评价中整体权重的计算及与实际权重的关系。通常情况下,线性学术评价的计算公式如下:
Cij=ω1Xi1+ω2Xi2+…+ωnXin
(1)
式(1)中,ωj表示权重,Xij表示标准化后的评价指标值,n为评价指标数量,此外设定评价对象即总体数量为m。ωj的确定方式可以是主观赋权,也可以是客观赋权,或者主客观结合赋权,不过在主流的学术评价应用中,ωj的确定方式一般采用专家赋权。俞立平[14]将ωj称为设计权重,即在学术评价时根据评价目的确定的权重。
在线性评价中,其实还有另外一个概念即实际权重,傅荣[21]称其为结果权重,用该指标的加权汇总值占评价得分的汇总值表示:
式(2)中Wj表示实际权重,很明显,通常情况下设计权重与实际权重并不相等,除非标准化后各学术评价指标的均值相等。俞立平将指标标准化后由于均值不等产生的权重称为自然权重。
b.整体权重的伪权重问题及其修正。从以上分析可以看出,设计权重普遍存在与实际权重不相等现象,将其称为伪权重问题,因此必须找到一种标准化处理方法,使得各指标标准化后均值相等。为此俞立平提出动态最大均值逼近标准化方法,其基本原理如图1所示。
图1 标准化过程
标准化步骤如下:
第一,首先按照极大值法标准化,找到所有指标标准化后的最大均值K,假设该指标为X’。
第二,除了指标X’以外,对于其他指标Xj,加上K与Xj均值的差,此时极大值为大于1。
第三,对Xj采用极大值法进行二次标准化,以解决极大值大于1问题,由于均值又缩小,所以继续回到第二步。如此反复循环,直到第二步极大值可接受,比如极大值小于1.01,即在1%的误差范围内。注意这种标准化方法可以无限逼近最大均值,但总会存在一定的误差。
需要说明的是,鉴于动态最大均值逼近标准化方法中,最大均值的指标对评价会产生较大影响,因此对于一些数据分布异常的指标,应考虑采用其他非线性标准化方法进行标准化。
除了以上提到的方法外,基于sigmoid函数进行标准化也具有一定的缩小指标标准化值均值差异的效果。俞立平等[22]在分析多属性评价值评价功能的影响机制的基础上,提出基于Sigmoid函数进行无量纲处理,可以在一定程度上减少自然权重带来的影响。
Sigmoid函数图像如图2所示。它具有成长曲线的特征,有明显的拐点,并且标准化值相对百分制评价具有直接优劣判断功能,不过其是一种非线性评价方法。
图2 sigmoid函数
采用sigmoid函数对评价指标标准化处理,第一步是计算指标z值,即:
(3)
式(3)中,zij值为z值,Xij为学术评价指标原始指标,μj为该指标均值,σj为该指标的标准差。
将zij代入sigmoid函数,就得到标准化后的学术评价指标Y,即:
(4)
c.两种伪权重修正方法的比较。动态最大均值逼近标准化方法与sigmoid函数标准化比较如表1所示。动态最大均值逼近标准化方法的场景模拟没有任何限制,适用范围较广,它是一种线性变换,计算过程由于要进行循环,所以略显繁琐,对整体评价的伪权重问题消除效果较好,应用范围适用于一切多属性评价。而sigmoid函数标准的场景模拟最好是成长曲线,即处于成长的评价对象,它是一种非线性变换,颇具特色,标准化方法简捷,对伪权重的消除效果较好,一般应用在时间序列数据的学术评价中,当然也可以兼顾截面数据评价。
表1 伪权重修正方法比较
a.个体权重的计算及其与实际权重的关系。 对于评价个体Ci而言,其评价得分为:
Ci=ω1Xi1+ω2Xi2+...+ωnXin
(5)
对于指标Xij,其实际权重为:
(6)
从式(6)可以看出,个体权重对于个体的每个评价指标而言均不一样,这是其和整体权重的最大区别。
对于单个指标而言,要使得设计权重ωj与实际权重Wj相等,即:
(7)
也就是说,除非该指标标准化得分恰好等于评价值,设计权重和实际权重才会相等,这是小概率偶然事件,没有意义。当然,有一种极端情况个体评价时设计权重与实际权重相等,那就是等权重评价。
公式(6)还可以进一步改成如下形式:
(8)
即实际权重与设计权重之比等于该指标标准化值与评价值之比,也就是说,在个体评价中,标准化指标值越接近评价值,其实际权重与设计权重越接近。
对于任何一个个体评价,可以分别计算其权重偏离系数,即实际权重与设计权重的偏离程度。个体所有权重的偏离程度通过每个指标权重偏离程度的加权汇总值表示。
b.个体实际权重的影响因素。从以上分析可以看出,个体实际权重的大小取决于设计权重、评价指标值、标准化方法、评价值等因素。设计权重体现了管理者的意图与指标的重要性,这是无法修改的;个体各指标的发展特征不同,个体评价值受个体各评价指标的发展水平、权重、标准化方法的影响;指标标准化方法会影响个体评价指标值,因而对个体实际权重也会产生影响。
鉴于讨论个体权重的前提是整体的设计权重与实际权重必须相等,因此后续会在实证研究中比较最大均值逼近标准化方法与sigmoid函数标准化方法对个体权重及其偏离程度的影响。
c.个体权重的进一步讨论。第一,对于个体评价而言,设计权重难以等于实际权重,伪权重问题非常普遍,但这是正常现象,其产生的根本原因是个体发展中的不均衡性。关于不均衡性也要辩证看待,有些不均衡性可能是负面的,要加以修正,而有些不均衡性恰恰是个体发展的优势和特色。比如对于学者而言,有的学者更加侧重基础研究,有的学者更加侧重应用研究,而有的学者更加侧重社会服务,这样就导致大多数学者是不均衡发展的,这其实是值得肯定的。
第二,设计权重在个体评价时只能得到部分反映。在个体评价中,设计权重与实际权重永远存在偏差,这种偏差是无法消除的。所以个体评价得分会部分反映管理者的意图,即部分实际权重,但永远无法反映全部实际权重,这在理论上是不可行的。
第三,评价导向会影响个体发展态势。评价导向主要包括两个方面,一是评价指标导向,即可能增加或删除部分指标,二是各评价指标的权重(即设计权重)。如果评价与资源分配挂钩,通常情况下这会影响个体的发展,即评价个体会不得不重视关键指标。这有利有弊,优点是可以促进关键总体指标增长,缺点是牺牲了个体的发展个性。
第四,分类评价的本质就是减小个体评价的权重偏倚。个体评价的设计权重与实际权重是无法完全一致的,但如果分类评价,就会有效提高个体评价的设计权重与实际权重的一致程度。比如科技人才如果统一评价,那么从事基础研究、应用研究、社会服务的科技人员个体实际权重与设计权重必然相差较大,而单独评价基础研究、单独评价应用研究、单独评价社会服务的科技人员,细分后的评价对象会拥有更多共性特征,从而使得设计权重与科技人员的发展个性拥有更好的一致性。
第五,个体权重属于管理问题,而整体权重属于技术问题。而对于整体而言,可以通过优化标准化方法来解决设计权重与实际权重不一致问题,因此,这是个技术问题。当然,必须首先解决整体权重问题再来讨论个体权重问题,否则没有意义。对于个体而言,虽然设计权重与实际权重难以一致,但可以从管理角度适当加以优化,比如分类评价。
以JCR经济学期刊为例,采用专家会议法确定各指标权重。然后先进行整体权重研究,首先采用传统的极大值标准化方法进行评价,再分别采用最大均值逼近标准化方法、sigmoid函数标准化方法进行标准化,并分别计算不同标准化方法的实际权重以及设计权重与实际权重的偏离度,以比较整体评价中实际权重修正效果。
在以上讨论基础上,选择不同标准化方法,再计算个体实际权重,以及个体设计权重与实际权重的偏离度,分析相关问题对个体评价的影响。
以JCR2019经济学期刊为例进行相关研究,选取的评价指标以及专家确定的初始权重如表2所示。
表2 评价指标及权重
一级指标包括3个,分别是知识信息量、影响力、时效性。第一,知识信息量指标主要是载文量,一般而言,载文量越大,期刊的知识信息量越大,期刊知识信息量也是后续影响力和时效性的基础。第二,期刊影响力,包括总被引频次、影响因子、他引影响因子、5年影响因子、即年指标、特征因子、论文影响分值7个指标,总被引频次是期刊创刊以来的所有论文在统计当年的被引次数,时效性略差一些,另外对办刊时间较短的期刊不利,因此权重略低。即年指标由于尚未到达被引峰值,因此权重也略低一些,特征因子是根据期刊被引网络以及被引期刊水平综合计算,因此权重略高,其他评价指标的权重大致相当。第三,期刊时效性,包括被引半衰期和引用半衰期两个指标,权重相等。
需要说明的是,为了提高指标分类的稳健性,还采用聚类分析辅助分类,结果如图3所示。聚类分析将评价指标分为两类,一类是被引半衰期和引用半衰期,另一类是其他所有指标。一般认为,引用半衰期短的,说明论文写作时参考最新论文较多,这样论文的新颖性和时效性也得到一定的保障,而被引半衰期较短本来就说明论文的时效性较好。还有一个指标是即年指标,该指标同时兼具影响力和时效性的特点,聚类分析将其分在影响力大类下,说明其更侧重影响力。其实载文量大本身也能够带来更大的影响力,将载文量作为期刊信息量的指标单独列出,主要原因是这是唯一的一个期刊来源指标,载文量信息也比较重要。
图3 指标聚类分析结果
JCR2019经济学期刊共有373种,由于部分期刊存在数据缺失,主要是期刊办刊年限较短引起的,经过清洗后还有期刊337种。
分别采用极大值标准化、sigmoid函数标准化和动态最大均值逼近标准化方法进行标准化,然后基于专家给出的设计权重进行线性加权汇总,并分别计算不同标准化方法各指标的整体权重,结果如表3所示。
表3 不同标准化方法及整体权重的计算结果
采用极大值标准化,各指标的实际权重与设计权重相差较大,平均偏离度高达94.41%,也就是说,在学术评价中常用的极大值标准化方法会严重扭曲设计权重,使得实际权重产生较大的偏差,难以发挥权重的导向和评价功能。
采用sigmoid函数标准化,实际权重与设计权重偏离程度总体较低,除了被引半衰期和引用半衰期偏离度分别为6.20%、6.60%外,其他指标的偏离度均较低,平均偏离度为1.61%,这说明采用sigmoid函数标准化,能充分尊重设计权重。
采用动态最大均值逼近标准化方法,实际权重与设计权重偏离度最低,除了特征因子的偏离度为6.15%以外,其他指标的偏离度几乎为0,平均偏离度仅为0.62%。
综上可以看出,无论采用sigmoid函数标准化,还是采用动态最大均值逼近标准化方法,均能大幅降低设计权重与实际权重的不一致程度,有效解决伪权重问题。
由于个体权重是每个期刊的实际权重,受设计权重、评价指标值、标准化方法的综合影响,从而导致每个期刊、每个指标的实际权重均存在较大差异,因此以《经济展望杂志》(JournalofEconomicPerspectives)为例,同样分别采用极大值标准化、sigmoid函数标准化、动态最大均值逼近标准化三种方法进行标准化,并分别计算该期刊各指标的实际权重,以供进一步分析。选取该期刊为例的另外一个原因是,该期刊每个指标均不是极大值,这样在计算实际权重的时候更具有区分度。
采用极大值标准化方法,《经济展望杂志》的实际权重及其偏离度如表4所示。实际权重与设计权重排序几乎没有任何关系,实际权重与设计权重的平均偏离度为62.42%,处于较高水平。
表4 《经济展望杂志》极大值标准化个体权重
采用sigmoid函数标准化方法,《经济展望杂志》的实际权重及其偏离度如表5所示。实际权重与设计权重排序同样没有太大关系,实际权重与设计权重的平均偏离度为28.13%,低于极大值标准化,主要原因这是一种非线性标准化方法,降低了不同期刊评价指标之间的差距。
采用最大均值逼近标准化方法,《经济展望杂志》的实际权重及其偏离度如表6所示。实际权重与设计权重排序同样相差较大,实际权重与设计权重的平均偏离度为41.39%,处于中等水平。其内在原因是采用最大均值作为参照标准标准化,同样会适当缩小期刊评价指标之间的差距。
表5 《经济展望杂志》sigmoid函数标准化个体权重
表6 《经济展望杂志》最大均值逼近标准化个体权重
a.对于整体线性评价而言存在设计权重与实际权重不相等问题。在学术评价中,由于标准化后指标的均值不相等会产生实际权重与设计权重(专家权重)的偏离,也称为伪权重问题,从而导致专家权重失效,这是线性评价的基础问题,其严重性并没有得到有效的重视,如果不加以解决,会产生较大的系统误差。研究数据表明,实际权重对设计权重的偏离度达到94.41%,这会严重影响评价结果。
b.sigmoid函数标准化与动态最大均值逼近标准化方法均可以有效解决伪权重问题。研究比较了sigmoid标准化方法与动态最大均值逼近标准化方法对伪权重的影响,研究发现,这两种方法均可以有效克服伪权重问题,使得实际权重与设计权重接近。实证研究结果表明,其有效率高达98%以上,这为消除线性学术评价中的伪权重问题开辟了新的道路。
研究发现,应根据不同情况选择不同的标准化方法以克服伪权重问题。对于时间序列数据评价,以及评价指标数据分布异常情况下,宜采用sigmoid函数标准化,对于截面数据评价以及评价指标数据接近正态分布的情况,宜采用动态最大均值逼近标准化方法。另外评价指标发展规律接近成长曲线的评价也首选采用sigmoid函数进行标准化。
c.个体评价中广泛存在伪权重问题并且理论上不可能消除。个体评价的影响因素比较复杂,受设计权重、指标标准化方法、评价值等因素的综合影响。对于个体而言,实际权重与设计权重之比等于标准化指标值与评价得分之比。在个体评价中,设计权重与实际权重基本不可能相等,并且从技术上无法消除,实证研究结果也验证了这种情况。在这种情况下,设计权重的评价导向会适当影响到个体的发展,分类评价一定程度上可以减小个体评价的伪权重问题。
d.解决整体评价的伪权重问题是讨论个体评价权重问题的基础。整体评价的权重是讨论个体评价权重的基础,只有首先解决好整体评价的权重问题,才能使个体评价中的设计权重与实际权重问题讨论有意义,并且使得个体评价的实际权重计算正确,如果整体权重问题不解决,计算的个体实际权重也是错误的。
e.要辩证看待评价的权重导向作用。对于个体而言,权重的导向作用固然会产生影响,尤其是涉及到资源分配的评价,会使个体更加关注权重较大指标的发展。但本质上,个体的实际权重与导向权重往往相差较大,因此即使从提高评价得分角度,个体也没必要太关注评价的权重导向,做好特色指标,形成竞争优势,才是个体发展真正应该关注的方向。