俞立平 阮先鹏 陈一涛 郭静东
基金项目:国家社会科学基金项目:学术评价与创新绩效评价问题研究(项目编号:19FTQB011);浙江省一流学科A类项目(浙江工商大学统计学,管理科学与工程)。
作者简介:俞立平(1967-),男,教授,博士,博士生导师,研究方向:技术经济、科技评价。阮先鹏(2001-),男,本科生,研究方向:应用统计。陈一涛(2001-),男,本科生,研究方向:应用统计。郭静东(2001-),男,本科生,研究方向:应用统计。
摘要:[目的/意义]学术评价中多属性评价方法有几十种,每种评价方法结果均不相同,难以进行方法选择。[方法/过程]本文在分析评价本质属性的基础上,提出了一种新的多属性评价方法选取方法:因子-BP人工神经网络筛选法,并以JCR2017经济学期刊为评价对象,同时采用专家会议赋权法、主成分分析、因子分析、TOPSIS进行评价,并进行评价方法的选择。[结果/结论]研究结果表明:在学术评价中多属性评价方法的选择必须兼顾主观和管理因素;因子-BP人工神经网络筛选法是一种有效的评价方法选取手段;因子-BP人工神经网络筛选法可以用来辅助专家赋权;对于多属性评价方法的进一步优化成为新的问题;当评价对象较少时不宜采用本文方法。
关键词:学术评价;多属性评价;方法选择;人工神经网络;因子人工神经网络筛选法
DOI:10.3969/j.issn.1008-0821.2020.11.013
〔中图分类号〕G302〔文献标识码〕A〔文章编号〕1008-0821(2020)11-0128-08
Research on the Selection of Academic Evaluation
Methods Based on Factor-artificial Neural Network-
Taking Multi-attribute Evaluation Method as an Example
Yu LipingRuan XianpengChen YitaoGuo Jingdong
(School of Statistics and Mathematics,Zhejiang Gongshang University,Hangzhou 310018,China)
Abstract:[Purpose/Significance]There are dozens of multi-attribute evaluation methods in academic evaluation,and the results of each method are different,thus,it is difficult to choose a method.[Method/Process]Based on the analysis of the essential attributes of evaluation,this paper proposed a new way of selecting multi-attribute evaluation methods:factor-artificial neural network screening.This paper took JCR2017 economic journal as the evaluation object while adapting the expert meeting weighting method,principal component analysis,factor analysis and TOPSIS to evaluate and select the evaluation method.[Result/Conclusion]The results showed that the choice of multi-attribute evaluation method in academic evaluation must consider both subjective and management factors;factor-artificial neural network screening was an effective method to select evaluation methods;factor-artificial neural network screening can be used to assist expert empowerment;further optimization of multi-attribute evaluation method becomes a new problem;this method should not be used when there are few evaluation objects.
Key words:academic evaluation;multi-attribute evaluation;method selection;artificial neural network;factor-artificial neural network screening
指標体系多属性评价方法是学术评价中应用最为广泛的评价方法之一。世界大学主流大学评价、教育部学科评价及中国第三方机构学术期刊评价等,均广泛采用多属性评价方法。多属性评价方法围绕评价目的,通过选取各种评价指标来建立评价体系,从而避免了单一评价指标的片面性,使得评价更加全面,在实践中取得了较好的评价结果。
多属性评价方法的选择问题是学术界长期以来没有得到解决的问题。现有的多属性评价方法有好几十种,比如层次分析法、主成分分析、因子分析、秩和比、灰色关联、康拓对角线、模糊数学、粗糙集、TOPSIS、VIKOR、ELECTRE、CRITIC等等,这些评价方法原理各异,并且各有其优点,每种方法的适用性均较广,很难从评价目的与评价方法自身角度进行选择。由于不同多属性评价方法的评价结果不同,从而带来了评价的不确定性。目前的解决方法围绕两个路径展开,一个多属性评价方法的选择,选出最合适的一种评价方法;二是组合评价,即同时采用若干种多属性评价方法进行评价,然后采用一定的方法将评价结果进行组合,得到唯一评价结果。但是,组合评价面临的问题是,组合评价方法也有很多种,何况理论上任何一种单一的多属性评价方法也可以用于组合评价。Serenko A[1]指出,即使两种最流行的方法的组合也不能保证获得的排名列表的准确性。封铁英[2]认为,科技人才评价的关键在于对评价方法的选择和创新,要准确区分不同评价方法应用的前提条件和适用范围,避免采用恰当的评价方法而造成错误的评价结果。相对多属性评价方法选择与组合评价两条路径,选择合适的多属性评价方法是首选思路。
开展学术评价的多属性评价方法选择具有重要意义。首先,这是学术评价的基础理论问题,一旦取得进展,不仅推进了科学学方法论研究,同时也推进了多元统计理论的研究。其次,从实践角度,如果能够优选出最合适的多属性评价方法,评价结果就具有唯一性,从而从评价方法角度提高了评价的公信力,有助于保证学术评价的公正、公平、公开。第三,解决了多属性评价方法的选择问题,也有利于政府相关部门在各种学术评价活动中减少利益相关者冲突,提升形象。
关于多属性评价方法在学术评价中的应用,国外研究主要集中在学术期刊方面,Franceschet M[3]提出,从信誉度和知名度两个方面选取指标来进行学术期刊评价,信誉度主要采用特征因子类指标,知名度主要采用期刊影响因子类指标。Shotton D[4]提出了学术期刊评价的5个一级指标,即同行评议、内容质量、数据集、计算机可读元数据、开放获取。Sombatsompop N等[5]提出了采用期刊影响因子、文章影响因子、位置影响因子等多个指标进行评价。Philipp M[6]从搜索引擎、直接路径和背部路径3方面构建了开放存取期刊评价指标。Mark J M等[7]从论文随机质量、编辑审稿能力、作者获益度3个方面建立开放存取期刊质量评价模型。国内关于采用多属性评价方法进行学术评价的文献浩如烟海,目前已经有数千篇相关论文。赵洁[8]则从引文数量是质量视角研究了学术期刊的评价问题。
关于学术评价中多属性评价方法的选择,俞立平提出了4种思路:第一种是对评价指标和评价结果分别进行聚类,根据聚类结果一致度高低来进行选取[9];第二种是通过评价指标公共因子的模拟权重来进行选取[10];第三种是评价结果与评价指标数据分布的拟合度,以及评价结果与评价指标的拟合度[11];第四种是基于偏最小二乘法对评价结果与评价指标进行回归,根据指标权重单调性及其正负来进行选取[12]。苏为华[13]指出,可以从评价方法的区分度、灵敏度等角度进行选取。段晓君等[14]提出,综合考虑模型拟合残差大小、残差信息量与参数数量进行选取。陈述云等[15]提出,采用不同多属性评价方法结果的相关系数大小选择多属性评价方法。
从现有的研究看,多属性评价方法已经在学术评价中得到了广泛的应用,国外主要集中在学术期刊评价领域,国内的研究领域非常广泛,研究成果众多。一些多属性评价方法自身就有其适用性检验,比如主成分或因子分析可以根据KMO检验来进行适用性初筛,但是这样的评价方法太少了,更多的评价方法其实不存在适用性检验。关于多属性评价方法的选取问题,学术界已经意识到并开展了一些研究,但是总体上成果不算太多,并且在以下几个方面有待进一步深入:
第一,一些多属性评价方法筛选思路值得商榷。比如采用技术类方法进行筛选,如灵敏度、数据分布、相关系数、残差大小、区分度等等。盛明科[16]在研究政府绩效评价时指出,评价是一个伦理和价值问题,而非纯技术问题。选择评估方法不仅要考虑不同类型方法的特点,还要求评价方法必须契合政府绩效评价的价值取向和理念。
第二,单纯采用纯技术类方法不能解决多属性评价方法的选择问题。很难同时考虑灵敏度、数据分布、相关系数、残差大小、区分度等进行评价,只能考虑其中的部分技术相关内容进行评价方法的筛选。进一步地,单纯采用技术类方法进行多属性评价方法的筛选,其筛选方法也是多样的。
第三,一些评价方法的筛选方法难以保证筛选出的评价方法的唯一性。比如某种筛选方法筛选出的结果可能仍然还有数种评价方法,在这种情况下,如何进一步进行筛选有待研究。
第四,现有的筛选方法,许多只能用在非线性评价中,对于线性多属性评价方法,缺乏有效的筛选手段。
本研究在分析评价本质屬性的基础上,提出采用因子分析与人工神经网络相结合,将技术方法与专家的主观能动性相结合进行多属性评价方法的选取,并以JCR2017经济学期刊为例,同时采用专家会议赋权法、主成分分析、因子分析、TOPSIS进行评价,并进行评价方法的筛选。本研究主要创新体现在,第一,让评价回归到评价的本质,充分结合专家知识、管理需求与技术手段;第二,通过因子分析法降维,辅助专家进行权重合理性的判断。
1研究方法
11评价的本质属性分析
辞海中对评价的界定有两种:“评估人、事、物的优劣、善恶美丑、或合不合理,称为「评价」”;“衡量评定人或事物的价值。”这两种解释含义基本一致,都是评价主体对评价客体的看法。它说明了以下几个问题:
第一,评价主体是人,也可以是机构。之所以机构也是评价主体,这是现代社会发展的必然。比如政府部门提供公共服务,必然会分配资源,进而涉及到对资源应用效果的评价。不过机构评价集中的是若干人的智慧,即使评价中体现了文化道德和规章制度等,也是对以往传统的继承,本质上,机构也是“人”的体现,是机构决策者的体现。
第二,评价是主观的。从哲学层面,评价是人对他人或事情的看法,所以评价的主观性是毋容置疑的。即使是机构评价,也体现了一定的管理思想,同样是主观的。
第三,评价是动态的。由于物质是运动的,评价对象也是永远处在运动和变化中,任何评价均是针对一定时间范围的人或事物的评价,并且任何评价均有一定的有效期。
第四,评价标准也是动态的。由于作为评价主体的人也是不断变化发展的,因此,评价标准也是动态变化的。
12主观评价与客观评价的本质
评价随着人类社会的发展越来越复杂。人类社会发展初期,评价是相对简单的,人们可以根据评价客体的表现和各种特征,得出一个大致的评价结论。随着人类社会发展,被评价对象越来越复杂,需要评价的因素越来越多,超越了人类大脑直接判断的范围,此时就必须借鉴一定的数学模型来进行评价。多属性评价就是在这样的背景下产生的,现在复杂的多属性评价已经拥有几百个指标,比如世界卫生组织的健康城市评价单纯靠个人的力量很难判断,即使是多个人共同评价也比较困难,所以,属性评价也是在现实评价需求发展的背景下产生的。本质上,多属性评价方法是一种辅助人类进行评价的技术手段。
多属性评价方法包括主观评价方法与客观评价方法两大类。所谓主观评价方法,就是在评价中添加了人为因素,最典型的就是指标权重。如层次分析法、专家打分法、加权TOPSIS等等。所谓客观评价方法,就是不涉及主观权重的评价方法,如主成分分析、因子分析、康拓对角线、概率权等等。当然还有一种分类方法是主客观评价方法,本文将这类评价方法仍然归类到主观评价方法。
客观评价方法仍然具有主观性,并没有改变评价的本质。第一,评价是为管理服务的,邱均平等[17]指出,没有科学的评价就没有科学的管理,没有科学的管理,就没有科学的发展。管理是让合适的人干合适的事情,本质上就有很强的主观性。第二,客观评价方法貌似客观,但是客观评价方法的选取还是需要人,仍然是主观的。第三,客观评价方法的评价结果是否合适,还是要通过人工加以判断。如果某种客观评价方法的评价结果明显不合理,那么该种客观评价方法肯定是不能选取的。所以对于客观评价方法的本质判断,不能简单看方法本身,而应该从更系统、更全面的高度看。
13多属性评价方法的选取必须引入主观因素
无论是主观评价方法还是客观评价方法,均要考虑其本质上的主观性,都要考虑其评价目的必须为管理服务。就学术评价而言,无论是大学评价、学科评价、期刊评价、人才评价等等,评价结果均涉及到单位发展与资源分配。政府部门自身的评价是为管理服务,即使是民间或第三方机构的评价,尽管貌似不直接参与管理与资源分配,但是对公眾或政府部门仍然发挥较大的影响。所以,在多属性评价方法选取时,一定要纳入人为因素或者管理因素,传统的单纯采用统计学技术手段的多属性评价方法选择方法,只可以用来辅助评价方法选取,但不可以作为终极手段。
24因子-BP人工神经网络筛选法
因子-BP人工神经网络筛选法的原因如图1所示。对于任何一种多属性评价方法,其评价过程是首先选择评价指标,然后采用某种多属性评价方法进行评价,并得到评价结果。方法筛选的思路是这样,首先根据评价指标采用因子分析法提取公共因子,然后用公共因子作为人工神经网络的输入,评价结果作为人工神经网络的输出,通过机器学习建立训练模型,最终得到各公共因子的权重,最后专家或管理者根据公共因子的权重是否符合管理需求来进行评价方法的筛选。
人工神经网络是在现代心理学、神经学、生物学、计算机技术等学科基础上产生的,它是在模拟人类大脑神经组织工作原理基础上发展起来的。人工神经网络具有生物神经系统的基本特征,具有分布式处理、大规模并行、自学习、自组织等优点,是人工智能的主要技术手段,广泛应用在图像识别、语音分析、计算机视觉、数字水印、专家系统
多层前向BP神经网络是目前应用最多的人工神经网络系统。BP神经网络模型是对人脑神经网络若干基本特性的抽象和模拟,可以进行分布式并行信息处理[18]。典型的BP神经网络由一个输入层,若干个隐蔽层和一个输出层构成,其主干是隐蔽层。对于本文而言,输入层节点的数量取决于公共因子的数量,输出层节点数为1,就是评价结果,隐含层通过一定的算法确定。每层单元节点与它邻近两边层的各个单元节点相连,每个连接都会赋予权重,表明上一个单元的输出对下一个单元的影响力。
15多属性评价方法
本文主观评价法中以专家会议赋权法为例,客观评价法中以主成分分析、因子分析、TOPSIS法为例。从另外一个角度看,专家会议赋权法属于线性评价方法,而主成分分析、因子分析、TOPSIS属于非线性评价方法。本文同时采取以上4种方法进行评价,然后采用因子-BP人工神经网络筛选法进行筛选,这样可以进一步阐明该方法的原理。至于主成分分析、因子分析、TOPSIS、专家会议赋权法的原理,由于其应用众多,本文不再赘述。
2研究数据
本文基于JCR2017数据库,选取学科期刊数量较多的经济学期刊为例进行说明,从而保证了相对较大的样本,以便取得较好的学习效果,提高研究的稳健性。JCR2017共有经济学期刊353种,由于部分期刊数据缺失,需要将其删除,经过清洗后还有321种期刊。
关于评价指标,本文选取总被引频次、影响因子、他引影响因子、5年影响因子、即年指标、特征因子、论文影响分值、被引半衰期、引用半衰期9个指标进行评价。影响因子百分位指标没有选取,因为它来源于影响因子,另外具有非参数性质,用于评价不太合适。此外标准特征因子来源于特征因子,选取存在重复计算。
另外,被引半衰期和引用半衰期属于反向指标,需要进行正向处理,这样才能进一步用于评价,本文首先采用极大值减去每个指标将其转化为正向指标,再采用极大值法标准化。
3实证研究结果
314种多属性评价方法评价
采用专家会议赋权法进行评价,首先要确定各评价指标的权重。本文作为一个评价算例,邀请了8名学术评价领域的教授和研究人员进行赋权,经过两轮打分,权重区域稳定,各评价指标的权重分别为:总被引频次010、影响因子020、他引影响因子015、5年影响因子01、即年指标005、特征因子012、论文影响分值008、被引半衰期01、引用半衰期01。
主成分分析和因子分析评价需要首先进行适用性检验,KMO检验值为0772,Bartlett检验值为3623831,相伴概率p为0000,说明符合采用这两种评价方法的前提条件。采用主成分分析,其主成分矩阵如表1所示。
从主成分矩阵可以看出,第一主成分包括总被引频次、影响因子、他引影响因子、5年影响因子、即年指标、特征因子、论文影响分值7个指标,可以将其命名为期刊影响力;第二主成分包括被引半衰期和引用半衰期2个指标,可以将其命名为期刊时效性。第一主成分的方差贡献率为5698%,第二主成分的方差贡献率为1649%,两者累计贡献率为7347%,根据方差贡献率进行加权汇总,就得到主成分分析的评价结果。
采用因子分析评价,需要对矩阵进行旋转,方法采用最大方差法,旋转成分矩阵如表2所示。第一公共因子包括总被引频次、影响因子、他引影响因子、5年影响因子、特征因子、论文影响分值6个指标,为期刊影响力。第二公共因子包括即年指标、被引半衰期和引用半衰期3个指标,为期刊时效性。第一公共因子旋转方差贡献率为5594%,第二公共因子的旋转方差贡献率为1753%,两者之和为7347%,同样根据旋转方差贡献率进行加权汇总,得到因子分析的评价结果。
TOPSIS评价包括加权TOPSIS和等权重TOPSIS,为了分析问题方便,本文采取后者进行评价。4种评价方法的评价结果如表3所示,由于篇幅所限,本文仅公布按照专家会议赋权法评价排名的前40种期刊评价结果。
从评价结果看,由于不同评价方法评价原理不同,其评价结果相差较大,除了前3名排序一致外,其他排序结果相差较大。从评价方法选取的角度,专家会议赋权法、TOPSIS评价方法几乎可以适用于一切评价,主成分分析和因子分析需要进行适用性检验,但一般不通过的情况极其罕见,所以从评价方法角度来选择评价方法几乎是不可能的。
324种多属性评价方法的相关性分析
4种评价方法的相关系数如表4所示,它们之间拥有极高的相关系数,最低的相关系数为因子分析与TOPSIS之间的相关系数,为0936;最高的相关系数为因子分析与主成分分析之间的相关系数,为0987。对比表3中的排序结果可以看出,尽管不同评价方法评价结果的相关系数很高,但是评价结果的排序相差仍然较大。需要注意的是,表3中这种排序差异是在区分度相对较好的優秀期刊之间的,如果是处在中等水平的期刊排序,其差异会更大。
33因子-BP人工神经网络筛选法结果
下面用两个公共因子作为输入,4种评价方法的评价结果分别作为输出,基于BP神经网络进行学习,并得到最终模型的权重。由于BP神经网络可能存在局部极小化问题和网络结构不唯一问题,为了提高研究的稳健性,每种评价方法的BP神经网络模型均学习5次,每次迭代次数为500,取5次的平均结果。
专家赋权法、主成分分析、因子分析、TOPSIS这4种评价方法的因子-BP人工神经网络筛选结果权重如表5~8所示。
将4种评价方法的因子-BP人工神经网络平均权重做成1张表(如表9所示)。这样就可以非常清晰地看出各种评价方法的侧重点,专家会议赋权法影响力权重为0898,时效性权重为0102,更加侧重影响力。因子分析法影响力权重为0922,时效性权重为0078,相比专家会议赋权法更加注重影响力。主成分分析赋权法影响力权重为0832,
时效性权重为0168,对时效性的重视程度有所加强。而TOPSIS最重视时效性,其权重为0433,影响力权重为0567。如果在这个基础上进一步比较权重,选择评价方法则非常方便。
本文将这个权重组合发给各位专家,8位专家有7位倾向于采用主成分分析法进行评价,即以期刊影响力评价为主,兼顾时效性进行评价。这样评价方法的选取就结束了,对于4种评价方法而言,选取主成分分析更合适,最后应该采用主成分分析的评价结果作为唯一标准。
4研究结论
41在学术评价中多属性评价方法的选择必须兼顾主观和管理因素
学术评价本质上是主观的,评价随着人类社会的发展越来越复杂,进而诞生了客观赋权法,但是客观评价法也必须为管理服务,客观评价方法的选取也是人为的,其评价结果是否合适也要依靠人工加以判断,评价结果的运用也要考虑到各利益相关者的感受,所以对于多属性评价方法的选取,无论是客观评价方法还是主观评价方法,均要兼顾主观和管理因素,即在方法选取中必须施加人工的判断。
42因子-BP人工神经网络筛选法是一种有效的评价方法选取手段
因子-BP人工神经网络筛选法首先通过降维,从评价指标中提取少数公共因子,再通过BP人工神经网络对某种多属性评价方法的公共因子和评价结果进行训练学习,从而得到该评价方法的因子权重,再辅助专家知识和管理需求来进行评价方法的筛选。实证研究表明,通过因子分析降维,降低了专家判断权重的难度。人工神经网络学习模型具有较好的稳定性,得到的权重是可信的。并且该方法适用于所有的多属性评价方法,因此具有广阔的应用前景。
43因子-BP人工神经网络筛选法可以用来辅助专家赋权
虽然因子-BP人工神经网络筛选法是一种多属性评价方法筛选方法,但是在专家赋权时,利用该方法可以得到公共因子的权重,并反馈给专家,由于只有少数公共因子,并且公共因子之间不相关,这样可以让专家非常容易地判断指标赋权是否合适,因为不是直接面对几十个甚至更多的评价指标。本质上,因子-BP人工神经网络筛选法提高了评价要素的区分度,方便了专家。
44对于多属性评价方法的进一步优化成为新的问题
通过因子-BP人工神经网络筛选法进行多属性评价方法的筛选,只能依托现有的多属性评价方法,在极限情况下,如果尝试的所有多属性评价方法的因子权重均不能达到专家或管理需求希望的结果,即有可能否决正在尝试的所有多属性评价方法。在这种情况下,如何进一步推进评价?一种可能的思路是进一步调整各评价指标的权重,采用专家赋权法重新进行评价并进行进一步的检验,但这种工作耗时长,不确定性因素多,有待进一步深入研究。
45当评价对象较少时不宜采用本文方法
因子-BP人工神经网络筛选法必须符合两个前提条件,第一是因子分析的前提条件,比如KMO检验必须通过(这通常没有问题),评价对象至少达到一定数量;第二是人工神经网络的前提条件,比如对样本数量的要求。如果这些前提条件不满足,是无法应用该方法进行多属性评价方法选取的。
需要说明的是,本文中期刊评价方法的筛选方法严重依赖于研究数据,即依赖了评价指标本身和评价数据。本文研究结果是以JCR经济学期刊为例进行的研究,其他学科可以采用本文方法进行期刊评价方法的筛选,至于具体的筛选结果存在不确定性。
参考文献
[1]Serenko A,Bontis N.Global Ranking of Knowledge Management and Intellectual Capital Academic Journals:2013 Update[J].Journal of Knowledge Management,2013,17(2):307-326.