“以刊评文”的局限、本质及其辩证应用研究*

2021-04-07 00:40俞立平张再杰肖成华

情报杂志 2021年3期

俞立平张再杰肖成华

(1.浙江工商大学统计与数学学院杭州 310018;2.贵州财经大学贵州绿色发展战略高端智库贵阳 550025;3.上海浦东发展银行股份有限公司宁波分行宁波 315000)

Research on the Limitation, Essence and Dialectical Application of "Evaluating Papers by Journals"

Yu Liping1,2Zhang Zaijie2Xiao Chenghua3

(1.School of Statistics and Mathematics, Zhejiang Gongshang University, Hangzhou 310018; 2.Guizhou Green Development Strategy High End Think Tank, Guizhou University of Finance and Economics, Guiyang 550025; 3.Ningbo Branch, Shanghai Pudong Development Bank, Ningbo 315000)

Abstract:[Purpose/Significance]The phenomenon of "Evaluating papers by journals" has been rooted in China's scientific and technological evaluation for a long time, it is of great significance to study its limitations and essence and to treat it objectively under the background of breaking away from the "four only" and returning to the origin of scientific research.[Method/Process]Based on the analysis of the existing problems and the causes of "Evaluating papers by journals", this paper establishes the user portraits of journal level and research level, demonstrates the essence of it and establishes the comparative framework of paper evaluation. This paper also discusses the comparison of small-sample papers, large-sample papers of the same level, small-sample and large-sample papers of the same level and cross level comparison of large-sample papers.[Result/Conclusion]The results show that the average quality of the journals of the papers can represent the author's level in the case of large-sample. The evaluation of institutions should be based mainly on the evaluation of journals and supplemented by peer review. The personnel evaluation should be based mainly on peer review and supplemented by journal review. "Evaluating papers by journals" could evaluate the scale of scientific research, while the representative evaluation can only evaluate the quality of scientific research.

Keywords: valuating papers by journals； academic evaluation； peer review； bibliometrics

0 引言

科研研究的本源属性是学术创新和科研质量，科技评价工作应突出这种导向。学术创新与科研质量紧密关联，创新是科研质量的灵魂，从具体表现形势看，科研质量较高意味着原创性强、具有较大的经济和社会效益，或者取得重要的基础研究突破。近两年来，国家相关部门密集出台了一系列文件，以净化科研空气，规范学术评价行为。2018年7月，两办印发《关于深化项目评审、人才评价、机构评估改革的意见》，推行代表作评价制度，明确突出品德、能力、业绩导向，克服“四唯”倾向，注重标志性成果的质量、贡献、影响。2018年10月，科技部、教育部等5部门联合发布《关于开展清理“唯论文、唯职称、唯学历、唯奖项”专项行动的通知》，要求开展清理“四唯”专项行动。2020年2月，教育部、科技部发布《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》的通知，提出破除论文“SCI至上”，探索建立科学的评价体系，营造高校良好创新环境。2020年2月科技部印发《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》的通知，强调采用代表作进行评价。

长期以来“以刊评文”现象饱受诟病。所谓“以刊评文”，就是指在人才评价和机构评价等过程中，简单采用论文发表期刊的级别和数量来判断被评价对象的研究水平和贡献，而根本不注重论文研究内容和质量的一种现象。这种情况20世纪90年代开始萌芽，随着核心期刊的产生和应用日益严重，尤其是进入21世纪以来，已经成为一种采用非常广泛的评价行为，对学术评价产生了深远的影响，其实“以刊评文”只是“唯论文”的工具，因其简单易行而被广泛采用，又因其不具备微观精细评价每篇论文的功能而遭诟病。

对“以刊评文”的问题和局限进行分析，探讨“以刊评文”的本质，用辩证的观点来评价“以刊评文”具有重要意义。第一，分析“以刊评文”的问题和局限，对其生存土壤和环境进行分析，有利于进行改进，从而进一步提高科技评价工作的质量；第二，分析“以刊评文“的本质，有利于丰富文献计量学与科学计量学理论；第三，辩证对待”以刊评文“，将其与代表作制度和同行评议紧密结合，可以进一步完善我国的科技评价工作，降低评价成本，提高评价效率，保证评价公平，提高评价质量。

对“以刊评文”的看法，一些研究对其总体上持否定态度。周兴旺[1]指出在科技评价中，由刊物影响力的高低来推断论文影响力的高低，把期刊影响力等同于论文影响力，这种推理在逻辑上是有问题的。梁帅、高继平[2]提出论文质量的评价主要基于论文的被引频次和发表期刊共两种方式，被引频次统计的滞后性和“以刊评文”的片面性，都影响了单篇论文质量评价中的科学性和准确性。曹骏、宋丽萍[3]总结了“以刊评文”存在的问题，包括 “重外在、轻内在”，有违确定核心期刊的初衷；核心期刊不是优秀论文专刊，不能保证刊出的每篇文章都是精品；核心期刊是动态概念，时效上的不一致性增大了操作的困难。林娜[4]认为“以刊评文”实际上是一种“懒惰行为”，评价虽然变得简单易行，但结果却是评价的错位，由对论文学术价值的判断演变为对论文出身的追究。袁培国[5]提出以期刊评价替代论文评价，更加剧了期刊评价的难度和对期刊编辑不应有的压力。周杨[6]认为当“以刊评文”作为行政权力部门分配学术资源和利益的重要一环时，其作为学术评工具的功能异化所带来的负面影响就进一步放大了。

还有一些研究认为“以刊评文”有一定的合理因素。Gibson et al.[7]指出国际上在本学科高排名的期刊上发表文章，对学者学术声望的提升、职位的晋升和薪资的增长同样有着重要作用。程郁缀、刘曙光[8]认为有关期刊管理部门推行的现行期刊评价体系，包括有关高校、科研单位采用的“以刊评文”的做法，既有其合理的一面，也有其不合理的一面。程伟、刘海峰[9]认为高校决定刊物级别的主要因素是刊物质量，高校“以刊评文”的方式有其合理性。

关于“以刊评文”现象的改进，学术界也进行了一些探索。刘庆昌[10]指出高校和研究机构也许难以摆脱 “以刊评文”的局面，但必须对个别研究者的申诉进行专业的、谨慎的处理。郑美莺、梁飞豹等[11]借鉴Google网页排名的Page Rank算法，采用数理统计研究方法，提出单篇论文的Paper Rank算法，用此方法可以克服传统引文分析中“以刊评文”所存在的缺陷。邱香华、韩云波[12]提出为避免走入“以刊评文”的误区，选取论文下载量、SCI 分区、影响因子、学术影响力等四个指标，建立模糊综合评判模型，实现SCI期刊论文的可量化评价。李频[12]认为“以刊评文”的媒介基础是期刊与论文的同步传播，数据库传播形态否定了“以刊评文”的媒介基础，未来的期刊评价应该“以文评刊”，废除“以刊评文”。黄筱玲、吴星溪[13]分析了现行学术评价机制中“以刊评文”的困境，提出完善学术评价制度的新向度，即改变“以刊评文”，建立“以文评文”的评价机制。

从现有的研究看，关于“以刊评文”的局限和问题，学术界总体上持否定态度，但也有部分学者认为这种现象有一定的合理性。关于“以刊评文”的改进，学术界从完善评价机制、改进评价技术、推广“以文评文”等方面提出了一些建议，总体上在以下方面有待深化：

第一，“以刊评文”的本质特征是什么，或者“以刊评文”的理论依据是什么，这是要首先分析的问题。如果其没有一定的理论基础，是不可能造成如此广泛的影响的。

第二，对“以刊评文”存在的问题，应全面系统动态地进行分析，改进“以刊评文”的一些措施，也要分析其可能产生的新的问题，同时要分析这些政策措施是否方便操作。

第三，对“以刊评文”的态度，应该采取系统的和辩证的思维，客观分析其不足和可借鉴之处。

1 以刊评文的问题分析

1.1以刊评文的局限

1.1.1 “以刊评文”与“唯论文”有相通之处 “以刊评文”是“唯论文”现象的一种重要体现，两者的共同点是只看论文发表的期刊和论文数量，而不看论文的内容，不看论文质量以及产生的社会应用，从而导致只追求论文数量和期刊级别，甚至产生大量的学术造假和学术不端现象，这样就弱化了科技活动本身，论文就异化为追求个人利益的工具。“以刊评文”、不论论文质量的评估方式，导致一部分研究者成为了论文制造机器，想尽一切办法在这些期刊上发文，由此产生了大量学术不端行为[15]。

1.1.2 造成科技评价简单化 “以刊评文”在横向上视同一期刊发表的所有论文质量上无差异，在纵向上视期刊的过去与现时无差异，这种在纵横两个方向上的简单化有可能使论文评价和期刊评价同时陷入荒谬的境地，终将使学术评价走入死胡同[16]。其实文献计量学和科学计量学发展很快，已经涌现出许多不错的评价指标，如h指数家族、特征因子、z指数等等，大大降低了“以刊评文”的负面效应，并且已经有不少文献计量学与科学计量学的最新研究开始关注论文质量的评价问题。但“以刊评文”一旦形成某种传统和思维定势，就会对文献计量学与科学计量学的发展形成阻碍，以简单化的方法来操作科技评价。

1.1.3 不利于学术期刊良性发展第一，“以刊评文”强化了核心期刊的地位和作用，容易使核心期刊受到更多的干扰，关系稿、人情稿现象会有所上升。第二，分散学术期刊的注意力，一方面要保证办刊质量，另一方面还要将注意力放在提高期刊影响因子，以保住核心期刊地位，这样就会弱化期刊的学术功能。第三，学术期刊可能会操纵影响因子，产生不正当引用。第四，学术期刊为了提高影响因子，不得已降低载文量，以减小影响因子计算的分母，从而降低了学术期刊的知识和信息量[17]。

1.1.4 论文的大量外流应该说，“以刊评文”不是论文大量外流的主要原因，毕竟国内高水平SCI期刊数量太少，自然科学论文发表的载体不足。由于自然科学的优秀论文主要发表在SCI期刊上，这样高级别的SCI期刊就成为考核科研水平的一项重要指标，国内学者会将优秀论文首先投稿到国外高级别SCI期刊，这就是“以刊评文”得以滋生的温床。

1.2“以刊评文”产生的原因

1.2.1 同行评议制度有待完善如果不“以刊评文”，那么评价方法之一就是采用同行评议进行评价，评价一般是采用代表作进行评价。但是采用同行评议也存在一些问题：第一，我国同行评议制度机制还有待完善，其规范性有待提高。第二，大规模推广代表作必然导致同行评议专家数量增加很多、水平不够、评审工作量大。第三，代表作无法实行真正的匿名评审，容易导致评价不公平。第四，即使采用同行评议，评审专家实际评审时也容易“以刊评文”。

1.2.2 同行评议成本高效率低同行评议流程复杂，涉及到许多问题，比如专家数量、是否异地、通讯还是会议、抽签方式、打分区分度、表决方式，能否申诉、评审程序、保障机制等等诸多方面，这样会带来三个问题，第一是评审成本较高，毕竟如果代表作制度一旦推开，我国的各种科技评价工作量会成倍增加，这样就会增加很多成本；第二是加重了管理部门的负担，面对日益增加的评价工作量，穷于应付；第三是评审时间长，评审效率低下。

1.2.3 “以刊评文”可以适当减轻评价工作量同行评议一般采取代表作送审制度，比如对于职称评审而言，会送审3篇代表作，这种要求相对比较容易满足，因此评审参加者数量众多。而“以刊评文”可以人为设定一些门槛，通过抬高门槛首先淘汰掉一批水平不高的评价对象，这样会减轻评价工作量。“以刊评文”减轻工作量的主要手段就是规定论文数量和被引次数的最低参评标准，只要制定一个评价规则，可以将一些条件没有达到的评价对象淘汰，在实际操作层面就比较容易，一般也容易达成共识，会大大降低评审工作量。

1.2.4 “以刊评文”具有形式公平性在同行评议不能有效发挥作用的情况下，“以刊评文”就变成一种形式上相对公平的做法。在人才评价与机构评价时，往往简单根据一定级别的论文数量来评价其水平，这种处理方法虽然不科学，但矛盾少，至少表面上比较公平。

1.2.5 “以刊评文”可以评价规模学术评价是指针对学术成果的学术贡献、学术创新、学术价值、学术影响以及社会影响、应用价值、经济效益等方面的评估[15]。学术评价的视角是多方面的，作为基础研究重要标志的学术论文，其主要标志是创新和影响力，对于机构的学术论文，更反映了机构的研究水平和规模贡献，“以刊评文”虽然处理方式简单，但机构一定质量的论文数量还是能够很好地反映机构的规模。

2 “以刊评文”的本质分析

2.1“以刊评文”是研究水平的用户画像无论是作者还是机构评价，总要涉及到水平高低问题，这是进一步比较的基础。一般而言，如果能够大致将水平划分为几类，先将不同评价对象进行分类，然后对于同一级别的评价对象，再比较其水平差异，这样更加有利于进行相对细致的比较。简单根据分数分类还是相对比较粗糙的做法，比如一般学者与顶级学者的水平相差太大，分级比较更加合适。

假设将研究水平分为顶级水平、专家水平、一般水平、初级水平4大类，这种水平的划分是无形的，没有感性认识。如果能将研究水平可视化，建立一种有形的标准，那么就会一定程度上解决这个问题。这不仅是对于公众，而且对于学者和机构也具有重要意义。

图1 研究水平与期刊分级的对应关系

如图1所示，在学术期刊评价与分级过程中，恰恰有这么一个可见的标准。目前国内许多高校均建立了各自的期刊分类考核体系，用来计算科研绩效和进行科研奖励。期刊一般分为顶级期刊、权威期刊、核心期刊和普通期刊，分别对应学者研究的顶级水平、专家水平、一般水平和初级水平。说穿了，期刊级别类似学者或机构的“画像”，从而将其水平以一种可视化的方式展现出来，或许这就是“以刊评文”的根源。这里涉及几个隐含问题：

第一，不同级别的期刊的平均水平有显著差异。注意这是一个总体的概念，而不是个别期刊的概念，并不是说A期刊是权威期刊，B期刊是核心期刊，发表在A期刊的论文一定比B期刊的水平高，甚至也不能说A期刊所有论文的平均水平比B期刊高，这些都是片面的，但所有权威期刊的所有论文的平均一定比所有核心期刊的所有论文的平均水平高。

实际操作过程中，经常会出现同一期刊有些高校将其列为权威期刊，但另一些高校将其列为核心期刊的情况，这并不影响以上结论。另外对于学科领域内的期刊分级，其实学术界容易达成共识，比如经济管理领域24本UTD顶级国际期刊，国内的《经济研究》《管理世界》《中国社会科学》等一般也被列为顶级期刊。鉴于顶级期刊发文量较少，所以尽管水平有所差异，但争议并不大。

最近科技部发文鼓励发表高质量论文，包括发表在具有国际影响力的国内科技期刊、业界公认的国际顶级或重要科技期刊的论文，以及在国内外顶级学术会议上进行报告的论文，其中具有国际影响力的国内科技期刊参照中国科技期刊卓越行动计划入选期刊目录确定，该分类中将期刊分为领军期刊、重点期刊、梯队期刊、高起点期刊，这也是一种分类标准。

第二，不同级别研究水平内部差距不一样，对评价会产生影响。在大样本情况下，学者或机构水平的分布一般呈正态分布，也就是呈现“中间多，两头小”的分布特征。在这种情况下，不同级别期刊所代表的研究水平之间的差距也是不一样的。一般而言，初级水平、一般水平各自内部差距较大，而专家水平、顶级水平各自内部的差距较小。其评价含义就是，对于顶级水平之间的比较，或者专家水平之间的比较，区分度相对小一些，比较相对困难。对于一般水平之间的比较，或者初级水平之间的比较，区分度相对较大，区分比较容易。

第三，学者研究的宽度与深度问题。由于学科特点、专家异质性等问题，有些学者比较擅长某个比较窄的领域的深度研究，有些学者比较擅长相对宽泛的研究。用论文来反映，前者可能论文发表的较窄领域的少数期刊，后者论文发表在更多不同期刊。大多数学科还是可以根据论文内容和质量来判断学者的水平，但不同学科会有所差异，有些情况下，以上两者之一可能难以反映作者的水平，需要注意这个问题。

2.2大样本下“以刊评文”可以反映研究质量换一种思路来看待作者的论文审稿过程，如果将论文审稿也看成是审稿专家对论文质量或作者水平的一种评价。不妨做如下假设：

第一，在一定时间范围内，作者的科研水平保持不变，不同论文质量和水平是同质的。

第二，每篇论文有1位审稿专家。

第三，每位审稿专家水平相同，均是客观公正的。

第四，每位专家打分60分以上视同论文录用，专家打分越高，说明论文水平越高。

假设作者共有n篇论文，有n位专家给论文打分，实际上专家审稿就是对作者研究水平的一种“抽检”，每位专家打分为：

xi=μ+εi+δi(i=1,2,3,…,n)

(1)

式(1)中，xi为专家打分值，μ为论文水平的真实值，εi为打分与真实水平的随机误差，δi为系统误差。随机误差是难免的，系统误差可以通过双盲评审、提高评审专家质量和责任心加以解决。n位专家给出的评分为：

(2)

采用算术平均值代表作者的学术水平：

(3)

在大样本情况下，随机误差ε一般服从正态分布，其均值随着样本容量的增大而趋向于0。只要保证论文评审的规范性，系统误差δ可以大大缩小，其均值可以视同为0。一般认为样本数量大于30时为大样本，所以只要有30位评审专家，那么作者的水平打分是没有问题的。如果评审专家较少时，就会有较大的测量误差。

实际期刊论文评审中，一篇论文往往至少会请2位评审专家，也就是说，只要作者能拥有15篇论文，就足以证明其具备某种水平。

另外需要指出的是，采用同行评议对代表作进行评价，由于受各种因素的干扰，尤其是代表作同行评议难以实现真正的双盲评审，评议专家非常容易查到论文作者是谁，这样评审中的系统误差δ是无法消除的，此外由于评审专家人数的限制，往往也难以做到大样本，这样打分的可靠性就得不到保障。

3 “以刊评文”的辩证应用分析

3.1论文评价的比较框架下面区分以下几种情况分别研究论文样本不同情况下，“以刊评文”的辩证应用问题(见图2)。第一种情况是小样本论文之间的比较，包括同级别小样本论文之间的比较，以及跨级别小样本之间论文之间的比较。第二种情况是同级别大样本论文与小样本论文之间的比较。第三种情况是大样本论文之间的比较，包括同级别大样本论文以及跨级别大样本论文之间的比较。

需要说明的是，在讨论以上问题时，暂且不考虑代表作制度，假设作者或机构可以提供更多论文用于评价。另外，对于大样本论文数量的界定，我们假设论文数量至少为15篇，因为论文录用时已经有30位审稿专家参与审稿并通过了。

图2 以刊评文比较框架

3.2小样本论文的比较问题在小样本情况下，学者评价应以同行评议为主，兼顾“以刊评文”。

首先，同级别小样本论文的比较。在论文小样本情况下，同行评议的效果是相对的。这是因为，第一，论文数量很少时难以评价作者的知识面和研究水平，某些高校以发表一两篇国际顶级期刊论文评教授引起了较大的争议就是这个原因。即使有更多的同行评议专家参与评审，即论文为小样本、同行评议专家为大样本，也难以评价作者的水平；第二，小样本论文作者的贡献有时难以认定，比如第一作者与通讯作者的贡献大小难以区分，在这种情况下，对于论文数量较多的作者，应该给予一定的倾斜。

其次，跨级别小样本论文的比较。在论文数量相当的情况下，A的论文包括核心期刊和权威期刊，B的论文只有核心期刊，那么此时应该充分肯定A的水平。如果A、B均有权威期刊论文，应该重点考虑谁权威期刊论文数量更多。毕竟在小样本情况下，多数情况是一般水平和初级水平的比较，论文数量不够多，水平之间相差比较大，相对容易区分。

3.3同级别大样本论文的比较如果作者的15篇论文均为权威期刊，这些论文已经得到30位审稿专家的肯定，证明该论文具备了“权威”水平，其平均值为μ，这个结论是可靠的，随机误差和系统误差均趋近于0。因此可以得出如下结论：

结论一：对于一定级别论文数量大于15篇的作者或机构，作者科研水平可以用该级别期刊论文的平均质量表示。

如果有多个机构或作者一定级别期刊论文数量均大于15篇，根据前文分析，只能证明其水平或质量相当，数量越多说明是在同一水平上的重复。但是换个思路，在同一水平上重复有没有意义？其实人类社会的基本运转包括科研工作的开展，有很多是日常事务性的工作，工作做得越多说明贡献越大。从另一个角度，随着研究能力达到一定的水平，成果数量越多，其中少数一流成果的概率就越大，因此可以继续得到如下结论：

结论二：对于同一级别论文数量均大于15篇的作者或机构，他们的研究水平相同，但论文数量越多，他们的贡献越大。

结论三：一旦某种级别期刊论文超过15篇，随着论文数量越多，一流研究的概率越大。

所以对于同一级别大样本论文的比较，“以刊评文”未尝不是一种有效的方法。

3.4同级别小样本论文与大样本论文比较如果用一定级别期刊的平均水平作为作者学术水平的基准值，在小样本情况下，同行评议的任务就是评价作者或机构水平有没有达到该基准值。如果达到，说明其研究已经具备某种水平，如果没有达到，那自然就需要淘汰。即使小样本论文的研究水平达到一定级别期刊的平均水平，其贡献也是小于大样本论文。因此可以得出以下结论：

结论四：同一级别论文较少的作者或机构的平均水平需要采用同行评议加以判定，但其水平最高不宜超过该级别论文15篇以上的作者或机构，并且其贡献也小于他们。

这样同级别小样本与大样本的比较也相对简单了，可以采用“以刊评文”。

3.5大样本论文下跨级别比较问题在大样本情况下，即作者或机构论文数量均超过15篇，并且论文级别横跨两个级别，比如A团队有30篇论文，顶级期刊4篇，权威期刊26篇，B团队有40篇论文，顶级期刊2篇，权威期刊38篇，在这种情况下，如何进行比较？

在顶级期刊论文数量没有达到大样本情况下，没有理由说明团队的水平达到了顶级水平。此时应该以权威期刊论文水平为主，对不同团队之间进行比较。比较视角可以从研究水平、研究影响、研究贡献三个视角展开(见图3)。

图3 大样本跨级别比较

对于研究水平，可以采用顶级成果同行评议的方法进行，毕竟团队已经达到专家水平，这得到了大样本权威期刊的检验，此时没有必要再浪费更多的人力、物力和财力做大规模的同行评议，只要评审少数顶级期刊即可。

研究影响是非常重要的研究水平辅助评价指标，包括论文被重要的数据库收录、论文被引以及其他学术影响等等。

研究贡献采用折合论文数量表示，一种相对可行的做法是这样处理，一篇顶级期刊论文视同2篇权威期刊论文，1篇权威期刊论文视同2篇核心期刊论文，1篇核心期刊论文视同2篇一般期刊论文，或者根据不同学科情况制定细则，这样可以得到论文的总体贡献大小。

因为少数顶级期刊论文不是大样本，不能可靠地代表研究水平，因此研究水平评价与研究影响评价的权重应小于0.3，而经过稳健性检验的研究贡献的权重应该大于0.7。这样就可以进行大样本论文下跨级别进行比较。

4 结论与思考

4.1研究结论

4.1.1 大样本情况下论文发表期刊的平均质量可以代表研究水平本文研究发现，在大样本情况下，即当论文数量达到15篇时，就可以用这15篇论文发表期刊的平均水平代表的学者或机构的学术水平。本文通过将学术水平与学术期刊质量的平均水平关联的方式建立学术水平的学术期刊画像，将研究水平分为顶级水平、专家水平、一般水平和初级水平四大类，分别用顶级期刊、权威期刊、核心期刊和一般期刊的平均水平表示。在大样本情况下，论文发表时审稿专家已经对论文质量进行了评审，其结果是可靠的，这就是“以刊评文”的本质。当然，论文审稿与发表后评审还有一些差异，审稿要考虑达到发表期刊的质量要求，而发表后质量评价则完全评价论文本身质量。

4.1.2 机构评价时应该“以刊评文”为主、同行评议为辅机构评价应该秉持质量优先，质量相当比贡献的原则。在机构评价时，很多情况下论文数量已经达到了大样本的要求，在这种情况下，为了降低评价成本，保证评价公平，首先应该采用“以刊评文”的方式进行评价，只有当两家机构成果比较接近时，再辅以同行评议进行评价。所以机构评价时，既要提供所有论文数据，也要提供代表作论文。

当然，对机构评价“以刊评文”为主仍会导致机构追求论文数量，如国内外各种大学排名榜、学科评价等。需要对期刊进行科学合理的分级，另外要从加强学风建设，减少不合理、不必要的评价，微观层面取消论文任务分解等多方面加以解决。

4.1.3 人才评价应该以同行评议为主、“以刊评文”为辅在进行人才评价时，由于评价对象是学者个体，论文数量往往不多，如果都达不到大样本数量，应该以同行评议为主。但是这并不意味着个体评价中就不会出现大样本现象，如果学者个体论文数量达到了15篇，那么也应该参照大样本评价方法进行。当学者发表论文期刊档次相同时，拥有大样本数量的学者理应优先。另外平均水平为低级别期刊的学者不宜超越平均水平为高级别期刊的学者，比如即使进行同行评议，发表一般期刊的学者也不宜超越发表核心期刊的学者。

4.1.4 “以刊评文“能够评价科研规模而代表作评价只能评价科研质量在理想情况下，基于代表作的同行评议能够评价科研质量，无论是小样本还是大样本，这是同行评议的最大优点。“以刊评文”只有在大样本的情况下才能评价科研质量，但是它还有一个功能就是在大样本下可以评价科研成果的规模，这是代表作同行评议难以替代的。作为两种主流的评价方法，两者应该互相补充，不可偏废。

4.1.5 高级别的评价应该以同行评议为主在精细、重要的质量评价中必须以同行评议为主，比如国家重点实验室和重点学科评价、院士和长江学者等国家级人才评价等。在评价时要以评价目的为龙头，制约评价方法、指标即权重的确定。“以刊评文”说穿了还是一种评价手段，所有的评价手段要服务于评价目的。

4.2几点思考

4.2.1 加强文献计量指标的应用无论是论文代表作制度还是“以刊评文”，均有各自的优点和不足。“以刊评文”虽然有其合理性的一面，但毕竟属于相对简单的数论文数量的评价，因此饱受学术界批评。其实多年来，随着文献计量学与科学计量学的发展，对机构已经有很好的评价指标，如h指数家族、z指数、特征因子等等，这些指标往往拥有较好的评价效力，但在我国的科技评价实践中应用却比较少，主要原因是管理与决策科学化不够所致，建议根据一定的评价目的，选取不同的文献计量指标或采取综合评价。

文献计量指标应用也要注意，许多指标是在宏观大样本下才有意义，比如期刊的h指数是若干篇论文大样本计算的结果，具有较好的稳定性，而对作者进行评价，如果作者论文太少，h指数的应用其实是不合适的。

4.2.2 鼓励大样本下的精细评价为了防止片面追求论文数量忽视论文质量，造成科研工作异化问题，这种情况在机构评价中出现较多。首先应该进行分类评价，主要是按照学科和科研工作的特点进行分类；其次是将顶级期刊和权威期刊的分类标准进一步细化，在各学科内部，这还是容易达到共识的；第三是鼓励采用大样本进行评价，而不是少数几篇论文。最后再结合采用同行评议，可以全方位评价机构水平。