毕业论文匿名评审制度中的“误判”问题

2021-05-18 23:51胡安宁李东雨

复旦教育论坛 2021年2期

胡安宁，李东雨，陈滔

（1.复旦大学研究生院，上海 200433；2.复旦大学社会发展与公共政策学院，上海 200433）

一、引言

论文匿名评审制度是现代科研评价体系的基本制度[1]。以最常见的双盲评审为例，论文作者与评审人互不知晓对方信息，仅以论文作为彼此沟通的凭借。这一制度的优势在于可以克服论文评价过程中的“人情”因素，以期客观公正地评价一项研究的优劣。因此，虽然围绕匿名评审制度一直存在种种争议，但论文需通过匿名评审方可发表已经成为世界上绝大多数学术期刊的通例。

考虑到论文匿名评审制度的这一优势，过去一段时间以来，国内很多高校也开始采用匿名评审制度来处理毕业论文的质量评判问题[2-3]。虽然各校的政策各有差异，但是基本上都要求学生在最终答辩之前，其论文要通过外审专家的审阅，否则有可能丧失答辩资格乃至学位申请资格[4-5]。由于这一制度将学生论文的评价权交予校外评审人，可在一定程度上遏制本校教师评价过程中可能存在的人情关系因素，故而被很多高校争相效仿。然而，到目前为止，对于这一制度可能存在的弊端却鲜有思考[6-9]。

在此背景下，本文希望借助一个非常简单的数学模型来说明：即使评审人如校方所预想的那样具有比较高的论文鉴别力，一旦后续校方仅仅依据匿名评审结果判定论文质量，并以此决定学生是否有资格答辩和取得学位，将会产生相当高概率的“错判”，在判为不合格的论文中有很高比例的合格论文。基于这一基本模型，研究进一步考虑了多种更为复杂的情况，包括多人评判（一票否决以及少数服从多数两种情况）、多轮评判（论文经过多轮评议）以及多类别评判（评判结论并非过与不过的二元判断，而是涉及多个评判结论）。基于这些讨论，我们展示了潜在“误判”问题的普遍性。

研究对于毕业论文匿名评审制度的讨论具有很强的现实意义。对论文质量的判定关系到学生能否毕业和取得学位，进而与后续的就业、出国等事项高度相关，此种问题对于那些被错判的学生而言关系重大，因此应当得到各方面的高度重视，并尽可能予以避免。同时，对于高等教育机构而言，此类误判问题的发生直接关系到对优秀人才的吸引力、管理制度设置的公正合理性以及学校的学术声誉与学术影响力。因此，无论是从学生还是从学校的角度出发，毕业论文的匿名评审制度都需要扎实细致的制度设计，仓促使用并不可取。

二、研究背景与文献综述

研究生学位论文是新生代科研从业者能力的重要体现，往往能为学术共同体带来创新性贡献[10]。1981 年的《中华人民共和国学位条例暂行实施办法》规定，博士学位论文应经同行评议。当时的同行评议制度中的评议人和作者是相互知晓的。2014 年中华人民共和国国务院学位委员会、教育部印发《关于加强学位与研究生教育质量保证和监督体系建设的意见》，要求各单位加强匿名评阅制度建设。自此，匿名评审制度逐渐成为高校学位论文审核的普遍标准。

正如前文所述，匿名评审制度有利于通过规避“人情”因素来提升学位论文质量。中国社会是一个讲人情和面子的社会[11]，因此在学位论文评价方面，人情和面子因素有可能影响评审人的最终评阅结果。相比而言，匿名评审则让论文评阅过程摆脱了可能存在的拉关系、走后门现象[12-13]。这也间接调动了研究生导师指导学生的积极性，从而提高了研究生学位论文的质量[14-15]。从更为微观的社会互动过程角度来讲，匿名评审制度通过将作者信息隐去，在一定程度上避免了由刻板印象导致的评审人的主观偏差。这种偏差会和作者的诸多社会信息有关，如性别[16]、前期学术积累[17]、作者所属机构[18]等，匿名评审制度中隐藏了作者的此类信息，从而有效地避免了因为社会信息和刻板印象带来的偏差。

尽管论文匿名评审制度具有一定的优势，但其可能存在的弊端也是不容忽视的。例如，论文匿名评审制度更多关注的是如何排除人情关系等非学术因素，但对于如何有效提升论文的质量关心较少[19]。一些研究认为，匿名评审制度对于提升论文质量的效果是较为有限的[20]。一项实验研究发现，双盲评审并不能提升审稿人发现论文中错误的概率[21]。针对学位论文双盲评审的研究也指出，不应对双盲评审保障论文质量的作用有过高的期待，学生在论文写作过程中的态度、导师在过程中的指导和学校在全流程中的监督才是提升学位论文质量的关键[2]。

就匿名评审过程中的误判问题而言，现有研究有一定的讨论。例如，对论文质量的准确判断依赖于两份或多份评审意见的一致性，但评审人意见不一致甚至完全相左的情况十分常见[22-23]。此外，学位论文综合评议结果与分项评议结果不一致的状况时有发生，也影响了对论文质量的判断[2]。

除了评价一致性之外，学位论文匿名评审结果出现偏差的原因可以进一步从评阅者和论文送审两个方面进行讨论。就评审者而言，全国高校学位论文答辩和送审的时间较为集中，评审专家往往需要在短时间内评阅大量的学位论文，同时还要兼顾自身的教学、科研和行政工作，很难在论文评审上投入充足的时间[3]。此外，论文的匿名评审选择一般由非专业的教学行政管理部门负责，存在一定的匹配偏差[24]，直接影响对论文质量评判的准确性[25]。一些评审专家在主观上也较为懈怠，评阅态度不端正，这也会造成评阅过程的“失准”。

论文匿名评审过程中的误判也和论文本身的特点相关。整体而言，更具开创性、前沿性的高质量论文和涉及学科交叉领域的论文在匿名评审中容易被错判[26-27]。一项对东南大学学位论文双盲评审的研究指出，学位论文属于交叉学科的研究是导致学位论文评议结果不合格的一大原因[28]。还有学者使用基于行动者的模型（agent based model）模拟了学术期刊匿名评审制度的运作，因为高质量论文的审稿难度较大，经济理性的审稿人往往不愿意认真审阅这类论文，而只要有极小比例的这类理性审稿人存在，久而久之，论文评判标准就会向平庸化发展，从而“拒斥”具有创新性的文章[29]。实际上，在学位论文评审实践中，因学术观点分歧而导致的匿名评审不公现象也时有发生[28]。

需要提及的是，论文的匿名评审工作并非没有成本。相反，组织大规模的论文匿名评审会消耗大量的人力、物力、财力和时间。在学位论文评审中，由于送审需要占用一定的时间，学生写作、修改论文和导师指导的时间也相应受到压缩，这对提升学位论文的质量也造成了影响[20]。纸本送审论文的打印和寄送也是一笔不小的开支，随着招生规模的扩大，这一费用也会逐步增加[15]。

综上，现有研究对期刊论文的匿名评审制度有一定的反思，但是对于毕业论文匿名评审制度的讨论相对不足。在有限的研究中，很多学者将毕业论文匿名评审制度中的误判问题归咎于评审者的失职。而本研究希望说明的是，即使匿名评审者不失职，完全依据外审意见进行论文质量的评判，依旧会造成相当高的误判率。为了说明这一点，有必要区分毕业论文匿名评审制度中的双重决策过程。

三、毕业论文匿名评审制度的双重决策

毕业论文匿名评审的决策过程分为两步：第一步，学校基于已经完成的毕业论文，寻找外部评审专家以判断其质量；第二步，学校基于评审的意见，对于论文的质量进行判定，并进一步决定学生是否有资格答辩或者获得学位。这两步看似一体两面，但其决策逻辑却是不同的。

在第一步中，学校方面希望尽可能寻找到合适的评审人员来进行评判。即，如果给评审者一篇高质量的论文，评审者能够给予一个准确的“论文合格”评价；而如果交给评审者的是一篇质量很差的论文，评审者能够做出“论文不合格”的评价。与之相比，第二步的决策依据在于，给定一个“论文合格”的评价，学校可以将论文定性为“合格”并准许学生答辩和取得学位。同时，如果论文的一个评价是“不合格”，那么学校可以相应地判断论文不合格，从而对学生进行某种资格限制。

直观地说，第一步解决的问题是外部评审者能够准确评议本校学生的论文吗？后一步解决的问题是，基于特定的论文评价结论，学校能够依此判断论文质量吗？在这两步中，无疑第二步是更为重要的。学校对毕业论文进行匿名评审，最终目的不是为了获取校外评审意见本身，而是希望能够根据校外评审意见进行论文质量的认定，并实施相应的措施。这样说，可能读者会认为二者是一回事，如果对于特定的论文，评审者都能够给出准确的判断，那么基于他们的判断不就能够区分论文质量了吗？然而，一个基本的数学模型告诉我们，实际情况并非如此。

四、毕业论文匿名评审中的“误判率”：一个简单的数学模型

假设变量B 表示一篇论文是不是“质量差”（1=质量差；0=质量好），A表示给出的评审意见是否是“不合格”（1=评审意见为不合格；0=评审意见为合格）。那么，上述的第一步涉及的是条件概率P（A|B）和P（）。其中这两个表达式的意思是，在给定论文质量的前提下，给出准确评审意见的概率。其中，P（A|B）表示给出一篇质量差的论文的前提下，评审的判断为不合格的概率；P（）表示给出一篇质量好的论文的前提下，评审的判断为合格的概率。在第一步，学校关心的是如何提升P（A|B）和P（）的取值。而与第一步相比，第二步涉及的是P（B|A）和P（）。前者是指评审判断为不合格的前提下，论文真实质量为差的概率；后者表示评审判断论文合格的前提下，论文真实质量为好的概率。

基于上述的讨论，研究有4 个指标来衡量毕业论文评审过程，如表1所示。

表1 论文评定过程的4种指标

显然，从学生的角度来看，他们会更为关心误关率，因为误关率高的话，一个认真撰写毕业论文且论文质量好的学生有可能被匿名评审过程“冤枉”，从而丧失后续的很多机会。但是从学校的角度来看，更为关心错放率。尤其是在教育部出台学生毕业后对其毕业论文进行不定期检查的制度之后，如果错放率高，则很有可能在未来抽检过程中出现不合格论文，对于学校而言会产生巨大的压力。下面，用一个简单的数学模型，看一下误关率与错放率的基本特征。

这里采用的基本数学模型是贝叶斯定理。基于贝叶斯定理，可以从给定的P（B）、P（A|B）和P（）的值推导出P（B|A）和P（）。其中，P（B）表示一所学校不合格论文的比重（如每100篇毕业论文中，质量差的论文的比例）。

研究假设一所学校质量差的论文的比重（“次品率”）在1‰～10%之间，这个变化区间比较符合实际状况。假设一所学校一年有800 名学生毕业，那么论文质量差的数量在1～80个之间变动。除此之外，研究设定P（A|B）=P（）=99%，即预设给定论文的质量前提下，外部评审的判断接近完美。当然，这是一种比较理想的情况。这里，不妨看一下，即使是在这种理想情况下，各种误判率是如何变化的。下面会放宽这种完美评审的设定，以尽可能接近实际情况。利用上面的贝叶斯公式，进行数据模拟，结果如图1所示。

基于数据模拟的结果，如果一所学校质量差的论文占整体论文的比例很低，则误关率会高，错放率很低。例如，如果一所学校的教学质量很好，将整体论文中的“次品率”控制在2%及以下，那么就算邀请的评审者对论文质量有着非常准确的判断（达到99%），误关的发生率也会在30%及以上。这意味着，平均而言，有30%的可能性会出现误关学生的情况。这是一个非常惊人的比例。当然，此时错放率接近于0。

基于简单的贝叶斯公式和数据模拟，研究发现，即使能够寻找到一些“完美”的评审者，如果单纯以评审结论为依据决定学生是否能够答辩和获得学位，那么从理论上讲，也会有相当数量的学生会被“误关”。这对于期待获得学位并开始工作或者出国的学生而言，无疑是极为不公平的。

如上文所述，这里只是展示了在“完美评审者”前提下的结果，如果评审者的评判能力变低，会发生什么呢？这等价于设定P（A|B）和P（）为更小的取值。假设P（A|B）和P（）变动区间为0.8～0.95，会得到如图2所示的模拟结果。

在给定学生培养质量的前提下，随着评审者的评价能力下降，可能犯的“误关”错误也在提高。例如，如果评审的论文评价能力为80%（即给定一篇高质量的论文，80%的可能性评审判断为合格，而给定一篇低质量的论文，80%的可能性评审判断为不合格），那么在论文“次品率”仅为2%的学校中，误关率会超过90%。当然，错放率依然很低。

需要说明的是，上面对于模拟结果的诠释是从学校的角度出发的。实际上，也可以基于学生个人的角度，将P（B）理解为某个毕业生的论文自身的差品率，即多大程度上这个学生的论文质量差。基于这种理解，那么上面计算的误关率就是这个学生有可能被误关的概率了。这种个体层次的解释与上面基于学校层次的解释是一致的。

五、更为复杂的情况

图1 误关率和错放率的变化

图2 误关率和错放率与评审质量之间的关系

上面的讨论基于基本的统计模拟，但是现实的毕业论文匿名评审过程更为复杂。例如，通常而言，会有多名评审人员，学校在获取他们的评审意见后，可以采用“一票否决”或者“少数服从多数”的原则对论文进行最后的评判。所谓“一票否决”，是指在多个评审者中，只要有一名评审者给予不合格的评定意见，则该论文被视为不合格。所谓“少数服从多数”，则是指在评审者数量为奇数的情况下，以多数人的意见为准，如果大多数评审者认为论文不合格，则学校判定论文为不合格。除了这种多位评审者的情况，有时毕业论文的评阅还会有多轮的情况，也就是说，论文评阅不是“一锤子买卖”，而是经过多轮次的评阅后进行最后判定。最后，论文的评阅意见很多时候也不是合格与不合格的二分判断，有时会有3 个甚至5 个选项供评审者选择。

本节中将分析以下4种更为复杂的情况的误关率（相比于错放率，误关率更为重要，因此，研究特别关注误关率）：多人评阅，一票否决；多人评阅，少数服从多数；多轮评阅；多个评阅结论选项。

1.在“多人评阅，一票否决”的情况下，误关的概率会被放大。例如，如果有两名评审者，每个评审者的误判率是p，那么一票否决的情况下，学生被误关的概率是2p（1-p）+p·p；如果只有一个评审者，则学生被误关的可能性就是p。显然，2p（1-p）+p·p>p。在此种情况下，最后的误判率等于1 减去所有人都没有误判的概率。如果有n 个评审者，这个值等于1-（1-p）n。在现实情况中，n 的取值不可能很大。通常而言，对于每份论文n不会大于3，因此，取n=3。

2.如果是“多人评阅，少数服从多数”，情况要更为复杂。此时需要确定评阅意见的分布情况。以n=3、二分（合格与不合格）评阅意见为例，评阅意见的分布有8 种状态。此时，一篇论文的误关率等于两个及两个以上评审者误关的概率，这一数值也等于1 减去没有误关的概率再减去只有一个评阅人误关的概率。

3.在多轮评阅的情况下，后面一轮被误判的前提是前一轮也被误判，所以在此种情况下，最重要的是最后一轮是否被误判。显然，如果有k 轮评阅，且最后一轮是被误关，则在相互独立的数轮评阅过后，整体的误关率就是pk。当然，现实情况下有可能多轮评阅彼此不独立。例如，有可能后面一轮的误关率比前面一轮的误关率低。假设有3 轮评审，每次降低20%的误关率，则整体的误关率就是p（p·0.8）（p·0.8×0.8）。

4.评阅意见有多个选项的情况也不足以改变上述的各种模拟分析结果。原因有三：其一，无论选项有多少，最重要的判断还是论文是否合格；其二，评阅者对于论文的判断能力是一种自属的能力，无论选项如何设置，都不足以改变评阅者对于给定论文的判断（例如，在二分评价体系下给出不合格的结论，等同于在一个百分制体系下给出60分以下的结论）；其三，论文质量同样是论文的自属性质，评价选项的设置与论文本身的质量并无关联。考虑到这三点，下面的分析仅针对前3种复杂情况进行统计模拟。

在下面的统计模拟中，仍然将评审者的论文判断能力设置为99%，质量差的论文比例区间为1‰～10‰，评审者数量设为3，相关结果见图3。

图3 更为复杂情况下的误关率

图3 说明，即使评审者对于论文具有几乎“完美”的判断力，但如果一所学校质量为差的论文比例仅为2%，那么3 位评审者在“一票否决”的情况下的误判率仍会超过60%。相比之下，如果采用“少数服从多数”原则的话，误判率会下降，但是仍然会在20%以上。多轮独立评审的情况下，误判问题会得到缓解，误判率降至5%以下。如果多轮评审彼此是负向相关的话，可以进一步降低误判率。由此可见，多轮评审的制度能够最大限度地削减外审过程的误判率。

那么，随着评审者判断能力的下降，会出现什么情况呢？这方面的分析如图4所示。由图4（a）可以发现，如果评审者的判断能力极强，那么无论是多位评审者时“少数服从多数”，还是多轮评审，都比单人评审有更低的误关率（但是如果一所学校质量为差的论文比例极低，则3 位评审者“少数服从多数”的情况相较于单人评审更差）。但是，由图4（b）～图4（d）可知，随着评审者评阅能力的下降，多轮评阅比单人评审有更低的误关率。多人评阅无论采用哪一种原则都会表现出更高比例的误关率。例如，如果评阅者的评阅能力设置为80%，只要一所学校的质次论文在6%以下，误关率几乎达到100%。

六、结语与讨论

图4 变更评审判断能力时的误关率

匿名评审制度设置的初衷在于通过匿名学术成果评价来保障客观与公正，但是就毕业论文质量评判而言，却存在进一步思考甚至商榷的空间。通过贝叶斯定理，用基本的数学模拟方法可以证明，即使在评审者具有很高的论文鉴别力的前提下，单纯基于评审结果来判断论文质量有可能会出现误判：在那些被评审为不合格的论文中，有可能有相当比例的高质量论文。

研究展示的统计模拟结果引发一系列关于毕业论文匿名评审制度的讨论，如：为何高质量论文容易被误判；如何避免送给论文评价能力相对较低的专家；如何从制度设计上避免高质量论文被误判。

无论是日常经验还是本文的模拟结果都表明，高质量论文的误判率更高。之所以如此，原因之一在于创新与范式之间的张力。学术研究的本质在于创新，而高质量的论文更具创新性。但与此同时，论文匿名评审的过程是一个诉诸学术共同体“规范”的过程。借用库恩的术语，任何学科均有自身独特的学科范式，这一范式不仅仅涉及宏大的学科建制，还涉及更为具体的本学科领域内的“行规”，如研究问题的提出方式、研究方案的设计、研究成果的展示方式等。尽管库恩认为范式具有变革的可能性，但是大多数时间内，我们处于“常规科学”阶段，会受制于范式的规制。因此，更具创新性的毕业论文更有可能突破现有范式，因此也更有可能被大多数身处并接纳现有范式的学者所排斥。

本文的模拟结果亦显示，随着评审专家判断力的下降，误判问题会变得越发严重。那么，应当如何保证评审专家的判断力，或者说，如何确保找到高水平的匿名评审专家，就变得尤为重要。就这一问题，目前有两种主流的做法：一种是利用教育部已有的专家数据库进行库内同领域专家的随机选择，即“库内找专家”；另一种是由本校同领域专家提供专家名单，即“专家找专家”。两相对比，笔者认为后者更具优势。比如，专家邀请的专家更能保证专业的“精细”对口。教育部的专家库可以匹配大的学科门类，但是无法照顾更为精细的学科分类，对于某一小的学科或者研究方向，使用此种专家库很容易出现“错配”。相比而言，只有同一学科或者研究方向的专家对于本领域内的适格专家最为了解，由他们提供专家库可以最大限度地保证找到的匿名评审专家是真正的“同领域”的内行。这种精细的匹配也涉及时效性，无论哪一门学科，当下的科研实践和成果的涌现可谓一日千里，短时间内会有很多新知识和新方法出现，很多时候，学位毕业论文相比于期刊论文更能够体现这些新知识与新方法，因此，匿名评审者的知识构成也需要“与时俱进”。至于一个领域内哪些专家的研究更有前沿性，自然这个领域内的专家最清楚。相比较而言，教育部的专家库对专家信息的更新相对滞后，对于特定学科的新发展无从顾及。

那么，如何尽可能地从制度设计方面避免对毕业论文的误判呢？按照本文的研究发现，一个比较可靠的方式是允许学生进行多轮评审。在这一制度下，最后被误判的可能性会大大降低。具体到制度设计层面，建议允许学生随时通过抗辩来启动新一轮的评议，而不是在多轮评议中人为设定诸多障碍。当然，多轮评审也并不一定要求是多轮匿名评审，比如，学校可以设立一个独立于外审的论文审核机构，如果论文外审结论为不合格，学生可以有地方“上诉”。当然，此种委员会需要定点邀请相应领域的专家，而不是简单诉诸所谓的“专家名单”。

需要说明的是，多轮评议制度的好处不仅仅在于可以削减误判，还能够起到剔除不合格评审者的功能。虽然一般的毕业论文外审过程中也可通过抗辩程序来更换不适格的评审者，但是一来学生往往出于“不生事”的动机而选择按照不适格评审者提出的偏颇评审意见修改，然后发给同样的不适格评审人重评；二来学校通常对更换不适格评审者的抗辩程序设置各种限制，因此并不是学生想抗辩就可以抗辩。其结果便是，毕业论文有可能在同样的不适格评审者处逗留多次。此时，如果不适格的评审者坚持己见，即使评审意见偏颇，论文撰写者也别无他法，从而造成评审者与论文撰写者之间存在巨大的不对等。

总之，高校管理人员应严肃对待毕业论文匿名评审过程中的误判问题。被误关的学生很有可能因为这种误判而丧失了后续工作或者出国深造的机会，因此对于学生个人而言是关乎其未来发展的大事。对于学校而言，当此种误判成为一种“惯例”，势必会对学校的学术声誉产生巨大的负面影响。