李晓彤 杨红艳
(1.中国人民大学人文社会科学学术成果评价研究中心 北京 100872;2.中国人民大学书报资料中心 北京 100872)
当前,在我国众多科研评价中,普遍把“核心期刊发文数量”作为学术成果评价最主要、最简便的指标之一。只有发表在 SCI、EI、北大核心、南大核心等收录的期刊上的学术论文才被计为有效学术成果,以期刊的影响因子、被引频次、分区高低等因素作为论文学术价值、学者科研水平的评判标准;甚至扩展到职称评定、课题申请、评奖评优、学位申请、绩效考核等方面也以此作为考核主要指标;直接导致了学术期刊的评价体系也以“唯核心”“唯SCI”为方向[1]。然而,简单以“是否发表于核心期刊”来评价人文社科论文的质量是不科学的[2]。根据“布拉德福定律”,这种评价模式并不能保证准确:核心期刊刊载论文的质量并非绝对高于非核心期刊论文,必然存在一部分优质论文发表在非核心期刊上;核心期刊发文数量更多显然也并不等于学术质量或水平更高。“以刊评文”看似客观公平,实则片面武断,“一刀切”式的评判会造成学术水平认定的简单化、绝对化和形式化,是有偏于内容评价的形式评价,更有违科学研究间存在的领域、类型和性质差异性[3]。这种“以刊评文”占据主导地位的评价模式,也引发了学界对学术评价改革迫切的呼吁。早在2011年11月,中国教育部《关于进一步改进高等学校哲学社会科学研究评价的意见》明确指出:正确认识各类核心期刊在科研评价中的作用。2020年2月,科技部、教育部先后出台了《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》《关于规范高等学校SCI论文相关指标使用 树立正确评价导向的若干意见》两个文件,旨在改革现有“唯论文”“SCI至上”的绝对化、片面化的评价方式,探索建立更为科学的学术评价体系,营造良好创新环境。
目前,核心期刊评价俨然“成为学术期刊发展的指挥棒、方向标、荣誉榜”,成为全行业发展的“律令”[4]。关于核心期刊及其核心期刊评价的争议长久不衰,也引起了国内学者的广泛关注。不少学者梳理了核心期刊评价现状和问题[5-8],也有学者对核心期刊的功能及评价效用等展开了研究和探讨[9-11],还有学者对核心期刊进路以及学术期刊评价体系建设提出自己的思考和建议[12-13]。或支持或反对,从期刊管理和学术繁荣的整体效果而言,核心期刊发挥了其积极作用,但消极影响也确实存在。有学者认为“以刊评文”具有合理边界[14]。“核心期刊”有一定的合理性和科学性[15],并非一无是处。过多地否定或者全盘否定“核心期刊”,都是不科学、不理智的。我们在肯定其存在价值的前提下,探析其作用机制,发现其规律价值,并引导其更合理的发展才是当务之急。为此,有必要对核心期刊论文和非核心期刊论文的质量差异进行深入分析。以往关于核心期刊和论文质量关系的研究多限于理论分析[16-17]与案例被引指标对比[18],但期刊影响因子、被引频次等量化指标并不等同于期刊和论文的内在质量。许多学者认为,人文社科成果评价应遵循“同行评议为主,文献计量为辅”[19]。本文选取复印报刊资料全文转载学术论文的同行评议数据,着重探讨如下问题:在多大程度上,核心期刊论文质量显著高于非核心期刊论文?在不同学科和指标上,核心期刊论文质量是否始终显著高于非核心期刊论文?是否存在非核心期刊论文质量更高或两类期刊论文质量差异不显著的情况?核心和非核心期刊论文质量的差异性、不同核心期刊体系之间期刊论文质量的差异性,对于改进人文社科成果评价具有哪些启示?回答这些问题,对于完善学术评价理论,探索定性评价和定量评价相结合的评价机制,改进人文社科学术成果评价实践,促进中国人文社会科学的研究都具有重要的理论价值和现实意义。
本文选取2018-2020年度“复印报刊资料”全文转载学术论文的同行评分结果作为分析样本,分析各学科被转载的优质论文中,核心期刊刊载论文和非核心期刊刊载论文的比例和质量差异。“复印报刊资料”每年广泛收集国内公开出版的近4 000种报刊上发表的人文社科学术论文,并通过同行评议方法,从中精选出约1.2万篇优质论文转载到近100种学术系列期刊,按学科门类进行专题化编辑出版。
1.1数据样本及特征“复印报刊资料”全文转载学术论文的同行评分结果有如下特征:第一,论文质量普遍较高:“复印报刊资料”全文转载的论文是各学科编辑自每年正式发表的30余万篇论文中精选而来,基本代表了该年度中国人文社科学术论文的较高水平;第二,学科覆盖较全面:我们选择了2018-2020年度“复印报刊资料”全文转载论文共计34 009篇,基本覆盖了我国人文社会科学所有一级学科,内容涉及哲学、理论经济学、应用经济学、法学、政治学、社会学、民族学、马克思主义理论、教育学、心理学、中国语言文学、外国语言文学、地理学、体育学、新闻传播学、艺术学、历史学、工商管理、农林经济管理、公共管理和图情档等学科领域;第三,同行评议评分数据较完整:每篇论文由学科专家按照“人文社会科学论文质量评估指标体系”(详见 http://old.zlzx.ruc.edu.cn/rssi2020/pdf/2020rssi.pdf),采用“21分量表”形成了六个指标的同行评议评分[20]。这六个同行评议核心指标能够较为真实地反映学术论文质量水平,分别是指:①学术创新程度:衡量论文提供的新知识对学术发展的促进程度;②论证完备程度:衡量论文的研究规范程度和严谨程度;③社会价值:衡量论文对社会发展进步可能产生的推动作用的大小;④难易程度:衡量同类研究平均投入劳动的多少;⑤课题立项:论文来源的课题立项的级别;⑥发表载体:论文发表载体的学术影响力。其中,前四个指标是直接反映论文内容质量的定性指标,为同行评议主要指标;而课题立项和发表载体指标,为间接反映论文质量的辅助指标,也在一定程度上体现了论文形成和发表过程中同行专家的评估意见。本文立足于核心与非核心期刊即发表载体指标,从其他五个方面探讨同行评议和“以刊评文”对论文质量的影响。
为了便于对各学科、指标进行横向对比,对“复印报刊资料”提供的每篇论文每个指标的原始评分结果进行了归一,将所有指标得分的值域映射为[0,1]区间的数字:
设某一论文集合中的第i篇论文的某一指标值为Ni,归一后的值为Ui,则:
其中,Max{Ni,|i=1,2,…}是指这一指标最大的一个评分数值。
便于理解,本文将得到的[0,1]区间的评分归一值乘以100转换为百分制,以增强易读性。
根据统计和研究需要,本文将以下任一核心期刊体系认可的原发刊作为“核心期刊”对待(指论文发表时,原发期刊是否被当年正在执行的这些核心期刊体系所认定),未被其中任一体系认定为核心期刊的,则列为“非核心期刊”:①北京大学《中文核心期刊要目总览》;②南京大学CSSCI来源期刊;③中国社科院《中国人文社会科学核心期刊要览》;④“复印报刊资料”重要转载来源期刊。在确定论文所属学科时,跨学科论文只统计其所属的最主要学科,这会使统计结果存在微小偏差。此外,为了保持各核心期刊体系来源期刊种类的一致性和公平性,本文统计样本不包含报纸、图书(集刊)和内刊论文数据。
因此,在2018-2020年度被“复印报刊资料”全文转载的34 009篇论文中,剔除报纸、图书(集刊)、内刊论文和被重复转载评分较低的文章,以及样本量较小的学科如管理科学与工程、公安学、战略学等,最后留取32 384篇论文作为研究样本,覆盖人文社会科学一级学科 21 个,涉及学术专题刊95种,原发期刊1 593种,其中核心期刊888种,非核心期刊712种,有7种期刊在不同年份因当年执行的核心期刊体系版本不同,被认定为“核心期刊”的结果不同。
1.2统计分析方法在研究时,本文首先对比不同学科被“复印报刊资料”全文转载论文中,核心期刊论文和非核心期刊论文分别占的比重,并分析同行评议结果对“以刊评文”结果的验证程度;同时采用均值差异显著性检验方法,对比分析被“复印报刊资料”全文转载论文中不同学科、指标上,核心期刊论文和非核心期刊论文平均得分的差异是否显著。统计时借助软件SPSS 22.0实现计算,本文只给出双侧检验的P值。当双侧检验的P值大于0.05,均值差异不显著;当P值小于或等于0.05,均值差异显著,且P值越小,均值差异显著性程度越高。最后根据两类结果的对比,总结提出对改进中国人文社科论文评价的启示。
噢噢,好了!小六子真的没有死!他不仅没有死,这个黑不溜秋的小家伙好着呢。没事就好!小六子没有事就好!我看到小六子他人后,在心里这样默默地祈祷了一气,心里的一块石头才放下来。
2018-2020年“复印报刊资料”全文转载数据共32 384篇,涉及原发期刊1 593种,其中核心期刊888种,核心期刊论文29 060篇;非核心期刊712种,非核心期刊论文3 324篇,核心期刊平均转载量为32.7篇,非核心期刊平均转载量为4.7篇。可见,核心期刊与非核心期刊的转载力差异较为明显。
2.1各学科核心与非核心期刊论文比例分析由于论文二次转载是一项“优中选优”的活动,“复印报刊资料”在某种程度上具有学术评价功能[21],可粗略认为,被“复印报刊资料”全文转载的论文是各学科中的“优质论文”。如表1所示,参照“复印报刊资料”的学科分类[22],2018-2020年度“复印报刊资料”全文转载论文的所属学科可分为21个一级学科。
表1 2018-2020年度“复印报刊资料”全文转载的核心与非核心期刊论文比例
根据表1所示,核心期刊论文约占2018-2020年度“复印报刊资料”人文社科论文转载总量的89.74%,明显高于非核心期刊论文比例10.26%;即大部分优质论文来自于核心期刊。总体来看,各学科核心期刊论文占比可分为4个区间,第一区间(95%,100%],第二区间(90%,95%],第三区间(85%,90%],第四区间(80%,85%]。有12个学科核心期刊论文所占比例均超过该学科被转载论文总量的90%,其中,地理学、体育学核心期刊论文所占比例超过该学科被转载论文总量的95%,位于第一区间;第二区间和第三区间分别有10个和7个学科;教育学、艺术学位于第四区间,核心期刊论文占比低于该学科被转载论文总量的85%。这种情况同时也说明,不同学科期刊群的“核心区”是存在差异的。这从一定程度上反映出,人文社科期刊不仅在引用影响力上存在学科差异[23],在转载影响力方面也存在学科差异。
2.2核心与非核心期刊论文质量总体对比总体上,2018-2020年度时间窗口内,“复印报刊资料”全文转载的核心期刊论文的质量显著高于非核心期刊论文。如表2所示,P值均为0.000,表示两类论文得分均值差异十分显著。论文综合得分和各项指标数据的方差均为不齐,核心期刊论文的平均得分均显著高于非核心期刊论文。核心与非核心期刊论文的同行评议综合得分的均值差异最为显著,t值为41.114,也明显高于各项指标的均值差异的t值。
表2 2018-2020年度“复印报刊资料”全文转载的核心与非核心期刊论文均值差异检验
从五个指标分别来看,课题立项指标差异最大,核心期刊论文与非核心期刊论文均值差异的t值为19.530,其次是论证完备程度指标,均值差异的t值为16.896;难易程度指标与论证完备程度指标较为接近,均值差异的t值为16.109;社会价值指标相差最小,均值差异的t值为10.916。学术创新程度指标居于难易程度和社会价值指标之间,均值差异的t值为12.627。
2.3各学科、指标核心与非核心期刊论文质量对比
2.3.1 个别学科、指标中,非核心期刊论文质量更高 如表3所示,共有7个学科在某些指标上,非核心期刊论文质量显著高于或略高于核心期刊论文,说明并非所有学科被转载的核心期刊论文所有指标得分均高于非核心期刊论文。
表3 2018-2020年度“复印报刊资料”转载中非核心期刊论文质量较高的学科和指标
理论经济学学科被转载论文中,在社会价值指标方面,P<0.05,说明在此指标上,非核心期刊论文的质量显著高于核心期刊论文。此外,在理论经济学的学术创新程度和论证完备程度指标,地理学的难易程度、社会价值、课题立项指标,中国语言文学的课题立项指标,农林经济管理的论证完备程度指标,民族学的社会价值指标,心理学的课题立项指标和历史学的社会价值指标中,P>0.05,说明在这些学科和指标上,非核心期刊论文的质量都略高于核心期刊论文,但差异并不显著。这一检验结果也显示出理论经济学在众多学科中的特殊性。
2.3.2 多个学科、指标中,核心和非核心期刊论文质量差异不显著 在表4中,列出了均值检验值P>0.05的所有学科和指标。如表4所示,在五个指标上核心与非核心期刊论文均值差异均不显著的有地理学、民族学、心理学3个学科;在四个指标上核心与非核心期刊论文均值差异不显著的有农林经济管理和图情档2个学科;在三个指标上核心与非核心期刊论文均值差异不显著的有工商管理、理论经济学、历史学、社会学、政治学5个学科。这说明,在21个学科中,有将近半数学科的“复印报刊资料”被转载论文中,在三个以上指标上,核心期刊论文质量并未呈现显著优势。
表4 核心与非核心期刊论文质量差异不显著的学科和指标列表
以上情况再次说明,并非在所有学科被转载论文中,核心期刊论文质量均显著更高。
2.3.3 核心和非核心期刊论文的学术创新程度和社会价值指标更易显异常 表4还显示,在核心与非核心期刊论文差异不显著的15个学科中,学术创新程度指标差异不显著的有11个学科,即地理学、民族学、心理学、农林经济管理、图情档、工商管理、社会学、政治学、理论经济学、历史学、艺术学,占15个学科的25.00%,比例最大;社会价值指标差异不显著的学科有10个,即地理学、民族学、心理学、农林经济管理、图情档、工商管理、社会学、政治学、历史学、体育学,占15个学科的22.73%;论证完备程度、课题立项和难易程度三个指标差异不显著的学科数量分别占20.45%、18.18%、13.64%,比例小于学术创新程度和社会价值两个指标。
结合表3的结果,与论证完备程度、课题立项和难易程度指标相比,社会价值和学术创新程度两个指标上,更容易出现非核心期刊论文质量更高,或核心与非核心期刊论文质量差别不大的情况。
本文样本数据使用的四大核心期刊体系中,社科院、北大、复印报刊资料3家执行的核心期刊目录版本相同,而2018年转载数据中南大核心执行的是南京大学CSSCI来源期刊(2017-2018),而2019年和2020年执行的是南京大学CSSCI来源期刊(2019-2020),因此有7本期刊被认定为核心期刊的结果不同。为了保证核心期刊体系的一致性,此章节剔除《东疆学刊》《管理学刊》《宏观质量研究》《逻辑学研究》《新闻与传播评论》《信息资源管理学报》《自然科学史研究》这7本期刊的转载数据。剔除后,3年“复印报刊资料”全文转载数据共32 296篇,涉及原发期刊1 586种,平均转载数为20.4篇。其中核心期刊881种,核心期刊论文29 001篇,占3年总数的89.80%;非核心期刊705种,非核心期刊论文3 295篇,占三年总数的10.20%。本文从“复印报刊资料”转载的角度,将其他3家核心期刊体系进行对比分析。
3.1不同核心期刊体系期刊论文转载影响力分析如表5所示,从入选核心期刊体系的数量来看,同时入选3个核心期刊体系的期刊种数、论文篇数均为最多,占3年核心期刊论文总量的65.50%,平均转载数为49.2篇,转载力最高。同时入选2个核心期刊体系的期刊论文占比为16.11%,平均每本期刊转载24.8篇。只入选1个核心期刊体系的期刊论文占比为10.66%,平均转载数最低,为16.4篇。此外,同时入选2个及以上体系的期刊,平均转载数要高于所有原发期刊的平均转载数20.4篇。上述分析可以看出,南大、北大、社科院这3家核心期刊体系对期刊的评价结果耦合度较高,同时被三大核心期刊体系收录的这些期刊,转载影响力占有绝对优势,综合实力毋庸置疑。
表5 不同核心期刊体系期刊论文转载耦合情况
如表6所示,从3家核心期刊体系分别来看,从转载论文总量上,社科院<南大<北大;从3年平均转载数上,社科院>南大>北大。因三家核心期刊体系的遴选规则、指标设置、计算方式等方面的不同,最终遴选出人文社科类核心期刊目录的数量本就有差异,社科院<南大<北大,转载情况与各体系遴选出的期刊数量排序是一致的。而从3年平均转载数量上看,三家核心期刊相差不大,而且都比所有原发期刊的平均转载数20.4篇多16篇以上,可以看出这些核心期刊的转载影响力远高于非核心期刊。
表6 不同核心期刊体系期刊论文转载情况对比
3.2不同核心期刊体系期刊论文学科分布对比由表7可以看出,3家核心期刊体系在不同学科上的转载分布差异。社科院核心转载比例最高的3个学科是历史学、哲学、图情档,比例最低的3个学科是新闻传播学、教育学、地理学;南大核心转载比例最高的3个学科是地理学、农林经济管理、历史学,最低的3个学科是公共管理、艺术学、教育学;北大核心转载比例最高的3个学科是体育学、地理学、图情档,比例最低的3个学科是公共管理、马克思主义理论、艺术学;可见,不同核心期刊体系期刊在各学科上的“核心区”也是存在差异的。
表7 不同核心期刊体系期刊转载论文学科分布情况
其中,历史学同时在社科院、南大2个核心期刊体系中占比均较高,而艺术学同时在南大、北大2个核心期刊体系中占比均较低,也说明了三大核心期刊体系在某些方面有较高的一致性。
3.3不同核心期刊体系期刊论文质量多重对比将三大核心期刊体系期刊论文的同行评议得分数据分为3组,用SPSS软件进行单因素方差分析(ANOVA)。根据ANOVA表的描述,统计量F=14.932,P=0.000<0.05,说明3组核心期刊体系期刊论文得分差异显著。我们有必要对3组体系之间进行两两多重比较,了解具体是哪组和哪组之间的差异显著。在检验中,分组“1”代表南大核心,分组“2”代表社科院核心,分组“3”代表北大核心。
如表8所示,根据SPSS描述性统计分析结果,3种体系期刊论文同行评议平均得分的排序为:南大核心>社科院核心>北大核心。
表8 三家核心期刊体系论文平均得分对比
3种核心期刊体系多重比较结果如表9所示,几种体系分别比较来看,分组1与分组3相比,P=0.000<0.05;分组2与分组3相比,P=0.000<0.05,说明南大核心与社科院核心期刊论文均值显著高于北大核心。分组1与分组2相比, P=0.977>0.05,说明南大核心与社科院核心两组体系期刊论文得分均值差异不显著。
表9 三种核心期刊体系论文质量多重比较结果
综上所述,本文得出如下结论:a.“复印报刊资料”全文转载的样本论文中,核心与非核心期刊论文的比例约为90∶10,虽略高于“布拉德福定律”规律的核心期刊平均比例(20%),但也符合复印报刊资料“优中选优”的选文宗旨。b.在样本论文中,在样本优秀论文质量差异较小的情况下,“复印报刊资料”转载的核心期刊论文的质量普遍高于非核心期刊论文,与常规认知基本一致。c.在理论经济学社会价值指标上非核心期刊论文质量显著高于核心期刊论文质量,在地理学、民族学、心理学等学科的某些指标上,核心与非核心期刊论文质量差异并不显著。d.相对于其他指标,在学术创新程度和社会价值两个指标上,更容易出现非核心期刊论文质量更高或两类论文差异不显著的情况。e.文中选取的3家核心期刊体系对期刊的评价耦合度较高,同时被3大核心期刊体系收录的期刊转载影响力远高于非核心期刊。f.不同核心期刊体系期刊在各学科上的“核心区”是存在差异的。g.在3大核心体系期刊论文质量均较高的情况下,不同体系之间的论文均值差异也有显著与不显著之分,总的来看,南大核心>社科院核心>北大核心。以上结论也对之前学者陈益君等提出的“核心期刊之间的论文质量存在差异;核心期刊与非核心期刊之间的论文质量并非存在绝对差异;同一核心期刊上论文质量存在差异”[16]等核心期刊自身局限性的理论观点,从评价数据上给予了佐证。
学术成果评价是一项非常复杂的工作,用任何单一的评价指标难以达到科学、全面、客观、公正的评价目的。如果仅用“核心期刊”来评价学术论文质量,势必会出现评价结果偏差。基于以上结论,我们认为,“核心期刊”应适用有度,在人文社科论文评价中,仍应有效加强同行评议和文献计量结果相互印证和结合的复合评价机制,尤其不能单一地使用“以刊评文”,因为这种做法会使至少10%左右的优秀论文被忽视,成为“沧海遗珠”;长此以往,会导致“马太效应”,限制非核心期刊的发展。虽然核心与非核心期刊的质量水平存在差异,但一方面我国学术期刊总量与发达国家相比并不多,仅凭少数核心期刊无法满足人文社会科学迅速发展的需求,须有效地引导、规范和扶持非核心期刊的发展,有效发挥其长尾效应,形成不同层级、类型期刊的协调评价和发展机制。另一方面,还应重视“核心期刊”效应在不同学科和指标方面的差异,特别是在个别学科、指标上的非核心期刊的逆袭,要充分关注并深入研究其特殊性及产生原因,进一步完善人文社科成果的分类评价机制,并更科学、适度地运用“核心期刊”这一评价工具。
此外,我们还看到不同核心期刊体系之间的论文质量也是存在差异的。在看重几家核心期刊遴选结果的同时,也应关注《新华文摘》《高等学校文科学术文摘》、人大复印报刊资料等二次文献转载影响力。多家核心期刊评价体系、多种期刊评价指标的同时存在,可在一定程度上削弱对核心期刊群与同一本学术期刊评价结果不一致的“视差”,有助于中国学术期刊高质量、多层次发展。因此,在期刊评价体系构建过程中,各专业评价研究机构之间应求同存异,在保持各家特色的同时,注意评价工作协同与评价数据共享,以增强学术评价权威性与公信力,推动我国哲学社会科学繁荣发展,构建彰显中国特色、体现世界水平的哲学社会科学学术评价体系。
“核心期刊”应适当使用,已为学界共识。本文旨在利用“复印报刊资料”的转载论文同行评议数据,为此观点提供新的论证方法和新的支撑数据。本文只选取了近3年“复印报刊资料”全文转载的质量较高、差距较小的论文作为分析样本,并且某些学科论文样本量较小,在一定程度上影响了均值差异显著性检验的结果。若能增加样本数量和时间窗口跨度,所得的结论会更加明显。转载论文只是反映人文社科期刊以及各学科发展状态的部分情况,希望通过这一视角揭示的规律与结论,对人文社会科学的相关工作有所启发。本文限于篇幅只选取了部分角度进行分析阐述,未来仍需通过更多视角和论据,比如纳入其他更多人文社科期刊评价体系、研究不同核心期刊体系具体在各个指标上的差异等,对本文的主题进行后续研究以及进一步验证和探讨。