张会芳 魏东 郑国清 齐红志
河南省农业科学院农业经济与信息研究所 郑州 450002
目前,国内期刊评价机构及评价体系呈蓬勃发展趋势,其中定量评价最为盛行。有影响的评价机构如中文核心期刊要目总览(GCJC)、中国学术期刊评价研究报告(RCCSE)、中国科技论文与引文数据库(CSTPCD)、中国科学引文数据库(CSCD)、中国引文数据库(中国知网CNKI)、中文社会科学引文索引数据库(CSSCI)、中国人文社会科学引文数据库(CHSSCD)、中国科学指标数据库(CSI)等[1],均将论文被引频次作为评价体系中的重要的直接指标,赋予其较高的权重,而评价体系中其他指标如影响因子等也与论文被引频次有极大关系。期刊论文被引频次在一定程度上反映了该刊被使用和受重视的程度,并彰显其在学科交流中的作用及地位,通常被看作期刊质量及影响力的重要标志。
论文被引频次影响因素中,论文长度被认为与论文被引频次有关[2-10]。尤其是在受诸多因素影响,较多期刊载文量不断下降、论文长度不断增长[6,11-16]的大环境下,论文长度与被引频次间一直被倾向性认为呈等关系。然而,论文长度与被引频次间关系的研究较多,研究成果丰富,但研究结果却是众说纷纭,有的观点甚至截然相反,可归纳总结如下:一是根据论文长度与被引频次间有无关系,将研究结果分为两大类,论文长度与被引频次相关[2-8,9-10,17-18]、论文长度与被引频次不相关[15,19-20]。二是根据变量的变动方向,将论文长度与被引频次间的相关进一步分为正相关[2-4,9-10]和负相关[17-18]。认为二者相关的研究中,一是根据相关性强弱,将论文长度与被引频次间的相关又分为显著相关[3,5]和微弱关联[8,20]。二是根据相关关系的复杂性,被引频次在不同类型期刊间、不同页数(长度)间[5]呈现不同特征或不同页数文章篇均被引频次基本呈正态分布[6]。已有关于其他类型期刊[10,15]版面与被引间的关系分析,也有综合性农业科学类期刊零被引论文分析[2],但未见综合性农业科学类期刊论文版面与被引间关系的研究。
期刊的重要功能之一是传播,搭建产研学桥梁,因此,期刊传播力是期刊综合实力的体现,也是期刊评价的重要考量指标。期刊的传播过去主要依靠纸媒和数据库的被动检索。近些年来,在媒体融合发展、期刊评价盛行及多部门印发《关于推动学术期刊繁荣发展的意见》关注“提升国际传播能力”背景下,依托知网、维普等数据库利用大数据技术推出的期刊推广、精准传播服务应运而生,无疑,这会提高期刊论文的下载量。因而,期刊的下载量与被引量间的关系需要有数据支撑。
鉴于此,基于综合性农业科学类期刊数据,根据数据呈现特征采用具有一定耐受力,即结果稳健的统计方法进行研究,从多个层次(表象研究、差异性分析、本质探索)及角度对数据进行由浅入深、层层递进的分析,对论文版面、下载频次、被引频次间的关系追根溯源,为编辑部及相关人员认识论文版面与被引频次间、下载频次与被引频次间等的关系,从而更有效地从本质上提升期刊的生命力和影响力提供参考。
《中国农业科学》是综合性、学术性期刊,在综合性农业科学类期刊中具有较大的影响力,同时该刊为半月刊,有较大的样本量。另外,其2010—2019年,每年载文量依次为629、596、574、570、486、491、449、444、423、401条,每期页码大多在210左右,因此其文章版面表现为逐年上升趋势。鉴于此,本研究以《中国农业科学》刊发文章为研究对象,进行综合性农业科学类期刊论文版面与被引频次间关系的研究。
理想引文时间窗口为5年[4],数据检索日期为2021年1月7日。因此,选取数据检索年往前推5年中国知网CNKI数据库中《中国农业科学》发表日期为2015年的论文(不包括增刊)作为研究对象。被引频次为文献检索时中国知网CNKI展示的数据。
本研究从3个层次及不同角度对数据进行由浅入深、层层递进的分析(图1)。
图1 论文长度与被引频次关系之追根溯源框架
(1)表象分析:进行K–S检验、描述性研究,展现数据的分布和特征值,并将统计学指标用图表示之。
(2)差异性分析:进行差异性比较,基于专业及数据特征对论文长度分组,以独立样本非参数检验对其属性和特征进行比较。
(3)本质探索:从多个角度出发建模,探索论文页数、被引频次间关系。关系性分析也是统计里面最复杂的一种分析方法,本研究以模型对其进行探索,根据数据间呈现的关系特征及趋势逐步确定是否进行线性回归、曲线拟合及分段回归。最终目的,若二者间存在较强的回归关系,则逐步建立基于专业判断的较优的被引频次回归预测模型。
3.1.1 论文长度、被引频次参数估计
本研究中,论文页数均取整数,不足1页的按1页计入。数据获取后,对比中国知网CNKI高级检索页及期刊导航页《中国农业科学》可检索的文献,采取人工清洗及补录的方式,剔除简讯、通知等非学术性文献,补录遗漏的数据,最终获得不包含增刊(No.S1)的2015年1—24期刊载的学术论文480条。
本研究中,论文页数和被引频次非标准正态分布(P=0.000)(表1),与有研究者认为的呈正态分布[6]的结论不一致。为展示尽可能全面的数据属性和特征,同时给出了反映标准正态分布、非标准正态分布的集中趋势及离散趋势参数。480篇论文中,页数均值为10.62,中位数为10,最小为2,最大为32;被引频次均值为22.97,中位数为15,最小为0,最大为267。其中,8~11页的论文居多,占68.6%。
表1 变量初级分析之描述统计
3.1.2 不同长度论文被引频次差异分析
为了解不同长度论文被引频次是否存在差异,对其进行差异性分析。
首先,基于专业视角,将论文分为两组:长论文和短论文。页数8及以下的论文73篇,分为一组(短论文);页数8以上的论文407篇,分为一组(长论文)。2个独立样本非参数检验结果表明,短论文、长论文被引频次存在差异,且差异极显著(Z=-4.078,P=0.000)。
其次,采用较常用的根据中位数的方法进行分组。本研究中论文长度中位数为10,将10页及以下的论文分为一组(短论文),共有276篇;10页以上的论文分为一组(长论文),共有204篇。2个独立样本非参数检验结果表明,短论文、长论文被引频次存在差异,且差异极显著(Z=-5.319,P=0.000)。
另外,鉴于本研究中论文页数跨度比较大,结合专业需求,并考虑样本量大致相等,将论文按页数分为长、中长、短3组。将9页及以下的论文分为一组(短论文),共有164篇,平均被引频次为17.30次;10~11页的论文分为一组(中长论文),共有190篇,平均被引频次为23.26次;12页及以上的论文分为一组(长论文),共有126篇,平均被引频次为29.93次。k个独立样本非参数检验结果表明,不同长度论文被引频次存在差异,且差异极显著(χ2=–5.319,P=0.000)。进一步对其进行两两比较,发现短论文、中长论文、长论文两两之间均存在差异,且差异极显著。
综上,不论如何将论文按长度分组,不同长度论文间被引频次均存在差异。
3.1.3 论文长度与被引频次间关系特征
以散点图考察论文长度、被引频次间的相关关系及变化趋势。本研究中页码只能取整数,被引频次也并非无限任意取值,易造成散点图中大量散点重叠显示,导致不同部分散点疏密不易分清。为不影响对散点图的趋势观察,采用散点合并的方式显示,散点块越大,代表该区域散点数量越多(图2)。论文长度、被引频次间的散点图(图2和图3)展现如下数据特征:
(1)被引频次在不同页码(版面)上离散程度有一定差别,在样本量较大的中间数据,离散程度较大,样本量较小的两端,离散程度较小(图2)。离散程度与样本量有关,与页码本身无太大关联。
图2 不同长度论文被引频次散点图
(2)不同页码论文的平均被引频次整体呈“M”型(图3):0~10页,随着页码增加,平均被引频次呈缓慢上升趋势;10~20页,随着页码增加,平均被引频次先是快速增加,随后又快速下降;20页之后,被引频次波动较大,快速上升,之后快速下降。
(3)Loess拟合线(拟合50%的点)与线性拟合线有一定差距(图3)。尤其版面在20页以上的论文,被引数据Loess拟合线与线性拟合线差距随页码增加逐渐变大。表明论文长度与被引频次间如果确实存在关联,也较大概率不是简单的线性关系。
图3 不同长度论文平均被引频次内插线散点图
综上,不同页码平均被引频次散点图展现了不同页码波段论文平均被引频次分布规律:数据出现明显的拐点,论文长度与平均被引频次间关联度随自变量(论文页数)变化其强弱也发生相应变化。
跟直方图一样,箱图可以描述连续变量的分布情况,但直方图更注重对分布情况进行详细考察,箱图侧重于基于百分位数勾勒具有统计意义的信息。不同长度论文被引频次箱图(图4)展现了如下信息:
图4 不同长度论文被引频次箱图
(1)论文被引频次存在较大随机性。除样本量较少的页码外,其他页码论文被引频次均存在异常值。异常值较多为离群值,部分为极端值。对原始数据进行核对,发现数据真实性不存在问题。以上表明不同页码论文被引频次有较大随机性,意即页码增加,被引频次未必增加。
(2)页码本身对异常值个数多少影响不大。异常值较多集中在页码为8~13时,此波段页码文章数量(样本量)也较多,尤其集中在数量(样本量)更多的9~11页文章上。以上表明不同页码论文数量(样本量)对异常值个数有较大影响,页码本身对异常值个数多少影响不大。
(3)不同页码论文被引频次差异较大,且被引频次中位数较小。箱体高度表明,不同页码论文被引频次离散程度相差较大。离散程度受论文数量(样本量)影响较大,与论文长度(页数)无太大关联。
对论文长度、下载频次、被引频次三者间进行皮尔逊(Pearson)相关性分析,其结果表明,论文长度与被引频次间的相关系数为0.210(P=0.000),论文长度与下载频次间的相关系数为0.256(P=0.000),被引频次与下载频次间的相关系数为0.766(P=0.000),亦即论文长度与被引频次、论文长度与下载频次间的相关性较低,但被引频次与下载频次间极显著正相关。上述结果表明,论文长度增加,下载频次、被引频次不一定增加,但下载频次增加,被引频次会相应增加。
3.3.1 论文长度与被引频次线性回归分析及曲线拟合
不同长度论文被引频次存在显著差异,对其进行回归分析。论文页数、被引频次均不符合正态分布,采用将非正态数据转换为正态数据的常用方法(对数变换)对其进行转换。双对数模型参数是线性的,但对变量的要求较宽松。将被引频次作为因变量(y),将论文页数作为自变量(x)进行双对数回归。极少量论文被引频次为0,采用常用处理手法将被引频次统一加1[10],得到回归模型如下:
双对数回归结果表明,建立了有意义的回归模型,但R2只有0.062,解释度很低。因而进一步引入页码的二次项继续回归,得到回归模型如下:
引入页码的二次项后,R2有所上升,但与1相差很远,且1次项、2次项均未通过统计检验,表明仅用论文页数不能很好地对论文被引频次进行预测。
论文页数、被引频次的双对数回归拟合优度低,散点图展现的特征亦表明,论文页数、被引频次间关系不甚明朗。为更全面对数据进行拟合,将所有可能反映该数据趋势的曲线模型,包括三次方曲线等模型,均考虑在内进行拟合。这样做会增加后期模型选择难度,但对于将整体不明情况下数据的拟合及比较不同模型拟合优度,并最终选择有统计意义、解释度高的较优模型有利。拟合后,所有模型中R2最大的也仅为0.081,表明拟合优度很低,论文页数所能解释的方差在总方差中所占的百分比很低。综上,论文被引频次不能被很好地仅以论文页数来预测。
3.3.2 论文长度与平均被引频次的分段回归
被引频数中存在强影响点(图4),若算法限制迁就这些强影响点数据,可能会导致模型参数估计值与总体有较大偏差。回归拟合通常采用的方法是去掉异常值建立线性回归模型,但本研究中被引离群点数据客观真实存在,强制去掉会使这些数据丧失研究意义。双对数回归及曲线拟合也表明,论文页数与被引频次间不存在简单的线性关系,且拟合优度很低,并且变量间的非线性关系不容易用一个统一的函数对整体进行定义。分段线性回归是当因变量对自变量的回归在自变量的某一范围服从某种线性关系,在其他范围又服从斜率不同的线性关系时适用的一种回归估计方法。对于本研究而言,基于散点图(图3)论文平均被引频次分布特征进行分段回归,将有助于更全面地呈现不同论文长度与被引频次间的关系。以散点图(图3)中的拐点作为划分依据,分段回归逻辑表达式如下:
回归参数检验的F值45.377>F(8,472),P<0.05,表明建立了有意义的论文页数与平均被引频次的回归模型。但此处为非线性回归,F值和P值仅有参考意义。但R2为0.054,解释度低。综上,即使按照样论文平均被引频次走势特征进行了分段回归,回归模型决定系数仍然很低,再次证实不能用论文页数预测被引频次。
从3个层次(表象研究、差异性分析、本质探索)及不同角度由浅入深、层层递进对论文版面、下载与被引频次间关系进行探索,综合各阶段数据分析呈现的结果,可以得出以下结论及启示。
(1)论文长度不同,被引频次存在显著差异。为分析不同长度论文被引频次是否有差异,本研究共尝试3种方法分组:基于专业需求分类法、基于常用的中位数分类法、基于专业及考虑样本量大致相等的分类法,将论文按长度分为2组(短论文、长论文)或3组(短论文、中长论文、长论文)。然而不论是哪种分组方法,其差异性分析结果均表明,不同长度论文被引频次不同,且差异显著。本研究数据来自综合性农业科学类期刊,因此对该类期刊更具参考价值,其他类型期刊论文长度与被引频次的关系需基于相应期刊数据深入研究。
(2)论文长度与被引频次间的关系随论文长度的变化而变化。不同页码论文的平均被引频次整体呈“M”型:0~10页,随着页码增加,平均被引频次呈缓慢上升趋势;10~20页,随着页码增加,平均被引频次先是快速增加,随后又快速下降;20页之后,被引频次波动较大,快速上升,之后快速下降。对某一特定论文而言,被引频次存在较大随机性。不同页码论文被引频次存在较多的离群值和极端值,即对单个样本(论文)来讲,其被引频次存在较大随机性,散点图展现的数据特征及论文长度与被引频次间的相关性分析结果亦支持该观点。
期刊论文版面近些年不断增长,一个原因是科研水平提高了,作者更注重研究的系统性,因此单篇论文信息容量更大,导致长度增加。另外,有些期刊编辑认为长论文被引频次会更高,为提高影响因子,减小影响因子计算公式的分母(载文量),录稿时有意选择版面较多的论文,或者引导作者增加论版面。但论文被引频次受较多因素影响,除论文的信息容量,还有论文的学术质量、出版时效、跨学科性、作者学术能力、引文质量及被引频次、合作情况,以及作者所在机构等影响。仅仅为了论文长度而人为增加文章版面不可取。论文学术质量是期刊的生命之源,期刊应注重提高出版时效,引导作者关注论文的创新性等学术质量,增加必要的信息容量,从本质上长久提升期刊的生命力和影响力。本研究以综合性农业科学类期刊为材料进行研究,优点是可以规避因期刊类别不同、排版样式不同而导致的页码差,使结果稳健,结论亦对该类期刊有参考意义;但同时也有局限性,该结论是否适用于其他类型期刊,有待进一步研究。下一步将探索学科对上述关系的影响,综合探讨被引频次的影响因素,尝试构建解释度更高的被引频次预测模型。
(3)被引频次不能仅以论文长度进行预测,二者非简单的因果关系。论文被引频次并不能被很好地仅以论文页数来预测。本研究每个分析阶段统计方法均是基于上阶段数据展现的特征研判数据可能的分布规律,多角度尝试构建有统计意义、且拟合优度高的较优模型。但不变弹性模型(双对数回归)、曲线拟合及分段回归结果表明,构建了有意义的模型,但拟合优度很低,因此不能仅用论文页数很好的预测被引频次。论文页数对被引频次有较大影响,但不是主要的影响因素。论文长度不同,被引频次不同,不是论文长度本身导致的,应是较长论文包含更全面的研究信息等多因素综合所致,二者间不是简单的因果关系。
(4)论文下载频次与被引频次相关性高。被引频次与下载频次间显著正相关,且相关系数达0.766,表明下载频次高的论文被引频次较大概率也较高。因此,增加论文的下载频次,可相应地提高其被引频次。如何提高论文的下载频次,便是编辑部提升期刊的传播力、影响力要重点思考的问题了。知网推广近两年推出了学术期刊推广服务,重庆非晓数据科技有限公司2020年推出了学术期刊精准传播服务。在期刊评价蓬勃发展之际,部分期刊编辑部设想通过该服务增加在相应数据库的曝光度,以提高期刊论文下载频次、被引频次等。本研究中,下载频次高的论文被引频次一般也较高。影响下载频次的因素很多,增加论文的曝光度确实是影响下载频次的措施之一,但下载频次更多受论文学术水平的影响,如题目的新颖性、作者的知名度和科研能力、期刊的影响力、是否有关当前研究热点等。如经费允许,编辑部可尝试将商业数据库提供的推广及精准传播服务作为推动期刊发展的助力之一,比如借助精准传播通过大数据了解所办期刊的核心作者、潜在作者,优化期刊选题等。但期刊稳定、向好发展,编辑部更多要注重自身改革,如可通过引导作者高效投稿、压缩论文出版时滞、优化审稿及退修流程,吸引优质稿源;也可通过加强微信、微博、网站及其他第三方平台等精准、高频、高效进行论文的推送,加强期刊的宣传和推广。