■汪林梓 章博昕 陈 铭
南京大学信息管理学院,江苏省南京市栖霞区仙林大道163号 210046
开放获取(Open Access,OA)是一种为促进学术信息资源共享、推动学术交流而提出的学术期刊出版模式[1]。OA期刊作为OA的主要产物,向公众读者免费开放已发表的文章,促进了学术成果更为高效、便捷的传播。OA期刊出版商需要向作者收取相应的文章出版费用以保持运营与盈利,然而在此过程中有些不良出版商利用了这一模式,大批量地、不加审核地出版付费文献,以实现利润收入最大化。美国科罗拉多大学的图书馆员Beall[2]将利用OA模式进行伪造与虚假承诺,不负责任地收取作者的文章出版费用以获利的期刊,称为掠夺性期刊,掠夺性期刊随即受到广泛关注与讨论。
掠夺性期刊利用OA的特征,掩盖其欺骗伪造的本质,谋取私利,对OA运动产生一定干扰与破坏[3]。近年来,掠夺性期刊数量呈现快速增长趋势,严重危害学术生态。Nature在2022年3月发表的数据表明,掠夺性期刊的数量已超过15500种并且快速增长[4]。然而,目前学术界对掠夺性期刊的识别研究还比较薄弱。现有识别掠夺性期刊的方法主要依赖列表式方法,如Beall创建的“Potential,Possible,or Probable Predatory Scholarly Open-Access Publishers”清单及Kscien掠夺性名单委员会建立的“Kscien′s List”[5]。这类列表存在明显局限性:一是生成和更新困难,新出现的掠夺性期刊难以被及时收录;二是难以覆盖所有掠夺性期刊,存在一定漏判率。因此随着掠夺性期刊出版的文章数量逐年增多,如何识别、判断掠夺性期刊成为迫切需要关注的问题。近年来,Altmetrics指标作为衡量学术影响力的新型指标受到广泛关注,也为期刊评价提供了新的视角。本研究拟利用Altmetrics指标判断掠夺性期刊,以期建立更为有效的识别方法。
鉴于掠夺性期刊在全球范围带来的巨大影响与危害,学者们从不同维度研究了掠夺性期刊不同于其他期刊的特征。2022年国际科学院组织(InterAcademy Partnership,IAP)发布的《打击掠夺性期刊和会议》(Combatting Predatory Academic Journals and Conferences)[6]利用了图谱方法,对各类期刊特征进行了具体区分,其中掠夺性期刊的典型特征包括不存在同行评议或存在不正确的同行评议、模仿其他期刊或网站、无编委或假编委、替代或虚假影响因子等。Shamseer等[7]曾指出,英文掠夺性科技期刊具有13个特征,包括网站拼写和语法错误、承诺快速发表、没有撤回政策等。Frandsen[8]发现在掠夺性期刊中发文多的作者在Scopus数据库中的平均发文量(以及中位数)更高,二者呈现出一定的正相关关系。根据多维度的研究,发现掠夺性期刊在费用、宣传、审理及政策等方面都存在一定的问题,这也成为了掠夺性期刊较为明显的特征。
随着掠夺性期刊特征不断地被发现与总结,近年来研究人员对掠夺性期刊的识别指标与方法也相应地提出了许多观点。针对掠夺性期刊的高昂出版费用,Xia[9]通过研究掠夺性期刊的收费情况,发现文章处理费(Article Processing Charges,APC)不能成为区分期刊是否为掠夺性期刊的唯一标准。而王凌峰等[10]通过提出评价学术期刊出版费用合理水平的JPI 指数,从版面费角度为精确界定掠夺性期刊提供了简便有效的客观方法。Ruiter-Lopez等[11]从期刊编委会角度出发,使用定量的方法检查了掠夺性期刊的编委会情况,发现其中大部分编委为高水平学者,发文量中位数为43篇,被引频次为664次,H指数为14,这说明通过检查编委会情况难以识别掠夺性期刊。对于期刊网站与用词,Chen等[12]使用机器学习方法从主流掠夺性期刊网站和普通期刊网站中提取出网站文本内容、关键词等特征,提出了一种基于新模型的掠夺性期刊分类系统。其后,Chen等[13]又发现通过差异评分衡量期刊之间特定词频的差异,提高词袋模型和TF-IDF算法的分类效率,可以帮助识别掠夺性期刊特征词。不过期刊网站和使用词汇也可以进行调整与修饰,掠夺性期刊与低质量期刊之间的界限仍然比较模糊。Yeo-Teh等[14]认为区分掠夺性期刊的最重要标准是同行评议的严格性,而且作者的动机或意图也至关重要。孔晔晗等[15]从学术出版合法性、商业欺诈行为、学术不端行为等6个维度进行对比分析,设置了18个二级指标,对识别到的“预警期刊”进行等级划分。从动机、相关行为因素角度进行分析得出了更深层次的结论,但考虑到一些主观因素较难搜集与判断,识别结果的准确性可能会受到影响。因此,许多学者从引文角度对掠夺性期刊进行分析。Frandsen[16]追踪了2013—2016年Scopus中124种掠夺性期刊的引用情况,发现这些期刊被引用了1295次,刊均被引约10.5次,并认为非掠夺性期刊文献较少引用掠夺性期刊文献。Björk等[17]从Google Scholar中随机选择了250篇在掠夺性期刊上发表的文章,研究了这些文章5年内的被引数据,发现每篇文章平均被引用2.6次,其中56%的文章根本没有被引用。
虽然传统引文指标经常被用于衡量学术成果的影响力,但其存在着时间滞后、负面引用及自引等问题,并不能全面反映学术成果的影响力[18]。随着在线社交媒体平台的不断发展,科研交流日益网络化,学术活动逐渐开放化,越来越多的科研人员开始使用在线学术平台以及社交媒体平台等获取、传播学术资源,并开展学术交流。2010年Priem[19]在Twitter上首先提出Altmetrics这一概念,用来评估学术论文在社交网络上的影响力,通过追踪学术论文等学术成果在网络中的传播交流过程来测度其社会影响力。
Altmetrics指标作为新兴的研究影响力指标,自提出便受到广大学者的关注与研究。现有文献显示,关于Altmetrics指标的应用研究多集中在论文或期刊影响力综合评价方面。在论文方面,王艳波等[20]提出将衡量社会影响力的Altmetrics指标和衡量学术影响力的传统引文指标相结合,构造出更综合、全面的评价学术论文影响力的指标体系。在期刊维度,王凯利等[21]融合引文分析和Altmetrics方法,构建了期刊影响力评价体系,并运用于国际图书情报领域期刊影响力分析;俞征鹿等[22]基于Altmetrics提及次数指标,对中国英文科技期刊社会影响力进行统计分析。上述研究表明,Altmetrics指标对论文或者期刊的影响力综合评估的有效性已得到初步验证。
尽管使用Altmetrics指标来识别掠夺性期刊的研究较少,但初步研究表明Altmetrics指标具有应用潜力。笔者曾分析图书情报领域掠夺性期刊与非掠夺性期刊在Altmetrics指标上的表现,发现在图书情报领域,掠夺性期刊的Altmetrics存在率比非掠夺性期刊低很多[23]。但因掠夺性期刊数据量的限制,未能明确得出利用Altmetrics指标可以有效识别掠夺性期刊的结论,其效用还有待大样本系统研究验证。基于上述情况,本文在已有研究的基础上,选取掠夺性期刊分布广泛的生物医学领域开展研究,在传统基于引文指标识别掠夺性期刊的基础上引入Altmetrics指标,采用Logit回归模型构建掠夺性期刊的判别模型,为掠夺性期刊识别提供新的指标和方法。
基于前文对掠夺性期刊和Altmetrics指标及被引指标的文献综述和分析,构建以下两个假设,并拟利用Logit回归模型,以期刊的被引指标和Altmetrics指标值为自变量、期刊掠夺性为因变量,验证两个假设。
假设1:被引指标与期刊掠夺性具有负相关关系,即被引指标越高,期刊被判定为掠夺性期刊的概率越小。
假设2:Altmetrics指标与期刊掠夺性具有负相关关系,即Altmetrics指标越高,期刊被判定为掠夺性期刊的概率越小。
Logit回归模型,也被称为“评定模型”或“分类评定模型”,是一种离散选择法模型,用于预测事件发生的概率,主要分为二元Logit回归模型和多元Logit回归模型两类。二元 Logit 回归模型的因变量为二分类,常定义事件发生为“1”,未发生为“0”。多元Logit回归模型适用于有多个因变量的情况。Logit回归模型广泛应用于社会学、生物统计学、计量经济学等领域。在图情领域中,任海芝等[24]使用多元Logit回归模型对图书出版企业官方微信公众号传播力的影响因素进行了实证分析。研究主要探讨掠夺性期刊的识别问题,而二元Logit回归模型能够很好地刻画“掠夺性期刊”及“非掠夺性期刊”。由于假设被引指标和Altmetrics指标与期刊掠夺性存在负相关关系,选择使用二元Logit回归模型进行期刊类型识别分析。
Logit回归模型由传统线性回归模型衍生而来,在多元线性回归模型中因变量的取值范围是(-∞,+∞),而事件发生概率范围为[0,1]。因此,需要对线性回归模型进行Logit变换。首先,引入发生比(Odds),Odds表示事件发生概率和事件不发生概率的比值,Odds的计算方法为
(1)
式中:ROdds表示Odds值;P表示事件发生的概率。此时Odds的取值范围是[0,+∞)。
对Odds取自然对数,就可以将P从[0,1]映射为(-∞,+∞),从而可以进行多元线性回归建模,这个过程称为Logit变化,表达式为
(2)
式中:xj为自变量;αj为自变量的系数;α0为截距项;ε为误差项。
2.3.1 因变量定义及数据来源
采用期刊类型二分类离散变量作为因变量,并定义掠夺性期刊=1,非掠夺性期刊=0。Shen等[25]发现,掠夺性期刊的文章数量逐年迅速增加,从2010年的53000多篇上升至 2014 年的420000多篇,活跃掠夺性期刊约有8000种,这些掠夺性期刊绝大多数来自生物医学领域。因此,从生物医学领域随机抽取掠夺性期刊和非掠夺性期刊各100种作为研究样本。掠夺性期刊数据来源于“Kscien′s List”,非掠夺性期刊数据来源于DOAJ(Directory of Open Access Journals)。DOAJ是由瑞典隆德大学图书馆创建和维护的收录经同行评议OA期刊的目录网站,具有严格的期刊收录标准和期刊评估流程[26]。由于“Kscien′s List”与DOAJ均收录OA期刊,抽取的两类期刊样本具有可比性。
2.3.2 自变量定义及数据来源
被引频次在一定程度上反映了文章或者期刊的学术影响力,是论文质量和价值的重要评价指标,也是计算期刊影响因子的核心指标。为消除期刊文章数量差异对被引频次的影响,使用期刊平均被引频次来衡量被引情况,并用变量x1表示。通过爬取期刊网站收集到2012—2022年期刊所发表的文章数量,并使用Web of Science查询期间的期刊被引频次。具体计算公式为
x1=C/N
(3)
式中:N为期刊发表的文章数量;C为期刊文章的被引频次。
Altmetrics指标作为衡量学术成果的社会影响力的新指标,拓展了基于引文的传统影响力评估,能更加全面地反映学术成果在数字网络中的影响。自Altmetrics概念提出后,多种测量工具涌现,如Altmetric.com、PlumX和Crossref Event Data等。其中Altmetric.com信息源广泛,已涵盖全球5000多家主流媒体和1.5万个学术及非学术博客[27],且向研究人员提供免费使用的机会,因此近年来大多数Altmetrics相关研究采用了Altmetric.com工具[28]。通过Altmetric.com的Altmetric Explorer工具,使用期刊ISSN作为检索条件,获取2012—2022年期刊的Altmetrics指标数据。为消除期刊规模差异影响,定义Altmetrics存在率指标,并用变量x2表示,具体计算公式为
x2=NA/N
(4)
式中:NA为有Altmetrics得分的文章数量。
从收集的200种掠夺性期刊及非掠夺性期刊的Altmetrics存在率和平均被引频次的描述性统计表(表1)可以观察到,掠夺性期刊的Altmetrics存在率平均值仅为0.0088:在100种掠夺性期刊中,有81种的Altmetrics存在率都为0,即81%的掠夺性期刊的文章没有Altmetrics得分,这表明了掠夺性期刊文章较少受到社交媒体的关注与讨论。这些掠夺性期刊的平均被引频次均值为0.7210,即平均每篇文章被引用约0.7210次。
表1 掠夺性期刊及非掠夺性期刊数据描述性统计分析
相比掠夺性期刊,非掠夺性期刊的Altmetrics存在率平均值为0.3357,远大于掠夺性期刊的0.0088,这表明了非掠夺性期刊在社交网络上的影响力远大于掠夺性期刊。对于非掠夺性期刊,仅有23种期刊的Altmetrics存在率为0,并且最高Altmetrics存在率达到0.9916,表明与掠夺性期刊相比,非掠夺性期刊在社交网络上的受关注度和影响力更大。在期刊被引方面,非掠夺性期刊平均被引频次的均值为5.1763,高于掠夺性期刊。这从侧面反映了掠夺性期刊难以保证文章的质量,未必能提供建设性观点,较少被引用,而非掠夺性期刊的文章质量可能更高,对科研人员的研究有实质的帮助,被引频次更多。
由上述分析可得,掠夺性期刊和非掠夺性期刊的平均被引频次和Altmetrics存在率存在着较大差异,那么是否可以把它们作为判定期刊掠夺性的指标呢?使用Stata 14.0软件,建立和比较以下3个Logit回归模型。首先基于平均被引频次构造掠夺性期刊识别模型(模型1),然后探讨使用Altmetrics存在率构建的判别模型(模型2)效果,最后结合平均被引频次和Altmetrics存在率构建掠夺性期刊识别模型(模型3),并对这3个模型及效果进行比较分析。
3.2.1 模型1分析结果
通过使用Stata 14.0软件对期刊的平均被引频次进行Logit回归分析,得出结果如表2所示。Logit回归模型拟合结果的表达式为y=0.864-0.438x1。可以看出,平均被引频次变量系数为-0.438(Sig值<0.05),这表明了平均被引频次与期刊掠夺性呈显著负相关,说明假设1成立,即当平均被引频次较低时,期刊为掠夺性期刊的概率更大。
表2 模型1回归结果
在计算模型参数后,需要对模型计算出的预期概率和实际概率能否有效拟合做出评价。如果实际观测值与模型预测值有着较高的一致性,则认为该模型能够拟合数据;反之,则不能接受该模型,需要重新设置模型的变量。采用Hosmer-Lemeshow检验对二元 Logit 回归模型的拟合优度进行检验。
Hosmer-Lemeshow 检验可体现预测值和观测值的吻合程度。如Sig值<0.05,表明模型的预测值与观测值存在显著差异,模型工作效果欠佳;反之,Sig值>0.05则认为在可接受的水平上模型拟合了数据,模型工作效果良好。对模型1进行Hosmer-Lemeshow检验,得出Sig值<0.001,这一结果说明了仅依据平均被引频次建立的Logit回归模型的拟合效果欠佳,为此尝试引入Altmetrics指标进行判别分析。
3.2.2 模型2分析结果
模型2拟合表达式为y=1.036-14.871x2,建模结果如表3所示。可以看出Altmetrics存在率的系数为-14.871(Sig值<0.05),表明了期刊的Altmetrics存在率与期刊掠夺性显著负相关,假设2成立,即期刊的Altmetrics存在率越高,期刊为掠夺性期刊的概率越小。Altmetrics存在率能够反映出期刊学术成果的社会影响力,因此这一结果也是合理的。继续使用Hosmer-Lemeshow 检验来对模型拟合效果进行检验,得出模型2的Hosmer-Lemeshow 检验的Sig值为0.997(>0.05),说明该模型的拟合效果较好。
表3 模型2回归结果
3.2.3 模型3分析结果
同时引入平均被引频次和Altmetrics存在率变量,得出模型3表达式为y=1.220-0.204x1-12.015x2,回归结果如表4所示。其中,平均被引频次和Altmetrics存在率指标的Sig值分别为0.033和0.002,均<0.05,这表明拟合效果是显著的,平均被引频次和Altmetrics存在率对期刊掠夺性具有负向影响,假设1和假设2成立。即当平均被引频次和Altmetrics存在率较低时,期刊为掠夺性期刊的概率更大,这与模型1和模型2得到的结果也是一致的。
表4 模型3回归结果
利用Hosmer-Lemeshow 检验,得到Sig值为0.357(>0.05)。Hosmer-Lemeshow检验中,当Sig值>0.05的时候拟合效果较好,当 Sig值>0.1的时候拟合效果更佳,因此引入平均被引频次和Altmetrics存在率后的判别模型拟合效果较好。
3.2.4 3个模型比较分析结果
使用受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)曲线下的面积(Area Under Curve,AUC)来检验模型预测准确率。当AUC>0.75时,模型有足够的辨别力。AUC值越高,预测准确率越高。曲线越接近左上角(x越小,y越大),预测准确率越高。根据模型ROC拟合结果(表5)可以看出,模型3的预测效果优于模型1和模型2,即模型3的预测准确率更高。也就是说,同时融合了平均被引频次和Altmetrics存在率的模型要比单独利用平均被引频次、Altmetrics存在率的模型效果更好,单独使用Altmetrics存在率构造的模型又比单独使用平均被引频次的模型效果更好,进而证明了引入Altmetrics指标进行掠夺性期刊判别的合理性和正确性。
表5 模型ROC拟合结果比较
为了对模型效果进行验证,收集了笔者在近1年内收到的邀请投稿邮件中的期刊数据。Sureda-Negre等[29]对西班牙一所大学教育领域的3位教授在3个月内收到的邀请投稿邮件进行分析,发现发送邮件的大多数期刊(69.7%)在掠夺性期刊名单中,并认为通过邮箱向学者发送投稿邀请的大部分期刊质量不高。因此,选择发送邀请投稿邮件期刊进行模型效果验证是合理的。在剔除了在“Kscien′s List”中出现的期刊后,得到期刊如表6所示。
表6 投稿邀请邮件中的期刊信息
使用相同的数据收集方法对这些期刊的引文数据和Altmetrics数据进行收集,并将其代入模型3中进行验证,最终得到结果如表7所示。可以看到在这14种验证期刊中仅有1种期刊HealthInformaticsJournal的预测概率为0.0003(<0.5)。查阅后发现,HealthInformaticsJournal为SCI期刊,JCR分区为Q3区。除此之外,余下13种期刊的预测概率>0.5,其中12种期刊的预测概率>0.7,这说明了虽然这些期刊还没有出现在“Kscien′s List”中,但它们为掠夺性期刊的概率较高,这和Sureda-Negre等[29]提出的通过邮箱向学者发送投稿邀请的期刊质量不高的观点相符合,也表明了融合平均被引频次和Altmetrics存在率的掠夺性期刊判别模型是合理的。
表7 模型验证结果
本研究基于Logit回归模型,分别构建了仅含平均被引频次、仅含Altmetrics存在率以及同时包含平均被引频次和Altmetrics存在率指标的掠夺性期刊判别模型。通过模型比较分析后发现,仅含Altmetrics存在率指标与同时引入平均被引频次和Altmetrics存在率的掠夺性期刊判别模型效果较优。虽然学界普遍认为期刊的引文指标适用于衡量期刊学术影响力,但Oviedo-García[30]对掠夺性期刊出版商MDPI(Multidisciplinary Digital Publishing Institute)的分析显示,某些掠夺性期刊有较高的自引率,导致部分掠夺性期刊有着较高的被引频次。这说明,期刊的被引频次存在被操纵的可能,纯粹以引文指标判断期刊是否为掠夺性期刊并不准确。在Web 2.0环境下,Altmetrics指标充分利用了学术社交网络进行文献计量,数据更新更加及时,进而能够避免学术成果影响力评估的滞后性,并可以补充性地反映学术成果的社会影响力。通过共同应用Altmetrics指标和引文指标,可以更全面地评估学术成果的影响力。同时引入平均被引频次和Altmetrics存在率构建的判别模型综合了两类指标的优势,因此在判断期刊的掠夺性方面具有更好的效果。
在此基础上,收集了投稿邀请邮件的期刊数据,将其代入同时引入平均被引频次和Altmetrics存在率的掠夺性期刊判别模型,对该模型进行验证。结果表明,发送投稿邀请邮件的期刊大概率为掠夺性期刊。这表明了Altmetrics指标在识别掠夺性期刊方面具有良好的效果,可以较好地判断期刊的优劣,为掠夺性期刊的识别提供新的指标和方法。
不可否认的是,本研究仍然存在一些局限性。首先,由于数据获取困难,仅能初步验证使用期刊引文指标和Altmetrics指标识别掠夺性期刊的有效性;其次,研究应用的方法还有待优化。在未来的研究中,将尝试从以下两个方面进行改进:一是增加指标类型,加入更多能够有效识别掠夺性期刊的指标,以丰富模型输出;二是增加样本量,并尝试采用更为前沿的方法,如机器学习中的随机森林模型,以提升识别效果和模型精度。总体而言,本研究对于掠夺性期刊的识别具有一定启发意义,但仍需在数据和方法上作进一步拓展。