结合引文内容分析数据的科技期刊影响力评价研究

2022-10-11 08:38■李伟黄历

中国科技期刊研究 2022年8期

■李伟黄历

1)山东大学科技期刊社，山东省济南市山大南路27号 250100 2)上海海洋大学期刊中心，上海市浦东新区沪城环路999号 201306

自期刊影响因子[1]提出以来，Garfield[2]从文献引用的角度开展了科学发展趋势的研究，为期刊评价奠定了基础。基于被引频次的指标在期刊影响力评价中发挥了重要作用[3]，可以从宏观上反映期刊的学术状况，然而由于学术研究的复杂性，虽然被引频次能在一定程度上反映同行对被引文献所持观点的认可程度，但是引用是施引文献作者的主观行为，引用内容的描述还包含一定的主观情感：既有对被引文献的赞同、支持等正面情感，又有反对、质疑等负面情感，还有持中立态度或仅将被引文献作为背景介绍提及等[4]。鉴于此，有学者[5-7]提出应从施引文献的全文着手，聚焦被引用的描述片段，对引用的作用、频次、位置和内容等进行分析、研究和统计，并依据分析结果开展期刊影响力的评估，该方式被称为“引文内容分析”。引文内容分析是对传统引文分析方式的精细化，应用于期刊可以反映出期刊影响力的微观方面，也是引文分析理论发展的新阶段[8]。然而，人工开展引文内容分析耗时费力，如果不能以大规模的文献为基础数据进行分析，对期刊的影响力评价就失去了意义。目前人工智能技术的应用正在各行各业缓慢而稳定地向前推进，学术出版领域也不例外。基于学术大数据，采用自然语言处理、机器学习等人工智能技术的引文内容分析平台——Scite.ai，为引文内容分析的智能化发展提供了技术支持，也将深刻影响学术出版、科学研究和学术评价[9]。

Scite.ai智能引文内容分析平台通过提供“智能引文”(Smart Citation)帮助研究人员更好地发现和评估学术论文[10]。智能引文保留了传统的引文网络，同时通过鉴别施引文献中的引文内容显示参考文献是如何被使用的，描述参考文献提供的是支持证据还是对比证据，或仅仅是被提及；通过分析引文周围的文本背景，确定引文在哪个部分被引用以及被引频次等[11]。除了描述不同引用类型出现的次数外，Scite.ai还提供支持型和反对型引用的比例，并提出一种标准化的指标——引文支持型占比(Scite Index, SI)用于评价期刊质量，这是因为SI可以表明期刊中文献得到支持型引用的总体比例[10]。目前已有许多研究人员利用Scite.ai平台提供的数据对文献进行定量评估。Khamsi[12]报道了Scite.ai追踪对COVID-19相关文献的正面和负面引用的情况；Bordignon[13]利用Scite.ai调查了对预印本平台上发表的文章和评论的负面引用是否有助于纠正科学研究中的错误；Nicholson等[14]利用Scite.ai分析了1923575篇维基百科文章，发现这些文章共引用了824298篇被收录在Scite.ai数据库的学术论文，其中57%的学术论文没有被其他学术论文引用或没有后续的研究，而被不同文献引用的学术论文的引用类型呈现出极大的反差。国内学者雍文明[15]利用Scite.ai平台提供的数据开展了不同学科期刊引文作用类型差异的研究，发现自然科学类期刊的SI较社会科学类高，自然科学类期刊中医学类期刊的SI比数学、物理和化学类期刊低。利用Scite.ai的数据对期刊影响力进行评价，仅见于Scite.ai的创始人之一——Rosati[16]发表在预印本平台上的论文中：通过归一化引用类型数据，发现Scite.ai收录的所有期刊的影响因子呈偏态分布，而SI呈正态分布，因此SI能更公平地反映期刊的质量。

综上所述，仅依据期刊发表论文的被引频次及其影响因子易造成影响力评价的偏差。教育部、科技部印发的《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》，其实质就是破除管理和评价的简单化、单一化和数量化，关注学术论文的内容质量评价。另外，国家自然科学奖评价指标中的定量评价指标之一——主要学术思想和观点被他人认可的情况，该指标是指他人在正式发表的科学论文、专著、教材中正面引用完成人提出的学术思想、观点、方法，或被有关实验、实践所证实的情况，说明了引文内容分析的重要性。以引文内容分析为基础，将被引文献实际的作用作为评价依据的方法对科学评价期刊影响力具有正向激励和导向作用，将推动学术期刊影响力评价创新发展[17]。因此，本研究参考Zhao等[18]提出的二维度融合的期刊影响力评价模型，尝试以Web of Science(WoS)核心合集的耳鼻喉科学分类下收录的期刊为例，从多指标融合的角度综合评价期刊的影响力，并将期刊影响力分为两个层次：基于被引频次的宏观影响力(Fmacro)与基于引文内容分析的微观影响力(Fmicro)，借助国际学术出版领域的新兴技术提供的引文内容分析数据，研究两个层次的指标内在的与相互间的联系，并以此为依据提出新的期刊影响力评价方法，为中文科技期刊影响力评价的改革创新积累实践经验，促进人工智能技术在中文科技期刊出版领域中的应用，破除当前科研评价体系的单一化和数量化，从而为探索和建立新型评价体系提供实证研究案例。

1 材料与方法

1.1 数据来源与处理

选择WoS核心合集耳鼻喉科学类目中收录的42种国际期刊(表1)作为研究对象。考虑到相应期刊数据在Scite.ai中的可获取性，排除2种总被引频次少于100次的期刊。在WoS中获取参考文献[18]提出的期刊影响力评估模型，该模型共包括总被引频次(Total Cites, TC)、期刊影响因子(Journal Impact Factor, JIF)、五年影响因子(5-Year Impact Factor, 5YIF)、除去自引后的影响因子(Impact Factor without Journal Self Cites, IFJSC)、即年指标(Immediacy Index, IX)、特征因子(Eigenfactor Score，ES)、文章影响力指数(Article Influence Score, AIS)、归一化特征因子(Normalized Eigenfactor, NE)8项传统引文分析指标。在Scite.ai平台(https://scite.ai/)的Journal List版块中依次查询期刊的5项引文内容分析指标——SI、期刊总被引频次(History Total Citations，HTC；计算了被引文献在施引文献中不同位置出现的次数)、反对型次数(C)、支持型次数(S)、提及型次数(M)，并核对期刊名称、出版商名称、ISSN或eISSN，确保期刊数据的准确。

表1 WoS耳鼻喉科学类的42种国际期刊

由于各个指标的量纲不同，数值之间的差距非常大。为了消除统计误差和指标差异的影响，对所有原始指标数据进行线性比例标准化处理，即把每个指标值除以该指标的最大值，将各指标值映射到0～1范围内。

1.2 数据分析方法

使用 SPSSAU在线数据分析软件进行统计分析。采用Spearman相关性分析研究层次内的指标之间以及两个层次之间是否存在相关性和相关性紧密程度，采用Cronbach信度分析检验各指标的可信度，采用因子分析验证每个指标是否能反映期刊影响力，采用效度分析衡量综合评价体系是否能够准确反映评价目的和要求。

2 结果与分析

2.1 期刊宏观影响力评价

经过Spearman相关性分析，从表2可知，8项传统引文分析指标的相关系数在0.252～1.000范围内，各指标之间都存在正相关关系，且指标变化趋势总体一致。

表2 Spearman相关性分析结果

信度分析在衡量指标的内部一致性方面起着重要作用。由表3可知，Cronbach′sα系数为0.901，大于0.9，说明宏观影响力指标信度很高；校正项总计相关性的范围为0.407～0.842，均大于0.4，说明各指标与宏观影响力之间的相关性较高，且各指标之间的一致性较高。针对“项已删除的α系数”，IX如果被删除，信度系数会有上升，由于校正项总计相关系数均大于0.4，在使用宏观影响力指标考察期刊影响力时可以考虑排除此项。综上所述，研究数据信度系数值高于0.9，说明8项指标的信度质量高，可全部用于进一步分析。

表3 Cronbach信度分析

效度分析用于检验各指标在评价期刊影响力时是否合理以及是否有意义。结果(表4)显示，KMO(Kaiser-Meyer-Olkin)值为0.723，此外通过KMO-Bartlett′s检验得出P<0.001，说明所选指标具有较高的效度，可以进一步采用因子分析对其进行检验以评价期刊的学术影响力。此外，采用主成分分析作为因子提取方法，各指标提取的群落度范围为0.802～0.954，值较高，信息损失小。因此，因子提取的整体效果比较理想，能够反映指标的原始信息。

表4 效度分析结果

从效度分析结果(表4)可知，所有研究项对应的共同度值均高于0.4，说明研究项信息可以被有效提取。另外，KMO值大于0.6，说明数据可以被有效提取。

方差解释率值用于说明信息提取水平；因子载荷系数用于衡量因子(维度)和指标的对应关系，因子载荷系数绝对值大于0.4，说明研究项和因子有对应关系。从表5可知，利用因子分析方法共提取出特征根值大于1的2个因子，其旋转前方差解释率值分别是61.375%、25.726%，旋转后累积方差解释率均为87.101%(>50%)，意味着指标的信息可以被有效地提取出来。最后，结合因子载荷系数，确认因子和研究项的对应关系是否与预期相符，如果相符则说明具有效度，反之则需要重新进行调整。

表5 因子分析结果

本研究中使用因子分析法，需要进行权重计算，因此使用“成分得分系数矩阵”建立因子和研究项之间的关系等式(基于标准化后数据建立关系表达式)，表达式为

F1=-0.108×ITC+0.244×IJIF+

0.251×I5YIF+0.243×IIFJSC+

0.187×IIX-0.055×IES+

0.251×IAIS-0.055×INE

(1)

F2=0.374×ITC-0.021×IJIF-

0.050×I5YIF-0.027×IIFJSC-

0.078×IIX+0.346×IES-

0.062×IAIS+0.346×INE

(2)

式中：I为各指标值；F1、F2分别为从8项指标数据提取的信息中得到两个对期刊影响力起主要作用的因子。

由表5可知，在“旋转后方差解释率”中，主成分方差贡献的比例以“方差解释率”作为权重，其计算公式为

(3)

式中：λ1、λ2分别为因子1、因子2的旋转后方差解释率。由此，可以得到期刊宏观影响力评价模型公式:

(4)

2.2 微观学术影响力评价

经过相关性分析后，从表6可知，SI与HTC、C、S、M 4项指标之间P均大于0.05，相关系数分别为-0.159、-0.233、-0.162、-0.197，说明SI与HTC、C、S、M 4项指标之间的相关关系没有统计学意义。产生该结果的可能原因为：一方面，单一期刊内部或者学科领域内期刊之间，收录论文的子领域可能存在差异，而不同子领域论文的被引频次以及被引文献在施引文献中不同位置出现的次数都很可能会存在较大差异；另一方面，SI为支持型引用在支持型和反对型引用总和中的占比，由于实际情况中支持型和反对型引用在总引用中的占比极低，此计算方式可能会造成数据失真。此外，提及型引用并非没有价值或不能代表影响力，但是为了作进一步分析，暂时保留SI进行信度分析后再考察其有效性。

表6 Spearman相关性分析结果

通过信度分析，从表7可知，Cronbach′α系数为0.927，大于0.9，说明研究数据信度质量很高。对于“项已删除的α系数”，SI如果被删除，信度系数会有较为明显的上升。对于“校正项总计相关性”，由于SI对应的值小于0.2，说明其与其余分析项的关系很弱，因此可确定SI对于期刊影响力评价作用不大，可在接下来的分析中剔除SI；其他几项指标的校正项总计相关性值高于0.9，说明数据信度质量高，可用于进一步分析。

表7 Cronbach信度分析结果

采用因子分析进行信息浓缩研究，首先考察KMO值，分析结果为0.790，大于0.6，满足因子分析的前提要求，意味着除SI以外的4项引文内容分析指标可用于因子分析研究。再通过KMO-Bartlett′s检验，得到P<0.001，进一步说明该数据适合进行因子分析。

检验因子提取信息量情况，结果如表8所示。可以看到：因子分析一共提取出1个因子，特征根值大于1；此因子的旋转前方差解释率和旋转后累积方差解释率均为98.227%。使用最大方差旋转方法(Varimax)进行旋转，以便找出因子和研究项的对应关系。从表9可知，4项指标对应的共同度值均高于0.4，意味着4项指标和因子之间有着较强的关联性，因子可以有效地提取出信息，以进一步分析因子和4项指标的对应关系。

表8 因子提取信息量情况

表9 效度分析结果

使用因子分析法进行权重计算，按照“成分得分系数矩阵”建立因子和4项指标之间的关系等式(基于标准化后数据建立关系表达式)：

F3=0.253×IHTC+0.253×IC+0.250×IS+

0.253×IM

(5)

由于只存在单因子，故Fmicro=F3。

对宏观影响力与微观影响力之间的相关性进行检验，结果如表10所示。Fmacro和Fmicro之间的相关系数值为0.492，并且P<0.01，二者具有显著统计学差异，可见两种影响力之间有着显著的中度正相关关系，且基于引文内容分析的指标对基于引文的期刊学术影响评价具有很好的补充作用。

表10 Spearman相关性分析结果

二维度融合的期刊影响力评价模型选择两个分类维度，用于综合反映评价对象在领域中的水平和状态。Fmarco衡量的是直观的容易计算的学术贡献和同行对其成果的认可程度；Fmicro体现了期刊所有被引论文在施引论文中(如介绍、结果、方法、讨论及致谢等部分)出现的频次、作用等细颗粒度的学术影响力。因此，将Fmarco和Fmicro作为国际耳鼻喉科学期刊影响评价的两个维度，将其映射到二维直角坐标系中进行综合评价。取横坐标为Fmarco、纵坐标为Fmicro，两个维度评价得分的平均值分别为0.27和0.16，依此将耳鼻喉学科国际期刊划分为四类(图1)：学科内有较高威望的期刊(Fmarco>0.27,Fmicro>0.16)，8种；学科内的明星期刊(Fmarco<0.27,Fmicro>0.16)，6种；学科内的常规期刊(Fmarco<0.27,Fmicro<0.16)，20种；学科内的专家级期刊(Fmarco>0.27,Fmicro<0.16)，8种。

3 结论

被引频次是一种单维度的度量指标。然而不同类型的引用所起的作用都不一样，以被引频次为基础的文献计量指标无法体现出不同类型引用的作用。采用引文内容分析数据，结合传统的基于被引频次的期刊评价指标，重新构建分类标准不失为一种有益尝试。本研究的结果发现，期刊的SI指标与其他4项引文内容分析指标无相关性，且各期刊间的SI也无显著性差异，仅从SI指标比较难区分出期刊的影响力，因而SI不适合单独作为期刊影响力评价指标。此结论与SI的发明人所提出的结论不符[16]。

未来的研究还需要深入探究Scite.ai平台的作用，着眼于期刊论文包含的其他特征(如作者和机构)，或着眼于对单篇论文的支持型和反对型引用的分布，以便为单篇论文的文献计量学研究提供更细粒度的分析方法。希望本研究的初步发现能够为通过在引文内容分析中添加额外的信息来增加期刊评价的细微差别提供启发。此外，加强人工智能技术在中文科技期刊影响力评价领域中的应用，对破除当前科研评价体系的单一化和数量化、探索和建立新型评价体系具有重要的现实意义。

图1 国际耳鼻喉科学期刊宏观和微观影响力指数象限图