徐琳宏,丁 堃,孙晓玲,杨 阳
(1.大连理工大学科学学与科技管理研究所暨WISE实验室,大连116024;2.大连外国语大学软件学院,大连116044)
客观公正地评价一篇论文的学术影响力是学者个人评估乃至学科发展技术演化的基础,也是科研评估的重要目标。目前,单篇论文的学术影响力评估一般是基于被引频次来测度的,其作为一个获取简单、计算方便的科技评估指标被广泛引用。然而,单纯的被引频次存在引用的同一化问题,即不同目的和引用极性的引用被同等对待,如赞扬、批评和陈述类的引用在基于被引频次的评估方法中效能是一样的,都是增加一次引用。而实际上,这三类引用表达了施引作者对被引文献工作的不同态度,应该区别对待,这就需要细化科技评估的指标,实现全面和公正地评估论文的影响力。引用极性,是指将引用按施引作者的情感和态度划分为支持和赞扬、反对和批评,以及简单陈述三种类型,是细化评估指标的一种方法。不同情感类型表达了对被引文献的不同态度,也反映了被引文献对作者的不同影响。因此,将引用按情感极性细化,可以克服被引频次指标单一化的缺点,在多个层次和角度丰富论文评估的指标,从而更加合理和准确地评估单篇论文的影响力。
虽然众多学者都认为被引频次是一个有偏差的评估指标,应该对其按引用功能、引用目的和引用极性等进行细化,但不同引用极性的论文影响力是否具有差别目前还没有定量的研究,对于如何具体量化不同情感极性的引用目前也没有统一的结论。是否正面引用的论文比中性引用的论文影响力更大,是否应该在被引频次测度中增加正面引用的系数?针对上述问题,本文从施引文献的角度出发,对正面引用论文的影响力及正面引用的影响因素进行研究分析,定量分析被正面和中性引用的论文其影响力是否有差别,不同引用原因的正面引用论文影响力是否有差别,以及正面引用论文的影响因素。
当前,被引频次已经成为评价一篇论文质量甚至学者影响力的重要指标,围绕被引频次的研究也有很多。自1955年Garfield[1-2]提出引文索引以来,被引频次就成为衡量科研成果和科研人员水平的主要指标,在科学评价方面发挥着重要作用。Cronin等[3]认为,被引次数是衡量作者影响力的重要指标。但被引频次将所有的引用同一化,忽略了引文的异质性,在一定程度上影响了其作为论文评价指标的准确性和可靠性。因此,众多学者认为,被引频次是有偏差的衡量指标,作者数量和论文长度等因素对其有显著性的影响[4]。为了矫正单纯被引频次带来的偏差,人们从不同角度提出了相应的改进方案。Pinski等[5]认为,每个引用应该具有不同的权重,施引作者不同具有不同的重要性。马瑞敏等[6]根据施引作者的不同对被引次数指标进行加权,构建的模型能有效区分领域活跃者和领域先行者。谢娟等[7]研究被引频次与下载频次的相关关系,发现两者呈正向的强相关关系,可使用下载频次弥补被引频次具有一定滞后性的问题。另外,一些学者对引文进行再分类,李冲等[8]将引文分为实质性引用、程序性引用和形式性引用,细化后的引文分析指标提高了个体学术评价的可靠性。Wan等[9]将引文按重要性分为5个等级,并应用于论文影响力和作者影响力的研究中。
引用过程中正面引用、中性引用和负面引用存在情感差异,使被引频次的评价方法存在争议[10],利用引用情感细化被引频次是一种比较常见的改进方案。Hernández-Alvarez等[11]将引文按引用极性分为正面引用、负面引用和中性引用。Catalini等[12]发现负向引用论文的质量更高,与未被负向引用的论文相比,其被引频次更高。刘盛博等[13]提出引文评价的三个指标,其中引文情感分为正面引用、负面引用和中立引用。Chubin等[14]认为,引文中包含肯定和否定的两种情感,通过对多篇文献的分析,将肯定类型细分为基础型、辅助型、同意型和敷衍型;而否定类型详细划分为部分否定和全文否定。Veer Martens等[15]采用引文内容分析的方法,研究八种理论的传播方式,将其中理论认识类型分为积极、中立和消极三类,且积极和中立情感占大部分,而消极情感较少。陆伟等[16]提出引文内容标注框架也包含引文情感,分为正面、负面和中立三类。Moravcsik[17]将引文分类体系划分为正、负两种,正面引用的比例达到92%。尹莉等[18-20]引入“极性”概念,将引用内容分为正、负和零三类,并分析引用发生的语境,指出引用的位置与论文的一般结构有关,提出基于引用功能和引用极性的分类模型,并细致分析了引用极性、引用位置和引用密度与自引的关系。耿树青等[21]提出一种基于“被引频次——引用情感”的指标来评价论文学术影响力。章成志等[22]基于引用内容研究中文图书的被引行为,发现引用情感中超过80%表现为中性,且正面引用明显多于负面引用。
综上所述,引用极性的分析是对被引频次评估指标的有益补充,在科研评价中具有重要意义。但由于数据获取困难等因素的影响,引用极性的研究还处于起步阶段,正面引用、中性引用和负面引用与被引频次关系的定量研究较少。因此,本文尝试分析正面引用与中性引用的论文的影响力差别关系,以及正面引用的影响因素等。
引用极性,是指在当前引用句上下文内施引文献对被引文献的态度,一般分为正面、中性和负面三种类型。本文主要探讨正面引用和中性引用,不涉及负面引用。一方面,是因为正面和中性情感的占比较大,负面引用占的比重较小;另一方面,更重要的是负面引用的影响力是一个较为复杂的问题,不能单纯地以负面引用就有负面影响来看待,可能需要更加复杂的研究方案才能完成。因此,为了聚焦研究议题,本文的研究内容只涉及正面引用和中性引用,探讨其与论文影响力的关系,分析引用极性与引用原因的关系,以及正面引用的影响因素。
由于被引频次只对引用行为的次数做简单的计数,把所有的引用行为同等对待,存在引用的同一性问题,故被引频次是一个有偏差的评估指标。为了解决这个问题,本文从施引文献的角度出发,区分每一个引用行为,即从引用原因和引用极性两个方向尝试研究。从直观上来说,正面引用一般代表施引作者对被引文献的赞扬和认同,要比简单陈述观点类的中性引用表达的情感更强烈,该类被引文献对作者的影响力也更大。那么在自然语言处理领域,这些被正面引用的论文的影响力是否真的比被中性引用的论文影响力更大?不同原因产生的正面引用,其论文影响力是否存在差别?为了在定量的层面回答上述问题,本文假设:
H1:被正面引用的论文与被中性引用的论文的影响力相同。
H2:被正面引用的论文在不同引用原因下其影响力没有差别。
正面引用极性的产生有其自身的原因和特定的表达形式,找到这些影响因素,有助于更准确地鉴别正面引用和深入探讨该类引用的论文影响力。本文尝试区分在自然语言处理领域中,哪些施引特征更容易产生正面引用,从施引文献的角度出发假设:
H3:施引位置对正面和中性的引用极性没有影响。
H4:引用句的长度对正面和中性的引用极性没有影响。
H5:参考文献数对正面和中性的引用极性没有影响。
H6:引用强度对正面和中性的引用极性没有影响。
3.2.1 变量及测度指标
本文主要完成两部分的工作:一是确认被正面引用的论文是否具有更高的影响力,以及不同引用原因产生的正面引用,其被引文献的影响力是否存在差别;二是分析施引位置、引用长度、参考文献个数以及引用强度等四个方面因素的变化规律,研究其对正面引用的产生是否有密切关系。各变量的描述如表1所示。
表1 各变量的描述
任务一是在不同引用极性中,区分被引文献的影响力是否有显著差别。本文使用总引用频次和年均引用频次两个指标衡量论文的影响力。总被引频次代表论文的整体影响力,但发表年份较晚的论文,其引用的窗口时间短,总引用频次不能客观反映这类文献的影响力。因此,增加了年均被引频次的指标,其代表文献每年的平均引用频次,该指标对发表较晚,引用较多的文献比较友好,但对发表时间较早,已过引用半衰期的文献有一定的偏差,这类文献由于很快过了引用高峰期,随着时间的推移,年均被引频次会被逐步拉低。两个指标各有优缺点,互为补充,因此,本文采用总被引频次和年均被引频次两个指标计算被引文献的影响力。
任务二中的施引位置是按句计算的,用当前引用句在施引文献中的语句序号除以正文中施引文献语句总数。引用强度是计算同一篇施引文献中某个被引文献的引用次数,参考文献数量是指施引文献中的参考文献总数,而引用长度是计算当前引用包含的语句字数。
3.2.2 统计分析方法和工具
在正面和中性论文的影响力研究中,使用被引频次作为因变量,但被引文献的引用频次不符合正态分布,一般情况下符合泊松分布[24-25]。因此,本文没有采用单因素的方差分析方法,而选择非参数检验的Mann-Whitney检验和Kruskal-Wallis检验。Mann-Whitney检验是检测两个独立样本是否存在显著性差异的方法,其检验统计量为
Kruskal-Wallis检验适用于检测多个总体是否存在显著性差异,其检验统计量为
在正面引用影响因素的研究中,本文采用逻辑回归的方法,适用于自变量是分类或数值变量,因变量为二分类变量的情况,逻辑回归的模型为
其中,P=P(y=1|x)为正面引用发生的概率;β1,β2,…,βm为多个因素的回归系数,使用Wald值衡量指标的重要性。当Wald值越大,P值越小时,自变量的影响就越大;反之,则说明该自变量对正面引用的产生没有影响。本文所有的数据处理和统计分析结果均是利用Excel和SPSS软件完成的。
本文选择自然语言处理领域权威的中文期刊《中文信息学报》2017年全年的论文作为原始数据,分析该领域正面引用论文的影响力及影响因素。自然语言处理是人工智能领域的一个重要研究分支,论文的数量和质量近几年来都呈明显的上升态势。而《中文信息学报》是中国中文信息学会会刊,是中文方面自然语言处理领域的权威期刊,从刊登的文章能及时了解最新的中文信息处理进展和学术动向。为了分析正面引用论文的影响力,本文需要分三个阶段获取数据:期刊论文全文本分析、论文中引用句的情感极性标注和被引文献的引用频次抓取,具体过程如图1所示。
第一阶段的任务是下载和解析论文的引用句。从CNKI上下载《中文信息学报》2017年全年的论文,共189篇,排除个别征稿通知和会议通知类的文献,共获取论文170篇。下载的全文包括CAJ和PDF两种格式,将其转化为TXT文本格式,进行数据的初步清洗,删除解析表格和图片时产生的非法字符。接下来,将论文分割为正文和参考文献两部分,正文部分按句分割编码,并采用正则表达式的方法搜索引用标识,即以上角标形式出现的包含数字的中括号。参考文献部分按编号分割,截取其中题目、作者、期刊等信息。在数据的预处理中,本文还考虑了全角字符和半角字符的转化、部分参考文献跳转到其他页、包含多重参考文献标识、正文内容隔页跳转以及特殊字符在XML文件中的合法化等问题。最后,以XML文件的格式存储解析后的论文:共包含语句42849个,其中可能的引用句2948个;包含参考文献3172条,其中期刊类的参考文献1417条。
图1 数据获取流程图
第二阶段的任务是标注引用句的情感极性。目前,引用句的情感极性没有合适的公开数据集可用,需要人工参与标注。为了提高标注的质量和速度,本文在引文情感极性的标注过程中利用人机结合的标注方法,人工为主、机器为辅。第一阶段预处理后的论文,检索其中所有可能包含引用标识的语句,提取每句对应的上下文,生成标注对象。各个语句按照在论文中出现的先后顺序逐一输出给标注人员,完成引用极性和引用原因等信息的标注工作。为了提高标注质量,同一个引用句会分配给多个标注人员,根据情感标注是否有分歧来决定标注是否需要再次讨论。计算机辅助方面,主要是通过构建标注平台实现,该平台不仅能帮助标注人员提高速度,同时,也能完成质量监控的部分工作。标注完成后,共包含引用3496个,其中正面引用1160个,中性引用1870个。第一和第二阶段的任务在论文《中文文献引文情感语料库的构建》一文中有更为详细的说明[26]。
第三阶段的任务是获取被引文献的信息。从第二阶段的3496个引用句中,选择被引文献为期刊类型,引用格式为一处一引的所有正面和中性的引用句1164个,获取其被引文献的被引频次、发表年份和施引位置等信息。由于期刊类型文献的被引频次数据准确真实,故选择被引文献为期刊类型,而其他类型文献(如图书类)目前还没有统一的数据来源可以获取被引频次。选择一处一引的引用句主要考虑引用极性无论是正面还是中性,指向性比较明确,即针对单一的被引文献。一处多引的引用句,同一引用位置包含两个甚至更多的被引文献,那么正面或者中性引用的情感极性是针对其中一篇文献还是多篇文献存在歧义,因此,选择引用格式为一处一引的引用句。
被引频次信息是从网站上通过爬虫工具抓取的,检索时考虑到论文的题目和作者名称相同认定为同一篇。英文参考文献的被引频次从Google学术上爬取,抓取时间为2019年11月。中文参考文献的被引频次是从CNKI上获取的,数据获取时间为2019年12月。中文和英文文献的获取来源不同是因为CNKI上英文文献较少,而如果所有参考文献的被引频次均从Google学术中抓取,那么数据获取后会发现该网站的中文文献的被引频次远低于CNKI中获取的被引频次,其原因可能是Google中包含的中文论文数量有限,且实时性不能得到保证导致的,故本文选择将中文和英文的参考文献分别从不同网站获取被引频次。虽然每篇被引文献的发表年份在参考文献中可以直接获取,但是考虑到参考文献中的年份是每个施引作者列出的,有可能会出现错误,因此,本文分别通过Google和CNKI上重新获取了论文的发表年份,并与参考文献中的发表年份进行校对。
本文以自然语言处理领域的重要期刊《中文信息学报》2017年全年的论文为数据,选择其中标注为正面和中性极性的引用作为研究对象,共获取施引文献170篇,引用句1164个。统计每个引用句中被引文献对应的引用频次和年均引用频次。被引频次的均值、最大值和标准差分别为2140、84757、6412,年均被引频次的均值、最大值和标准差分别为200、8190、665。由此可见,两个指标具有一定的差异性,能从不同侧面反映被引文献的影响力。
被正面引用的论文是否比被中性引用的论文影响力更大,引用原因不同的正面引用,其被引文献的影响力是否存在差别,从施引文献的角度出发正面引用有哪些特殊的表现形式。下文就这些问题讨论引用极性在论文影响力上的作用,以及影响正面引用的因素。
将引用句按引用极性分为正面引用和中性引用,被引文献在两个类别中数据的分布规律如表2所示。从数据中可以看出,正面引用的论文被引频次和年均被引频次的均值均大于中性引用的论文,其中年均被引频次的均值接近中性引用的一倍。两类论文的标准差均较大,说明被引频次的数据离散型更大,正面引用的年均被引频次高于中性引用,数据的离散性更明显。
表2 不同引用极性下论文影响力的统计描述
为了量化区分正面引用和中性引用论文的影响力是否存在差别,本文利用Mann-Whitney检验检测中性引用和正面引用样本的差异性。检验结果如表3所示,置信水平α=0.05,根据样本观察值做出决策,总被引频次和年均被引频次的检验P值均远小于0.05,拒绝H1假设,即在自然语言处理领域中,被正面引用的论文和被中性引用的论文影响力有显著差别,且被正面引用的论文总体上影响力要强于中性引用的论文。因此,在单篇论文的评价体系和作者影响力的评估中,被正面引用的论文应该给予更高的关注度和更大的影响系数,以纠正简单累加被引次数带来的评估偏差。
表3 正面和中性引用论文影响力差异性检验
总被引频次对发表年份较早的期刊有利,而年平均引用频次对发表年份较晚的期刊有利,这主要是引用窗口的不同对论文被引频次的影响,图2分别展示了正面引用和中性引用与引用窗口的关系。横坐标为引用窗口,即施引文献发表年减去被引文献发表年;纵坐标为不同引用窗口下年均的被引频次。由图2可以看出,中性引用的次数总体上比正面引用的次数多。在2017年《中文信息学报》的论文中,正面引用主要集中在发表后2~5年的论文,高峰正面引用在4~5年,而发表后2~7年的论文占中性引用的比例较大,高峰期在4~7年。在该数据集上,正面引用的引用窗口期比较短,在发表7年后就较少被正面引用,但在发表10年后达到一个平稳期,发表7年后的论文在中性引用的占比明显减少,并且随着引用窗口的增加逐步减少。发表后8~15年的论文在正面引用中占有一定比例,随着引用窗口的增加,数量比较平稳,可能是某个研究方向中包含一些经典的和开创性工作的文献,一直被大家认可,这类文献很多情况下是某一学科的支撑类文献,检索该类文献有助于梳理学科发展脉络。另外,正面引用的启动速度明显高于中性引用,发表前2年内被正面引用的论文占总数的5%,是同年被中性引用论文占比的2倍。
正面引用是施引作者对被引文献表达正向情感认同的引用,但每个正面引用的产生原因不同:有的是直接赞扬;有的是利用被引文献的模型和方法;还有的是通过与其他文献比较,委婉地表达认可的观点。那么本节的主要任务是分析不同引用原因下的正面引用,其对应文献的影响力是否存在差异。正面引用的原因需要通过引用句及其上下文的语义判断,这部分的数据在第3.3节获取部分,通过专业人员标注完成的。对自然语言处理领域的中文论文,本文借鉴刘盛博等[13]对正面引用的三分类,将引用原因细分为比较、应用、赞扬和其他。比较是指在引用句中将被引文献与他人工作比较,明确表达被引文献效果较好;应用类按目标对象可以分为被施引作者使用和被很多人使用;赞扬类是施引作者通过“良好”“有效”等明显的情感词汇表达对被引文献工作的赞美;其他类为表达正面情感强度较弱、表达形式比较隐晦的引用句。各种引用原因下,被引频次和年均被引频次的统计描述如表4所示。
图2 引用极性与引用窗口的关系
表4 正面引用中四种引用原因的统计描述
从表4可以看出,应用和赞扬两类的被引文献的影响力更大,而比较和其他两类论文影响力相对较小。本文采用Kruskal-Wallis检验测度四种引用原因对应的被引文献其影响力是否存在显著差异,这里选择Kruskal-Wallis检验是由于年均被引频次不符合正态分布,且是多组数据的比较。检验的结果表明,年均被引频次的分布在引用原因类别上具有显著性差异,拒绝原假设H2。这说明论文的年均被引频次明显受到正面引用原因的影响,鉴别引用原因有助于更加合理地评估论文的实际影响力。本文在Kruskal-Wallis检验的基础上,为引用原因的四种引用原因做了两两比较,以检验这四种类别两两是否都存在显著性差异。比较的结果如表5所示。
表5 正面引用原因成对比较结果
由于是事后两两比较,需要调整显著性水平,根据调整后的显著性水平,由表5的结果可以看出,2组和4组以及3组和4组论文的影响力有显著性差异,即应用和赞扬两类的引用原因与其他类的论文影响力有显著差异,这也符合本文的初始预期,这两类的论文发挥作用,得到施引作者的强烈认同,故其影响力也会更大。但比较类型引用的文献论文影响力较低,这不符合预期:本文预期比较表达了作者对被引文献工作的认可,应该有更高的影响力。但研究结果表明,该类型论文的影响力相对较低,其原因可能由于比较类型一般有比较对象,表达正面的情感只限定在两个被比较的对象范围内,比单一对象高,不代表影响力更大。另外,比较型引用强度较弱,形式比较隐晦。
图3 中节点的数值代表四类引用原因下正面引用文献的年均被引频次的秩,边代表两两比较的结果,实线边代表两组之间没有统计学差异,虚线边代表两组的差异具有统计学意义。这部分划分的引用原因是根据自然语言处理领域引文的特点决定的,不一定适用于所有领域,其他领域的引用原因可能需要稍作调整,一般来说赞扬类的论文每个领域都存在,而比较类型的论文可能领域相关性更大。因此,这部分的结论仅在中文自然语言处理领域具有一定的可靠性。
第4.2节从引用句语义的角度,分析了正面引用产生的原因以及其对论文影响力的作用。区分正面引用和中性引用以及不同原因的正面引用,对合理地论文评价具有重要意义,但是正面引用需要人工的鉴别,会耗费大量的人力资源。因此,本节主要从施引文献引用形式的角度,分析施引位置、引用长度、参考文献数量和引用强度对产生正面引用的作用,这些因素的判定为正面引用的自动识别奠定基础。同时,影响因素的分析,也有利于进一步探索正面引用的特性及作用。
本文采用逻辑回归的方法,判断多个因素对论文引用极性的影响。因变量为引用极性,自变量为四个因素,采用二元逻辑回归的方法是因为它适用于因变量为二分类变量、自变量为多分类变量的情况,最终根据Wals值的大小确定显著性。该方法一般要求样本量不能小于200,否则回归系数具有偏差,本文的数据量满足要求。检测结果模型的χ2值为14.042,自由度为4,P值为0.007,因此,逻辑回归模型具有显著性。各因素的回归系数和P值如表6所示。
由表6可以看出,施引位置和引用长度对引用极性有显著影响,两者的Wals值分别为7.339和4.339,P值分别为0.007和0.037,均小于0.05。而引用强度和参考文献数对引用极性没有显著影响,因此,拒绝假设H3和H4,接受H5和H6。其原因可能是施引文献中同一篇文献被引用多次,一定程度上说明该文献对施引作者有较大的影响,但并不能确定这种影响就是正面的影响,例如,在自然语言处理领域,常常将被引文献的结果作为比较的基线,这就是中性引用或者负面引用。此外,施引文献中参考文献的个数对引用极性没有影响,说明不存在参考文献过多,就都是简单的中性引用的现象;反之,也不存在参考文献很少就都是正面引用的情况。
表6 各因素的回归分析结果
上述结果表明,施引位置和引用长度对引用极性有影响,为了进一步探索不同极性下两个因素的具体特征,也就是说什么施引位置和长度的引用句最有可能是正面引用,两个因素与引用极性的关系如图4和图5所示。
图4 正面和中性引用施引位置占比
图5 正面和中性引用句子长度占比
图4 中纵坐标为施引位置,在自然语言处理领域的论文中,一般来说0.4之前多是引言和相关工作部分,0.4~0.8为研究方法和结果,0.8以后多为结论部分。无论是正面还是中性引用,大部分都在引言和相关工作部分,这与李卓等[27]研究结果类似,引言和数据部分占比较大,由于相关工作是密集介绍他人工作的部分,引用比较多,占的比重较大,这与本文的认知基本一致。在研究的方法和结果部分,正面引用的占比为32%,中性引用的占比为21%,正面明显多于中性引用。该部分的引用多是借鉴他人的模型和方法,帮助施引作者解决问题,正是施引原因中的应用类型,因此,正面引用的占比较大。另外,引言中的正面引用比例明显低于中性引用的比例,这部分的正面引用多是提及本领域开创性的工作,但更多是介绍领域的基本概念,所以中性引用较多。
因为引用句的长度一般在20到160之间[22],所以本文选择引用长度为0到150之间的引用句,舍弃了过长的引用句。由图5可以看出引用长度多集中在90个字左右,30字以下的正面引用句较少,90个字以上的正面引用句占40%,而中性引用句占31%。这说明正面引用更多发生在长句中,本身正面引用要介绍被引文献的工作和优点,则需要更多的文字来说明。
一方面,正面引用与施引位置和引用句的长度具有一定的相关性,可为正面引用的自动识别模型提供良好的数据基础,从而减少引用极性识别对人工的依赖程度,方便获取更大规模的数据,在更多的研究领域探索引用极性的特点和作用。另一方面,正面引用影响因素的研究也有助于从侧面深入分析正面引用的成因,以及在语义层面了解正面引用对被引文献可能产生的影响,最终有利于建立合理公正的论文评价体系。
本文以2017年的《中文信息学报》170篇论文为样本,利用Mann-Whitney检验、Kruskal-Wallis检验和逻辑回归的方法,研究了正面引用和中性引用论文在影响力上的差别,引用原因对正面引用论文的影响力的作用,并进一步探讨了施引位置、引用长度、参考文献数以及引用强度等因素对正面引用和中性引用的影响。研究结果发现以下三个结论:
(1)从总体上来看,正面引用论文的影响力高于中性引用论文的影响力。以引用极性为自变量,论文总被引频次和年均被引频次为因变量,通过显著性分析发现,被正面引用的论文总体上影响力高于被中性引用的论文。从定量的角度表明,自然语言处理领域的中文论文正面和中性引用的区别较大,在论文评价和学者影响力的评估中有必要区分两种引用的影响,对单纯被引频次计数的简单评价方法进行细化是必要的,增加正面引用的权重可能在一个侧面缓节被引频次带来的偏差。
(2)不同原因引发的正面引用,被引文献的影响力差别较大。根据人工标注的结果,本文将正面引用的原因划分为比较、应用、赞扬和其他四种类型。经显著性检验发现,四种原因产生的正面引用论文的影响力存在显著性差异,其中被施引文献界定为应用类型的论文,其影响力最大;其次是赞扬类型的论文;比较和其他两类论文的影响力较小。一方面,这说明正面引用的论文本身也不是同质的,不能通过一个统一的权重来衡量,还需要细致的区分对待,才能缩小评估中的偏差,合理地完成单篇论文的评价。另一方面,在自然语言处理领域,引用原因为应用类型的被引文献实际上有两个子类:第一种,是被施引作者本身使用,如施引作者利用了被引文献的方法或者模型;第二种,是施引文献被广泛应用,被很多研究者借鉴。第一种子类中,通过全文的语义分析,提取被引文献的方法和模型,以方法应用的宽度和深度为视角,可以分析自然语言处理领域模型和方法的发展脉络。第二种子类,可以更准确的定位领域的经典和首创类文献,从而解析经典文献对后续文献的影响方向和作用方式,从语义的角度分析经典文献的实际价值。
(3)施引位置和引用长度对引用极性有显著影响。本文选择的引用极性的影响因素包括:施引位置、引用长度、引用强度和参考文献个数。其中,施引位置和引用长度对引用极性有显著影响,而引用强度和参考文献个数对引用极性没有显著影响。发现与引用极性相关的核心特征有助于引用极性的自动识别,同时,也为合理评价单篇论文提供更多的相关指标。
需要注意的是,本文的研究结果说明正面引用论文的被引频次更高,并不是要否认传统被引频次在论文评价中的重要性,增加引用极性是为了纠正传统的被引频次的偏差。本文存在几点不足之处:一是本文的数据来源于自然语言处理领域,结论不一定在其他领域具有普适性,尤其是引用原因的划分,具有一定的领域依赖性;二是本文从施引文献的角度分了四个影响因素对引用极性的作用,这四个因素并不能涵盖与引用极性相关的所有因素,没有考虑其他干扰因素对结果可能存在影响。例如,中文和英文论文的被引频次分别从CNKI和Google上抓取,两个网站被引频次的统计方法不同,也会造成中英文论文本身存在差异性,从而在一定程度上影响最终结果。总体来说,本文属于探索性的研究,正面引用在论文评价和学者影响力评估中具有独特的价值和作用,但这种作用如何量化到具体的评价模型中需要进一步的研究和改进,此外论文的影响力和负面引用关系也值得进一步探索。