刘运梅 李冉 盛小平
关键词:三角引用结构;不规范引用行为;引文内容相似度;文献耦合;影响因素
参考文献是学术论文的有机组成部分,注明了被引理论、观点、方法、数据的来源,将其正确、合理、充分地引用在学术传播与科学发展过程中发挥着重要作用和广泛影响。然而,相比于研究方法剽窃、实验数据造假等学术不端行为,参考文献的引用不规范问题并未涉及科学论文的正文,从表面看并不会产生严重的学术风险。因此,在科学知识快速更迭的背景下,参考文献引用不规范、不合理问题在近年来层出不穷,越来越具有隐蔽性与欺骗性,形式也逐渐呈现出多样化特征。《Na-ture》杂志曾通过对科学论文中的引文错误开展调查,发现许多作者并没有阅读他们所引用的参考文献,引文著录中的异常错误非常普遍,进而披露了科学界普遍存在的引用不规范这一事实。在国内,因科研人员参考文献引用不规范而通报的各类学术不端事件也频频发生,其中不乏学术界的知名学者。参考文献的引用不规范现象逐渐成为科学界一项长期、复杂且相对隐蔽的问题。
为此,我国政府及相关部门十分重视对引用不规范行为的防范与治理,并出台了一系列针对性的政策文件。2018年8月,中共中央办公厅、国务院办公厅印发了《关于进一步加强科研诚信建设的若干意见》,提出“严厉打击严重违反科研诚信要求的行为,建立终身追究制度”。2021年11月,针对引用不规范行为,中国科学院科研道德委员会办公室发布了《关于规范论著引用的通知》,明确提出“反对不合理不规范的论著引用情形”,并将其认定为科研失信行为。此外,2022年8月,科技部对《科研诚信案件调查处理规则》进行了修订,规则中将“引用与论文内容无关的文献、要求作者非必要地引用特定文献”等引用不规范行为认定为科研失信,并进一步规范了其调查程序,使得引用不规范行为的调查处理工作有了更具操作性的惩处规则。引用不规范问题的解决除了通过相关政策规则予以打击之外,随着科学文献全文数据库的成熟、大数据文本分析技术的发展,运用科学的文本语义分析手段与文献计量学的数据挖掘方法予以识别与治理是关键所在。
目前,在科学文献引用规范问题上学者们已进行了大量相关研究,但鲜有人关注不规范引用行为的形成机制与偏好及其对学术论文价值造成的负面影响。在早期的引文研究与期刊编辑工作中,转引问题便被发现并指出,“转引行为”指施引文献作者受某些客观或主观因素影响,在没有阅读引文原文内容的前提下,从其他引用了该篇引文的文献中转引该引文内容与题录信息的现象。转引行为具有高度的隐蔽性、复杂性与危害性,一方面,其不仅违背了科学论文中参考文献引用的基本要求,还因转引作者缺乏对原始文献全面、系统的理解,而降低论文本身的表达流畅度与科学性;另一方面,通过转引行为产生的虚假引用,导致被转引文献的被引频次表面虚高,而实际上这些被引则多来自中间文献的间接影响力,掩盖了被引文献的真实价值,造成引文分析的开展建立在虚假的数据资料基础之上,从而影响引文分析、引文评价工作的准确度、严谨性与科学性。因此,有必要对这一引用行为与影响因素予以识别,并分析其中具体的引用情境与危害,为优化不合理的引文评价体系、治理不规范的引用行为提供解决途径。
基于以上研究问题,本文对转引这一不规范引用行为进行有效识别与分析。通过大规模的文獻数据对不规范引用行为进行有效识别,并尝试结合相关文献特征,挖掘这些不合理引用背后的引用情境与动机,首先,可以为编辑部、期刊管理部门检测、治理科学引用不规范问题提供技术指导;其次,通过揭示广泛、隐性、长期存在的不当引用行为及其危害,为学者在科学论文写作与引用中提供警示;最后,提出针对不规范引用行为的治理措施与规范建议,为科学界、科研管理机构后续科技政策的制定与完善提供重点方向和指导。
1引用不规范行为相关研究
1.1引用不规范行为的概念界定与分类
在引用不规范行为的界定与分类领域,学者们已结合期刊编辑中的具体实例进行大量讨论。引文包括参考文献的引用内容信息与文后的著录条目信息,据此,引用不规范行为也包括引文内容不规范、引文格式不规范两种形式。引文内容不规范是指具有学术不端动机的引用行为,或引文与被引文献之间没有内在逻辑关联的引用现象,主要包括诱引、匿引、转引、滥引、崇引、曲引等;引文格式不规范则是指引文著录格式错误的现象。其中,大部分引文格式不规范往往在期刊审稿、编校过程中加以修正,而由学术不端动机导致的引文内容不规范行为则相对隐蔽且复杂,很难通过直接观察与主观判断对其识别。
1.2引用不规范行为的识别方法与技术
对于引用著录格式错误的自动识别,学者们从理论分析与自动化识别方法两个层面进行了探索。例如,苏新宁分析了CSSCI数据库中容易出现的几类引文格式错误形式,并提出计算机辅助纠错的思路:Brennan D探讨了各种格式类型的引文字段自动识别与规范化表达,可用于检验参考文献格式的准确性:李军莲等根据参考文献著录标准来分析期刊引文数据的核心特征,并基于决策树方法和准确率指标生成多特征融合的引文不规范数据自动处理模型,实验表明该模型的准确率高达99.72%。
此外,部分研究还基于引文中错误的著录数据及其分布,推断引文复制等引用不规范行为。例如,Simkin M V等将一篇高被引论文的错引记录按其被引频次从高到低排列,构建错误引文的随机分布模型,发现大部分“名著文献”的被引用都是通过中间文献复制的;梁立明等以《Nature》杂志中一篇高被引论文的错引记录为例,通过错引记录的引文传播网络,推断出科学家群体中存在的引文复制与引而不注两种引用不规范行为。综上所述,目前在引文不规范问题的自动化识别领域主要聚焦于引用格式及其信息的识别与校正,而未深入到引文内容不规范问题的识别。
1.3引用不规范行为的政策治理
在引用不规范行为的政策治理领域,学者们大多从原因分析视角提出相应的建议,其中包括相关政策规范的完善、作者的自身意识提高、期刊编辑的审核编校、审稿专家的学术把关等。例如,邓履翔等简述了一种欺诈引用的定义、表现形式、产生原因,并从外部客观环境、编辑、作者和读者等方面给出了防治欺诈引用的建议:王志标认为造成期刊论文引用不规范的原因在于作者研究态度不端正、未建立良好引用习惯、不了解学术规范等,并从作者、学术期刊、作者单位、行业管理部门等主体角度提出相应的治理措施。综上所述,目前在引用不规范问题的政策治理方面,研究者多是从编辑报道与建议视角出发,未深入该行为背后的逻辑及机理,制约了研究的理论深度。
目前学界对于引用不规范行为的研究主要存在以下两个问题:一是仅从编辑报道视角指出一些现象问题与具体实例,未深入引用不规范行为背后的逻辑及机理,制约了研究的理论深度:二是聚焦于错误引用格式及其信息的识别与校正,未深入到情节严重且相对隐蔽的引文内容不规范问题检测。因此,本文将从引用结构角度,探索不规范引用行为的识别方法及其内在生成因素。
2隐形三角引用行为概念与识别方法
2.1概念
在早期的编辑工作中,转引问题便被发现并指出,转引指来源文献的作者由于某种原因没有阅读引文的原文内容,而从其他引用了该篇引文的文献中转录该引文内容的现象。实际上,转引现象在文献引用关系中的体现即为三角引用结构中的间接引用现象。间接三角引用行为的定义为:文献C在未阅读文献A原文的情况下,通过中间文献B中关于A的引文,对文献A施加了间接引用行为,从而在文献A、B、C三者之间产生三角引用关系,间接三角引用行为的示例图如图1所示。
在上述间接三角引用行为发生过程中,会出现两种引用情况:一种是作者在标注引文时,既标注原始文献A,也标注中间文献B;但也有可能只标注原始文献A,而忽略了最先参考的中间文献B。鉴于后一种引用情境,本文将提出一种间接三角引用延伸出的匿引问题,即隐形三角引用结构,如图2所示。科学文献C的作者在阅读中间文献B时,根据文献B中关于A的引文内容对文献A施加引用:然而,文献C作者受到某些社会性因素影响,如为避免抄袭之嫌等主观因素、文献A、B权威度、影响力差距等客观因素,虽采纳、吸收或利用了文献B中的论述、数据或观点,在实际引用中却没有引用最先参考的中间文献B,只引用了文献A。其定义为:科学文献C的作者在未阅读文献A原文的情况下,根据文献B中关于A的引文内容对文献A施加引用;然而,文献C作者受到某些社会性因素或主观心理影响,虽采纳、吸收或利用了文献B,但在实际引用中没有引用中间文献B,只引用了文献A。
上述隐形三角引用行为具有两个比较明确的特征:第一,未阅读原文而转引文献A。第二,参考但未引用文献B。隐形三角引用现象使得引文成分与引用行为更加复杂化,但同时也包含着丰富的科学引用偏好与规律。
其中,间接引用原始文献A,而非亲自阅读的行为动机如下:
●文献C作者力求省力原则,认为他人所引用资料中包含的信息足够完整、足以满足需要,不愿再去核查原始文献的原文。
●文献C作者受数据库权限、资料搜集能力、语言阅读障碍、跨学科知识壁垒等影响,难以寻找到原始文献的全文或无法顺利阅读全文,只能采取间接引用的方式。
参考但未引用中间文献B的行为动机如下:
●文献C作者缺乏严肃认真、实事求是的科学态度,虽采纳或利用了中间文献B,但为了在文中掩人耳目、避免抄袭之嫌,又或为了体现自己论文的创新性、先进性或原创性,故意不引用文献B。
●文献C作者受马太效应影响,写作时倾向于选择引用被认为“重要的”“权威的”文献或期刊来证明自身研究的科学价值与知识联系,并避免引用那些相对“不重要”的文献。在三角引用结构中,原始文献A由于发表时间、科学发现优先权、被引频次累积等方面的优势,往往比中间文献B更具有所谓的“权威度”和“社会认可度”。因此,在二者择其一的情况下,文献C作者倾向于放弃引用中间文献B,只引用文献A。
2.2识别旨标
隐形三角引用行为识别方法与影响因素构建如图3所示。
首先,在文献引文网络中提取可能发生的隐形三角引用关系,步骤如下:
●提取文献B与文献C具有耦合关系的数据,即文献B、C同时引用文献A。
●去掉文献B与文献C之间发生直接引用的数据。
●保证文献B的发表时间早于文献C。
其次,构建以下三项指标测度耦合关系中的隐形三角引用行为。
1)文献使用一引用转化率。WoS数据库平台中论文的使用数量(Usage)是Web of Science平台所有用户访问论文全文链接或保存记录的次数,捕获了用户试图获取全文的各种操作。文献使用一引用的转化率用一篇科学文献的被引频次与使用次数之比计算,表示为CR。若文献所获被引频次用R表示,使用次数用U表示,CR计算公式如式(1):
按照隐形三角引用行为发生的两个情境:引用但未阅读文献A、参考但未引用文献B,本文识别的一组隱形三角引用关系应具有以下特征:文献A的被引频次R应当较大,而使用次数U则偏小,甚至低于被引数量,因此文献A的使用一引用转化率CR(A)较高;而文献B受参考但未引用的影响,表现为使用次数U较大、被引频次R较小,因此文献B的使用一引用转化率CR(B)应相对较低。
2)B-A与C-A引用内容的文本相似度。隐形三角引用结构中,文献C是通过B的引文内容间接引用文献A,那么,最直接、有效的判断方法是通过文本相似度计算,比较文献B引用A的引文内容与文献C引用A的引文内容之间是否相似。
由于传统IF-IDF表示特征向量计算的引用文本相似度区分度较低,本节将调用Nils and Iryna构建的Sentence Transformers预训练模型,计算B-yA与C-A引用内容之间的文本相似度。Sentence Trans-formers模型是一个用于最先进的句子、文本和图像嵌入的Python框架,使用连体和三元网络结构来推导语义上有意义的句子嵌入,并使用余弦相似度进行语义文本相似计算,其在语义文本相似性应用中表现出很好的性能和区分度。此处,将引用内容设定为引用标签所在的完整句子,计算得到耦合关系组中,两两引用文本的内容相似度Sim(B-A,C-A)。Sim(B-A,C-A)值越接近于1,比较的两个引用文本越相似,则认定对应的耦合关系更倾向于发生了隐形三角引用行为。
3)耦合强度。耦合强度是指文献B与文献C中参考文献重合的数量。隐形三角引用情境中,文献C通过文献B的参考文献列表,间接引用文献A。因此,文献C中的参考文献与文献B的参考文献重复数量越多,那么意味着文献C更大概率地将文献B作为中介传输文献,间接引用越多的文献A,此时对应的耦合关系更倾向于发生了隐形三角引用行为。文献B、C的耦合强度用BS(B,C)表不,N(B n C)表示文献B与文献C中参考文献重合的数量,耦合强度计算公式如式(2):
2.3影响因素
从文献数据库平台WOS的全字段记录中提取出6项有效的文献属性特征,用以推断影响隐形三角引用行为发生的情境与偏好,即隐形三角引用行为的影响因素。
最省力法则指出,一个人在面对多种问题的情况下将会争取运用最省事、省力的方法去处理面临的问题,这里的问题不只是当前面临的问题,也包含未来有可能出现的问题,他会尽可能运用最小功力消耗率去解决。间接引用文献A的分析要素包括3项,即文献A、B、C组合在语言、文献类型、学科方面存在怎样的特征,导致文献C间接通过文献B引用文献A:
1)语言差异:在每组文献耦合关系中,文献A、B、C在语言方面的分布特征。
2)文献类型差异:在每组文献耦合关系中,文献A、B、C在文献类型上的分布特征。
3)学科差异:在每组文献耦合关系中,文献A、B、C在学科上的分布特征。
马太效应理论表明,论文自身被引、作者知名度、期刊权威性、发表时长等方面的累积是马太效应在科学研究中的表现,都对论文的关注度和被引量有正向的影响作用。由于作者在其所属研究领域知名度的测量具有一定复杂性和主观性,且无法通过文献来源信息直接获取,本文暂不考虑作者知名度这一变量对隐形三角引用行为的影响。本文选取其他3项变量作为参考但未引用文献B的分析要素,即文献A、B在发表期刊影响力、出版时间、被引影响力方面存在怎样的差异,导致文献C只选择引用文献A、不引用文獻B。
4)期刊影响力:本文用期刊的五年影响因子代表文献所发表期刊水平的高低,在每组文献耦合关系中,测度文献A、B所发表期刊五年影响因子之间存在的差异。
5)发表时间:在每组文献耦合关系中,测度文献A、B发表年份之间的时间跨度特征,以代表文献A、B在科学发现优先权方面的差异。
6)被引影响力:在每组文献耦合关系中.测度文献A、B所获得被引频次之间存在的差异,以代表文献A、B在相关研究领域的相对地位和权威度。
3隐形三角引用行为的识别指标计算
本文以Web of Science数据库作为数据来源:根据WoS学科分类体系,选取医学与生物学、心理学、管理学、化学、物理学、数学、计算机科学、图书情报科学8个学科,并根据文献的被引频次分层抽样;其次,为保证数据样本多样性,文献类型同时包含Article、Review、Proceedings Paper;最后,以40篇样本文献作为原始文献A,获取相关的三角引用关系与隐形三角引用关系文献数据,具体的数据获取与处理过程如图4所示。
其中,三角引用关系的获取是以原始文献A人手,寻找中介文献B和追随文献C,来确定以文献A为原始文献的三角引用数据。具体步骤如下:首先,采集引用文献A的所有施引文献,得到中介文献集合{ B0、B1、B2、…Bi…},即多个“B-A”的引用关系对;其次,分别采集中介文献集合中每个文献B的施引文献;最后,获取A的施引文献与Bi的施引文献中相同的文献,所得到的相同文献就是追随文献集合Ci,即“Ci-A”,同时“C-Bi”。那么,文献A、Bi与集合Ci中的每个文献就组成了三角引用关系。本文通过40篇原始文献A的样本,在引文网络中共获取了6918篇中介文献B、54649篇追随文献C,以及54649条三角引用关系。
隐形三角引用关系的获取同样也是以原始文献A入手,来确定以A为原始文献的隐形三角引用数据。具体步骤如下:首先,将文献A施引文献集合中的文献两两配对,即文献B、C具有耦合关系的数据。通过40篇文献A所获得的15045篇施引文献,本文共得到2990905条耦合关系;其次,隐形三角引用结构中的文献B与文献C不存在直接引用关系,在已获得的2990905条耦合数据集中,删除发生三角引用关系的54649条数据,共剩余2936256条数据:最后,在保证每组隐形三角引用数据中,文献B的发表时间要早于文献C。考虑到文献B、C同一年发表的作者自引或团队自引等问题,去掉文献B与文献C同年发表的耦合关系数据,以及数据记录中没有明确发表时间的文献数据13743条,最终共剩余可供分析的隐形三角引用文献数据共2922513条。
通过2922513组耦合数据中文献A与文献B在WoS平台获得的使用量、引用量(WoS Core),计算得到文献A、B的使用一引用转化率CR(A)、CR(B),统计值的对比结果如表1所示。
根据CR(A)、CR(B)的对比结果,在近300万组耦合数据中,超过七成的文献A使用一引用转化率高于文献B。因此,在一组文献B、C的耦合关系中存在较为普遍的规律,即被引文献A的被引量往往较高,而使用量偏小;相比之下,施引方文献B的被引则较少,被使用较频繁。
根据2922513组耦合数据中文献A与文献B的使用一引用转化率分布,构建散点图,如图5所示。其中,为了更清晰地表示转化率数据的主体分布区域,将CR(A)超过10的极端数值设置为10。可以看到CR(B)在[0,1]区间内的分布最为密集,随着使用一引用转化率增加,其在图5顶部的分布越来越稀疏;而CR(A)在[0,10]区间内的分布则相对比较均匀。
在规范、合理的引用情境下,文献的使用与引用存在一个递进的链式关系,引用文献之前用户必然需要获取和浏览原文内容。因此,被引频次的增加一定伴随浏览、下载等使用次数的增加。那么,在隐形三角引用的不规范引用情境中,文献A受引用但未阅读的影响,此时,理论上文献A的部分引用数据并未伴随相应的浏览、下载等使用行为,而是在未阅读原文情况下进行的间接引用行为,因此文献A的被引频次R大,而使用次数U则偏小,甚至低于被引次数,即CR(A)大于1。同样地,文献B受参考但未被引用的影响,使用次数大于被引次数,即CR(B)小于1。因此,当CR(A)≥1,且同时CR(B) <1时,对应的耦合关系发生隐形三角引用行为的可能性较大。
在2922513条数据中,位于图5右下角区域(同时满足CR(A)≥1且CR(B)<1)的耦合数据共687112条,将用于进一步的隐形三角引用行为识别。其中,文献B或文献CDOI号缺失、无全文记录的耦合数据共108622条,因此,对能够获取全文数据的578490条文献耦合数据进行引文内容相似度与耦合强度分析。
在耦合强度计算中,由于文献B、C本身具有耦合关系,因此耦合强度BS(BC)的最小值为1。在引文内容相似度计算中,由于文献B、C涉及多种语言,文献B、C的跨语言文本相似度计算使用了Google机器翻译工具,将非英文的源语言翻译为目标语言英语,再使用单语言的文本相似度算法进行计算。最后,根据耦合强度BS(BC)、引用内容相似度Sim(B-A,C-A)的计算结果构建三维气泡图,如图6所示。其中,横坐标表示耦合强度值,纵坐标表示两两引用内容的文本相似度值,气泡大小表示对应位置的耦合关系数量。
在耦合强度与引文内容相似度分布图中,当耦合强度高于3时,引文内容相似度的变化最为明显:随着相似度增加,气泡的分布越大,且越密集。此时,耦合关系大部分分布在Sim(B-A,C-A)≥0.5区域内。而当耦合强度在1~2之间时,引文内容相似度主要分布在0.5~0.6区间内,明显低于耦合强度超过3时的引文内容相似度。因此,在耦合关系中,文献B与C的耦合强度越大,两者同时引用文献A的引文内容相似度就越高。
耦合强度越高,意味着文献B与C之间虽然没有实际的引用关系,但两者具有密切的隐性关系,文献C在一定概率上参考了文献B中较多的参考文献。而B-A与C-A之间引文内容相似度较高,意味着在很大程度上文献C参考了文献B中关于A的引文内容,进行了转引行为。因此,在图6右上角的气泡高密集区,即耦合强度BS在3以上,同时B-A与C-A的引文内容相似度超过0.5,该耦合关系在很大概率上发生隐形三角引用行为。文献A的被引用量大于使用量、文献B的被使用量大于被引量、文献B与文献C高耦合强度与高引文内容相似度一致等特征,也进一步佐证了隐形三角引用现象在科学界的广泛、真实存在。
4隐形三角引用行为的影响因素分析
4.1间接引用行为的影响因素分析
结合三角引用行为的特征识别结果,从耦合关系中文献A、B、C的语言差异、文献类型差异、学科差异层面,对隐形三角引用结构的间接引用行为进行引用语境与影响因素分析。间接引用行为在文献特征上的表现:文献A收获的被引量较大,而使用量偏小:文献B与文献C的参考文献重复(耦合强度)较多;文献B与C引用文献A的引文内容相似度较高。
因此,根据CR(A)、CR(B)的识别结果,首先,将2922513組耦合关系分为4个数据集合:CR(A)<1且CR(B)<1、CR(A)<1且CR(B)≥1、CR(A)≥1且CR(B)<1、CR(A)≥1且CR(B)≥1;根据文献B与C耦合强度的计算结果,将578490条文献耦合关系分为两个数据集合:BS≤2、BS≥3:根据文献B与C同时引用文献A的文本相似度计算结果,将578490条文献耦合关系分为两个数据集合:Sim<0.5、Sim≥0.5。其次,根据耦合关系中文献A、B、C的语言类型、文献类型、学科领域,划分为ABC相同、AB相同、BC相同、AC相同、ABC不同五种特征分布类型。最后,分别计算A-B-C不同特征分布类型在以上8个数据集合中的数量及比例。其中,语言差异情境下的特征分布情况如图7所示,文献类型差异下的特征分布如图8所示,学科差异下的特征分布如图9所示。
1)语言差异:在图7中,95%以上的耦合关系A-B-C语言相同,而A、B、C均属于不同语言的耦合数据则最少,这来源于WoS平台的收录文献主要以英语为主,且在非英语母语国家,英语仍作为科学交流、科学文献撰写的主流语言。
对比具有语言差异的文献耦合数据,在以引文内容相似度分类的两个数据集合中,BC语言相同情境下的分布比例对比较为明显:Sim≥0.5的比例超过了Sim<0.5的5倍之多。同样,在以耦合强度分类的两个集合中,BC语言相同的情境下对比同样最为明显,BS≥3的比例(0.151%)远远高于BS≤2(0.008%);此外,ABC语言均不同的比例也具有较大差异,BS≥3时的比例(0.175%)远远高于BS≤2(0.013%)。而以使用一引用转化率分类的4个数据集中.BC语言相同这一情境在CR(A)<1且CR(B)≥1的耦合数据中没有出现,而在其余3种数据集的分布比例变化不大。因此,根据以上引文内容相似度与耦合强度两个对比结果,文献B、C语言相同、但与文献A不同的语言特征倾向于发生在耦合强度与引文内容相似度均较高的隐形三角引用结构中,与文献A的语言差异是追随文献C施加间接引用行为的一个重要影响因素。
2)文献类型差异:在图8文献类型差异情境下的三角引用特征分布中,除了CR(A)<1的两个数据集之外,A、B、C文献类型相同的耦合关系在其他6个数据集中仍占据60%以上的主要比例。统计2922513条文献耦合关系中文献A、B、C的文献类型,如表2所示。
在表2中,大部分文献类型为Article、Review,因此在A-B-C的文献类型组合中,三者文献类型相同的情况占据主要比重。在文献类型不一致的耦合数据中,与语言情境下的对比结果相似,BC文献类型相同在耦合强度与引文内容相似度分类集合中的差异最为显著:在Sim≥0.5与BS≥3数据集合中的比例均明显超出了Sim<0.5与BS≤2。其中,Sim≥0.5中的分布比例(4.438%)高于Sim<0.5(10.613%)的两倍;在BS≥3中的分布比例(12.534%)也明显超出了BS≤2(7.639%)。而其他4种文献类型结构(ABC相同、AB相同、AC相同、ABC均不同)在上述几个数据集中的分布则比较稳定,并没有表现出明显差异。因此,在隐形三角引用结构中,根据以上引文内容相似度与耦合强度两个数据集的对比结果,A、B、C的文献类型差异是追随文献C施加间接引用行为的影响因素。
3)学科领域差异:在学科情境下的8组耦合数据集对比中,BC学科相同在BS≥3与Sim≥0.5两个数据集中所占比例最高,分别为16. 512%、7.704%。此外,在CR(A)≥1的两个数据集合中,BC学科相同所占比例也明显高于CR(A) <1时。因此,在CR(A)、BS(BC)、Sim(B-A,C-A)较高的隐形三角引用结构中,更容易发生文献B、C学科相同,但与文献A不同的跨学科引用现象。同时,与文献A的学科差异是追随文献C施加间接引用行为的一个显著影响因素。
美国语言学家Zipf最早提出省力法则:人们总希望以最小的付出得到最大的收获,一切有目的的行为总是追求“省力”“偷懒”。综合语言、文献类型、学科特征的分析结果,在隐形三角引用结构中,文献C会受到跨语言、跨文献类型、跨学科等因素的影响,不负责任地间接从文献B的引文内容中转引文献A,从而体现出B-A与C-A引文内容相似度较高、文献B与文献C参考文献重复较多等特征。具体引用情境为:追随文献C作者受到文献A跨语言、跨文献类型、跨學科等壁垒,无法获取原始文献,或为了省力不愿查找和阅读原文,但为了增加参考文献丰富度、“装饰门面”等,在阅读与其相同语言、相同文献类型或相同学科的文献B时,产生惰性引用心理,倾向于从文献B的引文中直接转引文献A,从而对文献A施加间接引用。
4.2匿引行为的影响因素分析
从耦合关系中文献A、B所在期刊影响力、发表时间间隔、被引影响力3个方面,对隐形三角引用行为中参考但未引用文献B的匿引行为进行引用语境分析,仅引用A、未引用B的匿引行为在文献特征上的表现是:文献B收获的被引量较少,而使用量较大;相反,文献A的被引量则较大,使用量偏小。因此,根据CR(A)、CR(B)的计算结果,比较在CR(A)<1且CR(B)<1、CR(A) <1且CR(B)≥1、CR(A)≥1且CR(B)<1、CR(A)≥1且CR(B)≥1的4个数据集合中,文献A、B在期刊影响因子、发表时间、被引频次3个角度的差异。
1)期刊影响力差异。首先,计算文献A、B发表期刊的影响因子差距对匿引行为的影响。去掉非期刊类型的文献,以及未被收录、无影响因子的文献数据后,共剩余2598600条文献耦合数据。分别统计文献A、B所在期刊的5年影响因子,并计算IF(A) -IF(B)。图10显示了不同的影响因子之差在4个耦合数据集中所占比例。
在图10的特征分布中,对比以使用一引用转化率分类的4个数据集合,CR(A)≥1且CR(B)<1数据集中的影响因子之差分布最为集中,主要分布在-4~50范围内。相比之下,在-8~-90的较大负值范围内,CR(A)≥1且CR(B) <1的数量微乎其微,而其他3个数据集合在该区域均占有一定比例。因此,对于CR(A)≥1且CR(B)<1的耦合数据,文献A与文献B的影响因子之差明显主要分布在正值区域内,即文献A所在期刊的影响因子一般高于文献B。
通常情况下,期刊声望越高,文章质量就越好,学界认可度也越强。对于研究主题与研究内容相似的论文,作者会更倾向于引用发表在权威度较高期刊上的论文。基于CR(A)≥1且CR(B)<1的期刊影响因子分布,可以看到隐形三角引用结构中的文献C作者,在文献A、B二者择其一的情况下,更倾向于选择引用期刊影响力与权威度更高的文献A,在实际引用中往往忽略所在期刊影响力相对较低的文献B,从而出现文献A的被引量甚至高于其使用量(CR(A)≥1),文献B收获的被引频次远远低于其应有的被引量(CR(B)<1)这一现象。在隐形三角引用结构中,文献A、B所发表期刊的影响力差异是施引作者C选择匿引文献B的重要影响因素。
2)发表时间差异。其次,计算文献A、B发表时间间隔,以分析文献发表优先权对匿引行为的影响。分别统计2 922 5 13条耦合数据中文献A、B的发表年份,并计算year(B)-year(A)。图11显示了不同发表时间差在4个耦合数据集中所占的比例。
从文献A、B发表时间角度可以发现,在以使用一引用转化率分类的4个耦合数据集合中,CR(A)≥1且CR(B)<1明显与其他3组数据集的分布范围不同。对于CR(A) <1且CR(B) <1、CR(A)<1且CR(B)≥1、CR(A)≥1且CR(B)≥1这3个数据集合,随着时间差year(B)-year(A)增大,对应的耦合数据所占比例明显随之减少:相反,CR(A)≥1且CR(B) <1的时间差随时间变化明显比较稳定,在2~12年里的分布比例几乎一致。其次,从极端值看,在文献A早于文献B发表20年以上的数据中,基本是CR(A)≥1且CR(B)<1的耦合关系,甚至还有部分文献A发表在文献B之前47年之久。因此,当文献耦合结构中CR(A)≥1且CR(B)<1时,文献A的发表时间一般要远远早于文献B,而在其他使用一引用转化率情况中,文献A与文献B的发表时间间隔相对较小。
因此,在隐形三角引用结构中,文献A、B的出版时间差距是施引作者C选择匿引文献B的重要影响因素。考虑到文献A在相关研究领域的相对领先地位、发表优先权等,追随文献C更倾向于引用发表时间较早、较年长的文献A,而不引用发表时间相对较近、较年轻的文献B,从而导致文献A的被引量甚至高于其使用量(CR(A)≥1),而文献B收获的被引频次远远低于其应有的被引量(CR(B)<1)。
3)自身被引影响力。论文所获被引频次在一定程度上反映了论文在该研究领域的影响力或地位,计算文献A、B所获被引频次的差距,以分析文献A、B自身影响力对匿引行为的影响。分别统计2922513条耦合数据中文献A、B的被引频次,并计算C(A)-C(B),图12显示了不同的被引差在4个耦合数据集中所占比例。
在被引频次差异情境下,耦合数据集CR(A)≥1且CR(B)<1仍表现出与期刊影响力、发表时间等类似的特征。在以使用一引用转化率分类的4组数据集中,CR(A)≥1且CR(B) <1的被引频次之差主要分布在200~700区间内;相反,在文献B被引频次大于文献A的左侧负值区域内,几乎没有CR(A)≥1且CR(B) <1的耦合数据,而其他3种数据集(CR(A)<1且CR(B) <1、CR(A) <1且CR(B)≥1、CR(A)≥1且CR(B)≥1)在负值区域内均有明显的一定比例分布。因此,当文献耦合结构中CR(A)≥1且CR(B)<1时,文献A的被引影响力一般远远高于文献B。
在隐形三角引用结构中,文献A、B的被引频次大小及其差距是追随文献C选择匿引文献B的重要影响因素。Price D J S曾指出:一篇经常被引用的论文比一篇很少被引用的论文更容易再次被引用。考虑到文献A在相关研究领域的影响力、权威度等,追随文献C作者更倾向于引用被引频次较高的文献A,而忽略被引较少的中间文献B,从而导致文献A的被引量甚至高于其使用量(CR(A)≥1),而文献B收获的被引频次远远低于其应有的被引量(CR(B)<1)。
综上所述,在隐形三角引用行为中,由期刊影响力差异、发表时间差异、自身被引影响力差异导致的匿引文献B现象在科学文献引用中真实且广泛存在。科学文献引用中的马太效应指出,作者通常具有崇拜学术权威和学术名望的社会心理,引用动机会受到社会因素和主观意识的影响。为了達到说服和被认可的目的,学者们在论文撰写过程中,更倾向于引用被认为具有“权威性”的文献,如著名期刊、著名学者、著名文献等,而不管被引文献在研究内容上与自己的论文是否实质性相关。追随文献C在阅读文献B时,通过文献B中关于A的引文内容对文献A施加引用,即表现为三角引用结构:但文献C会受到文献A与文献B期刊影响力差异、发表时间间隔差异、自身被引影响力差异等影响,在引用过程中往往忽略期刊影响力较差、发表时间较晚或被引频次较低的文献B,只引用相对更“权威”的文献A,从而在引文网络中表现为文献B、C同时引用文献A的耦合关系,即隐形三角引用结构。
5结语
文献的不当引用是一个长期、复杂且相对隐蔽的现象,既属于学术道德问题,又属于学术规范问题。学界针对科学文献引用相关问题已进行了大量的研究,但很少有人关注不合理的参考文献引用对学术论文价值造成的不良影响。本文通过大规模的文献数据对隐形三角引用行为进行有效识别,并尝试结合相关文献特征,挖掘这种不合理引用背后的引用动机与情境。
首先,在隐形三角引用行为识别中,虽然文献B与C之间未有直接的引用关系与关联,但本文结合使用一引用转化率、耦合强度、引文内容相似度等多维度判定指标,从近300万组文献耦合数据中层层筛选,发现了39276条隐形三角引用行为。其中,引用动机、引用行为的识别均建立在理想化的前提和推断之上,部分数据可能带有判断误差,但通过大规模的数据表现出的特征规律及多个判定指标综合的识别结果,足以表征隐形三角引用行为在科学文献引用中的真实且普遍存在。
其次,在隐形三角引用行为的引用情境分析中,由文献语言、文献类型、所属学科领域影响的转引行为是真实存在的,由文献A、B所在期刊影响力、自身影响力、发表时间差异影响的匿引行为也真实存在。虽然,转引行为与匿引行为中作者刻意的主观性动机无法通过文献来源信息间接判断,但由文献特征等客观因素导致的引用动机则可以通过大规模数据表征出来,并足以表征隐形三角引用这种不规范引用现象存在的必然性。
因此,在进行引文分析与评价时,可以通过技术手段提前识别、并排除这些引文相似度较高的不规范引用,以增强引文分析的可靠性。广大科学界学者、期刊应共同重视引文不当问题的紧迫性和重要性,逐步推出针对不当引用行为的监督、奖励机制,鼓励广大学者发现、修正间接引用、引而不标注、匿引等不合理引用问题。在国家、相关机构组织等层面,要高度重视文献情报的管理工作,加强智力投资,建立健全各种类型科研文献、科研成果的全文存储与开放获取平台,尽可能为学者提供多语言、多种文献类型的文献资源全文,以避免作者因获取、借阅不到原始文献而进行间接三角引用、隐形三角引用等行为。对于期刊编审人员,应重视参考文献的规范化著录,对参考文献引用是否得当及准确性提出意见,提高文献引用的科学性与真实性。对存在严重虚假引用、错误引用或不规范引用的稿件严肃处理或不予录用。在作者层面,作者自身也要提高对参考文献重要性的认识,重视参考文献的选择和著录。论文所引用的参考文献应限于作者亲自阅读过的、与论文有密切联系的文献:在无法查到原始文献、只能间接引用的情况下,应采用脚注的方式注明引文出处,消除转引对引文分析结果的影响。同时,作者不应将参考文献的数量、语种、来源期刊、来源机构等作为权衡论文质量唯一或过于重要的标准,无论参考文献是出自“名家之手”还是出自“无名小卒”,均应出于对前人研究成果的尊重而如实地在论文中予以标识,并在文后参考文献中著录。