基于文本相似度分析的期刊引文有效性识别研究

2018-01-07 09:41鞠秀芳
现代情报 2018年11期

鞠秀芳

〔摘要〕真实性、准确性、直接性与完整性是引用参考文献的首要准则,然而种种研究表明,当前的研究论著中引而不注、过度引用、模糊标注甚至虚假引用等不当引用行为日渐增多,这极大地影响了科学研究领域的学术风气,给读者阅读、期刊审稿及成果评定等工作带来了许多不便。本文利用文本相似度算法建立期刊引文有效性识别方法,试图从海量期刊引文数据中识别出期刊引文的真实有效性。实验表明,本文的期刊引文有效性识别方法在引文有效性方面实现了较好的识别效果,可为虚假引文的识别工作提供可靠的依据,从而为编辑人员发现、 修正虚假引用问题提供帮助,彰显科学研究的严谨务实精神。

〔关键词〕文本相似度;虚假引文;引文有效性;向量空间模型

DOI:10.3969/j.issn.1008-0821.2018.11.003

〔中图分类号〕G250252〔文献标识码〕A〔文章编号〕1008-0821(2018)11-0014-04

Research on Identification of Journal Citation Validity

Based on Text Similarity AnalysisJu Xiufang

(Institute for Chinese Social Sciences Research and Assessment,Nanjing University,Nanjing 210093,China)

〔Abstract〕Truth,accuracy,directness and completeness are the primary criteria for citing references.However,various studies have shown that miscitations such as omission,excessive citation,fuzzy labeling and even false citation in current research works are becoming more and more normal,which have greatly affected the academic atmosphere in the field of scientific research.Peoples reading,periodical review and evaluation of results have brought a lot of inconvenience.In this paper,the text similarity algorithm was used to establish a method to identify the validity of periodical citations,trying to identify the true validity of periodical citations from a large number of periodical citation data.Experiments showed that this method achieved a good recognition effect on Citation validity,and provided a reliable basis for the identification of false citations,thus providing help for editors to find and correct false citations,and highlighting the rigorous and pragmatic spirit of scientific research.

〔Key words〕text similarity;false citation;citation validity;vector space model

一般來说,真实性、准确性、直接性与完整性是引用参考文献的基本要求。随着引文分析法在论文评价、期刊评价、科学家评价、学科评价、科研绩效评价和科技竞争力评价等各个领域的广泛应用,参考文献正慢慢脱离“展示科学研究的继承性”这一初衷,越来越多地受到作者、编辑、机构等多方面的人为影响,种种不当引用行为日渐增多[1]。王立宏等认为学术不端行为(抄袭、剽窃、诱引、匿引、转引、滥引、崇引、引而不标)和引用不当行为(过度引用、错标、误标、引用时差)是不当引用的两大主要表现形式[2];金铁成认为期刊编辑同样存在引文失范行为,共有6类行为:学术论文文后没有引文、学术期刊编辑随意删减作者的引文、限制论文的引文数量、文中不标注引文编号、期刊过度自引、期刊互惠引用等[3]。种种不当的引用行为极大地影响了科学研究领域的学术风气,给读者阅读、期刊审稿及成果评定等工作带来了许多不便。其中,虚假引用无论是从引文质量还是学术影响上更是首当其冲,对学者、期刊、管理者造成了多方面不良的影响。如何从数量巨大、类型复杂的期刊引文数据中识别出期刊引文的真实有效性,为学术研究正本清源,彰显科学研究的严谨务实精神,是当前引文分析研究领域急需解决的问题之一。

在情报检索和信息处理中,面对海量的非结构化的学术论文,关键技术之一就是文本内容的相似度计算技术。文本相似度的计算是各应用领域(如搜索引擎、新闻推送、文本聚类与分类、网页查重、机器翻译、自动问答系统等)处理自然语言的关键技术之一,也是信息处理领域的热点和难点,受到了广大研究领域的高度重视。本文针对虚假引用现象,利用文本相似度算法深入论文内容研究,尝试从海量文献中识别出期刊引文的真实有效性。

2018年11月第38卷第11期现代情报Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于文本相似度分析的期刊引文有效性识别研究Nov.,2018Vol38No111引文有效性的定义及分析

引文引用是否有效的核心是施引论文中的观点是否真实有效的出现在被引文献之中。一般来说,引用参考文献通常有4种情况:

1)引用有历史背景和意义的文献;

2)引用实验中的方法;

3)引用支持性或批判性的证据;

4)引用相关文献用于比较。

科研工作者出于上述目的在引用他人的概念、数据、观点时出于表达的需要,通常有直接引用、间接引用、转引以及隐含引用几种情况。

无论哪种引用目的、哪种引用方式,参考文献的观点、数据、表述需要真实有效的出现在施引文献中,方可判定引文是有效引用。鉴于参考文献表明了科学研究的某种继承性,本文认为在施引文献和参考文献之间天然存在相关性,但一般情况下两者之间并不存在上下关系、同义关系或整体——部分等相关关系,施引文献和参考文献的整体相关性并不高。施引文献和参考文献两者相关只是因为施引文献引用了参考文献中的部分内容、观点或数据,即参考文献被引用的内容和施引文献中引用的内容具有相似性。一般来说,直接引用的内容相似性高,间接引用或转引的内容相似性略低。因此本文认为,如施引文献中引用的文字内容与参考文献中的某段表述、数据、观点具有相似性,则称为引文有效,否则则称为引文无效。对引文有效性的识别可用参考文献与施引文献引用的文本内容的相似性程度进行度量。

2文本相似度计算

一般来说,相关文本的两个或多个变量之间存在以下依存关系:上下关系、同义关系、反义关系、整体——部分关系,主体——属性关系等,反映出文本变量之间的关联。相似文本的变量之间则一般表现为同义关系、上下关系、整体——部分关系。

由于应用场景以及需要解决问题、达成目标的差异性,学界对文本相似度尚没有统一定义。本文认为文本相似度分析是指对两个给定的文本通过词汇、语句、段落进行比较,判定两者的差异,从而确定文本的相似程度,通常用[0,1]之间的某个数值进行度量。相似性越强,数值越接近1(意味着比较的文本完全相同);相似性越弱,数值越接近0(意味着比较的文本完全不同)。Lin D在文獻An Information-theoretic Definition of Similarity中给出了相似度定理[4]:

Sim(A,B)=logP(common(A,B))logP(desctription(A,B))(1)

common(A,B)是比较文本A、B的共性部分,description(A,B)是比较文本A、B的全部信息。此定义由于其通用性,是在多种应用领域下采用较多的概念。

国内外研究人员针对不同应用提出了诸多相似度计算方法并已成功应用。目前已有的可用于文本相似度计算的有向量空间模型(Vector Space Model)、布尔模型、隐含语义标引(Latent Semantic Index)模型、P-normal模型、字符串匹配模型、概率模型等文本表示模型。这些模型运用数学的语言和工具对文本信息及其处理过程加以翻译和抽象,解决文本相似度计算中的文本表示、特征加权和相似度计算问题。其中Salton等于20世纪60年代末提出的向量空间模型VSM(Vector Space Model)是目前最有效的文本结构化表示模型,已经被广泛用于文本检索、自动文摘、自动分类、机器翻译、舆情控制等领域。VSM认为词与词之间是独立的,文本表达的意义与词语在文中出现的顺序与位置没有关联,仅与词语出现的次数有关。如参考文献A可以看成是由词语(a1,a2,a3,…,an)构成,每一个词语ai的权重Wi就是n维坐标所对应的坐标值,由此参考文献A可以用一个n维的文本向量空间表示。对于解决文本的相似度问题VSM有很强的可计算性和可操作性,是本文进行相似度计算的主要方法[5]。

3期刊引文有效性识别方法与实现

对引文有效性的识别即对引用内容与参考文献内容相似度的计算。本文的引文有效性识别方法主要分成3步:文本表示,特征词权重确定,相似度计算。

31参考文献的文本表示

文本表示是指从参考文献和引用内容中抽取出能体现参考文献主要内容的特征词,以形成参考文献的向量表示,包括参考文献和施引文献引用的内容部分,主要解决抽取什么特征向量和抽取多少特征项量的问题。

期刊论文是人类自然语言的文本表示,属于非结构化信息。为了便于计算机处理论文信息,需要将论文进行预处理,即将非结构化的论文信息转化为能够被计算机直接处理的结构化文本信息,通常有分词和去停用词两个步骤。

分词就是将待比较的论文切割成单个的词,并根据词性进行标注。目前常用的汉语分词系统有:ICTCLAS分词系统、HTTPCWS、SCWS——简易中文分词系统、PhpanAlysis、盘古分词、MMSEG4J无组件分词系统以及中国科学院的NLPIR中文分词系统。NLPIR中文分词系统可以基于信息交叉熵自动发现新特征语言,从较长的文本内容中自适应测试语料的语言概率分布模型,实现自适应分词,在本文的期刊引文识别方法中分词效果最好,是本文主要使用的分词方法[6]。

文本预处理的第二步是去停用词。所谓停用词是指出现频率较高但实际意义不大的词,包括连词、叹词、语气词等没有实际意义的功能词以及地名、人名等词汇词。去除、过滤停用词可以有效降低文本相似度计算的误差,提高计算效率并节省存储空间。目前使用的停用词都是根据人类经验非自动化生成的,由此汇集而成停用词表,目前尚没有普遍应用的通用停用词表工具。已有停用词表包括哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等。

考虑到引文有效性识别过程中涉及的参考文献词汇量比较大,如果将文本预处理之后的每个词语都作为特征项,必然出现维度非常高的情形。为了提高计算计算效率,本文需要对特征项进行降维处理。传统VSM无法回避同义词、多义词现象,需要对这些原始词进行“合成”,使用SVD对原始的文本向量组成的矩阵分解以实现将原来的向量转换成新的向量,从而消除词的同义性和多义性对表征文本从而导致计算效果不佳的影响。图1期刊引文有效性识别文本表示模块