基于引文上下文分析的文献排序方法研究

2017-05-31 06:30汪琦凡魏杨烨
软件导刊 2017年5期

汪琦凡 魏杨烨

摘要摘要:基于全文的信息检索技术很难准确进行主题识别,无法识别文章的重要性。利用引文上下文语义构建一个引文网络可达到提升检索效率和效果的目的。通过分析引文上下文,将相关文献排序,从而确定重要文献。引文上下文包含的语词如果与目标语词相关,那么就在两篇文献之间创建一个有向且赋予权重的边,然后在这个由不同边构成的网络里用相关的排序算法找出重要文献。该排序方法可通过给定检索语词找出重要文献,即便检索出的文章中不含有既定检索词也同样成立,极大增加了文献检索的查全率和查准率。

关键词关键词:引文分析;引文网络;文献排序

DOIDOI:10.11907/rjdk.171127

中图分类号:TP391

文献标识码:A文章编号文章编号:16727800(2017)005014603

0引言

研究人员在某个知识领域进行主题学习之前,需要充分掌握有关该主题的相关知识,找出该领域的核心文献,引文索引是一个非常有用的导航检索工具。有些引文索引系统提供了检索全文的平台,而有些引文索引可在不需要获得全文的情况下检索相关文献。引文充分反映了某一篇文献被引次数的情况,而引用次数排名靠前的文章,在一定程度上代表了这个领域的研究进展,可用来评估文献的重要性。

引文索引是一个通过全盘扫描文献的过程,是根据学科领域主题找到重要文章的方法。文献文本中包含大量与主题不相关的文字,这些文字可能会在例子中,或者在反证里使用,使用全文检索方法会有各种各样的问题。例如用信息检索工具检索文章,文本中某个章节里包含“癌症”一词,结果所有文本中出现了“癌症”的语词都会被检索出来,虽然这个词与文章的主要论点不怎么相关。因此,检索工具无法帮助我们确定哪一篇文献是主题最相关的文献。

引文还可以测量某一篇文献的影响。一个以文章为节点形成引文网络,如果文献i包含有文献j的引文,就可以将文献i与文献j用线连接在一起,然后根据点入度(例如引用数量)来给检索出来的文章加权排序,从而形成一个引文网络,该网络可以通过文献集合来确定其中最重要的文献。

引文上下文是围绕在参考文献附近用来参考其它科学文献的文本[1]。引文上下文是确认一篇文献主要研究意义的重要方法,因为作者是通过简明扼要的引文来参考其他人的文献。文章越是被相同的语词引用,就表示这篇文章在这个主题领域里越重要。

引文上下文通常是由特定且被定义的文字组成。绝大多数情况下,引文上下文是对被引文献的一个高度概括。换言之,引文上下文即是表征被引文献的关键语词。引文上下文分析提供了在没有获取全文的情况下,也可以去推论被引文献主要观点的方法。

引文上下文对于文献的撰写十分重要,体现后来研究者对前人工作的借鉴与认可,为文献与文献之间建立了一条知识纽带[2]。

本文根据论文主题词找出重要文章,使用从引文上下文中提取语词来创建上下文语境的引文网络。在这个网络中基于Schwartz等[3]所提出的网络分析方法,找到最重要的文章。

文本内容相似性也可以提高文献检索的准确度和效率[4]。如果有两个密切相关的概念C1和C2,可能一篇文章一直在谈论C1而从未提及C2。如果全文检索,C2是不会被检索出来的。

1相关工作

1.1引文上下文

S.Bradshaw[5]提出文档索引模型(Reference Directed Indexing,RDI),RDI模型的原理是:抽取引用句里的语词作为检索式,然后对文档进行标引。该模型采用一个固定的窗口——引文上下文两侧约50~100字。然后根据引文创建一个索引词表。当某些语词频繁出现,RDI值就会增加。创建完所有的索引数据集后,对给定的查询检索式,RDI会首先检查它包含查询的所有语词在其索引列表中的文章,然后根据RDI值进行排列。最后在檢索排名前十的文章里,检查有多少篇是基于RDI模型返回的相关文献,并将其与全文检索方法对比。

文献之间的连接关系不仅存在于科学文献中,而且大量存在于网页中。Ritchie等[6]探讨了网络和科学文献之间的相似性,指出超链接不能完全类比引文,因为超链接的数量很多,论文的引用数却以某种方式存在限制,它们各不相同。Aljaber等[1]也在网页和科学引文之间找到了一些相似性。

引文上下文还可以用来概括文章。Radev等[7]使用ngram模型从引文上下文数据集中提取关键语词,然后用这些关键短语构建摘要。还有些学者会将科技文献的引文根据文章的概念性、可操作性、组织性、革命性等进行分类[8]。

Aljaber等[1]对如何确定引文上下文以及如何将引文上下文与相关的引文匹配,采用了一个简单而有效的方法——将预定窗口大小里引文周围的语词作为数据。他们尝试了不同的窗口大小,发现有50个字引文的窗口是文档聚类最佳的引文上下文大小。

1.2网络生成

构建网络方式多样。Kessler[9]提出文献耦合假设,该假设认为相似的文献大多有着类似的参考文献。如果两篇文章引用了同一篇文献,那么两篇文章是耦合的。此时,可以在拥有相同引文数量的两篇文献之间创建一个无向加权边,从而构建相应网络。

另外从文章出发构建网络的方法则是使用共引分析。文章A和文章B的共引数量就是共同引用了A和B的文章数量[10]。该方法假设相似的文章被同时引用的频率很大。Gipp等[11]对共引分析进行了扩展——共引相似性分析(Cocitation Proximity Analysis ,CPA)。

2引文分析排序方法

2.1相关理论

被大量引用且与主题相关的文献通常是该领域内的种子文献,所以被引数量越大意味着该文献越重要。

引用某一篇文献可能存在很多动机:它可能是题外话,也可能是批评而不是赞同,由此很难自动确定引文上下文的意图[12]。但是总的来说,一篇文章被许多文章用相同的语词引用,那么它会在这语词区域内得到一种集中确认,可从累积的引证文献中抽取出被引文献的语义部分。

按照前人总结出来的方法来定义引文上下文语词,采用固定大小的窗口来确定引文上下文[5]。

在所有文章的引文上下文里,将每个双字词组作为定义语词。例如,如果有3篇文章被引用到一个引文上下文里,我们就会提取上下文中每一个双字词组来作为这3篇文章的定义语词,这更容易从引文上下文里抽取有意义的语词。单字词的抽取方法会造成很多同义词问题,例如,“social network”是一个专有名词,但是拆开之后,“social”和“network”会涉及到更加宽泛的定义。

2.2引文网络

引用上下文是围绕引文标记的文本。这个文本的范围可以定义为句子、词或者字符。从引证文献到被引文献之间创建一个有向边,从而构建一个引文网络,就是所谓的有向图。

一个引文网络里的边所承载的信息比一个单纯的二元关系要多。可从引文上下文里提取语词,也就是一个单词或者一个组词,而这些词正是作者用来解释引文的。

A为所有文章的集合,然后用小写的拉丁字母来代替A中的文章,例如i,j∈A。让T成为A文章集合中所有的元素。为了区别,使用小写的希腊字母来表示T集合中的元素,例如β,τ∈T。

一个以元素标记的网络记成G(A,C),这个网络是一个边集有向图C=A×A,当文章i引用文章j,那么(i,j) ∈C。边(i,j) ∈C 被记成Ti,jT,其中Ti,j是所有出现在文章i到文章j的引文上下文中最新的元素。Ti,j可在相同的引文上下文中出现多次。当然,如果文章i和文章j没有引文,也可能出现Ti,j,或引文上下文的集合中没有任何元素。

根据某一个元素去获取一个引文上下文的网络,即β∈T称为一个元素。那么子图G(A,C)中的Gβ(A,Cβ)就称为引文网络。在元素β中,Cβ∈C,并且如果β∈Ti,j,那么(i,j)∈Cβ。于是,就可运行这个网络标准的排名算法,找到这个元素的重要文献。

图1的例子是由6篇文章组成的一个引文上下文网络,与之对应的元素标记引文网络A={a1,a2,…,a6}和图2中给出的T={τ1,τ2,…,τ6}。引文网络中的元素τ1和τ4也都在图2中相应给出。

2.3语词相似性

一个语词一般不足以完整识别一篇文献所包含的所有主题,因为仅仅只是用一个单词传达信息时会有噪音存在,如同义词等。本文方法是在文档检索过程中使用相似语词,即如果两个词在相当数量的引文中出现,那么这两个词就认定是相似的。为了定义语词的相似性,本文还用到以下方法。

词频是语词-文档矩阵方法中一个重要概念,记作F=[fβj],其中fβj是引文上下文中用语词β引用文章j的文章数量。也就是说,fβj是在引文网络Gβ中文章j的引用次数。F实质上是从文章节点和词节点之间的无向加权二分网络中抽取出来的。例如,图2中的一个二分网络,f是词项文档矩阵。

使用简单的词频方法存在一定问题:除了少数几个词外,几乎所有的词会被看作同等重要。例如,文章集合中的“癌症”一词,可能几乎所有的引文上下文中都会有“癌症”这个词,所以需要缩小在引文上下文中出现的语词权重。原则上,减少语词频次权重正是因为该语词在引文上下文里的频繁出现。Term-frequency-inverse document frequency(tf-idf)就是解决此问题的一种统计方法[13]。这种方法广泛运用于信息检索和文本挖掘中,它表现了一篇文档中一个语词对于文档的重要性。语词β的逆向文档频率定义如下:

idf(β)=log|A|[]j∈Asgn(fβj)(1)

其中sgn(x)被如下函数定义:

sgn(x)=1,x>0,0,x=0,-1,x<0.(2)

显然,x<0不會考虑在内。

定义权重语词文档矩阵N=[nβj],N=D×F,其中D=[dτβ],它是一个|T|×|T|的对角矩阵:

dβτ=idf(β),t=β,0,otherwise(3)

然后让β和τ成为语词β和语词τ对应的行向量。B和τ的代入显示了文章数据集里的语词β和语词τ的权重语词频率。如果想知道这些语词在文章中重复了多少,只需要对比行向量β和τ即可。出于这个目的,采用样本中β和τ的皮尔逊相关系数pβ。

其中是向量x的词的平均数。样本皮尔逊相关系数与样本x和样本y对应,给定一个-1~1的值。一个为1的值意味着用一个线性方程来描述x与y之间的关系,所有的数据点都在一条x增加y就增加的线上。而数值为-1则代表所有的数据点在一条x增加y就减少的线上。这和数据没有关系,因为给语词τ和语词β赋值-1,就不得不让它们相互补充。

最终,定义语词的相似性。如果pβτ<δ,且0<δ<1,就认为语词τ与语词β相似。

2.4相似语词集合的引文网络

给定语词β,相似的集合就为Sβ={T|τ相似于β},可把相似的语词引文网络合并到一个权重的有向网络中。子图G(A,C)的GSβ(A,CSβ) 就被称作为β-相似引文网络,在这个网络可以合并和β相似的语词引文网络的边。例如,CSβ=Uτ∈SβCτ,wij的边(i,j) ∈CSβ,那么它就是边合并之后权重的总和。即:

wij=∑(i,j)∈Tij∩Sβpβτ(5)

注意:Sβ不能为空,因为β∈Sβ。

通过给定一个语词β,构建一个β-相似引文网络后,就可以运行网络中的排序算法,找出β词语相关主题中最重要的文章。

3结语

引文索引是建立在布尔检索之上的,所以任何一篇文章的查询语句集就相当于一个给定的查询列表。文章的作者会用许多语词去描述研究过程,而有些语词可能与文章最主要的研究意义无关。因此,不相关的文章可能会排在检索结果前面,这仅仅是因为这些文章可能在其它领域是重要文章,所以有必要构建一个衡量主题识别相关性和影响的方法。

从上下文语义出发去检索一篇重要文献是一个新方法。当前,大部分引文分析研究集中在被引数量而忽视了引文的潜在原因,本文办法解决了这个问题。

利用引文上下文的方法是为了给重要的文章排序。对于一个给定的主题语词,首先要创建一个相似语词集合,然后再查询包含有相似语词集合的引文上下文。只有通过检测引文上下文,才能创建主题相关的网络,才能应用链接分析,在网络中找到相关主题最重要的文章。

参考文献参考文献:

[1]ALJABER,BADER.Document clustering of scientific texts using citation contexts[J].Information Retrieval Journal,2010,13(2):101131.

[2]陆伟,孟睿,刘兴帮.面向引用关系的引文内容标注框架研究[J].中国图书馆学报,2014(6):93104.

[3]SCHWARTZ,ARIEL S,M HEARST.Summarizing key concepts using citation sentences[J].The Workshop on Linking Natural Language Processing and Biology: Towards Deeper Biological Literature Analysis Association for Computational Linguistics,2006(5):134135.

[4]刘盛博,丁堃,张春博.引文分析的新阶段:从引文著录分析到引用内容分析[J].图书情报知识,2015 (3):2534.

[5]BRADSHAW,SHANNON.Reference directed indexing: redeeming relevance for subject search in citation indexes.research and advanced technology for digital libraries[J].Springer Berlin Heidelberg,2003(4):499510.

[6]RITCHIE ANNA,S TEUFEL,S ROBERTSON.How to find better index terms through citations[J].The Workshop on How Can Computational Linguistics Improve Information Retrieval Association for Computational Linguistics,2006(6):2532.

[7]QAZVINIAN,VAHED,D R RADEV,et al.Citation summarization through key phrase extraction[C].COLING 2010,International Conference on Computational Linguistics,Proceedings of the Conference,Beijing,China DBLP,2010:895903.

[8]MORAVCSIK,MICHAEL J,P MURUGESAN.Some results on the function and quality of citations[J].Social Studies of Science,1975,5(1):8692.

[9]KESSLER.Bibliographic coupling between scientific papers[J].Journal of the Association for Information Science and Technology,1963,14(1):1025.

[10]SMALL,HENRY.Cocitation in the scientific literature: a new measure of the relationship between two documents[J].Journal of the Association for Information Science and Technology,1973,24(4):265269.

[11]GIPP,BELA,J BEEL.Citation proximity analysis (CPA)a new approach for identifying related work based on cocitation analysis[C].International Conference on Scientometrics & Informetrics,2009:571575.

[12]A ABUJBARA,J EZRA,D RADEV.Purpose and polarity of citation: towards nlpbased bibliometrics[C].HLTNAACL,2013.

[13]MANNING,CHRISTOPHER D,P RAGHAVAN,et al.Introduction to information retrieval[M].北京:人民郵电出版社,2010.

责任编辑(责任编辑:杜能钢)