姚尧
(四川大学计算机学院,成都 610065)
自动关键短语抽取综述
姚尧
(四川大学计算机学院,成都 610065)
自动关键短语抽取是知识抽取和信息检索等信息技术的关键步骤,当前已经被广泛研究多年,但是和许多自然语言处理任务的性能相比,现有抽取算法的性能依然很低下。对自动关键短语抽取方法进行综述,并对其未来研究发展进行展望,为进一步自动抽取高质量的关键短语提供良好借鉴。
自动关键短语抽取;自然语言处理;抽取算法;性能
文档的关键短语可以保证对大规模的文档进行快速和精确的查询,并广泛应用于文本摘要[1]、文本分类[2]、情感挖掘[5]、文档索引等自然语言处理(NLP)和信息检索(IR)任务。但实际中很少有文档标注了关键短语,手工去添加关键短语是一项很繁重的工作。因此需要一种方法去自动抽取关键短语。
自动关键短语抽取是从文档中自动抽取具有重要性和主题性的短语。因为关键短语的重要性,自动关键短语抽取受到了很大的关注。但是,其任务离真正解决还有很长的距离。相比于许多的核心自然语言处理任务,当前自动关键短语抽取方法的性能仍然很低下。本文的目标是对自动关键短语抽取方法进行综述,分析各方法的优缺点,并讨论目前遇到的挑战。
一个通用的关键短语抽取系统主要分为2步:①利用一些启发式方法抽取多个词或者短语作为候选关键短语;②利用有监督或者无监督方法判断候选关键短语是否是正确的关键短语。
如上所述,候选关键短语通过启发式规则抽取。设计这些规则用来避免错误的候选和保持候选数目最小。典型的启发式方法包括:①利用停用词表来去除停用词;②利用特有的词性标签来作为候选关键短语,例如名词、形容词、动词;③抽取出现在维基百科条目标题中的N元组来作为候选关键短语;④抽取满足预定义词汇模板的N元组或者名词短语。
早期的有监督方法把关键短语抽取当做一个二分类问题[11]。目标是从标注好关键短语的文档中训练一个分类器来判断一个候选短语是否是关键短语。关键短语和非关键短语分别用于生成正例和负例。不同的学习算法可以用来训练该分类器,包括朴素贝叶斯、决策树、最大熵和支持向量机等分类算法。
刘玲玲等人[4]提出了一种利用决策树训练分类器解决关键短语抽取的方法。将文档中词的词性、首位置、词语频次作为决策树分类的特征。并加入了词在文档中出现的位置信息,对词的权重进性调整。最后采用十折交叉验证和Bagging重采样技术进行决策树关键短语的抽取。部分匹配的F值达到了54.49%。
单纯地把关键短语抽取当做二分类问题有一定的缺陷。关键短语抽取的目标是识别文档中最具代表性的短语。但是二分类器在分类时单独考虑每个候选关键短语,导致无法比较候选关键短语之间的好坏。受这种发现的启发,Jiang[7]等人提出了一种关键短语抽取的排序方法,利用TF-IDF、短语长度、首次出现位置以及是否出现在标题作为特征,使用Rank_SVM学习一个排序器对两个候选关键短语排序。这种值对排序方法表现了候选短语之间的比较,并且其结果比KEA[8]有明显的提高。
存在的无监督关键短语抽取方法可以分为2类:基于图的排序方法和基于主题的聚类方法。
4.1 基于图的排序方法
基于图的方法的基本思想是从输入文档中建立一个图,然后利用基于图的排序方法根据顶点的重要性对它排序,图的每个顶点相当于文档中的候选关键短语,图的每条边连接2个相关的候选。边的权重相当于相互连接的候选之间的语义相关度。TextRank[6]是一种关键短语抽取中比较著名的基于图的方法。图中每个节点的得分根据当前节点的邻居节点的得分递归得到,然后选择图中排名高的候选作为输入文档的关键短语。
夏天[3]基于TextRank的思想,在此基础上引入了频度影响力、覆盖影响力和位置影响力来计算短语之间的影响力转移矩阵,然后不断迭代得到候选构建短语的分值,选取前N个短语作为关键短语。实验结果表明,在TextRank上进行短语位置加权的方法优于传统的TextRank方法。
但是基于图的方法忽略了一个关键短语抽取中的重要概念,文档中的一组关键短语应该覆盖文档中提及的主要主题,但是该方法并没有关注这个问题,所有的主题并没有被抽取的关键短语代表。尽管有这种缺点,但是基于图代表文本的思想还是被很多的方法采用,并提出了不同的计算两个候选之间相似度的算法。
4.2 基于主题的聚类方法
基于主题的聚类方法是把文档中的候选关键短语聚合成主题,每个主题由所有和该主题相关的候选关键短语组成。采用基于主题的聚类方法有很多动机:①抽取的关键短语的综合语义应该覆盖文档中所有主要的主题。②一个关键短语应该和文档中提及的一个或多个主要主题相关。Liu等人[9]提出了一种KeyCluster系统,利用维基百科和共现来聚类语义相似的候选关键短语。每个聚类对应于一个文档中的主题,然后选取靠近每个聚类中心的候选关键短语作为关键短语。实验结果显示KeyCluster性能优于TextRank,但是Key-Cluster有个潜在的缺点,在从每个主题聚类中抽取关键短语时,该系统赋予了每个主题相同的重要性。实际上,文档中具有某些并不重要的主题,这些不重要的主题不应该被关键短语代表。Grineva等人[10]提出了一种利用社区发现的关键短语抽取系统,该系统给更重要的主题赋予了更多的权重,利用维基百科建立了语义图,然后通过社区发现算法挖掘语义图中的社区聚类,最后从有价值的社区聚类中抽取所有的候选关键短语作为文档的关键短语。该方法相比于TF-IDF,TextRank方法在不损失精确率的情况下,得到了更高的召回率。
本文主要对当前的自动关键短语抽取进行综述,介绍了具有代表性的有监督和无监督方法,并分析它们的优缺点,尽管目前自动关键短语抽取取得了较大的进展,但是依旧面临着较多的挑战。针对长文档自动关键短语抽取精确率低的问题需要设计更好的算法;在有监督模型训练时,存在正例与反例数量不平衡的问题,如何解决需要作进一步工作;当前很多方法都只关注算法的改进,如何引入背景知识也是需要解决的问题。
[1] 江开忠,李子成,顾君忠.自动文本摘要方法[J].计算机工程,2008,34(1):221~223
[2] 罗杰,陈力,夏德麟,等.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32~34
[3] 夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013,29(9):30~34
[4] 刘玲玲,梁颖红,张永刚等.基于决策树的关键短语抽取[J].江南大学学报(自然科学版),2010,9(1)
[5] Berend G.Opinion Expression Mining by Exploiting Keyphrase Extraction[C].IJCNLP.2011:1162~1170
[6] Mihalcea R,Tarau P.TextRank:Bringing Order Into Texts[C].Association for Computational Linguistics,2004
[7] Jiang X,Hu Y,Li H.A Ranking Approach to Keyphrase Extraction[C].Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2009:756~757[8] Frank E,Paynter G W,Witten I H,et al.Domain-Specific Keyphrase Extraction[J],1999
[9] Liu Z,Li P,Zheng Y,et al.Clustering to Find Exemplar Terms for Keyphrase Extraction[C].Association for Computational Linguistics, 2009:257~266
[10] Grineva M,Grinev M,Lizorkin D.Extracting Key Terms from Noisy and Multitheme Documents[C].ACM,2009:661~670
[11] Turney P D.Learning Algorithms for Keyphrase Extraction[J].Information Retrieval,2000,2(4):303~336
Overview of Automatic Keyphrase Extraction
YAO Yao
(School of Computer Science,Sichuan University,Chengdu 610065)
Automatic keyphrase extraction is a key step knowledge extraction and information retrieval of information technology,the current has been extensively studied for many years,but many properties as compared to natural language processing tasks,the performance of existing extraction algorithm remains low down.Reviews phrase for automatic extraction methods,and prospects for its future research and development,to provide a good reference for further automatically extract keyphrases of high quality.
Automatic Keyphrase Extraction;Natural Language Processing;Extraction Algorithm;Performance
1007-1423(2015)04-0013-03
10.3969/j.issn.1007-1423.2015.04.003
姚尧(1990-),男,重庆人,在读硕士研究生,研究方向为数据挖掘
2014-12-02
2014-12-18