张波飞 李成城
摘 要:大数据时代信息量急剧增长,伴随而来的是大量冗余信息的出现。为快速、准确、全面搜索到所需信息,提出一种LDA主题模型与TextRank算法相结合的算法。首先通过对预处理后的文档建立主题模型,得到句子的概率模型即文档中句子的重要性,然后考虑运算节点权重时的主题概率,得到新的迭代公式,通过对同一主题下的多篇新闻报道进行处理得到这些文档的文摘。实验结果表明,该方法生成的文摘较单一算法效果显著。
关键词:冗余;LDA主题模型;TextRank算法;文摘
DOIDOI:10.11907/rjdk.172842
中图分类号:TP301
文献标识码:A 文章编号:1672-7800(2018)004-0013-03
Abstract:Information explosion leads to a large number of redundant information in the big data era. In this paper, we propose an algorithm to combine the LDA theme model with the TextRank algorithm. Firstly, we build a thematic model of the preprocessed document set to get the probability model of the sentence, that is, the sentence in the document. And then we take the subject probability into account and get the new iterative formula. The experimental results show that the method is more effective than the single algorithm.
Key Words:redundancy; LDA theme model; Textrank algorithm; summary
0 引言
随着互联网上信息的日益丰富,人们从网络上搜索到的新闻大多呈现数量多且信息杂乱的现象,即使在文本理解会议(DUC),对大量数字语言质量问题和内容进行手动评估摘要,也需要3 000多小时的人力,非常耗时[1]。多文档自动文摘的主要任务就是将同一主题下多篇文档组成的集合中多次重复的信息一次出现在文摘中,将与主题相关的信息根据重要性及压缩比依次抽取[2-3],因此进行文摘提取尤为重要。
1 相关研究
本文实验流程如图1所示。
1.1 Textrank算法
TextRank是基于网页算法PageRank而来的,只是将page替换成词语、句子,以完成关键词抽取与自动文摘工作[4]。TextRank算法是用于文本的基于图的排序经典算法,主要应用在关键词提取、自动文摘等领域。TextRank算法将文档划分为由若干文本单元(词项或句子)构成的节点,文本单元间的相似度构成节点间的边,形成图模型,利用PageRank算法对图模型进行迭代直至收敛,然后对所有节点进行排序,输出文摘句。TextRank算法作为一种无监督方法,无需训练语料,该方法已在多个领域得到应用。
1.2 LDA主题模型
LDA主题模型是目前比较流行的模型算法,LDA由Blei、David M、Ng、Andrew Y、Jordan等于2003年提出,是一种典型的词袋模型。一篇文档由一组词构成,词与词之间没有先后的顺序关系。另外,一篇文档可以包含多个主题,其中每一个词都由其中的一个主题生成。同时,它是一个3层的生成性贝叶斯网络,将词与文档通过潜在的主题相联系。LDA概率如图2所示。
图2中,φ表示主题-词语的概率分布,θ表示文档-主题的概率分布,α和β分别表示θ和φ所服从的Dirichlet 先验分布的超参数,空心圆圈表示隐含变量——主题,实心圆圈表示可观察到的变量——词语。
2 LDA与TextRank结合算法
楊潇等[5]提出的基于主题模型LDA的多文档自动摘要,张明慧[6]提出的LDA主题驱动的中文多文档自动文摘方法,根据LDA模型中主题的概率分布和句子的概率分布,得到句子权重计算模型。LDA模型所使用的词袋假设不能很好地考虑单词和句子的位置,以及句子、文档和文档集合之间的结构关系[7]。
基于图排序算法的自动文摘方法[8-10],主要思想是将文本单元(句子、词汇等)作为图的节点,该方法优点是可以结合图的全局信息进行判断和计算图节点权重,而不仅仅依赖于其中几个节点有限的信息。将这种排序算法思想应用到自动文摘中,利用文本中的词汇或语义信息,构建无向加权图,对语句进行排序。
基于图排序算法的自动文摘,可将这种考虑全局信息的排序算法应用到自动文摘中,且在计算句子权重过程中充分考虑词项之间、句子之间或词与句子之间的全局关系。将两种算法相结合,恰好可以弥补LDA模型的不足,更好地对句子排序。
改进算法步骤如下:
(1)主题模型生成中,词汇、句子的概率可由下式得到:
结合过程分为3步:①基于LDA主题模型对文档集合进行文本建模,利用公式(1)实现词语的主题影响力;②根据公式(2)得到句子重要性; ③把句子重要性带入公式(3),结合TextRank算法实现节点的重要性计算,以此得到句子最终的权重结果。
3 实验
由于目前没有一个标准的实验语料用于中文多文档自动文摘,为便于实验,本文选用哈工大信息检索研究中心多文档自动文摘语料,共40个主题,每个主题下有5篇左右的新闻报道,图3为其中一篇文章示例。
本文采取单文档自动文摘的生成思路,首先将同一主题下的多个txt文档合并为一个大的文档,然后进行实验。
3.1 文档预处理
文档预处理分为文本的分词、去停用词以及词性标注。
(1)分词:英文是以词为单位的,词和词之间有空格隔开,而中文是基本单位是字,句子中所有的字连起来才能描述一個意思。因此,寻找一个好的分词工具对中文语料进行分词处理至关重要。加之新闻语料的特点,本文采用jieba分词,在传统的基于统计分词方法之上加入未登录词识别及词性标注,在一定程度上提高了分词效果。
分词部分结果如图4所示。
(2)停用词相当于过滤词,这些词往往数量较大且没有实际意义,同时会产生大量噪音。这里采用中科院停用词表,得到图5结果。
(3)词性标注:即给每个词标注上词性,见图6。
3.2 候选文摘句生成
(1)对其中一个文档集单一txt文档进行处理,得到打分靠前的几个句子如图7所示。
(2)对其中一个文档集合并后的文档进行处理得到句子打分,按一定比例抽取分值靠前的几个句子如图8所示。
3.3 文摘评价
自动文摘的评价方法大致分为两类:①内部评价(Intrinsic),它可以直接分析摘要的质量[11];②外部评价(Extrinsic),它是一种间接评价方法,将自动文摘应用于某个特殊任务中,依据文摘完成这项任务的效果进行评价。目前比较热门的评价方法是将专家根据原文生成的文摘作为标准文摘,判断生成的自动文摘中所包含的标准文摘信息程度。
使用3种方法生成的候选摘要句与语料所提供的已标注好的人工摘要作对比试验,利用计算句子相似度算法中的TF-IDF算法进行计算:
R= 机器摘要与标准摘要句共有关键词个数标准摘要句中关键词总数(5)
依据式(5),得到图9结果。
从图9可以看出,利用LDA与Textrank相结合的算法得到的准确率稍优于两种算法单独生成的结果。3种结果中LDA最差,其原因在于本文使用的新闻语料较短,在建立主题模型时主题数目设置为1,数目偏少。而主题模型效果一般会随着主题数目增多其混乱度减小,这样就导致LDA产生的文摘句准确率偏差。
4 结语
本文采用LDA主题模型与TextRank算法相结合的算法,得到了同一主题下的多篇新闻报道文摘。但由于目前中文多文档语料库缺乏,加之还没有一个完整的中文文摘评价系统,因此本文实验使用的数据语料量稍显不足。下一步可使用搜狗语料库等大规模语料进行实验,同时构造一个完整的评价系统。
参考文献:
[1] 秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005(6):15-22,58.
[2] 胡立.基于语义层次聚类的多文档自动摘要研究[D].广州:华南理工大学,2014.
[3] 兰希.基于篇章修辞结构的多文档自动文摘系统的设计与实现[D].厦门:厦门大学,2014.
[4] 陈万振.TextRank关键词提取算法与SOM文本聚类模型的优化研究[D].南宁:广西大学,2016.
[5] 杨潇.基于主题模型LDA的多文档自动摘要[C].第五届全国信息检索学术会议论文集,2009.
[6] 张明慧.LDA主题驱动的中文多文档自动文摘方法[C].第五届全国青年计算语言学研讨会论文集,2010.
[7] 曹洋.基于TextRank算法的单文档自动文摘研究[D].南京:南京大学,2016.
[8] ANTIQUEIRA L,JROLIVEIRA O.Complex network approach to text summarization[J]. Information Science,2009(179):584-599.
[9] WAN X J,YANG JW.Multi-document summarization using cluster-based link analysis[C].Proc of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Sheffield,UK,2008:299-306.
[10] JONES K S. Automatic summarizing factors and directions advance in automatic text sum-marization[M]. Cambridge MA:MIT Press:1998.
[11] 顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(1):41-47.
(责任编辑:杜能钢)