邵 洲,张 晖
(西南科技大学 计算机科学与技术学院,四川 绵阳621010)
互联网的快速发展使得互联网上的文档呈爆发性增长,文档中主题也因此变得越来越稀疏。如何解决稀疏情况下的多文档摘要问题成为目前研究多文档自动摘要的一个关键问题。本文研究了稀疏条件下的基于统计的多文档摘要方法。将完全稀疏主题模型(fully sparse topic models,FSTM)引入到该领域,同时提出了对应的摘要生成算法。完全稀疏主题模型能够很好地解决大数据集中主题稀疏性的问题。而本文提出的句子权重计算的方法以及摘要生成算法,解决了稀疏情况下文本摘要的生成问题。
基于潜在狄利克雷分布(latent dirichlet allocation,LDA)及其变种的主题模型摘要算法是自动摘要研究的主流方向之一。LDA 是一个三层(文档、主题和词汇)贝叶斯生成模型,该模型假设文档D 是由潜在主题混合生成,而主题是由所有词汇混合而成,不同的文档D 之间主题的混合比重不同。它使用狄利克雷分布作为隐含表达的分布函数,狄利克雷分布是连续分布,给未知文本分配属于某个主题集的概率,产生一个主题的集合。文献[1]详细阐述了LDA 的相关理论,其中参数估计是LDA 最重要的任务,主要包括两种方法:吉布斯抽样法和变分贝叶斯推断法。
2008年Arora[2]等使用LDA 提出了基于简单推理(simple inference based)、部分生成(partial generative)和完全生成(full generative)3种方式来获取主题并选择句子从而生成摘要的方法。2009年Chen[3]等人以广播新闻演讲为语料库在LDA 的基础上提出了句子生成概率和句子先验概率相结合的句子排序。
2009年Chang和Chien[4]以LDA 为基础对模型改进提出基于句子的SLDA 模型,并提出了基于SLDA 的摘要方法,获得了较好的效果。2012年Jiwei Li[5]等根据相同句子由相同主题生成的思想,在SLDA 的基础上,进一步提出了S-sLDA 模型,并在该模型上充分利用句子位置、图位置、句子长度和句子图频率,使用摘要和主题之间的相对熵进行句子排序。2012年Paul和Dredze[6]提出了称为fLDA 的多维文本模型,它是无监督的,但是考虑多个语料库的因素。它通过提取最小化的KL 散度来确定词分布的5个文本的片段来生成摘要。2013年,Li X[7]等在主题模型的基础上提出了自我表达句子相关模型。根据该方法,文档中的重要句子自动地 “表达”它们自己,并且获得一个显著值,最终选择得分前k的句子生成摘要。
这些改进模型和摘要方法都在一定程度上提高了摘要提取的准确性。但是,Khoat Than1[8]提出当词汇量很大的时候,潜在表达会变得十分稀疏,上述主题模型的推断和学习都变得相当复杂和困难。这无疑是对基于主题模型的文本摘要的一个挑战。同时,这些摘要算法也没有考虑到在稀疏情况下如何正确有效地提取与分主题相关的中心句子。
首先,本文中符号约定如下:
M:数据集中文档的数量;
K:模型中主题的个数;
S:文档d中的句子;
v:第v个词汇,通常写作{1,2,…,V};
主题模型是在多文档中发现抽象主题的一种统计模型。直观的来说,主题模型中,给定的文档按照一定权重包含几个特定的主题,一个主题对应于一些特定的词,这些词以不同的概率出现在文档中。现在的主题模型都面临着以下问题:①被训练的文档数目很大;②被学习的主题数目很大;③词汇数量很大;④文档需要在有限的时间内完成后验推断。
完全稀疏主题模型是由Khoat Than和Tu Bao Ho[9]于2012年在LDA 和PLSA 的基础上提出的新主题模型。传统的LDA 模型使用狄利克雷分布作为先验,大大简化了计算复杂度,但它阻止了术语对主题的任何零贡献。因此,被学习的主题和文档新的表达是极其稠密的,这使得其内存消耗变得很大。与LDA 不同,FSTM 模型不使用狄利克雷先验,同时允许学习文档中存在稀疏的潜在表达,这些在实际应用中都是非常有用的。
FSTM 假定一个语料集由K 个主题组成,文档和主题都是稀疏的。文档的稀疏性和主题的稀疏性表达为式(1)和式(2)
式中:V——文档d中的词汇的数量。
根据FSTM 理论,每个文档d是由以下过程生成:
(1)从随机挑选主题比重θ;
(2)对于d中的第j个词:-以P(zk|d)=θk的概率选择潜在主题zk;-以P(wj|zk)=βkj的概率生成一个词wj。
过程如图1所示。
图1 完全稀疏主题模型的图形表示
它的推断采用Frank-Wolfe[9]算法,其基本思想是将目标函数作线性近似,通过求解线性规划求得可行下降方向,并沿该方向在可行域内作一维搜索。该算法在优化问题中经常使用,其重要特性之一是它早期收敛很快,后期较慢。因此,可以调节稀疏程度使其在适当的时间内收敛到合适的精度就可以保证推断质量和时间,并采用EM 算法进行迭代学习。重复下面的两步,直到收敛。E-步:为C 的每个文档做推断;M-步:最大化C的关于主题的似然。
FSTM 与PLSA、LDA、STC、SRS、RLSI相较而言,在解决稀疏性问题中具有明显优势:
(1)文档和主题的稀疏程度可通过该模型进行衡量;
(2)可以人为地控制其稀疏性程度;
(3)通过调整文档或者主题的稀疏程度能够保证质量和运行时间;
(4)推断的复杂性为L.O(n.珡K+K);
(5)存储主题的数量为V.珡K;
(6)没有任何的辅助参数。
其中V 是词汇的大小,K 是主题的数量,n是推断的文档的长度。珡K 是一个术语对主题是零贡献的数量的平均,L是推断中的迭代次数。这些特性使得FSTM 在处理主题比较稀疏的大数据集的时候能够在质量和时间上都达到很好的效果。这对在该模型上研究自动摘要的抽取有着十分重要的意义。
本文以句子作为摘要抽取的基本单位,根据摘要算法进行抽取。
主题模型是一种生成型的概率模型。根据上文中文档d的生成描述了解到:文档是主题的概率分布,主题是词的概率分布。可以通过两个分布为基础计算句子的综合权重。
FSTM 模型需学习所有的主题β,可由EM 算法计算βkj。
在主题模型FSTM 中若包含有K 个主题,在每个文档d用θ={θ1,…,θK}来进行表示。FSTM 中推断问题是通过在模型M 下最大化d的似然去获得主题比重θk。与此同时,还可以获得K 个主题、K 个主题下的比重按大小排序的前N(N 的值由用户决定)个词语Vkn以及它们的比重Pkn。定义Vkn(k∈[1 ,…,K] )为主题zk的关键词。
首先,根据上述的分析可以得到:在已经选择了特定主题zk的情况下单词v被生成的概率P(v|d,zk)为
其次,定义特定主题zk下文档摘要模型中句子权重Score(S|d,zk)的计算公式为
式中:n(v,S|zk)——文档d中在选定主题词zk下v在句子S中出现的次数,没有出现的记为0。
最后,定义句子的综合权重Score(S|d)为各个主题zk下句子权重之和,即
权重准则可以归纳为:
(1)它是建立在概率生成模型上的权重准则,句子的权重完全由该句子包含的词决定;
(2)长句子的权重比短句子的权重占优势。这也符合摘要选取的事实,长句子包含的信息量更大,更能反映文章的中心意思,更适合做文章的摘要;
(3)保证了包含较高概率值词汇的句子具有较重的比重,而使比重较重的句子并非都是长句。
(4)充分考虑稀疏情况下,分主题对摘要贡献的有效性。用分主题集合T={T1,…,TK}表示文档d,如果θk≠0(k∈[1 ,K ]),则认为文档存在分主题Tk,否则Tk为空。同时,设定分主题直选摘要阈值λ,即当θk>λ时,不事先考虑综合权重Score(S|d),直接加入分主题权重最重的句子到摘要中。
首先,做如下说明:
Nsumm:所需要提取摘要的字数;
Ns:句子s所含有的总字数,Ns=NSs+NNs,其中NSs为句子s中停用词的个数,NNs为句子s中非停用词的个数;
λ:分主题直选摘要阈值;
SS:句子集合,最后的时候即为最终摘要;
根据如上的定义和公式推导,总结出FSTM 模型下文档摘要的算法如下:
算法1:
INPUT:Nsumm,K,stop words list;document d;λ
OUTPUT:SS
(1)Preprocess for DUC document using stop words list for word index,tarin input and test input.
(2)Input preprocess results into FSTM model and train the model,gettingθandβ.
(3)Calculate all Score(S|d,zk)byβ.Then order d by it,getting d1,…,dK.
(4)Initial SS,counter n;
(5)for i=1,…,K do
(6)if Tk!=null andθk>λAdd dk[]1 into SS;
(7)end for
(8)Calculate Score(S|d)byθ.Then order d by it(if the score of the sentence is the same order by NNs/NSsasc),getting d*.
(9)do
(10) if current S not equals the previous one
(11) Move top score sentence to SS;
(12) else Remove current sentence
(13)while n<Nsumm
(14)Remove last sentence from SS and print SS;
该算法体现了,稀疏性状态下分主题的有效性,并且完全体现了生成模型的特点。
实验中使用了DUC 2007 语料库作为测试数据集。DUC 2007包括主要任务(main task)和更新任务(update task),主要任务含有23个文档集,更新任务含有30个文档集。其中,一个文档集中又包含若干篇文档。本文采用主要任务中的23 个文档集进行多文档自动摘要的实现。DUC 2007中每篇文档集都给出了250 字的抽取式专家摘要。为了保证评测结果的准确性,本文所有实验的摘要结果都在250字以内。
根据DUC 2007 提供的文档进行预处理,转换成FSTM 的输入格式进行输入训练。将23组DUC 2007主要任务用于FSTM 模型的训练,将30组DUC 2007的更新数据用于模型的测试。
在实验测试中,发现FSTM 对于实验参数的依赖性较弱,对于绝大多数实验对象不需要进行参数的调整就能达到比较理想的效果。因此,全部采用FSTM 模型的默认参数设置。其参数设置见表1。
进行参数设置后,在Linux服务器上进行FSTM 的模型训练,最终得到的实验结果见表2。
表1 模型参数设置
表2 实验结果
从表2可以看到FSTM 收敛得十分快,仅仅进行了4次迭代就收敛了。文献[10]中,为了使得模型趋于最终稳定的状态,迭代的次数均为1000次。
本文同时借鉴了相关论文中的方法,参考了传统方法、图排序的方法、抽取式摘要的方法、基于主题模型的方法等,采用了基于LexRank[11]、TF、TF-IDF、hits、Page Rank[12]、统计的方法和LDA[13]的方法进行了相同的实验,作为本实验的对比实验。
LDA 参数估计中,吉布斯抽样法计算量大,但相对简单和精确;变分贝叶斯推断法计算量小,精度差。LDA 摘要实验中,采用吉布斯抽样方法进行参数估计。为了保证精度,设置的最大迭代次数为10000 次,即当达到10000次的时候吉布斯就停止。
目前,ROUGE评测方法已经被广泛应用于DUC 的摘要评测任务中。本次实验中使用了ROUGE-1、ROUGE-2、ROUGE-3、 ROUGE-4、 ROUGE-L、 ROUGE-W-1.2、ROUGE-S*和ROUGE-SU*这8 个评测标准进行评测。评测参数均采用Rouge 1.5.5示例(a)的默认参数。其专家摘要是DUC 2007给定的基于ROUGE 评测的人工抽象摘要。采用本文方法在数据集DUC 2007上生成了250字的摘要进行评测。
对所有的实验数据进行评测,发现在没有进行任何调优的情况下,基于FSTM 的自动摘要的准确率P、召回率R 和F值多数情况下和DUC 2007给出的专家抽象摘要比较接近。同时,多数情况下都优于其它方法所得到的摘要。
图2给出了在DUC 2007 语料库中的文档D0742 在评测标准ROUGE-SU*下,基于FSTM 的摘要和专家在准确率P、召回率R 和F值上的对比。
图2 与专家摘要对比
图3给出了在DUC 2007 语料库中的随机选择的文档D0701在评测标准ROUGE-1下与各个对比方法的对比。
图3 对比实验效果
本文提出的基于FSTM 的在不进行任何调优的情况下具有很好的效果,这证明了该模型的假设。说明文档中的确存在很多稀疏的潜在表达,充分利用这些稀疏的表达可以更好的学习文档。由此,可以假设:当文档中单词的量增大的时候,主题会变得更加稀疏,FSTM 相对于其它的模型会更加的具有优势。
在实验过程中可以看到相同的实验对象,FSTM 模型仅仅迭代了4次就收敛了,而LDA 的方法使用Gibbs Sampling迭代了10000次,仍然不能够达到与该方法一样好的效果。该方法极大地提高了运算效率与空间利用率,从侧面反映了FSTM 更加适合处理大数据集。同时,也证明了在DUC 2007数据集上,FSTM 模型关于文档和潜在表达式完全稀疏的假设是正确的。本文验证了将完全稀疏主题模型引入到多文档摘要领域的可行性,以及所提出的摘要算法的可用性。
由于该方法在计算时间和准确率上都比较有优势,在以后的工作中将考虑将该模型用于超大规模的数据建模中。并对一些问题进行改进,进一步提高摘要的准确性。
本文提出了一种基于FSTM 模型的摘要提取的新方法,该方法简单易操作,能够充分利用文档稀疏性达到较好的摘要效果。为了验证该方法的有效性,在DUC 2007数据集的基础上,使用ROUGE-1.5.5 的评测工具包对摘要结果多方面进行评测。由实验结果可知,本文方法在提高摘要质量上具有比较明显的优势,同时该模型本身也证明了对于大数据集在时间上以线性收敛,实验结果验证了模型的运算效率。
[1]YANG Xiao,MA Jun,YANG Tongfeng,et al.Automatic multi-document summarization based on the latent Dirichlet topic allocation model [J].CAAI Transactions on Intelligent Systems,2010,5 (2):169-176 (in Chinese). [杨潇,马军,杨同峰,等.主题模型LDA 的多文档自动文摘 [J].智能系统学报,2010,5 (2):169-176.]
[2]Arora R,Ravindran B.Latent dirichlet allocation based multidocument summarization [C]//Proceedings of the Second Workshop on Analytics for Noisy Unstructured Text Data.ACM,2008:91-97.
[3]Chen Y T,Chen B,Wang H M.A probabilistic generative framework for extractive broadcast news speech summarization[J].IEEE Transactions on Audio,Speech,and Language Processing,2009,17 (1):95-106.
[4]Chang Y L,Chien J T.Latent dirichlet learning for document summarization [C]//IEEE International Conference on Acoustics,Speech and Signal Processing,2009:1689-1692.
[5]Li J,Li S.A novel feature-based Bayesian model for query focused multi-document summarization [J].Transactions of Association for Computational Linguistics,2013 (1):89-98.
[6]Paul M J,Dredze M.Drug extraction from the web:Summarizing drug experiences with multi-dimensional topic models[C]//NAACL,2013.
[7]Li X,Zhu S,Xie H,et al.Document summarization via selfpresent sentence relevance model[C]//Database Systems for Advanced Applications.Berlin:Springer Berlin Heidelberg,2013:309-323.
[8]Than K,Ho T B.Fully sparse topic models [M].Machine Learning and Knowledge Discovery in Databases.Berlin:Springer Berlin Heidelberg,2012:490-505.
[9]Than K,Ho T B.Managing sparsity,time,and quality of inference in topic models [R].arXiv Preprint arXiv:1210.7053,2012.
[10]YAO Quanzhu,SONG Zhili,PENG Cheng.Research on textclossification based on LDA model[J].Computer Engineering and Applications,2011,47 (13):150-153 (in Chinese).[姚全珠,宋志理,彭程.基于LDA 模型的文本分类研究 [J].计算机工程与应用,2011,47 (13):150-153.]
[11]Liang X,Qu Y,Ma G.Research on extension LexRank in summarization for opinionated texts[C]//Proceedings of the 13th International Conference on Parallel and Distributed Computing,Applications and Technologies.IEEE Computer Society,2012:517-522.
[12]XIAO Xinyan.Rearch on lexical chains and PageRank based multi-document summarization [D].Xiamen:Xiamen University,2008 (in Chinese). [肖欣延.基于词汇链和Page-Rank的多文档自动文摘研究 [D].厦门:厦门大学,2008.]
[13]ZHANG Minghui,WANG Hongling,ZHOU Guodong.An automatic summarization approach based on LDAP feature[J].Compuert Application and Software,2011,28 (10):20-22 (in Chinese).[张明慧,王红玲,周国栋.基于LDA主题特征的自动文摘方法 [J].计算机应用与软件,2011,28 (10):20-22.]
[14]Hovy E,Lin C Y,Zhou L,et al.Automated summarization evaluation with basic elements[C]//Proceedings of the Fifth Conference on Language Resources and Evaluation,2006:604-611.
[15]Lin C Y,Hovy E.Automatic evaluation of summaries using n-gram cooccurrence statistics[C]//Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology Volume 1.Association for Computational Linguistics,2003:71-78.