茅利锋,张 伟
(南京邮电大学计算机学院,江苏南京 210023)
基于隐含狄利克雷模型的文献主题演化预测
茅利锋,张 伟
(南京邮电大学计算机学院,江苏南京 210023)
利用隐含狄利克雷分配模型(LDA),根据科技文献往年的主题变化来分析科技文献主题的演化,是目前主题演化研究的热点。根据科技论文的主题演化具有无后效性的特点,使用马尔可夫链来预测主题的演化信息。该方法利用LDA模型获取不同时段的主题,使用相似度等方法对相邻时间窗口的主题进行关联,并根据主题的强度将主题分为热门主题、普通主题和冷门主题,最后利用马尔可夫链得到主题之间的强度转移概率矩阵,对主题的强度变化趋势进行分析和预测。对NIPS论文集进行实验表明,科技论文主题在长时间演化后,其状态占比趋于稳定,热门主题、普通主题和冷门主题占比将保持在30%、60%和10%左右。说明该方法能有效地根据现有的主题演化结果对主题在未来几年的演化信息进行预测。
隐含狄利克雷分配模型;主题演化预测;马尔可夫链;状态转移
随着Web2.0的快速发展,如何从承载着科学研究各个领域最新成果的科技文献中挖掘出自己感兴趣的主题并研究其发展方向,成为了困扰科研工作者的一个难题。科技文献的主题演化主要研究一定时期内期刊主题的变化程度以及不同主题随时间变化的规律,这有助于揭示各领域在不同时期内的变化规律以及重点研究对象,为科研工作者提供决策依据。
主题的发现和演化工作最早源于主题的探测和追踪(Topic Detection and Tracking,TDT)研究[1]。TDT主要是基于统计知识,对文本进行信息过滤,然后利用分类策略跟踪相关主题,但它不能反映不同文本间词汇的语义信息。为了解决这个问题,主题模型的方法被提出。隐含狄利克雷分配(Latent Dirichlet Alloca-tion,LDA)模型[2],作为主题模型的一种,因为其可以很好地模拟大规模语料的语义信息,越来越受到研究者的重视。
LDA模型在主题发现方面优势明显,但是普通的LDA模型很难发现主题的演变过程[3-6],因此如何将LDA模型应用到主题演化研究中成为了科研工作者研究的重点。文中认为科技论文的主题演化具有无后效性的特点,即一个主题将来处于什么状态、取什么值,仅与它现在的状态相关,与它过去处于什么状态、取什么值无关。马尔可夫链作为马尔可夫过程的一种特殊情况,它表明事物的状态由过去转变到现在,由现在转变到将来的过程,同样具有无后效性[7]。因此,根据马尔可夫链的特性,可以将它应用到科技文献的主题演化研究中,预测主题的状态演变规律。
Deerwester等首先提出了潜在语义索引(Latent Semantic Indexing,LSI)[8],但是该方法缺乏数学理论支撑。随后,Hofmann等[9]提出了概率潜在语义索引(Probabilistic Latent Semantic Indexing,PLSI),该模型能对文本及其隐含主题构建模型,在性能上优于LSI模型,但易导致过拟合问题。为了克服这个问题,Blei等在PLSI的基础上,引入了超参数,提出了隐含狄利克雷分配模型(Latent Dirichlet Allocation,LDA)。该模型克服了PLSI在理论上的缺陷,并且继承了PLSI的降维优势,提出后得到了广泛应用。
基于静态的主题模型方法很难发现主题的演变过程及趋势变化,因此基于主题模型的演化模型被提出。Wang等[10]将时间作为主题模型的内在变量,提出了TOT(Topic Over Time)模型。该模型可以表示主题在不同时刻的分布强度,能很好地揭示主题强度的变化趋势。Xu等[11]又在此基础上,加入了作者(Author)这一因素,提出了ATOT模型。不同于TOT模型,Griffiths等[12]提出了先获取主题再离散到时间窗的方法。该方法首先用LDA模型获取文本集合所有的主题,然后再利用文本的时间信息来衡量演化,在科技会议论文测试中取得了较好的结果。以上两种方法都要求将文本集作为一个整体来处理,这会导致不同时间窗主题个数固定以及在线处理功能的缺失。因此,目前科研工作者主要集中于先离散到时间窗再获取主题的方法,为以后每个时间窗内的分析提供充分的灵活性。Blei等[13]提出的DTM(Dynamic Topic Model)就是其中的代表。该模型每个时间窗口的文本都是由LDA模型生成,然后使用KL距离(Kullback-Leibler divergence)计算不同时间窗内主题分布的相似程度。在DTM模型的基础上,Ahmed等[14]提出了iDTM模型,引入了HDP方法,解决了各时间窗口内主题数固定的问题。Wei等[15]和 AlSumait等[16]分别提出了DMM(Dynamic Mixture Model)和 OLDA(Online LDA),分别实现了连续时间模型和离散时间模型的在线化。Wang等[17]提出了OHDP(Online HDP)模型,解决了HDP方法难以处理大规模以及实时性要求高的文本流的难题。
以上方法都集中于如何使用或改进LDA模型以实现对文本数据的动态挖掘,没有对其演化规律的预测进行进一步的研究。文中根据科技论文的演化具有无后效性的特点,引入马尔可夫链来对主题的强度进行演化预测。该方法采用先离散到时间窗再获取主题的方法,然后依据主题的强度对主题进行状态划分,根据马尔可夫链计算主题强度的状态转移矩阵,凭借该矩阵可以总结出主题强度的演变规律并对未来几年的主题强度演化进行预测。
2.1 LDA模型
LDA模型[2]是一个三层变参数层次贝叶斯模型,它假设每个文档都是由多个主题混合而成,而每个主题都是由多个词的概率分布组成。通过这种隐变量模型,可以获得观测数据后面隐藏的主题分布,通过后验概率推断来获得这个隐藏的结构。其具体生成过程如下:
(1)对于每个文档d∈D,根据θd~Dir(α),得到文档d上主题的多项式分布参数θd。
(2)对于每个主题z∈K,根据φz~Dir(β),得到主题z上词汇的多项式分布参数φz。
(3)对于文档d中的词汇wd,j,根据多项分布zd,j~Mult(φz),得到主题 zd,j,根据多项分布 wd,j~Mult(θz)得到词汇wd,j。
为了得到LDA模型,首先要对θ和φ进行推理。由于精确的推理很困难,一般都采用近似的推理方法,目前主要使用的有Variational Inference和Gibbs Sampling两种方法。Gibbs Sampling因为实现简单,被广泛采用。文中也采用Gibbs Sampling方法。
2.2 马尔可夫链模型
马尔可夫分析法[5]主要分析随机事件未来发展变化的趋势,即利用某一变量现在的状态去预测其未来的状态,以预测某未来时刻可能产生的变化,以便采用相应的对策。
马尔可夫过程是具有无后效性的随机过程。无后效性是指当过程在tm时刻所处的状态为已知时,过程在大于tm的时刻所处的状态的概率特性与过程在tm时刻所处的状态有关,而与过程在tm时刻以前的状态无关。通常把时间和状态都离散的马尔可夫过程称为马尔可夫链。
马尔可夫链中需要使用转移概率矩阵,转移概率矩阵的定义如下:设系统的状态有n个,系统在tm时刻处于状态i,在下一时间tm+1转为状态j的概率为pij,则称pij为一步转移概率。将这些pij依序排列,即构成一步转移概率矩阵P。若系统经过k次转移后在时刻tm+k处于状态j的概率为pij,则pij(k)称为k步转移概率。相应的构成k步转移概率矩阵P(k)。
3.1 算法体系结构
对于期刊主题而言,演化主要由三个方面组成。首先是主题在时间维度上的强度变化,也叫做主题的活跃度变化;然后是主题随时间在内容上的变化,即主题的内容迁移;最后是主题随时间的社会网络变化,比如作者的变化。文中主要讨论第一种变化,即主题的活跃度变化。
整体流程框架如图1所示。
首先,针对不同时间窗口的文献集,经LDA模型得到每个时间窗口的主题;然后,计算各个时间窗口的主题强度和相邻时间窗口的主题相似度,根据强度大小对主题状态进行划分,根据相似度对相邻时间窗口的主题进行关联;最后,根据关联信息统计计算得到状态转移概率矩阵,凭借状态转移概率矩阵对主题演化信息进行预测。
3.2 主题识别及关联
在传统的TDT中,主题定义为由一个种子事件或活动以及与其直接相关的事件或活动的集合,而在LDA中,主题表示为分布在一组主题词上的向量,即
其中,vi是与主题T相关的词;pi是主题T在该词上的概率分布。
同样的,文献则是这些主题上的多项分布,其表示如下:
经LDA识别的主题在不同时间窗口是互相独立的,为了分析主题的演化,需要对不同时间窗口的主题进行关联。研究者认为主题的演化过程中必然存在内容的延续与改变,相邻时间窗口相关联的主题必然存在着内容的相似性,因此文中使用基于相似度的主题关联方法,通过计算相邻时间窗口的主题相似度来衡量主题内容的延续性,并建立主题关联。因为不同时间窗口LDA的词汇分布不相同,所以首先要把相邻时间窗口的两个词汇表扩充为一个词汇表。为了方便起见,对于原本不属于当前时间窗口的词汇,其概率取为0。
计算主题之间的相似度的方法常使用基于KL散度的方法和余弦相似度方法。文中使用余弦相似度方法。主题与主题之间的余弦相似度计算公式如下:
在关联规则的选取中,采用最简单的关联规则,即认为当前时间窗口中的每个主题与下一时间窗口中相似度最高的主题之间存在关联。
3.3 主题强度度量及状态划分
主题强度主要描述了主题热门程度,在某一时刻关于某个主题的文章数量越多,说明该主题的强度越高。对时间窗口t内的主题Tti,其主题强度S(Tti)计算公式如下:
其中,Dt为时间窗口t内文档的数目。
计算每个主题的强度后,根据强度的大小把主题的状态划分为热门主题、普通主题和冷门主题,其具体的划分方法如下所示:
(1)首先计算主题的平均强度:
其中,T为时间窗口t内的主题数。
(2)对数据进行分析,给出一个阈值εt。
3.4 转移概率矩阵的建立及状态预测
在计算状态转移概率前,首先要对随机序列进行无后效性检验,若序列不具备无后效性,则不能当作马尔可夫链来对待。常用χ2统计量对随机序列进行马氏性检验。
由于数据的随机性,准确地确定转移矩阵是马尔可夫过程求解中的难题,文中使用统计估算法,其方法如下:
首先对一组或者几组所需要研究的离散数据,按照3.3节提出的方法将状态分为3种,结合马尔可夫链的概念对这些离散数据进行统计,将从i状态转移到j状态出现的次数统计到矩阵M(i,j)中,最后根据式(5)计算得到马尔可夫链转移矩阵。
在确定了马尔可夫状态转移矩阵后,就可以对未来几个时间窗口的状态进行预测,具体方法如下:
(1)确定初始状态概率向量。选取一个初始时间窗口,以该时间窗口各主题状态所占的比例为分向量,建立初始状态概率向量S(0)。
(2)利用马尔可夫链预测k年后的状态,公式为:
文中选取了英文数据集 NIPS作为研究对象。NIPS会议是神经计算和机器学习领域最好的会议之一,该数据集包含1988~2001年共14年会议1 879篇论文的全文数据,文中仅摘取了标题和摘要作为实验的研究对象,并去除了停用词和数词。将数据集按照年份分为14个时间窗口,其中前10个时间窗口用来进行主题发现和演化实验,后4个时间窗口用来进行预测分析。
4.1 文献主题挖掘及强度演化结果
对于文档的建模过程,使用Gibbs Sampling进行参数推演,迭代1 000次,模型参数α和β分别设置为50/K和0.01,K取值20。实验使用了开源的Gibbs Sampling工具GibbsLDA++。文中列举时间窗口1强度最高的5个主题包含的主题信息(主题序号由LDA算法产生),如表1所示,其强度从上往下依次降低。
从表1中可知,1988年NIPS会议的重点集中于网络、模型、代码优化、模拟电路性能以及信息采集等方面。
根据3.2节的方法,计算主题之间的相似度,取相似度最高的主题作为关联主题,以表1所列的五个主题为例,分析这五个主题在时间窗口1~10的主题强度变化,如图2所示。
观察图2,发现主题3和主题5的曲线在时间窗口4的曲线发生了合并,分析这两个主题在合并前的主题内容,发现主题3在时间窗口1、2和3中均为关于模拟电路的内容,而在时间窗口4其内容转移到了关于代码优化等方面的内容,而主题5内容随时间变化区别不大,因此分析主题3随着时间的进行而逐渐消亡的可能性较大。主题7在时间窗口3和时间窗口5主题强度变化程度较大,分析该主题在时间窗口3、4、5和6的主题内容,发现时间窗口4的主题内容相较时间窗口3关于硬件方面的词的比例显著上升,而时间窗口6的主题内容相较时间窗口5无显著变化。主题2在时间窗口3、4和5经历了强度显著下降又明显上升的过程,同样分析其在这三个时间窗口的主题内容,发现在时间窗口3和时间窗口4主题内容无明显变化,而在时间窗口5主题内容关于图像方面的内容比例显著上升。同理,观察其他主题,发现当主题强度显著上升时,其主题内容均发生了比较明显的变化,而主题强度明显下降时,主题内容变化不大。说明当该主题产生了新的技术或者有新的发现时,其主题强度会在短时间提升,而当主题在长时间一成不变的时候,其主题强度自然而然会下降。这说明一个主题要想长时间保持热度,必须要随时保持创新。
4.2 马尔可夫链预测
根据表2,计算一步转移概率矩阵P,得到:
根据P对时间窗口11~14的主题状态进行预测,结果如表3所示。
由表3可知,平均误差在16.6%左右,因主题总数只有20,误差在可接受范围之内。在主题窗口11~14,热门主题、普通主题和冷门主题的数量变化不大,说明时间窗口1的主题随着长时间的演变后,其状态占比趋于稳定,热门主题、普通主题和冷门主题占比将保持在30%、60%和10%左右。
文中选用LDA模型,采用马尔可夫链预测方法对科技论文主题的演化进行了探索,并以NIPS会议的论文集为例对该方法的有效性进行了验证。实验结果表明,该方法在主题强度的演化中有一定的准确度,能够有效地反映出主题的热度演变规律。
但是仍存在以下不足:首先,设置每个时间窗口内主题的数量相同,这与实际并不相符;其次,关联规则设置过于简单,不能有效地显示出主题演化过程中的主题消亡、合并、分裂等现象;最后,马尔可夫链状态转移计算方法需要进一步改进。
因此,下一步研究中,将针对以上几点不足,对基于LDA模型的科技论文演化方法进行演化和改进。
[1] Allan J,Carbonell J,Doddington G,et al.Topic detection and tracking pilot study final report[R].Virginia:Lansdowne,1998.
[2] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J]. The Journal of Machine Learning Research,2003,3:993-1022.
[3] 赵迎光,洪 娜,安新颖.主题模型在主题演化方法中的应用研究进展[J].现代图书情报技术,2014,30(10):63-69.
[4] 楚克明,李 芳.基于LDA模型的新闻话题的演化[J].计算机应用与软件,2011,28(4):4-7.
[5] 赵旭剑,杨春明,李 波,等.一种基于特征演变的新闻话题演化挖掘方法[J].计算机学报,2014,37(4):819-832.
[6] 胡艳丽,白 亮,张维明.一种话题演化建模与分析方法[J].自动化学报,2012,38(10):1690-1697.
[7] Karlin S.A first course in stochastic processes[M].[s.l.]:Academic Press,2014.
[8] Deerwester S,Dumais S,Landauer T,et al.Indexing by latent semantic analysis[J].Journal of the American Society of Information Science,1990,41(6):391-407.
[9] Hofmann T.Probabilistic Latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on research and development in information retrieval.
New York:ACM,1999:50-57.
[10]Wang X,McCallum A.Topics over time:a non-Markov continuous-time model of topical trends[C]//Proceedings of the 12th ACM SIGKDD international conference on knowledge discovery and data mining.[s.l.]:ACM,2006:424-433.
[11]Xu S,Shi Q,Qiao X,et al.Author-Topic over Time(AToT):a dynamic users'interest model[M]//Mobile,ubiquitous,and intelligent computing.Berlin:Springer,2014:239-245.
[12]Griffiths T L,Steyvers M.Finding scientific topics[J].Proceeding of the National Academy of Science,2004,101(S1):5228 -5235.
[13]Blei D M,Lafferty J D.Dynamic topic models[C]//Proceedings of the 23rd international conference on machine learning. [s.l.]:[s.n.],2006:113-120.
[14] Ahmed A,Xing E P.Timeline:a dynamic hierarchical Dirichlet process model for recovering birth/death and evolution of topics in text stream[C]//Proceedings of the 26th conference on uncertainty in artificial intelligence.[s.l.]:AUAI Press,2010.
[15]Wei X,Sun J,Wang X.Dynamic mixture models for multiple time-series[C]//Proceedings of the 20th international joint conference on artificial intelligence.Hyderabad,India:[s.n.],2007:2909-2914.
[16]Al Sumait L,Barbará D,Domeniconi C.On-line lda:adaptive topic models for mining text streams with applications to topic detection and tracking[C]//Proc of eighth IEEE international conference on data mining.[s.l.]:IEEE,2008:3-12.
[17]Wang C,Paisley J W,Blei D M.Online variational inference for the hierarchical Dirichlet process[C]//Proc of international conference on artificial intelligence and statistics.[s.l.]:[s. n.],2011:752-760.
Topic Evolution and Prediction of Scientific Papers Based on Latent Dirichlet Allocation Model
MAO Li-feng,ZHANG Wei
(School of Computer Science&Technology,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)
According to the change of the topic of scientific papers in previous years,to analyze the evolution of scientific papers based on Latent Dirichlet Allocation(LDA)is the current research focus.Through the aftereffect for topic evolution of scientific paper,Markov Chain is used to predict the evolution information of topic.In this method,LDA is used first to obtain the topics in different time windows,then some calculation method like similarity is used to associate with topics in neighboring time window.According to the intensity of topics,these topics are divided into 3 states including popular,normal and cold.Finally,the state transition matrix which is gained by the Markov Chain is used to analyze and forecast the trend of topic evolution.The experiment on proceedings of NIPS shows that after a long period evolution,the state proportion of topics of scientific papers is stabilized,with hot 30%,normal 60%and cold 10%remained,which shows that this method can effectively predict the trend of topic evolution in the next few years according to the existing evolutionary information.
Latent Dirichlet Allocation;topic evolution and prediction;Markov Chain;state transition
TP301
A
1673-629X(2016)09-0034-05
10.3969/j.issn.1673-629X.2016.09.008
2015-12-12
2016-04-05< class="emphasis_bold">网络出版时间:
时间:2016-08-01
国家自然科学基金资助项目(61272422)
茅利锋(1991-),男,硕士,研究方向为社会计算;张 伟,博士,教授,研究方向为计算机病毒技术、网络数据行为分析、Web应用与数据安全等。
http://www.cnki.net/kcms/detail/61.1450.TP.20160801.0907.056.html