赵臣升 吴国文 胡福玲
摘要:微博文本简短、信息量少且语法随意,传统主题分类并不理想。Labeled LDA在LDA主题模型上附加类别标签协同计算隐含主题分配量使文本分类效果有所改进,但标签在处理隐式微博或主题频率相近的分类上,存在一定的模糊分配。本文提出的Union Labeled LDA模型通过引入评论转发信息丰富Label标签,进一步提升标签监督下的主题词频强度,一定程度上显化隐式微博、优化同频分配,采用吉布斯采样的方法求解模型。在真实数据集上的实验表明,Union Labeled LDA模型能更有效地对微博进行主题挖掘。
关键字:微博;主题挖掘;LDA;Union Labeled LDA;词频
中图分类号: TP391.1 文献标识码: A文章编号:2095-2163(2016)01-
Abstract:Microblog is brief and short, with a little information and irregular grammar, cause traditional method of topic classification effect is not satisfying. The Labeled LDA topic model attach classification label to original LDA model to help cooperative computing the implicit topics, but still exist some vague allocate when handling microblog whose topic frequency are neck and neck. This paper proposes to use the Union Labeled LDA model with comments and retransmissions which enrich the information of labels to enhance the supervision of topic frequency strength by themselves. The experimental results on actual dataset show that the Union Labeled LDA model can effectively mining the topics of Microblog.
Keywords:Microblog; Topic Mining; LDA; Union Labeled LDA; Word Frequence
0 引言
随着Web技术的日益完善和大数据时代的悄然来临,微博已经成为人们思想汇聚和信息交流的重要媒介,从海量数据中挖掘出有效的主题信息,分析其内在语义关联则正日显其现实突出的技术主导作用。微博本身文本简短、数据稀疏、语法随意和网络词汇大量出现,这些特点给传统文本挖掘算法带来了挑战[1-2]。
LDA(latent dirichlet allocation)主题模型是近年来文本挖掘领域热门研究方向,模型具有优秀的建模能力、文本分析降维能力和良好的概率模型扩展性,挖掘出的主题能帮助人们理解大数据文本背后的语义。LDA模型假设各主题权重在Dirichlet分布上相同,因此在处理隐性主题划分时存在部分主题强制分配的现象。Labeled LDA主题模型通过引入Label标签,单独对各类主题计算分布,在一定程度上克服了LDA的不足[3]。
本文在研究LDA和Labeled LDA模型的基础上,引入微博评论与转发数据信息,进一步丰富Labeled LDA模型的Label标签信息。通过改善训练阶段Labeled LDA标签对各个主题分量的影响,更准确地确定隐含主题,提升主题挖掘效率。
1 相关工作
近年来文本聚类和主题挖掘广受关注,各类算法和模型不断涌现。其中主题模型(topic model)是一种概率产生式模型。模型假设主题可以根据一定规则生成单词,那么在已知文本单词情况下便可通过概率方法反推出文本集的主题分布情况[4]。最热门的主题模型就是LDA,其派生模型有ATM,Twitter LDA,Labeled LDA,MB LDA等[5-7]。
1.1 传统的主题挖掘算法
传统主题挖掘最早采用文本聚类的算法,使用矢量空间模型VSM(vector space model)将文本里的非结构化的数据映射到向量空间中的点,用聚类算法实现文本聚类求近似相同的主题。通常使用基于划分的算法(如K-means算法)、基于层次的算法、基于密度的算法[8-9]。但这种聚类算法普遍依赖于文本之间距离的计算,在海量文本中较难定义,聚类作用在于区分类别,语义上的信息也不利于理解。
1.2 基于线性代数的主题挖掘算法
LSA(latent semantic analysis)是Deerwester等人提出的一种基于线性代数挖掘文本主题的方法[10],利用SVD(singular value decomposition)的降维方法来挖掘文档的潜在语义结构,在低维的语义空间里进行查询和相关性分析,打破了传统“词典空间”表示文本的思维模式,能很好地挖掘出隐含的相关性。研究表明,当这个语义空间的维度与人类语义理解维度相近的时候,LSA抽象转化率最高。
1.3 基于概率模型的主题挖掘算法
Hofmann等人在研究LSA的基础上,提出了基于最大似然法(maximun likelihood)和产生式模型(generative model)的概率模型PLSA(probabilistic latent semantic analysis) [11]。PLSA沿用了LSA的降维思想,在主题数量有限的低维语义空间里,运用EM算法对模型进行求解,EM算法复杂度小于传统SVD的矩阵运算,在运行性能和大数据处理方面优于LSA。PLSA引入概率使得每个语义维度对应一个词典上的概率分布,明确区分单词不同意思和类型,解决了一词多义问题[12]。
2 LDA模型在文本分类中应用
2.1 LDA文本生成模型
LDA的创始人Blei[13]等人发现,模型中待估参数随着语料库的大小呈线性增长,容易出现过度拟合(overfitting)现象,于是进一步引入了Dirichlet先验分布以扩展文档层的概率。
2.2 Labeled LDA文本生成模型
微博是网络文本,部分数据已经被用户贴上标签,利用这些存在的标签信息资源,能有助于更好地进行主题挖掘。D.Ramage等人提出使用受监督的主题模型Labeled LDA,通过引入标签信息来提高主题可解释性,学习得来的主题直接与每个标签对应关联,准确找出标签密切关联的词汇,改变LDA模型的对称先验分布,解决了LDA在各个隐含主题分量上平等分配的问题[14-15]。
Labeled LDA模型假定词的范围是 ,文档 是由 个词 组成的序列, 是文档 的第 个词,语料 是 篇文档集合 ,标签信息转换成文档 的主题向量 ,其中 。
模型通过伯努利分布产生文档标签集 ,定义文档标签向量 ,将Dirichlet主题先验分布超参数 降维成向量 ,依据不同的标签信息,向量 在不同主题上的权重也不同[16]。
假设一个语料库中共有5个类别的标签,其中一个文档 含有两个类别标签,那么 表示文档 对应2、3主题标签。当 、 时,文档 中的词分配更倾向于2、3主题标签。如图2所示,Labeled LDA利用向量 将类别与主题一一映射产生文本的贝叶斯网络图。
2.3 Labeled LDA应用于文本分类
当使用Labeled LDA推断一篇文档在隐含主题上的概率分布时,可以认为该文档在某个主题上的词分配越多,即属于该主题对应类别的概率就越大。但是有些微博通过Labeled LDA训练得到的概率最高主题与类别标签对应主题并不一致,如这样一条微博:“体检报告已入手,一会就可以卖啦,真开心”,会被Labeled LDA分配到以医疗健康为主题的类别中。然而微博下第1、2条直接评论是:“签了哪家公司,月薪多少”,“这么快就要签三方了吗”,可以很直观地发现这两条评论的主题是公司与招聘,由此通过评论可以更确定地认为这个主题才是这条微博真正的分类,而依据Labeled LDA模型对原微博词分配的数量反而会有错分主题的现象。
3 基于Labeled LDA算法改进
微博区别于一般文本的特点是可以被评论或转发,这些评论在很大程度上和微博本身有着相同的主题。虽然在使用Labeled LDA模型对微博数据进行训练时会出现一定的词频相等或非主题词频略高的情况,但是合理利用微博评论与转发之间的隐含关联信息,可以引导改进模型在监督过程中产生较为准确的主题频率。
定义1微博与其评论之间的主题关系 称为评论联合相关性,联合系数为 ;微博与其转发微博之间的主题关系 称为转发联合相关性,联合系数为 。
微博的另一个特点是其评论是分层级的:有直接对微博本身的评论(Direct Comment),也有对评论的再评论,称之为间接评论(Indirect Comment)。显然,直接评论针对微博本身,所谈及的内容更接近于微博本身主题,而间接评论是对直接评论的内容进行再评价,主题联合性没有直接评论强。
定义2一条直接评论与所有属于它的间接评论构成一个评论组,一条微博有若干个评论组。直接评论的主题联合系数记为 ,间接评论的主题联合系数记为 ,且 。
转发和评论与微博本身的主题相关性随着时间推移有一定的衰减偏离,经常可以看到一条微博被评论多次后,评论各方会引入其他的焦点和主题。此时应适当降低其他主题的引入权重,为原主题降噪。
定义 3评论与其微博的主题相关性随时间推移会降低,直接评论随时间衰减系数 ,间接评论时间衰减系数 ,且 。
在Labeled LDA主题模型生成文档的过程中,标签信息会监督产生主题分配向量 。通过引入微博评论,假设一条微博的一条直接评论 所附带标签信息经过训练后得到其在 个主题上的分配量是 ,根据定义1和3可知该直接评论分配量关系为 。若属于这条微博的直接评论有 条,则所有直接评论产生的混合主题联合分布向量为:
4 实验
4.1 实验准备
4.1.1 数据集
本实验使用的数据来源于数据堂,该数据集提取了53241个用户2015-5-26至2015-07-01期间在新浪微博平台发布的123147条微博信息,其中既有显式主题、也有隐含主题的微博及其转发与评论。
4.1.2 数据预处理
鉴于用户平时所发布的微博文本中含有视频、图片及表情等非文本内容,本文只针对微博具体内容进行主题分类与挖掘,因此将依据停用词字典的规则,去除指示代词、语气助词和停用词等出现频率很高却没有实际意义的词汇。
4.1.3 微博文本分词处理
文本分词在很大程度上决定着后期主题结果最终展示。本文采用的是中科院的ICTCLAS分词系统的C#版本。通过该分词系统分词后,微博文本转换为一系列的词语,每个词语都有词性标注,如名词、动词、形容词、副词等。不同词性的词语对主题的贡献程度不同,其中名词和动词具有最高的主题辨识度,因此本文中只考虑这两种词性的词语,过滤掉其他词性的词语。
4.1.4 实验环境
本文实验环境为Intel Core i7-4790K 3.6GHZ CPU、8GB内存、2TB硬盘的台式机。操作系统为Window 7 Ultimate,实验工具为Microsoft Visual Studio 2012。
4.2实验结果与数据对比分析
4.2.1 主题挖掘效果
本文模型的参数设置根据文献[17]中的方法,设置 , , ,依据多次实验数据的比较,取 较优值表示Union Labeled LDA模型中 影响原Labeled LDA模型 参数的比例。对数据集预处理时,抽样统计了大部分微博与其评论组主题相关与否的比例,设置评论的主题联合系数 , ;依据评论组内的主题相关性系数和其所属层级,采用线性平均值统计的方法分析主题随时间和层级衰减的规律,设置主题随时间衰减系数 , ;为了统计10次以内转发和评论对主题相关性的影响,设置转发微博主题随时间波动系数 。
Union Labeled LDA模型的整体效果如图4所示,共挖掘了37个主题,图中只展示了其中前6个主题。通过观察主题所属词汇并比对数据,这6个主题分别为韩剧,雾霾,腐败,娱乐,生活,明星,与其对应的词汇信息相符。证明Union Labeled LDA挖掘到的主题不仅与其对应的关键词汇匹配准确率较高,互相之间的独立性较强。
4.2.2 对比实验
本文通过两种方式对比LDA模型、Labeled LDA模型和Union Labeled LDA模型,其中一种是人工评价方法对实验结果逐一分析,评价的目的是确定主题的主题单词分类是否合理,主题之间是否相互独立。另一种是用Perplexity指标来量化评估模型。Perplexity指标是度量概率图模型性能的常用指标,也是主题建模界常用的衡量方法,表示预测数据时的不确定度,取值越小表示性能越好、推广度越高、泛化能力越强。人工评价的计算得分公式如下:
5 结束语
本文主要在微博评论上下文相关性方面丰富及改善Labeled LDA的Label标签信息对隐含主题的分类。在Labeled LDA模型基础上,通过引入评论主题及转发微博的主题向量,使联合主题模型提升并加强原标签信息产生的主题分布影响。在语料库上的实验表明,信息丰富的Label标签能更有效地提高微博在隐性主题语义分类上的准确性。
未来拟开展的研究包括:转发微博中的主题提炼与微博语义的相关性,以及双向关注频繁互动用户在同一兴趣主题上的相关度研究,以待更进一步提高微博主题分类的性能。由于海量微博文本信息快速更新,实现主题模型在微博环境下大规模部署和在线学习训练,探索在分布式环境下的大数据主题分类的并行处理等也是改进方向之一。
参考文献:
[1] KWAK H, LEE C, PARK H, et al. What is Twitter, a social network or a news media?[C]//Proceedings of the 19th international conference on World wide web. Raleigh, NC, USA:ACM, 2010: 591-600.
[2] 谢昊, 江红. 一种面向微博主题挖掘的改进 LDA 模型[J]. 华东师范大学学报(自然科学版), 2013, (6): 93-101.
[3] RAMAGE D, DUMAIS S T, LIEBLING D J. Characterizing Microblogs with topic models[C]// Proceedings of the Fourth International Conference on Weblogs and Social Media, ICWSM 2010. Washington, DC, USA:AAAI, 2010:130-137.
[4] 唐晓波, 王洪艳. 基于潜在语义分析的微博主题挖掘模型研究[J]. 图书情报工作, 2013, 56(24): 114-119.
[5] ROSEN-ZVI M, GRIFFITHS T, STEYVERS M, et al. The author-topic model for authors and documents[C]//Proceedings of the 20th conference on Uncertainty in artificial intelligence, AUAI Press. Arlington, Virginia, United States:ACM, 2004: 487-494.
[6] ZHAO W X, JIANG J, WENG J, et al. Comparing twitter and traditional media using topic models[M]//CLOUGH P, FOLEY C, GURRIN C,et al. Advances in Information Retrieval.
Berlin Heidelberg: Springer , 2011: 338-349.
[7] 张晨逸, 孙建伶, 丁轶群. 基于 MB-LDA 模型的微博主题挖掘[J]. 计算机研究与发展, 2015, 48(10): 1795-1802.
[8] YANG Y, CARBONELL J, BROWN R, et al. Multi-strategy learning for topic detection and tracking[M]// YANG Y M,CARBONELL J,BRWON R, et al. Topic detection and tracking.New York: Springer US, 2002: 85-114.
[9] ALLAN J, LAVRENKO V, SWAN R. Explorations within topic tracking and detection[M]// ALLAN J. Topic detection and tracking. New York: Springer US, 2002: 197-224.
[10] DEERWESTER S C, DUMAIS S T, LANDAUER T K, et al. Indexing by latent semantic analysis[J]. JAsIs, 1990, 41(6): 391-407.
[11] HOFMANN T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. Berkeley, CA, USA:ACM 1999: 50-57.
[12] HOFMANN T. Unsupervised learning by probabilistic latent semantic analysis[J]. Machine learning, 2001, 42(1-2): 177-196.
[13] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022.
[14] QUERCIA D, ASKHAM H, CROWCROFT J. TweetLDA: supervised topic classification and link prediction in Twitter[C]// Proceedings of the 4th Annual ACM Web Science Conference. Evanston, IL, USA:ACM, 2012: 247-250.
[15] RAMAGE D, HALL D, NALLAPATI R, et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1. Stroudsburg, PA, USA:ACM, 2009: 248-256.
[16] LU Y, ZHAI C. Opinion integration through semi-supervised topic modeling[C]// Proceedings of the 17th international conference on World Wide Web. Beijing, China:ACM, 2008: 121-130.
[17] STEYVERS M, GRIFFITHS T. Probabilistic topic models[J]. Handbook of latent semantic analysis, 2007, 427(7): 424-440.