林特
摘要:BBTM模型克服了数据稀疏性和冗余性,是短文本流突发性话题发现的有效方法。然而,BBTM模型量化词对突发概率方法比较简陋且存在不合理性,对周期性话题关联词对的突发概率估计有偏差,故提出了一种结合基于自动状态机的枚举突发词对和正态分布的改进方法。实验证明,该方法能够为模型建模提供更准确的先验知识,从而提高模型对突发话题的敏感度和话题抽取的准确度。
关键词: 短文本; 突发性; BBTM; 枚举突发; 正态分布
中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2017)01-0248-03
Abstract:BBTM is an effective model for bursty topic discovery in short texts well solve data sparsity and redundancy. However, the method used to quantify the burstiness of biterms proposed by BBTM is pool and irrational, making the wrong kind of assumptions about biterm bursty probability related to periodic topics, then an improved algorithm based on enumerating bursts biterms used state automation and normal distribution is presented. Experiments show the improved algorithm gives more precise prior knowledge for modeling, then raises the sensitivity and accuracy of bursty topics discovered.
Key words:short texts; bursty; BBTM; enumerating bursts; normal distribution
1 概述
近年來,短文本形式数据充斥社交网络平台,大量突发性话题隐含其间,而这类话题往往与社会网络热点事件息息相关。短文本流的突发性话题发现工作是对海量网络文本的精馏,为舆情分析、商务智能、新闻故事线跟踪提供了必不可少的研究基础。然而,大量冗余信息增加了突发性话题发现的难度,同时短文本的文本稀疏性特征对话题抽取的精度的影响显著。
在过去的研究工作中,主要通过两类方法提取文本流突发性话题。一类经典的方法是,先检测文本突发性特征后聚类[1][2][3]。然而,突发性特征存在二义性对于聚类效果影响显著,从而复杂的启发式调节和后处理方法不可或缺,另外,仅仅以突发性特征表征话题会丢失文本基本信息,造成话题的理解和解读困难。另一类方法,通过主题模型对突发性话题进行提取[4],但传统意义上的主题模型的初衷是揭示文本集合的主话题,并不能够直接用于突发性话题的提取,后处理方法仍旧不可或缺[5][6],由于大部分主话题并不具突发性,启发式后处理方法也不能够弥补模型本身的缺陷。Yan等人提出了一种针对突发性话题发现的主题模型,即BBTM模型[7]。模型的核心思想是量化词对的突发概率,作为BTM模型建模的先验知识。
BBTM模型对突发概率的量化算法存在不合理性,任一词对的突发概率恒小于非突发概率,先验知识的误差导致模型更倾向于将词对归类为非突发性话题而非非突发性话题。本文引入Kleinberg的枚举突发算法[8]用于词对的突发状态评估,并定义了一种突发概率量化方法,改进BBTM模型中的突发概率量化方法。
OBTM模型的Novelty指标在各个时间片上均小于0.2,远小于另外三种模型对突发话题的敏感度。可见,BBTM模型相较传统意义上的主题模型更适用于突发性话题的发现,而本文提出的改进方法在各个时间片上的Novelty指标较为平稳,相较原来BBTM模型有更优的敏感度表现。
5 结论
本文给出了整合使用突发特征提取方法和主题模型方法的一种有效途径。对BBTM模型的改进方法中先通过引入枚举突发词对方法估计词对的突发状态,再采用正态分布的累积分布函数拟合词对的突发概率,为模型建模提供了相较于BBTM模型更准确的先验知识,从而提高了模型对突发性话题的敏感度和话题抽取的准确度。
参考文献:
[1] Mathioudakis M, Koudas N. Twittermonitor: trend detection over the twitter stream[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of data. ACM,2010:1155-1158.
[2] Cataldi M, Di Caro L, Schifanella C. Emerging topic detection on twitter based on temporal and social terms evaluation[C]//Proceedings of the Tenth International Workshop on Multimedia Data Mining. ACM, 2010: 4.
[3] Li C, Sun A, Datta A. Twevent: segment-based event detection from tweets[C]//Proceedings of the 21st ACM international conference on Information and knowledge management. ACM,2012:155-164.
[4] Blei D M. Probabilistic topic models[J]. Communications of the ACM, 2012, 55(4): 77-84.
[5] Diao Q, Jiang J, Zhu F, et al. Finding bursty topics from microblogs[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics, 2012: 536-544.
[6] Lau J H, Collier N, Baldwin T. On-line Trend Analysis with Topic Models:\# twitter Trends Detection Topic Model Online[C]//COLING. 2012: 1519-1534.
[7] Yan X, Guo J, Lan Y, et al. A Probabilistic Model for Bursty Topic Discovery in Microblogs[C]//AAAI. 2015: 353-359.
[8] Kleinberg J. Bursty and hierarchical structure in streams[J]. Data Mining and Knowledge Discovery,2003,7(4): 373-397.
[9] Mimno D, Wallach H M, Talley E, et al. Optimizing semantic coherence in topic models[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,2011:262-272.