基于OTSCM模型的主题情感在线追踪

2018-01-02 23:07刘玉文
现代情报 2017年12期

刘玉文

〔摘 要〕网络舆论主题情感在线分析对舆情研判与管理起着十分重要的作用,当前的主题情感模型存在着主题与情感建模关系不紧密,情感挖掘偏斜等问题,容易造成舆情误判。文本在OLDA(On-Line Latent Dirichlet Allocation,OLDA)模型的基础上引入情感参数,并提出情感遗传思想,建立基于情感遗传的在线主题情感混合模型OTSCM(On-Line Topic and Sentiment Combining Model)。该模型把t-1时间片内的主题情感分布作为t时间片内主题情感分布的先验,通过构造主题情感演化矩阵,生成t时间片内文档—主题、主题—特征词以及主题—情感词3个分布,最后使用交叉熵方法计算t时间片内主题分布与t-1之前主题分布的相似度,得出t时间片内主题情感演化结果。本文在5个数据集上对OTSCM进行了验证,并与其它流行算法进行了对比,实验表明,文本方法在主题情感在线识别方面达到了良好的效果。

〔关键词〕OLDA模型;主题情感;情感遗传;OTSCM模型;情感计算;情感演化

DOI:10.3969/j.issn.1008-0821.2017.12.006

〔中图分类号〕G206.2 〔文献标识码〕A 〔文章编号〕1008-0821(2017)12-0035-07

〔Abstract〕The on-line sentiment analysis of network topic plays an important role in the evaluation and management of public opinion.The current topic and sentiment models have a problem that the relationship between the topic and sentiment is not closely,which likely cause the deviation of sentiment mining and misjudgment of public opinion.This paper introduced the sentiment parameter into OLDA model and proposed a On-Line Topic and Sentiment Combining Model (OTSCM) based on sentiment genetic.This model made the topic and sentiment distribution of the t-1 time slice as a priori of the topic and sentiment distribution of t time slice.By constructing the topic and sentiment evolutionary matrix,the document-topic,topic-word and topic-sentiment 3 distributions were generated.The cross entropy method was used to calculate the similarity between the topic distribution of the t time slice and the t-1 time slice for getting the evolutionary result of t time slice.At last,OTSCM were validated on 5 data sets and compared with other state-of-the-art algorithms.Experiments showed that our approach had better performance.

〔Key words〕OLDA model;topic sentiment;sentiment genetic;OTSCM model;sentiment computing;sentiment evolution

随着我国网民数量的激增以及Web2.0的应用,互联网已成为社会热点事件传播及民众意见表达的主要载体,任何社会事件的发生都会在网上引起热烈的讨论,且随著时间的推移,民众情感也会发生动态变化。网络舆论已成为一支重要的社会参与力量,在一定程度上影响决策者的决策方向,所以网络话题发现与跟踪以及情感演化分析一直以来都是网络舆情领域研究的热点,对及时掌握民众社会心态从而制定合理的管理策略起着十分重要的作用。

主题检测与跟踪[1](Topic Detection and Tracking,TDT)研究始于1996年,目的在于发现网络中潜在的主题并跟踪其发展过程,其在社会热点事件网络舆情态势监控中应用广泛。2003年Blei等[2]提出隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA),用于寻找语料库中潜在的主题,LDA模型把文本从词的多维空间降维到主题空间,用特征词来表征语料库中的主题。随后,Alsumait等[3]提出在线LDA模型(On-Line Latent Dirichlet Allocation,OLDA),该模型融入了主题遗传思想,把t-1时间片内的主题分布后验作为t时间片内主题分布的先验,通过计算相邻时间片内主题相似度,在线跟踪主题的演化过程。OLDA模型考虑了主题的延续性,但每个时间片内的主题数K设置是固定的,没有考虑到新话题产生、旧话题消亡以及话题分裂、合并等情况,致使主题挖掘精度与LDA模型相比并没有得到明显提高。针对这个问题,众多学者提出了多种OLDA模型的改进算法,其中,Hu等[4]提出了一种话题演化建模与分析方法,该方法采用模型选择策略动态确定各时间片内子话题数,并对演化矩阵进行动态增减,提高了各时间片内话题识别精度,另外,该方法提出基于相对熵的子话题相似度计算方法,话题演化计算精度也得到了一定程度的提高。endprint

由于LDA模型在主题识别中的优异表现,很多学者在此基础上添加了情感参数,提出了基于LDA的主题情感模型,如:ASUM模型(Aspect and Sentiment Unification Model)[5]、TSM模型(Joint Sentiment/topic Model)[6]以及JST模型(Topic Sentiment Mixture)[7],这些模型把主题和情感进行联合建模,不仅能抽取语料库中的主题词,还能识别主题下的情感词,通过计算主题下情感词的综合情感值,得出主题的情感倾向。上述主题情感模型有个共同的缺陷就是只能对静态数据进行建模,不能在线跟踪主题的情感变化情况。Huang等[8]提出了一种基于概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)的网络话题情感分析方法,该方法使用PLSA对不同时间片内的主题进行提取,并把主题词细分为主题特征词和主题情感词,通过主题情感计算和主题相似度计算在线跟踪话题及其情感的演化。该方法的缺陷是没有对情感进行单独建模,情感词只是从主题词里分离出来的,使得情感词来源受限,不能精确表达主题的情感。Li等[9]提出了动态主题情感模型(DTSCM),并应用与微博主题情感演化挖掘。该方法使用主题情感模型分别对每个时间片内的微博文本进行建模,得出各时间片内的主题词和情感词,通过主题间的相似度计算,得出微博情感演化图。该方法与文献[3]相似,没有考虑到不同时间片中的主题变化,且没有考虑到以前时间片内主题情感分布对当前时间片内主题情感分布的影响。

针对当前主题情感演化模型存在的问题,文本在OLDA模型的基础上引入情感参数,并融入情感遗传思想,提出基于情感遗传的在线主题情感跟踪模型OTSCM。该模型借鉴OLDA模型中主题遗传思想,认为t时间片内的主题—情感词分布也只受到t-1时间片内主题—情感词分布的影响,把t-1时间片内主题—情感词分布后验当作t时间片内主题—情感词分布的先验。t时间片内的主题数量采用贝叶斯方法动态获得,通过建模t时间片内主题及其情感,得到主题—特征词分布和主题—情感分布,最后通过计算t时间片主题与t-1之前主题相似度得出t时间片内主题情感演化趋势。

1 相关理论

1.1 LDA模型与OLDA模型

潜在隐狄利克雷分配[10](Latent Dirichlet Allocation,LDA)是由Blei等提出的用于寻找语料库中潜在主题的概率生成模型。该模型假设每个文档包含多个主题,每个主题包含多个特征词,文档以一定的概率选择主题,主题以一定的概率选择主题词。LDA模型把文档从N维词分布降维到K维主题分布,生成文档—主题θ和主题—词汇φ两个分布矩阵。在大数据环境下,LDA模型主题挖掘效果非常明显[11],缺陷是只能对静态数据进行建模,不能识别主题在时间上的演化分布。

为了使LDA模型具备在线主题演化挖掘能力,Alsumait等[3]把时间粒度引入LDA模型[2],建立在线主题生成模型OLDA。该模型假设t时间片内的主题—词汇分布φt只受到t-1时间片内φt-1分布的影响,不同时间片内的主题—词汇分布可以看成一个隐马尔科夫链,采用t-1时间片内的主题—词汇后验分布φt-1作为t时间片内φt的先验,以此来保持主题的连续性,φt服从狄利克雷分布的公式如(1)所示。

OLDA模型采用增量Gibbs算法对t时间片内的文本数据进行采样,反复迭代θt和φt,直至达到稳定状态为止。

虽然OLDA模型考虑了主题的延续性,但也存在着明显的缺陷[8],即各时间片内的主题数设置都是固定值,忽略了新主题的产生、旧主题消亡等动态变化情况,且主题数设置不合理容易导致主题挖掘的偏斜。

1.2 流文本情感词典扩充

通常文本包含情感特征词,文本的情感计算可以转化为对情感词的情感计算[12],计算过程分为两步:1)首先创建情感词典;2)计算测试文本内情感词与情感词典之间的语义关系,得出测试文本的情感值。情感词典由3个数据表组成:情感词表、程度副词表和否定词表。情感词表包含4个属性:词、性质(褒义或贬义)、情感值和位置;程度副词表包含3个属性:词、强度值和位置;否定詞表也包括3个属性:否定词、否定值(否定一般设置为-1)和位置。

1.2.1 情感词表在线扩充

对于流文本而言,设t时间内到达的文本集为Dt={ d1t,d2t,…,dnt},t时刻的文本情感通过计算文本内情感词与t-1时刻的情感词典之间的相关关系得到。情感词典的构造包含以下步骤:当t=1时,统计并计算t时刻到达的文本集内的情感词,以此作为情感词表Ws的初始值。当t>1时,利用t时间片内的文本对情感词典进行扩充,依次循环,使得在每个时间片上Ws都会被扩充一次。以下介绍情感词表在t时间片内的扩充方法。

2 基于OTSCM模型的主题情感在线追踪

由于OLDA模型只能在线识别流文本主题,不能识别主题下的情感,所以,文本把情感参数引入到OLDA模型中,参照OLDA模型中的主题遗传思想,提出情感遗传概念,建立在线主题情感混合模型OTSCM(Online Topic and Sentiment Combining Model)。模型的核心思想是:t时间片内的流文本集Dt是多个主题和情感的混合,主题不仅以一定的概率选择某个主题特征词,而且以一定概率选择某种情感特征词,主题特征词和情感特征词均依赖与主题,而主题又依赖与文本。通过t-1时间片内主题遗传度和情感的遗传度建立t时间片内文档、主题、情感和词汇4个变量之间的联合条件概率,再采用吉布斯增量采样算法训练得到文档—主题θt、主题—特征词φt、主题—情感词μt3个分布矩阵,最后计算t与t-1时间片之间主题相似度,得出主题及其情感的演化结果。endprint

2.1 模型描述

设t时间片内的文本集Dt包含Kt个主题,OTSCM模型认为文本是主题的混合,主题又是特征词和情感词的混合。模型生成文本的过程如下:首先从文本—主题分布θt中抽取一个主题,根据抽到的主题从话题—特征词分布φt中抽取一个特征词,从主题—情感分布μt中抽取一个情感,再从情感—词汇分布中抽取一个情感词。OTSCM模型是一个4层贝叶斯网络,其生成过程如图1所示。

从表2中可以发现数据集中存在6个报道主题,主题1:各方救援,报道时间为t1~t5;主题2:挖掘到井底,但没见到孩子,报道时间为t4~t5;主题3:警方带走孩子父亲和爷爷,报道时间为t4~t5;主题4:孩子找到,但无生命体征,报道时间为t5~t7;主题5:孩子爷爷磕头致谢,报道时间为t6~t7;主题6:男童下葬,大坑回填,报道时间为t7~t8。根据主题—情感词分布μt,表3显示了在t=4时间片内OTSCM模型识别出的主题下的情感词,并通过公式(21)计算得出主题综合情感值。由于篇幅限制,其他时间片内的主题情感识别结果不再一一列出。

3.3 主题情感在线演化

为了清晰表达模型对新闻主题的舆论情感演化识别情况,根据主题演化计算结果和不同时间内主题情感计算结果,可以描述出所有主题舆论情感演化过程,如图2所示。

从图2中可以得出,每个主题下的舆论情感都是动态变化的,其中主题1的舆论情感变化较大,范围是(0.74,-0.35),原因是在救援初期民众表达了强烈的正情感,但随着救援时间的拉长,民众开始质疑救援方案,所以舆论情感逐渐降低,到t=5时,小孩被救出时已死亡,民众的负面情绪到达了最高值,出现了较强的负情感,分析原因是因为民众对救援方案产生质疑。主题2和3的舆论情感在中性情感附近,体现了民众复杂的心态,即井下没看到孩子,且警察又把孩子父母带走了,民众都在对最终答案进行猜测,没有明确的情感倾向。主题4和5下的舆论表现出了很强且稳定的正情感,孩子被发现已死亡,且爷爷磕头感谢,民众的正面情绪占主导,纷纷表达了对孩子的惋惜和对爷爷行为的尊重。主题6的舆论情感表现为低强度正情感,因為民众对孩子下葬表现出了正情感,但是对威胁儿童的安全隐患表示了担忧,抵消了一部分正情感。

3.4 模型性能评价

为了验证本文算法的通用性,本文以“河北男童落井事件”、“山东辱母杀人事件”、“萨德入韩事件”,“徐玉玉事件”及“中印对峙”5个新闻数据集作为测试数据,依次命名为DataSet1~DataSet5,以ASUM、TSM、JST、DTSCM 4个模型作为OTSCM的对比对象,分别进行了实验,各算法的准确率对比结果如表4所示。

从表4中可以看出,文本算法的准确率在各组数据集中均为最高,原因是ASUM、TSM和JST模型中主题数必须事先固定,受到人为经验影响较大,容易造成主题识别模糊,且三者都是静态模型,主题先验和情感先验设置固定,没有考虑到在前后时间片内的关联。DTSCM模型虽然在不同时间片内动态获取主题数量,但是不同时间片内的主题和情感不具有传递性,先验知识得不到有效利用,主题和情感的计算在各时间片内都是孤立的。本文算法填补了上述算法的缺陷,每个时间片内的主题和情感不仅具有遗传性,而且不同时间片内的主题数是动态获取的,有效地提高了主题和情感的分类精度。

实验进一步验证了各算法之间的困惑度对比,困惑度是检测聚类质量的评价标准,困惑度越小,算法性能越好,困惑度的计算公式如(22)所示。

其中,p(wi)表示词wi在文档d中出现的概率,Nd表示文档d中词的数量。试验中在每个数据集中随机抽取70%的文本数据作为训练集,剩下的30%作为测试集,各算法的困惑度对比如图3所示。

从图3中可以得出,OTSCM算法的情感识别困惑度最低,情感聚类效果最好。

4 结束语

本文把情感信息引入OLDA模型中,并提出情感遗传思想,建立了基于情感遗传的在线主题情感跟踪模型OTSCM。该模型把t-1时间片内主题情感后验作为t时间片内主题情感先验,生成文档—主题、主题—特征词和主题—情感词3个分布矩阵,再利用基于交叉熵的相似度计算方法判断当前t时间片内主题情感的演化趋势。实验结果表明:与其他最流行算法相比,OTSCM模型在主题情感在线演化分析中具有良好的性能。

参考文献

[1]Li G,Jiang S,Zhang W,et al.Online web video topic detection and tracking with semi-supervised learning[J].Multimedia Systems,2016,22(1):115-125.

[2]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].JMLR.org,2003,3(9):993-1022.

[3]Alsumait L,Barbará D,Domeniconi C.On-line LDA:Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking[C]// Eighth IEEE International Conference on Data Mining.IEEE Computer Society,2008:3-12.

[4]HU Yan-Li,BAI Liang,ZHANG Wei-Ming.Modeling and Analyzing Topic Evolution[J].Journal of Automatica Sinica,2012,38(10):1690-1697.endprint

[5]Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C]// ACM International Conference on Web Search and Data Mining.ACM,2011:815-824.

[6]Rao Y.Contextual Sentiment Topic Model for Adaptive Social Emotion Classification[J].IEEE Intelligent Systems,2016,31(1):41-47.

[7]Lin C,He Y,Everson R,et al.Weakly Supervised Joint Sentiment-Topic Detection from Text[J].IEEE Transactions on Knowledge & Data Engineering,2012,24(6):1134-1145.

[8]HUANG Wei-dong,LIN Ping,DONG Yi,et al.Analysis on the Feature Words Based Evolution of Netizens Sentiments in Network Public Topics[J].Journal of Intelligence,2015,(11):117-122.

[9]LI Chao-xiong,HUANG Fa-liang,WEN Xiao-qian,et al.Evolution analysis method of microblog topic-sentiment based on dynamic topic sentiment combining model[J].Journal of Computer Applications,2015,35(10):2905-2910.

[10]Rao Y,Li Q,Mao X,et al.Sentiment topic models for social emotion mining[J].Information Sciences,2014,266(5):90-100.

[11]Dermouche M,Kouas L,Velcin J,et al.A joint model for topic-sentiment modeling from text[J].2015:819-824.

[12]Rao Y.Contextual Sentiment Topic Model for Adaptive Social Emotion Classification[J].IEEE Intelligent Systems,2016,31(1):41-47.

[13]Zhao Y,Qin B,Liu T,et al.Social sentiment sensor:a visualization system for topic detection and topic sentiment analysis on microblog[J].Multimedia Tools & Applications,2016,75(15):8843-8860.

[14]Peng B,Li J,Chen J,et al.Trending Sentiment-Topic Detection on Twitter[J].2015,9042(2):66-77.

[15]Pinto M,Saleiro P,Teixeira J.SentiBubbles:Topic Modeling and Sentiment Visualization of Entity-centric Tweets[C]// International C* Conference on Computer Science & Software Engineering.ACM,2016:123-124.

(本文責任编辑:孙国雷)endprint