基于组话题模型的政务微博话题预测

2021-05-20 15:35李文黄克文
荆楚理工学院学报 2021年6期
关键词:社会网络微博

李文 黄克文

摘要:为了提高政府部门应对网络舆情的处理效率,采用一种产生式的组话题模型对微博政务话题进行挖掘与分析。组话题模型对每个话题产生一个多项式分布,对相似性质事件进行合并生成相关矩阵。由于每个实体可以属于多个话题,并且网络规模大,用Gibbs采样对提出的模型进行了验证,并与其他话题预测模型进行对比分析。实验结果表明:本文提出的组话题模型不仅执行时间短、效率高,而且具有很高的准确率。

关键词:微博;话题模型;社会网络

中图分类号: TP393      文献标志码:A      文章编号:1008-4657(2021)06-0089-05

引言

微博作为当前最热门的新媒体之一,其影响力已经远远超过电视,报纸等传统媒体。在微博中,每个注册用户都可以谈论自己感兴趣的话题,这种交互是自发的,往往能表达发言者的真实情感。随着微博的普及和应用,越来越多的用户已经把微博当成生活中必不可少的一部分。在微博的注册用户中,不仅有影视明星、商人、普通群众、也有国家的公务人员或机构。这些代表国家权力的公务人员或机构通过微博传达党和政府的声音及时公布相关数据和事件,同时也可以倾听人民心声诉求排解与政府管理有关的实际问题。然而,在微博中,不仅有健康积极的内容,也充斥着损害党和国家形象的言论。因此,及时的发现这些损害党和国家形象的话题,并加以监督和引导对维护社会的稳定有着重要的作用。随着数据量的激增,传统的话题预测模型已不适用,如何有效挖掘和分析微博政务话题,预测舆情趋势进而提前采取防治措施已成为相关管理部门亟待解决的问题。

1        相关工作

向量空间模型是最早的话题挖掘与分析的工具。在向量空间中,通过寻找单词同时出现的模式,例如TF或TF-IDF,可以将同时出现的相关单词构成话题模型。基于单词的频率,Hearst  M[ 1 ]通过计算两个单词块的余弦相似性来区分不同的话题。Choi  F[ 2 ]通过矩阵的秩的模式将不同的单词进行聚类,从而进行话题的区分。Xiang   J等[ 3 ]对重复的单词进行加权,然后应用词汇鏈对话题进行分析。Utiyama   M等[ 4 ]提出一种概率话题分析方法,该方法应用动态规划以最小的代价对话题进行区分。此外,Malioutov   I等[ 5 ]将话题区分转换成图的分割问题。话题模型的另一个研究方向是应用产生式对话题进行建模,例如LDA[ 6 ]模型。PLDA[ 7 ]是一种无监督的概率话题建模方法。该模型对LDA模型进行了扩展,将话题分布表示为马尔科夫结构,该模型将多个LDA模型表示成一个马尔科夫链。在PLDA中,Yi W等[ 7 ]人将每个文本信息附加了一个二元话题转换变量。其中第j个文本的二元转换变量表示该文本是否与第j-1个文本共享相同的话题分布。与PLDA相似,Nguyen  V等[ 8 ]也将话题分布表示成一个马尔科夫结构,差别在于SITS中的每一个话题为HDP-LDA[ 9 ]。此外SITS认为每个文本消息都有一个作者,并且这个作者与二元转换变量相关。Rubin   T   N等[ 10 ]认为一个数据集中的文档可能不共享相同的话题,认为每个单词片段来自于单独的话题,并应用多项式语言模型对文档中的词汇进行建模。在此基础上,Chen   Z等[ 11 ]又进行了扩展,认为每个单词片段即可能来自于一个话题,也可能来自于这个话题的父话题。此外,Lee   S等[ 12 ]、Pan   S等[ 13 ]、Riedl   M等[ 14 ]将话题模型的输出作为输入来进行话题的进一步分析。然而,当前话题模型大多存在预测精度不高,对大规模数据处理效率低,时变性不强等缺陷[ 15 ]。由于微博中含有大量的话题,政务话题往往会湮没于海量的信息之中。组话题模型为大数据时代网络数据挖掘与分析提供了新的思路,本文采用组话题模型对微博中的政务话题挖掘进行研究,对每一个指定的话题产生一个多项式分布,生成相关矩阵,并应用Gibbs采样进行分析。

2        组话题模型

微博文本具有文本短,信息量大,用词不规范等特点。在微博中,文本是由一个个词汇实体连接而成的。在实体的识别中,先去掉“#”格式信息,“@”格式信息以及虚词。对于用户用词的不规范,先通过余弦相似性识别出词汇及其缩写形式并看做一个实体,对于近义词则采用手工识别出实体。

组话题模型通过实体之间的关系将实体进行聚类分析。实体之间的关系可以是有向的,也可以是无向的,还可以包含多个属性。本文关注的是实体间的无向关系,并且关系之间的属性是若干个词汇,组话题模型的结构如图1。

在实体间的每个关系的产生过程中,该模型首先产生话题t,然后产生所有描述该话题的词汇。其中每个词汇都是通过多项式离散分布?覬t独立产生的,并且是和话题t相关的。在网络的关系结构的产生过程中,对于每个话题t,从特定的多项式分布θt中产生一个组gst,并将之分配该话题。在给事件进行了组分配后,可以得到矩阵V(b),其中每个元素V■■代表了实体i和j是否属于相同的事件b。矩阵V中的每个元素都来自于二项分布γ。如果认为所有的事件都反应一个话题,那么该模型可以简化为随机块结构模型[ 16 ]。为了和块模型相匹配,每个事件定义为一个关系。例如在该事件中,两个实体的话题组是否相同。然而,在本文的模型中,一个关系可以包含多个属性(每个事件是由多个词汇描述的),并且是多项式离散分布生成的。当考虑多个话题存在的情况下,数据集被划分为T个子块,每个子块与相应的话题对应。组话题模型的相关参数见表1。

该模型应用实体间的关系及关系的属性来挖掘话题敏感的组成员。由于微博网络中往往含有大量的用户及事件,因此本文采用Gibbs采样分析。在模型中,可以將参数θ,?覬和γ结合起来降低不确定性,这样做同样可以简化Gibbs采样对参数θ,?覬和γ的确定。于是组话题模型就是求出下面两个条件概率:

其中,ntg表示在话题t中组g的实体个数,m表示组g和h是否属于同一个事件b(k=1或k=2),I(tb=t)是一个指示函数,d表示m中实体s被分到组gst中的部分(如果I(tb=t)=0,那么忽略与事件b相关的部分)。

其中,e表示单词v在事件b中出现的次数。m是一个随着tb的赋值而变化的变量,因为tb影响着事件b中的所有实体的组分配。

3   实验分析

实验采集的政务数据来源于新浪微博公开数据,包含330 657个用户构成的网络及用户的发言内容。我们对网民关注度比较高的“新冠疫情”“铁链女”“离婚冷静期”教育业“双减”政策“二胎政策”等事件的发言进行了收集,并将这些事件作为数据集的真实话题。同时,对参与这些话题讨论的用户的其它发言也进行了收集。本次实验的硬件测试环境采用Microsoft Windows10操作系统,CPU为Inter Core i9 12900k,3.6GHz,内存为16GB,编程语言为MATLAB R2020a。

实验采用话题检测的缺失概率PMiss,错误提示概率 PFA以及二者的组合CDet三个指标来评价话题挖掘的性能。CDet用如下公式表示:

在参数的选择上,令CMiss = 1.0,CFA = 0.1, Ptarget = 0.02,进一步对CDet进行规范化,可得

将本文提出的组话题模型表示为GM,将GM模型与主流的LDA模型[ 17 ]和Kmeans模型[ 18 ]的话题预测结果进行对比。从图2的预测结果来看,本研究提出的GM模型能对微博政务热点话题进行刻画,预测误差较小,预测结果可为相关管理者把握网络舆情走势,提前采取措施提供决策依据。对比了三种算法在缺失概率、错误提示率及CDet,结果如图3所示,LDA算法在新浪数据集上的话题预测性能优于Kmeans算法,而GM算法的话题预测性能要高于LDA和Kmeans算法。

对比了三种算法在这5个不同大小(依次递增)数据集下的执行效率。不同算法运行时间对比如图4所示,从图4所示的结果中可以看出,三种算法在小数据集上所需要的执行时间较短,并且差异不大,随着测试机的增大,GM算法所需要的执行效率要明显优于其它两种算法。这是因为GM模型对原始数据进行了分组,将相似事件分配到同一个矩阵进行计算,大大缩小了计算时间。从上述结果可知,本文提出的组话题模型在保持较高的话题预测准确性的同时具有较高的执行效率,更适合大规模数据的话题挖掘和分析。

4    结论

受数据量激增及时变性强等因素作用,传统话题预测模型不能满足当前微博政务话题预测的需要。为此,提出一种基于组话题模型(GM)的数据挖掘技术,对每一个指定的话题产生一个多项式分布并生成相关矩阵,应用Gibbs采样进行分析,并与LDA模型和Kmeans模型进行对比,实验结果表明GM模型具有更好的预测精度,更优的缺失检测概率及错误提示率,同时由于其采用相似分组模式,当数据集较大时具有更高的运算效率,能更好的服务于新时代网络舆情预测。

参考文献:

[1] Hearst M. Texttiling: Segmenting text into multi-paragraph subtopic passage[J]. Computational linguistics,1997,23(1): 33-64.

[2] Choi F. Advances in domain independent linear text segmentation[C]. Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference. Seattle: Association for Computational Linguistics, 2000: 26-33.

[3] Xiang J,Zha H. Domain-independent text segmentation using anisotropic diffusion and dynamic programming[J]. ACM  Sigir Forum,2003: 322-329.

[4] Utiyama M, Isahara H. A statistical model for domain-independent text segmentation[C]. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Seattle: Association for Computational Linguistics,2001: 499-506.

[5] Malioutov I, Barzilay R. Minimum cut model for spoken lecture segmentation[C]. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Seattle: Association for Computational Linguistics,2006: 25-32.

[6] Lienou M, Maitre H, Datcu M. Semantic annotation of satellite images using latent dirichlet allocation[J]. IEEE Geoscience & Remote Sensing Letters,2010,7(1):28-32.

[7] Yi W,Bai H, Stanton M,et al. PLDA: Parallel latent dirichlet allocation for Large-scale applications[C]. Proceedings of the 5th International Conference on Algorithmic Aspects in Information and Management. Berlin-Heidelberg: Springer,1970.

[8] Nguyen V, Boydgraber J,Resnik P. SITS: A hierarchical nonparametric model using speaker identity for topic segmentation in multiparty conversations[C]. Meeting of the Association for Computational Linguistics: Long Papers. Seattle: Association for Computational Linguistics,2012.

[9] Wang E,Silva J,Willett R,et al. Dynamic relational topic model for social network analysis with noisy links[C]. Statistical Signal Processing Workshop. Piscataway: IEEE, 2011.

[10] Rubin T N, Chambers A, Smyth P, et al. Statistical topic models for multi-label document classification[J]. Machine Learning,2012,88(1-2):157-208.

[11] Chen Z, Mukherjee A, Liu B, et al. Leveraging multi-domain prior knowledge in topic models[C]. Proceedings of the Twenty-Third international joint conference on Artificial Intelligence. Palo Alto: AAAI Press, 2013: 2 071-2 077.

[12] Lee S,Belkasim S, Zhang Y. Multi-document text summarization using topic model and fuzzy logic[C]. Machine Learning and Data Mining in Pattern Recognition. Berlin-Heidelberg: Springer,2013: 159-168.

[13] Pan S , Zhou M X,Song Y,et al. Optimizing temporal topic segmentation for intelligent text visualization[C]. International Conference on Intelligent User Interfaces. New York: ACM,2013.

[14] Riedl M, Biemann C. Topictiling: A text segmentation algorithm based on LDA[C]. Proceedings of ACL 2012 Student Research Workshop. Seattle: Association for Computational Linguistics,2012: 37-42.

[15] 夏一雪.網络话题传播规律建模与预测问题研究[J].现代情报,2019,39(4):3-12.

[16] Du L, Buntine W, Johnson M. Topic segmentation with a structured topic model[C]. Proceedings of NAACL-HLT. Atlanta: Naacl. 2013: 190-200.

[17] 许睿,龙丹,刘佳,等.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报(自然科学版),2020,42(S2):26-31.

[18] 郭顺利,步辉,何宏国.基于G-Kmeans的网络问答社区话题用户信息需求聚合方法及应用研究[J].情报理论与实践,2022(4):1-16.

[责任编辑:郑笔耕]

收稿日期:2021-10-08

基金项目:广东省科技厅科学研究项目(NO.163-2019-XMZC-0009-02-0066)

作者简介:李文(1963-),男,广西钦州人,广东科贸职业学院副教授,硕士。主要研究方向:网络安全、数据库。

猜你喜欢
社会网络微博
微博+互联网背景下乡村旅游信息传播模式探究
中国“面子”文化情境下领导政治技能对团队领导社会网络的作用机制研究
城市新移民社会适应与社会网络协同模拟框架研究
旅游目的地合作中网络治理模式研究
“985工程”高校图书馆阅读推广的调查与分析
事实与流言的博弈
关于高中语文教学中微博的有效运用思考
企业管理中社会网络的运用及相关问题阐述
中小企业金融支持路径的研究
神回复