丁晟春 刘笑迎 李真
摘 要:[目的/意義]在舆情领域,通过对已知主题生命周期演化轨迹的分析、热点与非热点主题演化过程的对比,可以更好地把握热点主题演化规律。[方法/过程]本文提出将TF-IDF算法融合评论影响力选择主题特征词,在此基础上,通过计算主题强度与相似度提出了6种主题演化形式,并在主题演化阶段将主题强度与主题内容两方面相结合进行了可视化实验。[结果/结论]最终展示出各个时间窗里的主题内容及主题强度,分析与挖掘出舆情事件中网民观点随时间的演化形式与演化规律。
关键词:微博评论;评论影响力;网络舆情;主题演化;社会网络;TF-IDF算法;可视化
DOI:10.3969/j.issn.1008-0821.2021.08.009
〔中图分类号〕G206 〔文献标识码〕A 〔文章编号〕1008-0821(2021)08-0087-11
Research on the Evolution of Hot topics of Online
Public Opinion with the Influence of Comments
Ding Shengchun Liu Xiaoying Li Zhen
(Department of Information Management,School of Economics and Management,Nanjing University of
Science and Technology,Nanjing 210094,China)
Abstract:[Purpose/Significance]In the field of public opinion,the evolution law of hot topics can be better understood by analyzing the evolution trajectory of the life cycle of known topics and comparing the evolution process of hot topics and non-hot topics.[Method/Process]In this paper,TF-IDF algorithm was proposed to select topic feature words by integrating comment influence.On this basis,six kinds of topic evolution forms are proposed by calculating topic strength and similarity.In the evolution stage of the theme,a visualization experiment was carried out by combining the strength of the theme with the content of the theme.[Result/Conclusion]Finally,the theme content and theme intensity in each time window were displayed,and the evolution mode and evolution law of netizens opinions in public opinion events over time were analyzed and excavated.
Key words:Weibo comment;influence of comment;network public opinion;theme evolution;social network;TF-IDF algorithm;visualization
近年来,随着社交媒体的广泛应用,由网络引发、扩大或主导的舆情事件频发。身处网络中的每一个网民都可通过转发、评论等多种形式参与到事件的讨论与传播,推动个体事件向网络舆论发展。舆情事件从产生到平息具有一定周期,而这期间相关人员能否及时对此做出回应和处理是能否将舆论引向正确方向的关键。因此,如果可以在舆情形成的初始阶段发现苗头性信息,面对可能爆发的危机事件做好应对工作,做到真正掌握舆论的主导权,便能够发挥预警工作的前瞻性作用,引导舆论向好的方面发展,有利于提升政府服务效率与公信力,以及促进社会的和谐与稳定,其效果与意义必定远大于舆论形成后的补救工作。
本研究立足于实现从实时、动态的舆情数据中检测并展示热点主题的演化过程,基于TF-IDF方法融合微博评论影响力选取特征词,结合社会网路分析工具进行词云展示;并且提出了融入主题强度的主题内容演化方法,这打破了传统的舆情主题发现方法的静态性,对网络舆情主题进行了多维度、深层次的挖掘。
1 相关研究
主题演化是对输入的时序文本流进行语义层次的分析计算,找出其中隐含的主题,并对主题进行跟踪,把握主题发展规律与未来趋势[1]。通过对已知主题整体生命周期演化轨迹的分析、热点与非热点主题演化过程的对比,可以更好地把握热点主题演化规律,根据掌握的主题演化规律为舆情引导工作提供有价值的参考。
在Web of Science数据库中建立高级检索表达式TS=(Topic NEAR/3 Evolution),以匹配“Topic Evolution”“Evolution of Topic”等检索词,语种选择English,时间跨度选择“最近五年”,共获得检索结果336条。在CNKI数据库中以“主题演化”或“话题演化”进行检索,检索结果中发表年度介于2015—2020年的文献总量共计550条,可见关于主题演化方面的研究总量偏少,但正处于研究热度上升阶段。以TS=(“Online Public Opinion”OR“Social Media”OR Twitter OR“Micro$Blog”OR Facebook OR“Online News”)和以“网络舆情”及其相关词作为主题分别在Web of Science数据库和CNKI数据库中对上述检索结果进行精炼,返回的检索结果分别为55条与196条,这说明现阶段的主题演化研究在网络舆情分析方面的应用较少,主要集中于学科主题演化,以探测学科或研究领域的研究热点与研究前沿为主。
1)从研究方法来讲,主题演化领域最常使用的研究方法是主题模型法,国内外不少研究人员都曾致力于将时间因素融入主题模型中,建立主题演化模型。按时间因素可将主题演化模型归结为3类:第一类是将时间作为一种可观测的连续变量的连续时间主题演化模型[2];第二类是先将文本集合按时间片划分,离散到不同的时间窗口,再在每个时间窗口里分别应用主题模型的离散时间主题演化模型[3];第三類是在线的主题演化模型,一次可处理单独1篇文档或1个文档集合[4]。除了主题模型之外,基于社会网络分析思想的共词分析法也是常用的方法,这种方法能挖掘词与词之间深层次的潜在关系[5]。
2)从演化分析维度来讲,现有研究主要涉及主题内容、主题强度、主题情感及主题结构4个层面。
主题内容层面。主题演化分析中通常使用关键词簇或主题—词项概率分布的形式来表示从文本集合中找到的隐含主题,而主题内容演化一般通过对相邻时间窗内的主题进行两两相似度计算[6-8]或距离计算[9],使用简单阈值法来确定主题间的演化关系。有不少研究人员也直接利用文字描述的方式揭示各个时间窗内发现的主题在内容层面上的演化关系[10-11]。
主题强度层面。通过选取表征主题强度的特征项,如相关文档数、文档—主题概率平均值[12]等,综合计算主题在各个时间窗下的主题强度,研究人员通常借助折线图等可视化表达方式来直接展示主题强度随时间推进的变化情况。
主题情感层面。文献[13]认为,网民情绪的表达会影响事件的传播速度与发展走向,及时判断舆情事件中网民的情感走势,可帮助组织及时采取有效的情感疏导措施,避免情绪极化现象。因此,有研究人员[13-14]从主题情感层面探讨了其随事件推进的演变过程。
主题结构演变。主题的结构演变既包括主题网络结构的演化[15-16],又包含主题信息传播路径的变化[17-18]。前者基于主题关键词共现网络,将网络社区与主题对等,利用共词网络社区自身结构的演化来揭示主题的发展过程,文献[19]基于共词网络社区节点重合度计算与关系相似性计算,开发了一款名为NEViewer的网络社区演化分析软件;后者则侧重于从信息传播动力学角度,通过对诸如SIR等流行病模型或社交网络进行仿真,来揭示舆情信息随时间的传播与扩散轨迹。
总体来说,多数与网络舆情主题演化相关的研究选择从主题内容演化或者主题强度演化作为研究切入点,虽然对所选取的事件进行了非常全面、详细地剖析,但绝大多数研究往往仅围绕一个热点事件展开,并对可视化辅以大量的文字描述,这使得可视化的内容和效果均不够完善。因此,为了更能展示准确的热点主题,本文在主题表示阶段,创新地改进特征词选取方法,将评论影响力融入算法中,使得提取到的主题词更能够反映网民当下态度与情绪;此外,为了更清晰地表示主题演化过程以及保证演化分析方法的可行性与有效性,本文将热点事件中多个热点主题均进行主题强度与主题内容两方面的细粒度演化分析,挖掘舆情事件中网民观点随时间的演化情况与规律,以期帮助政府与企业针对网民意见与诉求,加以科学有效的引导与应对。
2 研究方法
2.1 总体框架
2.2 主题表示
本文选用词簇的方式表征主题,因此,特征词的选取及主题词簇的形成就成为待解决的主要问题。主题表示共分为融合评论影响力的特征词提取和特征词共现网络分析两部分。
2.2.1 融合评论影响力的特征词提取
TF-IDF是衡量词重要程度的经典算法,常被用于特征词的提取,但传统的TF-IDF算法忽略了文档对词特征权重的贡献程度,并且也无法很好地应用于微博这类短文本中。而微博评论代表了发声者想让更多网友看到对此事件的态度和观点,评论的影响力则能体现评论内容中存在的主题词的热度,因此,本文拟将TF-IDF算法与微博评论影响力相结合,以确定特征词的权重,从而使得选取的特征词能更好地代表当下时间窗内的网民观点。如果将第t个时间窗中词j的权重记为wj,t,则其可由式(1)计算得出:
其中,Dt表示第t个时间窗内的评论总数,p(d)表示微博評论d的影响力,TF-IDFd,j表示词j相对于评论d的TF-IDF值。本文认为,微博评论d的影响力由回复数RCd与点赞数LCd共同决定(见式(2)),两者体现了参与话题讨论的网民对当前评论d的认同感,α与β为权重因子。TF-IDFd,j则等于词j在评论d中出现的频次tfd,j与词j在第t个时间窗内的逆文档频率(见式(4))的乘积(见式(3))。
利用式(1)得到第t个时间窗内词的特征权重,经降序排序,筛选TopN个词作为当前时间窗内的特征词集合。为了提高后期共词分析的效率,同时又能较完整地保留评论语义,本研究仅保留特征词集中的名词、动词和形容词做进一步的研究。
2.2.2 特征词共现网络分析
特征词共现网络能够直观地反映出词与词之间的亲疏关系,故本文将广泛应用于科技文献主题识别的共词网络分析技术引入到微博评论信息处理中。以2.2.1小节选取的特征词为网络节点,以词与词在同条评论中的共现关系为边,共现频次用于表征边的权重,构建特征词共现网络,对该共词网络进行关联强度分析。通常情况下,经常同时出现的主题词对相比于出现次数多但不经常同时出现的主题词对的关联强度更高。也就是说,关联在一起的主题词簇往往在语义上更加相近,更可能表达同一主题。因此,本文定义:将经过关联强度分析后得到的词簇视为主题,一个词簇代表一个主题,每个主题都可转换为如式(5)所示的特征词表示形式。
2.3 主题强度计算
现有研究多直接以主题相关文档数来表征主题强度,但网络舆情主题强度不仅仅取决于相关微博量的多少,更与参加该话题的用户数量有关。此外,微博平台上用户参与某个网络舆情主题的方式并非仅有发布相关微博一种,用户还可通过评论、转发、点赞等多种行为参与到话题当中。换言之,本文认为一个网络舆情主题强度衰退至0的标志并非是不再产生与之相关的微博,而是不再有用户关注该主题,即不再有用户以诸如评论、点赞等行为参与到该主题之中。因此,本文假设在第t个时间窗口内,与主题相关的微博数量为Nt,则该主题的主题强度可由式(6)计算:
其中,weight(wi,t)表示在第t个时间窗口内与主题T相关的第i条微博wi的强度,其可由式(7)计算得到:
式(7)中CCi,t表示微博wi在第t个时间窗口内新增的评论数,RCi,t表示微博wi在第t个时间窗口内新增的转发数,LCi,t表示微博wi在第t个时间窗口内新增的点赞数,α、β、γ代表权重系数。
2.4 主题演化形式的确定
为了计算主题之间的关系,本文选用Jaccard相似度系数来衡量主题在内容上随时间的变化情况,具体的Jaccard系数计算公式见式(8)。
其中,topici与topicj分别为主题Ti与Tj的特征词簇表示,分子为两者交集中所含特征词个数,分母为两者并集中所含特征词个数。两个主题所包含的相同特征词个数越多,两个主题在内容上越相似。利用式(8)计算相邻两个时间窗内两两主题间的Jaccard相似系数,从而确定主题间的演化关系与演化强度:
当第t个时间窗内的主题Ti与第t+1个时间窗内的主题Tj间相似度系数大于预设的阈值时,可视主题Ti与Tj在时间上存在演化关系,且演化关系的强弱取决于主题间相似度的大小。
当第t+1个时间窗内的主题Tj与第t个时间窗内的所有主题间的相似度均小于设定的阈值时,认为主题Tj为新产生的主题。
当第t个时间窗内的主题Ti与第t+1个时间窗内的所有主题间的相似度均小于设定的阈值时,认为主题Ti为消亡的主题。
当第t+1个时间窗内的主题Tj至少与第t个时间窗内的主题Ti、主题Tk均存在演化关系时,可认为演化过程存在主题的合并。
当第t个时间窗内的主题Ti至少与第t+1个时间窗内的主题Tj、主题Tk存在演化关系时,可认为演化过程中产生主题的分裂。
基于计算所得的相似系数,结合Palla G等提出的“新生、消亡、合并、分裂、扩张、收缩”6种复杂网络演化形式[20],本文在主题内容关联演化分析的基础上融入主题强度,并对舆情主题扩张与收缩两种演化形式做出如下定义:
当第t个时间窗内的主题Ti与第t+1个时间窗内的主题Tj存在演化关系,且主题Ti在第t个时间窗内的强度小于主题Tj在第t+1个时间窗内的强度时,可认为主题Ti规模在扩大。
当第t个时间窗内的主题Ti与第t+1个时间窗内的主题Tj存在演化关系,且主题Ti在第t个时间窗内的强度大于主题Tj在第t+1个时间窗内的强度时,可认为主题Ti规模出现收缩。
2.5 融合主题强度的主题内容演化轨迹可视化
主题演化图能够直观地展示舆情主题随时间变化的演化轨迹,实现对网民态度变化的跟踪,但过去大部分主题演化图仅从单一的时间维度反映主题内容在连续时间窗上是否具有延续性,而无法呈现2.4小节提出的主题规模的扩张与收缩。因此,本文拟对其稍加改进,构建如图2所示的融合主题强度与内容的主题演化图。
图2 融合强度与内容的主题演化图
图2中横坐标代表连续的时间窗口,纵坐标代表主题强度排名,在每个时间窗口里主题按其强度从大到小排列,连线的虚实没有实际区别,仅代表省略的部分主题,而连线的粗细反映主题关联的强度,连线越粗表示主题在内容上越相似,主题关联越强;其中可能存在的“新生、消亡、合并、分裂、扩张、收缩”6种演化方式如第2.4小节所述,在实证阶段将辅以文字介绍。
3 实证与结果分析
3.1 数据来源
本文综合事件影响力、典型性与复杂度,选取“女孩乘滴滴順风车遇害”事件作为研究案例,采集了发布时间介于2018年8月25日0时—8月31日24时的所有热门微博,最终共计得到13 074条微博评论。
对于时间窗的划分,本研究分别以不同间隔的时间段进行多次实验,经观察发现,评论内容在事发后前1个小时内话题几乎保持一致,所以计算时选择了以小时而非以分钟为单位进行划分,对每个划分原则下相邻时间窗的主题相似度进行计算并除以主题对的数量,计算在不同时间窗划分下的评论内容累加平均相似度,表1展示了每隔1小时直到每隔10小时的评论平均相似度。
平均相似度越接近0则代表评论话题越不一致,即容易出现话题突变,根据计算结果发现,时间间隔在5、6、7个小时的时候相似度出现了明显下降,即出现了评论主题的变化,可能有主题演化的现象出现。因此,实验将时间窗大小设置为6小时,6天的数据共得到28个时间戳,将采集到的所有评论数据按其发布的时间分配到对应的时间窗下,并对各时间窗内的所有评论信息进行预处理、分词及停用词过滤等操作。
3.2 融合评论影响力的特征词提取
本文使用Python语言编写程序,依次遍历各时间窗内的评论语料,按2.2.1中式(1)~(4)所述,计算各时间窗内词语的特征权重,对计算结果降序排列,参考二八定律,选取降序排列结果前20%的词语作为当前时间窗口的特征词集。为了表明融合评论影响力的TF-IDF算法相较于传统的TF-IDF算法在特征词选取上的有效性,本次实验借助Python Wordcloud库,以第2个时间窗中选取的特征词为例进行了词云可视化展示。同时,为了更清晰地展示特征词,本文将共词网络分析技术引入到微博评论信息处理中,借助VOSviewer软件对共词网络进行关联强度分析。图3与图4分别为使用融合评论影响力的TF-IDF算法和使用传统的TF-IDF算法提取的第2个时间窗的特征词词云展示。
本案例在时间窗2中涉及的关键舆情信息节点包括“寻找失联女孩”“女孩确定遇害,凶手已被抓获”。对比两种特征词提取结果可以看出,融合评论影响力的TF-IDF算法提取出“那辆车”“实名制”等与“寻找失联女孩”相关的特征词,且与基于传统的TF-IDF算法提取出的“寻人”一词相比,这些词均表征了网民为寻找失联女孩提供的具体化建议。此外,融合评论影响力的TF-IDF算法还提取出“愤怒”这类表征网民情绪的特征词。
综上所述,融合评论影响力的TF-IDF算法由于考虑了评论本身的影响力,提取的特征词不仅是相对评论文本而言的关键词,同时也在很大程度上反映了当下时间窗内的网民主体观点,更有利于企业与政府把握网民情感走向,制定更符合民意的应对策略。
3.3 特征词共现网络分析
在获得各时间窗内特征词集的基础上,根据特征词在当前时间窗内微博评论中的共现关系构建特征词共现矩阵,基于社会网络分析思想,将特征词视为网络的节点,词间共现关系作为网络的边,共现频次用于衡量边的权重。借助VOSviewer软件实现该共现网络的可视化,利用其关联强度归一化功能,实现特征词集的聚类,将聚类词簇视为评论主题,最终得到主题的词簇表示。图5展示了第3个时间窗口的特征词共现网络可视化效果,每种颜色代表一个聚类簇,每个聚类词簇又对应着不同的主题。例如,①号聚类簇包含了“一键”“公安”“功能”“行车”“发到”“设置”“路线”“车主”“车子”等特征词,结合主题特征词将该主题概括为网民建议“设置一键报警功能,将车主及路线等信息直接发到公安部门”,属于网民呼声较高的建议类观点。
从表2可以看出,网民在时间窗3内的态度与观点主要可分为3大类:一是情感类,包括对遇害女孩的惋惜(Topic3-4)、对滴滴不作为的痛恨(Topic3-10、Topic3-11、Topic3-13、Topic3-16、Topic3-17)、对警察能力与处警流程的质疑(Topic3-12、Topic3-15)以及对凶手的憎恨(Topic3-3、Topic3-19);二是建议类(Topic3-1、Topic3-5、Topic3-6、Topic3-9、Topic3-14、Topic3-18、Topic3-21),承认滴滴出行为日常生活带来的经济与便利,为滴滴更好服务于公众建言献策;三是行为倾向类(Topic3-8),面对滴滴接二连三出现安全问题,有网民将不满情绪转化为切实的行动,表示要卸载滴滴出行打车软件。综合来看,在这样一个涉及公民生命财产安全的重大社会事件中,绝大多数网民表现出了极负面的情感态度,一部分网民相对理智地提出了合理化的解决办法,获得了大量网民的认同与支持。而企业负面事件的产生除了会引起大面积的消极网络情绪外,还会导致现实的公民行为,直接影响企业的经营运作。
3.4 主题关联及演化轨迹可视化
对相邻时间窗内的主题进行两两Jaccard相似度计算,表3展示了时间窗3与时间窗4中部分主题间的相似度计算结果,表4展示了时间窗4与时间窗5中部分主题间的相似度计算结果,相似度为0则代表两个主题之间没有任何关系。
本实验经多次尝试,取经验阈值0.125,即当Jaccard相似系数大于等于该阈值时,认为两个话题在时间上具有延续性,即具备演化关系。如表3中,Topic3-19(主题内容为表2中展示的“呼吁将嫌犯阉割”)与Topic4-25(主题内容为“呼吁判处凶手死刑”)的相似度系数为0.125,同属网民“希望凶手能够得到严惩”这一观点,说明Topic3-19对应的评论主题由时间窗3演化到了时间窗4;如表4中,Topic4-25(主题内容为“呼吁判处凶手死刑”)与Topic5-9(主题内容为“凶手死刑”)的相似度为0.857,则说明Topic4-25的评论主题又演化到了时间窗5。
通过计算28个时间窗内各主题强度及相邻时间窗中主题相似度,获得主题在整个时间轴上的内容及强度演化关系。实验以第2.5小节所示的融合主题强度与内容的主题演化图方式进行主题演化过程的可视化展示。接下来以时间窗3~5之间的主题演化片段为例,如图6所示,进行主题演化分析与说明,并针对演化结果提出相应的可行性建议。需要特别说明的是,由于页面大小的限制,图6省略了部分不具备演化关系的主题。
在本案例中,时间窗3中涉及的主要舆情事件有滴滴出行就该事件发表道歉声明,并在道歉声明中承认案发前一天作案车主被其他乘客投诉,但滴滴客服并未对此作出任何回应。时间窗4对应的舆情主题包括滴滴工作人员会见受害者家属、造谣警察不作为。时间窗5中温州公安就警察在该事件接警处警过程中的细节问题发布通告。从图6与各时间窗内的主要舆情事件对比来看,舆情主题不同于学科主题在时间上多具有延续性,其更倾向于伴随着事件的最新进展而突然出现,因此大部分主题在时间轴上是缺少连续性的,往往会随着时间的发展产生不同于先前时间窗的新主题,且在各个时间窗里主题强度最强的主题往往是与当前时间窗中发生的舆情事件最相关的主题。
从演化形式上来说,舆情主题演化也同学科主题演化一样,存在主题的新生(如时间窗4-主题“建议结交外国朋友”)、消亡(如时间窗3-主题“关闭网约黑车”)、合并(如时间窗4-主题“滴滴不作为,是杀人帮凶”)、分裂(如时间窗3-主题“滴滴道歉声明如放屁”)、扩张(如时间窗4-主题“卸载滴滴”)与收缩(如时间窗4-主题“受害者家属很有教养”)6种形式。其中,分裂意味着主题内容出现更细粒度的划分,以图6时间窗3中主题“滴滴道歉声明如放屁”为例,既有网民在时间窗4中发表了与之意义相近的“道歉无用”观点,也有网民从滴滴道歉声明中发现滴滴承认其忽略了前一天其他乘客对犯罪嫌疑人的投诉,也就是说由滴滴公司本身的疏漏导致了这次悲剧的产生,因此发表“滴滴不作为,是杀人帮凶”这一观点。而主题的合并则意味着在演化过程中,零散的网民观点变得统一,受到广泛支持的舆情观点向着更强的舆论发展。例如,在时间窗3中网民纷纷表示是滴滴客服没有及时配合警方才导致女孩遇害,而在时间窗4中,结合滴滴发布的道歉声明,矛头直指滴滴公司本身,使得与时间窗4最主要的舆情事件并不直接对应的主题“滴滴不作为,是杀人帮凶”却成为这一时段里网民呼声极高的观点之一。
因此,笔者认为主要可以为舆情预警与应对工作提供以下几点建议与思考:
1)“滴滴无视先前乘客的投诉”(图6演化路径②)与“质疑警方立案过程存在过失与疏漏”(图6演化路径③)两个主题分别属于滴滴出行公司与警方在此事件中最让网民诟病的焦点问题,两者的区别在于前者属于滴滴出行公司声明发布中所承认的工作疏漏,而后者则属于温州公安在其声明中辟谣与澄清的不实之言。但从图6中可以看出,政府与企业在解决与处理问题的过程中,无论是真实存在的行为漏洞,还是由于网民认知不足甚至是某些营销号恶意造谣而强加的行为漏洞,都会成为网民始终紧盯不放的焦点。因此,在条件允许的情况下,政府方面应尽早、主动地将工作进展与详情公之于众,避免信息处于模糊的灰色地带,将谣言扼杀在摇篮里,不给别有用心者可乘之机。
2)从图6中可以看出,“卸载滴滴”这一行为倾向贯穿始终(图6演化路径①),且始终呈现高强度水平,是网民极为关注与支持的观点。即使面对滴滴的道歉,绝大多数网民仍持有负面情绪。在事件后期,滴滴出行公司发布了相关安全措施及功能升级进展说明,本实验又以“滴滴 整改”为检索词,采集了自该公告发布之时起24小时内的相关微博及评论信息,对采集到的106条评论数据进行了和3.2与3.3小节同样的实验,图7为对应的共词网络,表5对每个聚类词簇所属主题进行了概括。
从表5中明显可以看出,相比于滴滴仅发布道歉声明时网民极端的负面情绪,具体整改措施的发布无疑使得輿论向理性、积极的方向发展。即使有少数网民认为滴滴的整改措施治标不治本,但此时有更多的网民反而主动站出来为滴滴辩护(如Topic1、Topic4)。这也说明一家能为百姓生活带来便利的企业,如果能够及时完善现有的运营机制、改进现存的不足,仍会得到人民的拥护与支持。因此,企业在应对负面事件、负面情绪的过程中,应尽早地推出解决问题的具体举措,比一味的道歉更能引导舆论向好发展。
3)从图6中还可以发现在评论中衍生出了与此事件完全无关的其他舆情主题(时间窗4-主题“攀枝花老太信访被打”),这是因为在微博平台上存在很多普通的草根用户为了使与之相关的事件得到关注,往往会选择在热门微博的评论区发表与其自身相关事件的评论信息,借热门微博的热度来博得关注、寻求支援。因此,微博评论是舆情监测中不可忽视的一部分。在舆情监测的过程中,政府与企业应及时处理好由网民评论衍生出的新舆情事件,抢在事态进一步扩大之前引导舆论正确走向,避免“亡羊补牢、为时已晚”的局面发生。
4 总 结
本文研究了舆情热点话题的主题表示及其演化问题,对网络中单一舆情的热点主题在其生命周期的变化情况进行了展示与分析。经过实验对比发现,融入评论影响力的TF-IDF算法能够提取出网民情绪特征词,反映网民的主体观点。此外,本文的实证表明,融入了主题强度的主题内容演化方法能够对政府和企业的舆情引导与应对工作提供更加准确、细致的建议与思考。
由于时间与技术方面的限制,本文研究工作还存在许多不足之处,例如:
1)本研究的时间窗设置以小时为单位,对于更新速度极快的部分数据而言,不能很好地预判那些自首次出现至登上热搜榜时间差值很小的主题,因此,在现实的舆情监测工作中,可以在本研究的基础上缩短时间间隔。
2)此外,本研究的演化是基于单个时间窗内的主题频次的,在未来的研究中可以再对多个时间窗内的评论主题词频次进行累加,获得整个事件生命周期中截至某个节点的总主题频次,并与当前实验做对比分析。
参考文献
[1]崔凯.基于LDA的主题演化研究与实现[D].长沙:国防科学技术大学,2010.
[2]Wang X,Mccallum A.Topics Over Time:A Non-Markov Continuous-time Model of Topical Trends[C]//Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.ACM,2006.
[3]Blei D M,Lafferty J D.Dynamic Topic Models[C]//Proceedings of the 23rd International Conference on Machine Learning.New York:ACM,2006.
[4]Alsumait L,Barbará D,Domeniconi C.On-line LDA:Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking[C]//Eighth IEEE International Conference on Data Mining.IEEE Computer Society,2008.
[5]李爱明.社会网络视角下的国内数字图书馆领域作者合作关系研究[J].情报科学,2013,31(11):57-63.
[6]刘伟.“一带一路”倡议下国内外新闻舆情及其演化分析[J].统计与信息论坛,2018,33(6):34-42.
[7]王振飞,刘凯莉,郑志蕴,等.面向时间序列的微博话题演化模型研究[J].计算机科学,2017,44(8):270-273,279.
[8]谌志群,徐宁,王荣波.基于主题演化图的网络论坛热点跟踪[J].情报科学,2013,31(3):147-150.
[9]Pépin L,Kuntz P,Blanchard J,et al.Visual Analytics for Exploring Topic Long-term Evolution and Detecting Weak Signals in Company Targeted Tweets[J].Computers & Industrial Engineering,2017,112:450-458.
[10]陈婷,王雪怡,曲霏,等.基于时序主题的网络舆情热点话题演化分析方法[J].华中师范大学学报:自然科学版,2016,50(5):672-676.
[11]刘国威,成全.基于网络舆情生命周期的微博热点事件主题演化研究[J].情报探索,2018,(4):11-19.
[12]唐晓波,王洪艳.基于潛在狄利克雷分配模型的微博主题演化分析[J].情报学报,2013,32(3):281-287.
[13]安璐,吴林.融合主题与情感特征的突发事件微博舆情演化分析[J].图书情报工作,2017,61(15):120-129.
[14]Koylu C,Larson R,Dietrich B J,et al.CarSenToGram:Geovisual Text Analytics for Exploring Spatiotemporal Variation in Public Discourse on Twitter[J].Cartography and Geographic Information Science,2018,64:57-71.
[15]程齐凯,王晓光.一种基于共词网络社区的科研主题演化分析框架[J].图书情报工作,2013,57(8):91-96.
[16]Weaver I S,Williams H,Cioroianu I,et al.Dynamic Social Media Affiliations Among UK Politicians[J].Social Networks,2018,54:132-144.
[17]Li Q,Huang K,Wu B,et al.Group Behavior Diffusion Model of Social Hotspots Based on Triadic Structure and Factor Graphs[J].Computational Intelligence,2018,34(4):1155-1177.
[18]Xiao Y P,Song C G,Liu Y B.Social Hotspot Propagation Dynamics Model Based on Multidimensional Attributes and Evolutionary Games[J].Communications in Nonlinear Science and Numerical Simulation,2019,67:13-25.
[19]王晓光,程齐凯.基于NEViewer的学科主题演化可视化分析[J].情报学报,2013,32(9):900-911.
[20]Palla G,Barabási A L,Vicsek T.Quantifying Social Group Evolution[J].Nature,2007,446(7136):664-667.
(责任编輯:郭沫含)