蒋明敏,王雪芬,刘 玥
(南京信息工程大学 当代中国马克思主义研究院,江苏 南京 210044)
科学文献的主题挖掘可以帮助情报服务机构快速准确地捕捉学科主题和脉络,分析主题演化路径,并对学科未来的研究热点和发展趋势做出预测[1]。从知识结构层面来看,研究主题属于隐性层次,代表某个学科领域的研究方向,表现为若干个或一组关键词的集合;科学文献属于显性层次,是研究主题的外在表现和知识载体[2]。面对海量科学文献,如何有效挖掘隐性研究主题和潜在演化模式,是众多研究学者关注的问题。
主题模型可以在大规模的文献数据中,通过主题的概率分布来表示数据集内部的特征信息。既解决了传统聚类算法的“维数灾难”问题,又进一步挖掘了科学文献的潜在演化模式。其中,最为主流的主题模型是由Blei等提出的LDA模型(Latent Dirichlet Allocation)。然而,随着文献数量的急剧增长,研究人员已经不满足于静态时间下研究主题的挖掘和分析。在研究主题的演化路径中,“时间”维度是一个重要的标签,但传统LDA模型并没有考虑文献时间这一维度,而现实情况是研究主题在时间序列趋势下不断演化。
基于此,本文以“网络舆情”为研究对象,以CNKI数据库中的文献标题和摘要为数据来源,结合多种停用词表进行中文分词并提取领域术语。在LDA主题挖掘的基础上,引入文献时间信息,计算不同时间维度的研究主题概率分布相似度,分析研究主题随时间的演化规律,为学科主题挖掘和演化分析研究提供新的思路和方法。
当前学科主题挖掘与演化分析主要采用共词网络和主题模型的分析方法[3],主题模型是以非监督学习的方式对文档集合的隐含语义结构(latent semantic structure)进行聚类的统计模型,可以用于收集、分类和降维文本。最具代表性的主题模型是2003年由Blei等人提出的LDA主题模型:引入Dirichlet先验分布,构建“文档——主题——关键词”三层贝叶斯模型,运用概率方法对模型求解,挖掘文档主题[4]。目前LDA模型在不同领域的主题挖掘研究中已被深入应用,如陈伟等[5]利用LDA主题模型和隐含马尔科夫模型,从技术主题的转移概率角度分析技术主题的语义演化趋势,对于技术主题预测起到一定作用;吴菲菲等[6]利用LDA主题模型抽取专利技术主题,以主题相似度为关系权重新构建专利引用网络,以此分析技术主路径及其演化规律,属于基于图挖掘的主题演化分析方法;曲佳彬等[7]利用LDA主题模型设计主题演化方法,通过主题过滤和主题关联确定学科领域主题之间的语义关系;王曰芬等[8]以国内知识流领域为研究对象,利用LDA主题模型探索分类视角下的主题提取与分布状态,得到11个不同学科的热点主题及其所揭示的知识点;王文娟等[9]利用LDA对海洋酸化相关研究进行了主题分析,确定了科研立项重点以及各主题的强度;杨慧等[10]选取国际气候领域作为试点对象,对政策文本数据进行了LDA主题挖掘,并结合主题强度变化为我国相关政策制定提出了完善建议;Kim等[11]利用LDA主题模型对Twitter用户发布的信息进行兴趣主题挖掘,实现兴趣内容推送和好友推荐;Song等[12]构建基于“主语——行为——宾语”结构的LDA主题模型,实现对产业领域中专利文献主题的内容分析;Suominen等[13]基于专利数据通过LAD模型对企业研发方向进行分析和预测,并基于Gephi进行主题可视化,但未进行专利和论文整合数据的对比研究。
纵观上述研究,基于LDA模型的学科主题挖掘与演化分析已取得诸多研究成果。然而少有研究考虑时间标签信息,缺乏时间维度上的研究主题关联与演化分析。基于此,本文提出多时间窗口下基于LDA模型的主题挖掘和演化分析框架,为学科主题挖掘、关联和演化研究提供新的思路和方法。
本文研究框架主要包括三个部分:数据预处理、LDA主题聚类分析和多时间窗口主题演化分析。
首先,选择合适的检索词在CNKI数据库查找相关的中文文献,选取文献的标题和摘要作为主题挖掘的数据来源。对原始数据进行数据清洗,过滤征稿启事、新闻报道、会议通知等内容,进而进行中文分词、去除停用词和提取领域术语,其中去除停用词主要是过滤出现频率很高,却无实际含义的词语,包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等,以便提高后续分析的准确度和效率。
本文选取tf-idf作为H-LDA主题模型的文本向量特征,tf-idf(term frequency-inverse document frequency)是一种词频和逆向文件频率的统计方法,可以很好地反映出某个词语对于一份文档的重要程度,词语的重要性随着它在文档中出现的次数成正比增加,但同时也会随着它在语料库中出现的频率成反比下降[14]。
LDA(Latent Dirichlet Allocation)主题聚类模型由Blei等提出,是一种“文档——主题”生成模型,包含词、主题和文档三层结构。三层结构都符合多项式概率分布,即文档到主题服从多项式分布,主题到词服从多项式分布[15]。LDA主题模型克服了基于传统向量空间模型建模时文本矩阵稀疏、忽略文本语义等缺陷,其基本流程如图1所示。其中,表示词分布,表示主题分布,是主题分布的先验分布(即Dirichlet分布)参数,是词分布的先验分布参数,z表示模型生成的主题,w表示模型最终生成的词,S表示文档的词语数量,D表示文档数量。
图1 LDA主题模型
运用LDA主题模型对预处理后的文本数据进行层次主题聚类,通过计算困惑度得到最优主题集合,以及每篇研究文献所属的主题。为从时间维度上梳理研究主题的演化路径,本文将文本数据划分为多个时间窗口,运用LDA模型挖掘不同时间窗口的研究主题,并采用归一化后的JS散度(Jensen-Shannon divergence)计算不同研究主题的相似度,从而勾勒出多时间窗口下研究主题的演化路径和趋势。
随着移动通讯技术的发展和智能终端的普及,越来越多的人们以互联网为载体,以社交平台和自媒体为渠道,在网络上表达情感、态度、意见和观点,并与他人交流,形成网络舆情[16]。网络舆情是社会舆情在互联网空间的映射,是社会舆情的直接反映。在Web2.0环境下,政府部门需要对网络舆情予以正视,做好网络舆情治理工作,创造健康的网络环境。从研究文献来看,舆情治理与管控一直是研究者关注的重点,国内外在舆情监测、舆情传播、舆情应急管理等领域已经产生了大量的研究成果。基于此,本文运用第三节提出的研究思路和方法,对网络舆情的研究主题进行挖掘和聚类,分析近10年研究主题的演化路径,从而为舆情治理的理论研究和实践应用提供对策建议。
本文使用CNKI期刊论文数据库进行文献检索,检索关键词为“网络舆情”“舆情治理”“突发事件”“应急管理”“意见领袖”“自媒体”等,检索时间为2019年10月15日,时间跨度为2009年至2018年。经人工筛选后得到相关文献11634篇,数量演化趋势如图2所示。从图中可以看出,近10年网络舆情研究的文献数量呈现稳步增长趋势,在2016年达到顶峰(1765篇)。
图2 文献数量演化趋势
根据网络舆情的相关研究主题,结合多个中文停用词表,运用Jieba分词工具对11634篇文献标题和摘要进行分词,得到“舆情”“情报”“民意”“危机”“化解”“传播”“突发事件”等领域词汇。定义,其中为第n篇文献的文本向量。对所有的文本向量进行tf-idf特征提取,作为LDA主题模型的输入参数。
LDA是一种无监督聚类算法,其主题抽取效果与迭代次数(iteration)密切相关。本文以文献数量最多的2015-2016区间为例,设置测试主题数分别为10,20,30,当迭代次数增加时,模型迅速收敛,迭代至50次之后,不同主题数的收敛效果均无明显区别,收敛趋势如图3所示。综合考虑运算速度和收敛效果,本文将迭代次数设定为100次。
图3 迭代次数对机器学习效果的影响
本文运用LDA模型中的Perplexity(困惑度)参数确定网络舆情研究文献的最优主题数。分别计算2009-2010、2011-2012、2013-2014、2015-2016和2017-2018区间不同主题数的困惑度值,(如图4所示),确定不同区间的最优主题数为5、7、14、27和16。
根据上述参数训练对多时间窗口的文献数据进行LDA分析,结果如下:
(1)2009-2010
在2009-2010时间窗口LDA模型聚类得到的5个主题均有实际含义(见图4),主题关键词分布和标签如表1所示。
图4 不同主题数的困惑度值
表1 2009-2010时间窗口中LDA主题标签及关键词分布
从表1可以看出,在当前时间窗口下网络舆情的研究主题较少,主要集中在舆情传播、舆情影响和舆情应急等领域。其中,高校舆情是指在校大学生通过多个渠道对其所关心的事件、政策和新闻发表个人看法、意见和情绪。在校大学生处在青年时期,其人生观、价值对和世界观容易被他人影响,因此高校舆情监测和管控对社会舆情治理有着非常重要的意义。
(2)2011-2012
在2011-2012时间窗口LDA模型聚类得到的7个主题中,去除由虚词组成的主题聚类(2个),其余5个主题的关键词分布和标签如表2所示。从表2可以看出随着互联网的发展和普及,新型媒体如博客已替代传统媒体成为舆情传播的主要媒介。高校舆情监测和管控仍然是研究的重点,同时各级政府和社会机构也开始对舆情治理机制进行深入探讨。
表2 2011-2012时间窗口中LDA主题标签及关键词分布
(3)2013-2014
在2013-2014时间窗口LDA模型聚类得到的14个主题中,去除由虚词组成的主题聚类(2个),去除与舆情研究无关或相关度较小的主题聚类(2个),去除研究文献数量为0的主题聚类(1个),其余9个主题的关键词分布和标签如表3所示。从表3可以看出,在这一时间段涌现出新的研究主题,如“舆情文化建设”研究中提及社会主义文化建设需要提高公民信息素养,微博等自媒体的兴起使得自媒体舆情的传播和管控成为研究的焦点。随着网络舆情研究的不断深入,越来越多的学者运用传染病动力学、系统动力学、演化计算等数学模型研究舆情传播。同时,在食品安全和反腐倡廉等领域,舆情的监测和管理也逐步得到重视。
表3 2013-2014时间窗口中LDA主题标签及关键词分布
(4)2015-2016
在2015-2016时间窗口LDA模型聚类得到的27个主题中,去除由虚词组成的主题聚类(3个),去除与舆情研究无关或相关度较小的主题聚类(4个),去除研究文献数量为0的主题聚类(1个),其余9个主题的关键词分布和标签如表4所示。从表4可以看出,在2015-2016这一事件窗口,新的研究主题大量涌现,如“意见领袖”“谣言管控”“微博舆情”等,说明随着微博、微信、知乎等网络自媒体平台的兴起,用户和网民在舆情传播过程中的作用越来越大,“高校舆情”“舆情监测”“舆情应急管理”则一直是研究学者关注的重点。由于舆情传播媒介和渠道的增多,增强舆情掌控和建立舆情治理的司法制度已成为亟需解决的问题。同时,随着舆情模型研究的深入,越来越多的学者运用机器学习的方法对舆情传播的走向和热点进行预测。
表4 2015-2016时间窗口中LDA主题标签及关键词分布
(5)2017-2018
在2017-2018时间窗口LDA模型聚类得到的16个主题中,去除由虚词组成的主题聚类(3个),去除与舆情研究无关或相关度较小的主题聚类(4个),去除研究文献数量为0的主题聚类(1个),其余9个主题的关键词分布和标签如表5所示。
表5 2017-2018时间窗口中LDA主题标签及关键词分布
从表5可以看出,在这一时间窗口“高校舆情”仍然是关注的重点,同时网民和用户的“舆情情感”也得到了关注。随着生活水平的提高,“旅游舆情”主题逐渐受到研究学者的重视,如“青岛天价龙虾”事件在微博等自媒体平台上引起极大的关注。同时“舆情反转”研究主题第一次出现,原因在于在舆情传播的不同阶段,由于信息的不完全性和不对称性,舆论导向和网民关注度可能出现较大的反差,如“重庆公交坠桥”事件。
针对LDA模型聚类得到的主题及关键词,计算两个相邻时间窗口的JS散度,得到主题相似度矩阵,并对主题演化路径可视化,如图5所示。
图5 不同时间窗口的主题演化路径
图中圆圈大小代表主题所含文献数量的多少,圆圈越大,文献数量越多。圆圈之间连线的粗细代表主题相似度,连线越粗,相似度越高。
从图5可以看出,高校舆情和舆情应急管理一直是研究学者关注的焦点,因此不同时间窗口相关主题的相似度较高,连线较粗。此外,相似度较高的主题还包括以下演化路径:
1.“舆情传播”→“舆情研究模型”→“舆情预测”
2.“舆情系统”→“舆情监测模型”→“舆情预警平”
3.“新型舆情传播媒介”→“微博舆情”→“自媒体舆情”
4.“食品安全舆情”→“医疗舆情”→“旅游舆情”
5.“新型舆情传播媒介”→“舆情意见领袖”→“舆情媒体引导”
本文结合LDA主题模型及多时间窗口,尝试从时间维度上梳理科学文献研究主题的演化路径。在对网络舆情研究的主题演化分析中,本文将所采集文本数据划分为5个时间窗口,并运用LDA模型挖掘不同时间窗口的研究主题,进而采用归一化后的JS散度计算不同研究主题的相似度,深入探求多时间窗口下网络舆情相关研究主题的演化路径和趋势,其结果为舆情治理的理论研究与实践应用提供数据支撑。研究结果也进一步证明,LDA主题模型及多时间窗口的综合运用,能有效挖掘科学文献研究主题的演化路径,更为准确、清晰地揭示研究主题的演化规律。