徐 翔 徐舟爽
(同济大学艺术与传媒学院 上海 201804)
在社交媒体与互联网逐渐融入公众日常生活的当下,每天有海量信息被生产,社交媒体中不同主题的议程与讨论也在不断消长。本研究从主题周期对主题触发能力的改变切入,解释主题周期的特征与功能。传统的研究认为社交媒体的主题变化往往具有随机性、不具有周期性规律[1],然而新近的研究发现社交媒体主题演化也存在其规律性。许多研究通过不同话题的生命周期切入[2-3],关注单一舆情事件的时间演化[4],试图总结不同舆论事件的传播规律。此外,部分舆情演化的宏观研究从演化形态、演化主体、演化阶段和演化机制等方面切入[5],认为社会、金融、文化等因素会影响舆情的变化。然而,单一事件的生命周期研究与舆论的宏观研究都无法为社交媒体主题传播提供详细的消长规律解读,故这些研究提出的社交媒体舆情调控手段缺乏具体有效的措施和实质性的推进。
社交媒体主题周期性是本研究的前提。国内外研究从社交媒体在主题周期性、用户发帖内容周期性、社交媒体情绪周期性维度发现周期性波动特征,这为主题内容的周期研究提供了三个侧面的佐证。主题周期方面,Lehmann等发现推特的部分标签具有周期性活动的规律[6]。一项针对新浪微博的用户兴趣研究表明用户的兴趣存在周期性规律[7]。部分仿真模型建模发现了网络的周期性特征[8]。用户发贴内容的周期、社交媒体的情绪周期可以从侧面佐证社交媒体内容周期性的存在。Yi等从人类动态的角度了解已认证用户的发布行为,发现新浪微博认证用户发帖具有周期性[9]。Zhao等基于今日头条和百度新闻进行模拟,发现用户陷入信息茧房具有大约7天的周期性信息茧[10]。徐翔等通过小波分析研究新浪微博的情绪周期,发现微博多数类型的情绪存在周期[11]。Lansdall等提取了英国 980 多万用户在 31 个月中产生的 4.84亿条推文中有关情绪的词语频率变化,确定了推特的情绪周期[12]。根据以上社交媒体在主题周期性、用户发帖内容周期性、社交媒体情绪周期性研究,本研究推测社交媒体主题可能存在周期性规律,这些周期性规律的存在和演化为舆情的调控及其演化提供了必要前提和可切入的角度。
社交媒体中存在主题的带动与触发关系,但目前的研究对这种关系的影响原因、作用机制的讨论尚不透彻。Leskovec等[13]研究了新闻领域的话题演变,关注一个话题的增长如何影响博客圈中其他话题的增长。他们识别并跟踪了一小部分热门话题的阅读量,结果表明,一个话题上帖子数量的增长会对其他话题的增长产生影响。对于时间序列上的话题演化与触发的研究较少,大多研究聚焦热点话题的形成因素。社交媒体舆情演化存在背后的动力和动因,主题的周期波动是舆情演化背后动力的外在表现之一。然而当前国内外针对主题的周期性对于舆情的触发规律的研究较少。结合对研究的回顾,本文提出假设(后文H1、H2、H3、H4)的主要考虑如下:
a.特定频率的主题周期具有其独特的作用,对主题的触发能力有影响。人类的自然周期和节律是社交媒体主题周期产生及主题触发的共同原因。因此,本研究认为特定周期对主题触发和能力有影响。社交媒体主题有特定的周期,对应特定的舆情动因,影响到主题的触发能力。Malmgren等人分析了电子邮件活动[14],证明了事件间时间分布的近似幂律缩放是人类活动的昼夜节律和每周周期的结果。在主题扩散与触发方面,Lehmann等[6]研究了Twitter中话题标签的动态传播。他们发现用户关注网络的传播内源因素对标签流行的影响较小,事件的流行程度主要是由媒体及平台外源因素驱动的。已有研究表明体育运动[15]、旅游目的地[16]、音乐[17]等话题参与均有日度、季度的季节性波动,能带动特定的主题讨论。现有研究表明,人类活动的特定规律是主题演化的动因,也外在表现为周期性的活动规律,这为后文H1的提出形成支持,也即存在特定周期类型和主题对其他主题的触发能力有关。
b.主题具有的周期种类与主题的触发能力有关。主题的周期种类多意味着主题的潜在动因丰富,也有更大可能与其他主题产生同频共振。由假设H1可推出,社交媒体主题有特定的周期,对应特定的舆情动因,对主题的触发能力有影响。由假设H1可以推出,震荡属性越强,即特定主题的周期数量越多,代表特定主题的潜在动因更丰富,主题舆情的传递与触发能力越强。一项在AOL的搜索引擎、社交书签系统——delicious、短消息通信网络及Twitter共四个大型系统上进行了广泛的实验的研究表明,在许多人类激活的系统中广泛观察到时间爆发,其认为这可能是由内源机制(如最高优先级优先协议)和外源因素(如活动的季节性)引起的[18]。当有多种季节性、社会性因素对同一主题产生影响,特定的主题背后的能量场就越复杂、对其他主题的触发能力就越强,这为本文的研究问题H2提供参考,也即主题具有的周期数量与主题对其他主题的触发能力有关。
c.主题具有的最长周期与主题的触发能力有关。主题的最长周期代表社交媒体主题震荡的稳定性,这一关联的形成可能与具有相对稳定震荡周期的主题背后驱动的文化因素有关。具有较长周期的主题可能有更加深层的文化周期因素影响,具有较长较稳定的深层社会性、季节性影响因素。一项针对推特的季节性负面关键词的研究表明,季节的变化会导致生活在温带地区的人们产生不同的生理、行为和心理变化[19]。这些变化,一方面是机体,特别是神经系统对季节变化所带来的环境变化的适应性反应。另一方面,由于社会生活的季节嵌入性,季节变化除了心身因素外,还通过不同的社会因素对人类行为产生影响。季节性对人类的心理影响因素和文化的深层波动性也直接导致长周期的作用机理相对短周期更难明确解释。季节性因素导致的长周期可能导致主题演化触发的能力不同,这为后文H3提供解释,也即主题具有的最长周期和主题触发能力有关。
d.社交媒体主题的最短周期与主题触发能力有关。此种关联可能和主题的震荡频次与信息传播速率有关。用户之间的关系网络与信息的传递速度可能是背后的作用机制。一项针对推特的标签研究表明[20],政治上有争议的话题标签的采用受到重复暴露的影响,而这种重复暴露对会话习语的采用的边际效应要小得多。用户的关系网和用户的相似性为这一发现提供解释。信息扩散的时间模式研究中,不同信息具有不同的被采用的时间速率[21]。主题传播与接受的速度越快、主题参与用户的关系网络越密切,主题震荡频次就越高,进而影响主题的影响与触发关系,这为H4的提出提供支持,也即主题具有的最短周期和主题触发能力有关。
本研究中,主题的触发能力代指某主题波动变化影响其他主题波动变化的能力。某主题能影响尽可能多的其他主题发生变化代表该主题触发能力越强。
根据现有关于主题周期性形成规律的研究,本研究提出以下研究假设:
H1:存在特定周期类型和主题对其他主题的触发能力有关;
H2:主题具有的周期数量与主题对其他主题的触发能力有关。
由H1、H2两个问题,为探究主题周期和主题议程触发能力更深层的关联,对周期的长度与主题议程触发能力进行提出进一步假设:
H3:主题具有的最长周期和主题对其他主题的触发能力有关;
H4:主题具有的最短周期和主题对其他主题的触发能力有关。
由上述四个假设,本研究提出,主题的周期特征对该主题在舆论中其他主题消长的触发能力有共同影响,即形成可实际预测的决策树模型M1:通过主题的特定周期和其数量、长度可以预测该主题在社交网络舆论中的触发能力。对于本假设,本文将通过CRT回归决策树来阐述自变量和因变量之间的可预测关系及其模型。
四个问题和模型的逻辑关系如图1所示。
图1 研究假设关系图
本研究选择国内重要社交平台新浪微博为研究对象,采用“八爪鱼”软件结合Python+Selenium爬虫工具,抽取32 779 920条贴文进行时间序列分析。运用Word2vec和Kmeans结合的方式计算贴文主题。运用Word2vec词向量及平均池化的方式得到帖子的句向量。用Kmeans对句向量进行聚类得到每一条贴文对应的主题。通过上述步骤得到400个主题每日发帖数量的时间序列,形成400×1095的主题的时间序列矩阵。然后利用小波分析的方法得到400个主题的周期特征,得到不同主题具有的周期。利用格兰杰因果分析的方法检验400个主题之间的共变、触发关系,得到400×400的主题触发因果矩阵。其后,基于400*400的触发因果矩阵计算400个主题的点度中心度,即400个主题各自对所有主题的触发能力水平。最后,从特定周期、周期数量、最长周期、最短周期四个角度分析主题间的触发能力与主题自身周期的影响机制,并针对所分析出的影响机制提出社交网络舆论传播管理、引导的对策建议。
本文从主题贴文数时间序列对其他主题的预测程度测量主题的“触发能力”程度,操作化定义为:主题发帖数量序列之间的格兰杰因果矩阵的中心度。格兰杰因果检验可以体现主题与主题之间是否存在触发带动的因果关系,计算格兰杰因果检验矩阵的中心度可以得到不同主题在所有主题的触发带动网络中的重要程度。根据这一测量方式,每个主题都具有“触发能力”和“被触发能力”值,触发能力越高,其引发其他主题的能力越强,说明该主题的关注更容易转移到其他主题中。
本研究选择国内重要社交平台新浪微博为研究对象,新浪微博发布的财报显示,微博2023年3月的月活跃用户为5.93亿,2023年3月的平均日活跃用户为2.55亿。数据抓取采用“八爪鱼”软件结合python+selenium爬虫工具,使用滚雪球的方法进行。滚雪球的数据抓取方法在社会网络研究领域中具有可借鉴的使用,例如Patton等人的研究[22]以一个帮派成员作为种子用户,对其Twitter好友列表进行滚雪球,证明滚雪球有利于收集具有广泛性的可用的数据,对结论形成良好支持。
首先,运用“八爪鱼”软件以及Python和Selenium编写动态网页抓取程序进行网络数据抓取。从新浪微博首页47个内容版块(社会、国际、科技、科普、数字、财经、股市、明星、综艺、电视剧、电影、音乐、汽车、体育、运动健身、健康、瘦身、养生、军事、历史、美女模特、美图、情感、搞笑、辟谣、正能量、政务、游戏、旅游、育儿、校园、美食、房产、家居、星座、读书、三农、设计、艺术、时尚、美妆、动漫、宗教、萌宠、法律、视频、同城)中,各个版块每天早晚各抓取一次,持续1个月,根据url去除重复后获得65 650条帖子。本次抓取历时一个月,避免了短时间内大量抽取的样本偏差;并借助微博自身的分区设置,使得样本广泛而大致均衡地分布在47个不同板块中,具有较大的覆盖面和良好程度的代表性。
然后从这些种子帖做一轮“滚雪球”抽样的扩散,每条种子帖抓取500条评论的评论者(不足500条的则全部抓取)。其后去除重复用户和无效用户、抓取失败的用户后,获取其发布者和评论者共计3 501 153个用户的初始库,并从中随机取10万个用户,其中有效抓取到87 739个用户所发的131 770 017条帖子及其相关数据,包括帖子的发布时间、点赞数、评论数。对用户的粉丝数、发帖数、关注他人数,其原始值加1后取以2为底的对数,统计特征描述如下:用户关注他人数的均值为5.74,标准差为1.137;粉丝数的均值为6.58,标准差为2.884;发微博条数的均值为7.970,标准差为2.090。
131 770 017帖子的发帖时间为2012年12月30日到2020年12月29日,为排除新冠疫情对微博用户发帖主题分布的影响,选取2016年11月1日到2019年10月31日共三年1 095天的发帖。此外,为保证每一天贴文总数的统一性,抽取1095天内所有发帖最少日期的贴文数量,即每天抽29 936条帖子,共327 79 920条贴文进行时间序列分析。
运用Python进行主题聚类和识别需要读取向量化后的矩阵进行计算。本文采用 Word2vec词向量及其平均池化的方式对分词后的帖子内容进行转化。Shen等[23]对词向量采取等权求平均向量的方法,与循环和卷积网络进行比较发现,在大多数情况下前者表现出更高性能。Word2vec是 Mikolov等[24]于2013年提出的浅层神经网络语言模型。通过无监督训练将文本数据转化为低维实数向量,通过语言模型对语义和语法信息进行训练并投影到多个向量空间,从而完成文本的结构化处理。向量空间模型(Vector Space Model)是常用的文本表示模型,对于特征覆盖性较全,但它并不能解决词汇相似度和“词汇鸿沟”的问题。Word2vec基于神经网络的词嵌入则可以很好地解决这一问题。对于 Word2vec模型的搭建和训练,采 用 开 源 模 块 Gensim实现。训练 Word2vec所使用的语料采用26G 的中文语料库,来源包括媒体新闻库、网络论坛帖子抓取、经典名著和文学文本等,该词向量训练结果包括5 830 979个词汇的嵌入式表示,训练效果良好。Word2vec词向量及平均池化的计算方式如下:Word2vec的词向量对帖子进行等权平均计算形成句向量,对 Word2vec的参数设定300维空间。将样本中的帖子按照分词后的结果,把每一个单词转换成一个300维的词向量,然后计算每个词向量的平均值,得到该帖子、短文本的语句向量。具体来说,逐一将样本中的帖子 T1中的每一个词(A/B/C/D)各表示为形如V=[0.01,1.002,-0.02,…2.26,0.05,3.97]的300维的向量。接着计算 T 所有词向量的等权平均值(也即平均池化)∶
VT1=(VA+VB+VC+VD)÷n
(1)
Word2vec 包括 CBOW 和 Skip-Gram 模型,本文采用其中的 CBOW 模型。CBOW 模型的主要思想是上下文信息作为输入,当前词作为监督数据或监督标签训练目标是使当前词出现的概率最大,而当前词的后验概率如下:
(2)
用词向量表示句子或短文本,采取对词向量求平均池化值,也即计算各向量等权后的平均向量[25]。Shen 等的研究将简单词向量模型(SWEM),也即对词向量进行等权求平均向量的方法,与循环和卷积神经网络进行比较得出在大多数情况下 SWEM 表现出高性能14。基于 Word2vec词向量进行平均池化得到帖子向量,具有良好基础与现实应用性。
得到贴文的句向量后,运用K-means聚类把贴文分两步聚类为400个主题并得到各主题贴文数的时间序列。抽取1 500万条帖子的句向量先进行第一步的K-means聚类。通过肘拐点判断合适的聚类数量。基于每个帖子的向量,通过 K-means算法进行若干种聚类类型的试验,最大迭代次数设为 6。由于随着聚类数量K的增长,其簇内误差平方和(K-means Inertia)变化较为平稳,而太低的聚类数量不利于统计检验,过多的聚类数量会出现类型分布极不均衡的情况。因此根据实际的可操作性,选择将帖子聚为 400 类。K-means的簇内平方和随其数量变化如图2所示。
图2 K-means聚类误差变化
由于待聚类的数据规模大,调用K-means的fit_predict模块进行全体帖子的聚类。通过上述步骤得到32 779 920条贴文的日期、主题,统计400类帖子在1 095天的每日29 936条帖子中的比例,得到各类的贴文数随日期演变的时间序列。
采取小波分析法对不同主题的波动情况进行处理,判断微博主题发帖波动的周期性特征。由Morlet所提出的时-频小波分析(WaveletAnalysis)是时间(空间)的局部化分析,从而反映出不同时间尺度下的变化趋势。Morlet小波变换其时域及频域局部性均较好,广泛应用于地理学[26]、天文学[27]、选举周期[28]等具有周期性波动变化的时间序列分析。在Morlet小波分析所呈现的结果中,小波系数实部等值线图能反映特定时间序列不同时间尺度的周期变化及其在时间域中的分布,进而能判断在不同时间尺度上该时间序列的未来变化趋势;小波方差图则能反映特定时间序列的波动能量随尺度的分布情况,可用来确定采样样本在演化过程中存在的主周期。在通过白噪音检验或红噪音检验的情况下,其峰值对应的时间尺度为数据的主周期。
采取matlab软件进行小波分析的计算。首先,为消除时间序列两端的“边界效应”,对数据进行小波信号延伸处理,将时间序列进行对称性延伸。其后,对主题贴文数量的时间序列进行连续小波变换,选择复morlet小波函数计算小波系数,随后去掉两端延伸数据的小波变换系数,保留原数据序列时段内的小波系数。之后在明确小波系数的基础上,绘制小波方差图。小波方差图能反映波动能量随尺度(天)的分布情况,通过其峰值可确定微博各主题分布波动过程中可能存在的周期。较多的采取小波分析对周期进行研究的论文中并未对周期加以显著性检验,一定程度上影响了研究的信度和效度。对此,红噪声和白噪声标准谱是可行的检验方法。一阶自相关系数较大的时间序列较多地采用红噪声标准谱进行检验,该方法作为验证小波方差图的显著性检验标准具有较强的可行性,在高能粒子变化[29]、地震活动变化[30]、极端气温变化[31]等的周期性显著的数据检验中均有良好的运用。
本研究通过红噪声对所得到的各种主题分布周期进行显著性的检验。目前关于微博中的舆论生命周期的研究统计时长往往为两个月以内[32-33]。另一方面,根据两个月的自然天考虑,把主题波动周期的检验尺度定为60天。对400类的主题的时间序列逐个进行小波分析。按照等距抽样选取序号为50、150、250、350的主题,呈现其小波分析的结果如下述几图所示。图中,波峰为该主题的周期,小方格虚线为红噪声检验线,在虚线以上的波峰为显著周期。随机抽取的序号为50、150、250、350的主题小波方差图如图3、图4、图5、图6所示。
图3 序号为50的主题的小波方差图
图4 序号为150的主题的小波方差图
图5 序号为250的主题的小波方差图
图6 序号为350的主题的小波方差图
为得到400×400的主题间触发的因果关系,本文运用格兰杰检验的方法计算各主题发帖数量时间序列的相互影响。格兰杰因果检验是一种假设鉴定的统计方法,用来测量一个时间序列是否有助于预测另一个时间序列。本文采用格兰杰因果分析的方法,检验了400个主题的时间序列之间潜在的格兰杰因果关系,从而得到主题的影响和触发规律。
首先,本研究对需要分析的400个时间序列进行了ADF单位根检验(augmented dickey-fullertest)[34],以确保时间序列的平稳性。通过检验结果我们发现,部分变量存在单位根,均为不平稳序列,因此对所有主题的时间序列进行一阶差分后再进行ADF检验,所有主题的时间序列一阶差分后,在 1% 显著水平上均不存在单位根(ADF 统计值小于 1% 临界值),以上差分后变量均可视为平稳序列。接下来,我们对研究问题中涉及的变量间关系进行了协整检验,以判断变量间是否长期稳定均衡的关系,避免变量间伪回归关系的存在。一般认为 E-G两步法适合两个变量之间的协整关系检验,即在变量平稳的情况下,建立两变量之间的回归,只要检验其残差是否平稳即可,如果残差平稳,则可以认为变量之间存在协整关系,反之,变量之间不存在协整关系。经检验,400个主题之间的数量序列经一阶差分后,均能通过两两协整关系检验。
在进行格兰杰因果检验之前,对变量的原始数据进行了相关分析。格兰杰检验可以解释一定滞后期内时间序列之间的共变特征,相关系数则有助于我们了解它们之间的同期共变趋势。我们认为,主题热度对其他主题可能存在同期影响,但反过来,受到舆论发酵时间和热度转移的影响,主题的触发往往存在一定的滞后期[35]。根据分析结果,部分主题之间讨论数量序列具有显著的相关关系,表明主题之间的发帖趋势可能存在同步性。主题1到主题10的时间序列相关性如表1所示。
表1 主题间时间序列相关性示意(抽取10个主题为例)
通过400维主题的影响网络,本研究需要得到不同主题对其他主题的影响程度,采用社会网络分析的中心性指标对主题在触发网络中的中心地位进行衡量,而得到该主题在彼此影响关系网络中的重要性和关键性。在社会网络分析法中,中心性测量了行动者在社会网络中所处的核心地位和权力影响,指标包括点度中心度、中介中心度、接近中心度、特征向量中心性等。其中,点度中心度指的是在社会网络中一个行动者与其他行动者发生直接联系的能力,点度中心度越高,意味着节点在社会连接网络越居于中心位置,从而拥有较大的影响力。在本研究中主题在触发网络的点度中心度越高,其对其他主题议程的影响、触发能力就越强。
通过上述步骤,得到400个主题的特定周期、周期数量、最长周期、最短周期及其在主题触发网络中的中心度如表2所示(随机抽取15个主题为例)。
表2 研究统计检验的变量示意表
通过上节研究设计与研究方法,得到400个主题的议程周期及其舆情触发能力。通过检验周期的四个特性:特定周期类型、周期数量、最长周期、最短周期对主题舆情触发能力的影响解读社交媒体主题周期对舆情的影响。
对400个主题的不同周期的触发网络中心度进行独立样本T检验,统计不同主题周期对主题触发能力是否有显著影响。结果如表3所示(抽取前10个主题为例)。
表3 部分主题特定周期独立样本T检验结果
经独立样本T检验,结果表明7天、49天、55天、57天的周期对主题触发能力有显著正面影响;4天、6天、8天、9天、11天的周期对主题触发能力有显著负面影响。其他周期对主题触发能力的影响并不显著。除了7天的短周期以外,正向影响主题触发能力的周期只有长周期。除7天以外的短周期波动对主题的触发能力有负面影响。说明存在若干种周期与主题的触发能力有关联。
7天、35天、49天、55天、56天、57天的周期对主题被触发程度有正面影响;3天、5天、6天、9天的周期对主题的被触发程度有负面影响。其他周期对主题被触发程度的影响并不显著。从被触发程度的影响周期可以发现,影响被触发程度的周期与影响主题触发能力的周期不一致,其中的原因还有待后续研究的深挖。周期对主题触发、被触发的影响有相似的规律,除了7天的短周期外,对主题触发能力正向影响较大的往往是长周期,且多为7的整数倍数周期。短周期方面,除了7天的周期以外,大多短周期对主题的触发能力、被触发有负面影响。
本研究统计的400个主题的周期数量为0~5之间的整数,主题的触发能力用主题在触发网络的出度衡量,为0.020~0.486之间的小数。运用误差条形图对周期数量和主题的触发能力进行可视化处理可以直观展现主题周期数量与主题触发能力的变化关系。主题的周期数量和其舆情触发能力的误差条形图如图7所示。
图7 周期数量与触发矩阵出度误差条形图
由图7可见,周期数量越多,该主题在触发矩阵中的出度越大,即主题的触发能力越强。经检验,主题波动的周期数和占比网络的中心性出度的皮尔逊相关系数为0.309(P<0.001,N=400),为显著正相关。即主题波动的周期数量越多,主题在触发网络的出度越高,主题在触发网络中越具有更高的影响力,越容易引发其他主题的讨论。
主题波动的周期数和占比网络的中心性入度的相关系数为0.298(P<0.001,N=400),为显著正相关。即主题波动的周期数量越多,主题在被触发网络的出度中心度越高,主题在触发网络中越容易被其他主题影响。
经检验主题的最长周期和主题触发网络的入度、出度都有正相关关系,主题最长周期和主题触发网络中心度出度的皮尔逊相关系数为0.290(P<0.001,N=386),主题最长周期和主题出发网络中心度入度的皮尔逊相关系数为0.258(P<0.001,N=386)。说明最长周期越长,主题在触发网络中越处于中心,越容易引发其他主体的占比变化,也越容易被其他主题影响、触发。
经相关性检验,主题的最长周期和主题触发网络的入度、出度都有负相关关系。主题最短周期和主题触发网络中心度出度的皮尔逊相关系数为-0.168(P=0.000,N=386),主题最短周期和主题出发网络中心度入度的皮尔逊相关系数为-0.265(P=0.000,N=386)。说明最短周期越短,主题在触发网络中越处于中心,越容易引发其他主体的占比变化,也越容易被其他主题影响、触发。这个结果反映出主题的震动频率越快,主题越容易影响、触发其他主题,也更容易被其他主题影响、触发。
由前文图1所示,在H1、H2、H3、H4的基础上,可将其整合为M1所提出的综合性的预测模型。回归树是一种非参数模型,是基于描述的树形结构算法[36]。给定一组训练数据, 采用从上到下、分而治之的学习策略, 将该组训练数据不断划分为无重复的子集。结束划分后, 将每个子集中数据样本的响应均值作为输出, 从而建立预测模型。基于前文四个假设,本文继而提出用周期特征预测某个主题对其他主题消长的触发能力的回归树模型。
为获得泛化能力强、预测精度高的模型,通常需要对模型相关参数进行调整,由于回归树模型算法模型简单, 参数选择不复杂, 所以使用实现简单、原理易懂的交叉验证法和网格搜索法来进行参数选择。本文交叉验证法和网格搜索法的实现调用Sklearn机器学习工具包中GridSearchCV模块。运用网格搜索法选择回归树的模型最优参数。影响回归树模型效果的的参数及其寻优范围、最优值如表4所示,使用模型的R2作为评估算法预测精度的指标,交叉验证设置为10折,搜索得到回归树模型的各参数最优值。回归树模型寻优参数示意、范围、最优值如表4所示。
表4 回归树模型寻优参数示意、范围、最优值
从回归树中可以看到,对主题触发能力影响最大的周期特征为是否存在55天的周期,为回归树的第一个分支,有55天周期的主题触发能力的平均值为0.2573(N=44),显著高于无55天周期的主题平均触发能力(Value=0.1014,N=316)。具有55天周期的主题中,同时具有49天周期的主题的触发能力平均值达到0.3454,显著高于具有55天周期而没有49天周期的主题平均触发能力(0.2315)。对于55天周期的影响原因,一方面可能与7天的倍数周期56天有关,另一方面,可能存在中长尺度的其他因素的复合影响和干扰,另外,还可能存在部分其他偶然因素。
回归树中具有特定周期的主题有不同的最长周期、最短周期,其触发能力有显著差异。如不存在55天、7天、16天周期的主题中,最短周期大于7的主题具有更强触发能力(Value=0.0926,N=163),大于最短周期小于7天的主题(Value=0.0698,N=37)。在不存在55天、48天、46天周期但具有7天的主题中,最长周期小于等于43天的主题的平均触发能力为0.1204,高于最长周期大于56的主题的平均触发能力为(Value=0.0989,N=28)。
决策树分析结果显示,对于同时具有55、49天周期的主题,周期数量小于等于4.5的主题触发能力平均值为0.3233,低于周期数量大于4.5的主题平均触发能力0.3674。也即主题具有的周期种类对此类主题有影响。
运用十折法计算模型的预测能力,该回归树模型的R方是0.6878。回归树的均方误差(mean squared error,MSE值)(用scikit-learn中metrics.mean_squared_error函数计算)为0.00208,该值越小表示模型性能越好。在回归树中,MSE不只是分枝质量衡量指标,也是常用的衡量回归树回归质量的指标。回归决策树结果表明,结合H1、H2、H3、H4之后的主题的周期属性对于主题的触发能力有必要的预测能力,可帮助改善对于主题作用的预测效果。考虑到图片大小,回归树截取局部示意如图8所示。
图8 主题舆情触发能力影响因素的回归树模型分析
随着社交媒体的发展,网络空间中的主题讨论与舆论走向对现实事件的作用越来越大,把握看似随机的议题讨论背后的规律,对社交媒体舆论调控具有重要意义。本文在中国网络舆情演化语境下,以新浪微博主题讨论为例,创新地提出并证实社交媒体主题波动周期性、主题触发能力概念,并从多个维度系统分析了主题波动周期对主题触发能力的影响。首先,本研究发现大部分社交媒体主题存在周期性波动规律,且此种周期性规律对社交媒体主题具有影响。其中,7天、49天、55天、57天的周期对主题触发能力有正面影响,4天、6天、8天、9天、11天的周期对主题触发能力有负面影响。7天、35天、49天、55天、56天、57天的周期对主题被触发能力有正面影响,3天、5天、6天、9天的周期对主题的被触发能力有负面影响。总体来说,主题的触发能力和被触发能力成正比。此外,研究发现最短周期越短、最长周期越长的主题具有更强的触发能力。说明更具稳定波动周期和具有更短共振频率的主题具有更强的影响其他主题议程的能力。通过回归树可说明H1、H2、H3、H4对主题的触发能力得到有效预测,预测R方值达0.6878。
在当前社交媒体舆情迅速变化的语境下,社交媒体的主题周期研究及主题周期的形成机制、应用价值仍然是亟待填补之处。本研究从主题的周期特征切入进行探讨,指出主题周期的潜在重要作用,从主题周期性对主题触发能力的影响角度初探主题周期这一因素对社交媒体议程转移与传递的影响。从理论角度,主题的周期性与触发能力的分析说明了内容周期的存在性和其与议程的关联,提出社交媒体舆论中主题的周期的形成、作用机理研究是有意义的研究空间。从实践角度,可以从主题过去的周期预判其未来的波动情况及其对其他主题的触发能力,对不同的主题进行针对性调控,为社交媒体舆论治理提供了一种解读舆论传播调控策略的可开拓空间。
第一,基于主题周期的舆论调控研究有助于推动社交媒体舆论研究的新领域的拓展和深化。现有研究缺乏对社交媒体主题内容周期性研究的审视,社交媒体主题的周期性这一变量的重要性未被充分重视。目前对内容周期性、波动性的研究往往着眼于单一事件、话题与标签的生命周期[5][12],缺乏对宏观的内容季节性、波动性、周期性探讨。本研究创新性地提出社交媒体主题的周期性规律,弥补了当下社交媒体内容、主题周期性规律的欠缺。此外,社交媒体主题周期长度与节律可能和多种因素有关,如主题短周期与社交媒体浅层舆论、社交媒体平台的议程设置有关,主题的中长周期隐藏的深层舆论、文化长周期等也值得学界探讨,此类潜在的作用机理可以为后续社交媒体研究提供新的角度参考。
第二,周期对主题触发能力的影响阐明了社交媒体主题周期研究价值。本研究在提出社交媒体主题周期的基础上,从主题触发能力的角度解读社交媒体主题周期性的研究价值。本研究发现,存在特定周期对主题的触发、被触发能力有影响。说明主题周期性与社交媒体议程演化存在此前未发现的关联。此种作用是否和社交媒体平台茧房化有关还有待后续研究探索。在主题周期长度和主题触发能力关系的研究中发现,是否具有如49天、55天的中长周期对主题触发能力的影响较大。后续的研究需要重视社交媒体主题中长周期的作用,其对主题议程触发能力的影响机制需要更深入的探索。
第三,基于主题周期性的社交媒体舆论调控在事件中具有操作可能性。主题的周期性及其影响为社交媒体的舆论引导、管理和调控打开了新的窗口,有实际的应用空间和价值。在具体的调控场景中,主题的触发能力,即主题引发其他主题的变化能力具有较强的调控和监测价值。本研究发现,7天、49天等特定长度的周期对主题触发能力有正面影响。利用这些主题的周期性规律,关注具有特定周期的主题,可以利用此类主题对社交媒体舆论进行引导和调控。主题长度方面,本研究发现具有短周期的主题更适合快速介入调控。在实际舆论调控场景中,可以通过主题的周期性监测判断主题的触发能力,易于精准的社交媒体舆论调控。
第四,本研究还存在着一些需要继续深化探讨之处。a.在周期长度方面,受限于样本数据本身的时间跨度和实际调控难度,是否存在着更长的社交网络主题周期,以及这些更长的周期对调控有何意义,这些问题依然有待更大规模的数据加以检验。b.主题的特定周期对该主题在舆论场中的触发能力的潜在成因及其详细的作用机制,有待深入揭示与验证。主题的周期性何以产生主题触发及其调控机理有望触发新的研究领域拓展。本研究推测周期可能推出主题震荡的“长波”和“短波”等频率特征,从而影响主题在议程网络中的影响力。希望在后续的研究中能够更为深入地展现社交网络中的主题波动周期与触发关系的细化特征和规律。