朱恒民 蔡婷婷 魏 静
(1.南京邮电大学管理学院,江苏 南京 210003;2.江苏高校哲学社会科学重点研究基地—信息产业融合创新与应急管理研究中心,江苏 南京 210003)
网络话题已成为网民发表评论、政府了解民意、监管部门追踪社会热点的重要媒介。同生命体的生命周期类似,话题也有生命周期,也会经历从萌芽到衰亡的各个阶段,反映话题新兴或衰亡等演化状态。因此,识别话题的生命周期状态对于监管部门了解话题现状、掌握发展趋势、监控舆论危机具有重要意义。
根据话题生命周期老化理论,话题演化可划分为萌芽、生长、成熟和衰退4个状态[1]。为了识别话题生命周期的状态,一些学者提出了描述话题状态的相关指标。Braun T等[2]提出了关于技术主题生命周期的新颖度指标,判断主题是否进入了生命周期的成熟阶段;基于新颖度指标,部分学者新增了一些其他指标来综合判定话题的生命周期状态。Tu Y N等[3]基于老化理论新增发文量指标,结合新颖度指标探测技术主题生命周期阶段;祝娜等[4]新增被引量指标,通过自定义生命周期探测表来构建知识主题完整的生命周期演化路径;谭春辉等[5]新增支持度指标,通过二维空间映射法判定主题所处的生命周期阶段,从时间与强度两个维度分析主题在各时间片所属的状态。此外,刘自强等基于Callon M等提出的向心度和密度指标[6],采用平面坐标法将科技文献主题划分为4个生命周期状态,以描述主题在整个生命周期的演化过程[7]。另有一些学者通过绘制话题演化曲线来判定话题的生命周期状态。刘东霞等[8]绘制专利累计量的S曲线,通过曲线走势划分煤炭液化技术主题的生命周期状态;王晰巍等[9]利用百度指数曲线图并结合话题事件特点,将微博话题划分为4个生命周期状态。
上述工作多是针对科技文献,通过回溯一个已经演化完成的话题生命周期过程来划分状态,未能对一个正在演化中的话题进行状态识别。其次,话题在演化过程中总是伴随着网民情绪的变化,它会影响话题传播和发展趋势[10],但是上述工作并未将网民情绪纳入话题生命周期状态的判定指标。
在识别当前时刻话题状态的基础上,可以进一步预测未来时刻话题状态的演化趋势。已有相关工作多是基于时间序列预测方法,分析话题热度或者强度等流行度指标的演化趋势。岳丽欣等[11]采用ARIMA模型预测话题的强度变化趋势;王宁等[12]运用灰色模型实现对话题热度趋势的预测;刘勘等[13]采用马尔可夫链对话题热度进行预测,并检验了建模方法的有效性;张和平等[14]选用百度指数作为话题热度的衡量指标,采用马尔可夫链修正灰色模型的预测结果。然而,仅预测话题流行度等单一指标并不能很好地描述话题状态的演化趋势。Liu R F等[15]采用隐马尔可夫模型(Hidden Markov Model,HMM)试图预测话题状态,对多个话题分别构建HMM模型并建立模型库,通过人工判别待预测话题与模型库中已有话题是否相似,从而选择相应模型预测话题未来的状态,但是该方法人工干预工作量较大。此外,话题生命周期状态是循序演变的,相较于预测话题在未来时刻的状态,预测反映话题状态的观测指标趋势更有意义。
HMM作为一种概率统计模型,能考虑时间序列的影响。通过观测指标数据建立概率模型,运用最大似然估计法学习模型参数,用于解决分类和预测等问题[16-18]。Liu R F等[15]在预测话题生命周期状态时,假设话题状态指标数据是由随机过程产生的随机变量,采用高斯概率密度函数拟合这些指标数据。然而,单个高斯概率密度函数无法很好地拟合实际应用中的所有变量,于是使用几个高斯概率密度函数的线性组合模拟观测变量[19-20],即高斯混合模型(Gaussian Mixture Model,GMM)。因此,本文采用GMM来拟合话题状态的多重观测指标,并结合HMM提出话题状态识别和趋势预测方法。
综上所述,现有研究主要是通过回溯话题演化过程来划分话题生命周期状态,鲜有研究引入网民情感指标来描述话题状态,且多数研究是通过预测单一指标来分析话题的演化趋势。因此,本研究对正处于演化中的话题进行状态识别,将网民情感纳入话题状态识别指标,通过预测多个话题指标来更准确地描述话题状态的发展趋势,以期为监管部门识别话题演化状态、揭示话题发展趋势、采取干预措施提供决策支持。
话题状态指标能够量化描述话题生命周期状态特征,反映话题从出现到衰亡的整个演化过程。首先基于Gompertz曲线来划分话题的生命周期状态,然后构建新颖度、关注度和情感度这3个话题状态指标,分析指标与演化过程的相关性。
本文基于Gompertz曲线将话题生命周期划分为萌芽、生长、成熟和衰退4个状态。Gompertz曲线所描述现象的特点是:初期增长缓慢,之后逐渐加快,当达到一定程度后,增长率又逐渐下降,最后接近一条水平线。它通常用于描述事物的发展由萌芽、成长到饱和的周期过程。考虑到网络话题的传播过程与其较为一致,本文基于Gompertz曲线模型[21-22]对话题的生命周期发展阶段进行模拟,通过微积分计算,确定曲线的3个分界点,然后据此划分话题生命周期的4个状态阶段。
百度指数能够统计并展示话题在生命周期内的用户关注度数据,它是以话题关键词为统计对象,以海量网民在某一时间段的百度搜索量为数据基础,并综合网民的阅读、评论、转发、点赞等行为的数据量,进行加权求和、指数化处理后得出,较为全面地衡量了用户对话题的关注程度。百度指数累计量是一个随时间连续变化的过程,本文对百度指数累计量进行Gompertz曲线拟合。
首先,假设话题百度指数累计量y是时间t的函数,其饱和值为K,增长系数为α,初始值为y0。用于描述百度指数累计量增长的微分方程为:
(1)
求解微分方程得:
(2)
当y0 y=Kabt (3) 为了求解参数K、a、b,可以对标准方程进行变化,对方程两边取对数可得: (4) 令y″=0,得: (5) 令y‴=0,得: (6) (7) 其中,t1 图1 Gompertz曲线描述的话题生命周期状态阶段 1)新颖度指标:新颖度是指话题的新鲜程度。一个话题开始出现后,随着时间的推移,话题的发文数量逐渐增加,新颖度逐渐降低,话题逐渐成熟。将话题出现的第一个时刻(以小时为单位)作为话题的开始时刻(First Hour,FH),一个话题在t时刻的新颖度指标(Novelty Index,NI)的计量公式如式(8)所示。 (8) 2)关注度指标:关注度是指话题受网民关注的程度,其与话题的发文量有关,发文量越多,话题越受关注。因此,一个话题T的关注度可用该话题在k时刻内的发文量d(Tk)来表示。在话题演化的各个生命周期阶段,其关注度是有差异的。在萌芽阶段,话题逐渐受到关注;在生长阶段,关注度持续增加;到成熟阶段,关注度维持在一个较高水平;当话题进入衰退阶段,其关注度随之降低。因此,话题的关注度是衡量话题状态的重要指标。 3)情感度指标:话题信息蕴含着网民的情绪,情绪越强烈,话题越容易激发网民的热烈讨论。因此,话题的情感度反映了话题蕴含的能量,是衡量话题状态的又一个重要指标。 参照话题在生命周期内的百度指数曲线,通过绘制该话题在相同时间窗口内的关注度和情感度变化曲线,来分析指标与话题演化过程的相关性。以“专家称已找到马航MH370”话题为例,分析结果如图2所示。通过验证相关性,发现话题的关注度和情感度指标与百度指数的相关系数均超过0.9,说明关注度和情感度指标可以用来描述话题的演化过程。此外,话题从出现到衰亡的演化过程也是话题新颖度逐渐降低的过程,因此新颖度被众多学者纳入话题状态指标。 图2 话题在2021年11月30日—12月10日的各指标曲线与百度指数曲线对比图 话题从萌芽走向衰退的过程可以看作是循序渐进的状态转移过程,这些内部隐藏状态的变化无法用肉眼直接观测到,但可以通过外部观测指标来确定内部状态的转移。随着时间推移,话题内部状态变化是一种随机过程,话题外部观测变量在不同状态下的结果也具有随机性。这种由外部观测变量反映内部状态变化的过程是一种双重随机过程,与HMM建模过程一致。GMM-HMM允许隐藏状态以多高斯分布产生观测值,相比单个高斯分布,其更能合理地表达观测值与隐藏状态之间复杂的关联关系。因此,本文基于GMM-HMM提出话题生命周期状态识别和趋势预测方法。 GMM-HMM是一个双重随机过程。其中,一个随机过程描述隐藏状态之间的概率转移关系,另一个随机过程描述隐藏状态与观测变量的映射关系。模型参数描述如下: 1)q:话题的隐藏状态。话题状态有萌芽状态、生长状态、成熟状态和衰退状态,分别用1、2、3、4表示。话题在t时刻的状态表示为qt。 (9) 根据上述参数意义,一个GMM-HMM模型可以表示为一个五元组λ=(π,A,wim,uim,Σim)。 将4个话题状态下的多观测序列作为训练集,基于多观测序列训练算法[24-25]依次训练各话题状态模型,得到4个话题状态的模型库,表示为{GMM-HMM1,GMM-HMM2,GMM-HMM3,GMM-HMM4},对应模型参数集为{λ1,λ2,λ3,λ4}。 话题状态识别是根据正处于演化过程中的话题前几个时刻的观测序列,判断出话题当前时刻所处的生命周期状态,便于了解话题现状,分析话题演化过程。 将话题在一段连续时间内的观测序列O′输入模型库,分别计算模型库中4个状态模型产生O′的概率P(O′|λi),概率值最大的模型即为最优模型,其对应的话题状态即为话题当前所处的状态,判断公式如式(10)所示。 (10) 话题状态趋势预测是基于话题当前时刻的状态识别结果,预测话题关注度和情感度等状态指标在未来时刻的变化趋势,便于监管部门适时进行话题引导和网民情绪疏导。话题状态趋势预测可获取话题在未来时刻的关注度和情感度的累计值,通过计算未来时刻与当前时刻的累计值之差,可得到话题状态指标在未来时刻的变化量,进而反映出话题的演化趋势。 通过话题状态识别方法,得到最优模型。基于该模型的最优参数λ和当前时刻的话题状态i,运用式(11)可预测出话题在未来时刻所对应的三维观测变量值,即ot+1=(NIt+1,AIt+1,SIt+1)。式中,E(bj(ot))表示话题状态j的混合高斯分布函数的期望值。 (11) 本文利用Python爬取新浪微博6个话题从出现到衰退完整生命周期内普通用户发表的原创微博,话题分别为:“郑州地铁5号线事件”(话题1)、“鸿星尔克捐款”(话题2)、“鹿道森发遗书后失联”(话题3)、“专家称发现马航MH370”(话题4)、“淘宝双十二”(话题5)和“西安考研”(话题6),获得数据共22 127条。 由于微博话题传播速度快且易发酵,话题演化周期短,本文按小时(h)划分时间片统计并处理话题数据,以便更快速地捕捉话题状态的演变。6个话题的完整生命周期时间跨度分别为120h、200h、120h、122h、490h、250h。基于Gompertz曲线将这6个话题分别划分为萌芽、生长、成熟和衰退4个状态阶段,各话题生命周期状态的划分时段如表1所示。基于状态指标公式分别计算出每个话题在各个时间片的指标值,并作归一化处理。由于关注度和情感度的取值范围较大,故先利用小数定标法规范化指标,再利用Logistic函数将指标归一化到(0,1)之间。各话题在每个时刻下的三维指标值构成一组观测变量,另外加上每个话题在初始时刻的观测变量,得到6个话题下共1 308组观测数据。 表1 6个微博话题生命周期状态的时间跨度 实验采取类似交叉验证的方法对话题状态识别进行效果评估。在每一次验证中,都取6个话题中的5个话题数据作为训练集,训练各状态模型得到模型库。取剩下的一个话题数据作为测试集,依次将该测试话题在连续5个时刻下的观测变量作为一条观测序列,输入训练好的模型库,通过识别方法得到当前时刻的话题状态。例如,将话题1~5的数据作为训练集,话题6的数据作为测试集,从初始时刻开始,将连续5个时刻的观测序列输入模型库,得到话题在当前时刻所处的状态。识别结果的混淆矩阵如表2所示。 表2 话题6状态识别的混淆矩阵 实验采取精准率(Precision)、召回率(Recall)、F1值和准确率(Accuracy,Acc)这4个指标衡量话题状态的识别效果。由于本次实验数据来自于不同的微博话题,每个话题的生命周期长短不一,话题状态类别不均衡。为了使评价指标更具有说服力,本文对不同话题的评价指标计算加权平均值,如式(12)所示。其中,P代表精准率,R代表召回率,num(topick)和num(all)分别表示第k个话题的测试组数和6个话题的观测数据总数,Pk、Rk、F1k、Acck分别表示第k个话题识别的精准率、召回率、F1值和准确率。 (12) 实验采用GaussianHMM模型、BP神经网络模型进行对比,话题在不同模型下的状态识别结果如表3所示。从中可以看出,基于GMM-HMM的话题状态识别精准率、召回率、F1值和准确率均高于87%,相较于GaussianHMM和BP神经网络具有较大优势。这也说明多个高斯分布函数拟合话题状态下的观测变量是合适的。 表3 不同模型的话题状态识别效果对比 实验采用平均绝对误差(Mean Absolute Error,MAE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)作为话题状态趋势预测精度的评价指标,误差值越小表示模型的预测效果越好。其计算公式分别如式(13)、式(14)所示,其中,n为预测组数,Rt+1为t+1时刻的实际值,Pt+1为t+1时刻的预测值。 (13) (14) 实验采用GaussianHMM模型、BP神经网络模型进行对比,话题在不同模型下的状态趋势预测结果如表4所示。从中可以看出,基于GMM-HMM的话题关注度和情感度的MAE值均低于0.03,MAPE值均低于3.50%。可见,该方法对话题状态趋势的预测效果优于GaussianHMM和BP神经网络方法。 表4 不同模型的话题状态趋势预测效果对比 识别演化过程中的话题状态,预测话题发展趋势,能够及时跟踪话题发展动态,尽早采取干预措施,对于舆情监管部门具有重要意义。为了实现此目标,本文提出话题状态识别与趋势预测方法,将网民情感纳入话题状态观测指标中,基于GMM-HMM构建各话题生命周期状态模型库。通过实验对比,验证了该方法比GaussianHMM和BP神经网络识别效果更好,预测误差更小。本研究仅考虑到传播速度较快、生命周期历时较短的微博话题,在未来的研究中还需扩充网络舆情的数据集,提高基于GMM-HMM的话题生命周期状态识别及趋势预测方法的普适性。1.2 话题生命周期状态指标计量
1.3 话题指标与演化过程的相关性分析
2 话题生命周期状态识别及趋势预测方法框架
2.1 GMM-HMM模型构建
2.2 模型训练
2.3 话题状态识别
2.4 话题状态趋势预测
3 实验与结果分析
3.1 数据采集与处理
3.2 话题状态识别结果分析
3.3 话题状态趋势预测结果分析
4 结束语