摘 要:针对国网客服中心客户重复诉求问题,面对舆情群体性事件的冲击,须了解舆情群体性事件的演化规律,确定事件类别,提炼事件特征。基于不同类别的网络群体性事件,基于海量的95598工单数据集,通过LDA主题模型与高斯混合聚类算法相结合,利用LDA模型实现文本潜在语义的识别构建的网络群体性事件动态识别模型,通过大量的文本训练,当事件聚类数为6时有良好的解释性。利用LDA主题模型和高斯混合聚类算法,减少了模型的迭代次数,确定最佳主题数,提高了网络群体性事件识别结果的准确性。
关键词:高斯聚类;舆情数据;群体性事件;主题模型;动态识别
中图分类号:TP 39 " " " 文献标志码:A
网络舆情是指利用互联网对舆情事件表达相关言论。当发生群体性舆情事件时,相关职能部门需要迅速收集网络舆情信息,跟踪事态变化,这是亟待解决的问题[1]。本文基于95598工单和其庞大的用户数据,构建一种对公众舆论进行实时监测和分析的舆情监测机制。通过95598热线工单采集用户诉求信息,结合数据分析和挖掘技术,对公众舆论进行全面、客观、精准地监测和分析。
1 模型架构设计
对网络舆情群体性事件的研究主要结合文本处理技术,目前国内已有众多学者在相关领域的研究取得进展。张君第等通过使用TF-IDF算法对文本特征提取,使用径向量函数的神经网络模型以及自然语言处理算法对数据进行训练,来进行舆情分析与预警[2]。学者秦洋等通过自然语言处理等技术流程,得到热度和情感倾向分析,并将其应用于舆情监测[3]。学者赵明辉采用文本挖掘技术进行数据爬取,再结合情感分析、主题模型等方法对文本评论中的隐性知识做显性挖掘[4]。陈谦等通过对文本数据做降维处理后,结合感知机技术对文本做进一步聚类[5]。周忠宝等使用文本挖掘技术对弹幕数据进行爬取,然后进行动态主题分析,并使用CNN对文本进行情感分析[6]。2022年田永承等将每个聚类中心代表一个话题,将亲和传播算法引入网络舆情热点话题的检测中[7]。本文基于国网客服中心95598数据分析平台,采用网络自动化技术将客户诉求信息数据进行抓取,采用聚类算法进行主题信息聚类。考虑到基础的聚类算法,因为采用迭代方法,所以聚类结果往往收敛于局部最优而得不到全局最优解,且可处理的数据类型有限,对于高维数据对象的聚类效果不佳。本文通过高斯聚类模型与LDA主题模型的融合,利用LDA主题模型确定聚类点初始位置。基于此,选取对网络群体性事件文档集中影响程度排名较高的前N个主题,根据确定的N个主题对网络群体性事件文本信息集开始初步聚类,以此定位为初始聚类中心,减少聚类迭代次数,使聚类结果更准确。
1.1 主题提取模型
主题模型(Topic Model)是自然语言处理中的一种常用模型,其作用是从大量文档中自动提取主题信息。主题模型的核心思想是每篇文档都可以看作是多个主题的混合,而每个主题则由1组词构成。LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,作为一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。LDA模型是基于概率潜在语义分析PLAS模型的改进。PLSA是基于概率潜在语义分析的,它假设文档和主题共同生成词语,PLSA的主题是由潜在语义向量构成的,解释性较差。有学者通过引入对狄利克雷先验参数,解决了PLAS模型在文档层概率模型缺失的问题,实现了主题的词汇概率分布和文档主题概率分布。LDA模型是一种全概率主题生成模型,被广泛应用于文本处理任务,在语料规模较大的文本上表现良好。有学者基于LDA模型对2006—2017年的研究文献中的主题演化趋势进行分析,得到了图书情报研究的热门主题并总结了演化趋势[8]。
LDA假设每个文档定义了一个主题(topic)的概率分布,而每个主题定义了一个词(word)的概率分布。它还假设在文档中的每个词是这样被产生的:先从文档中抽出一个主题(例如金融),然后再从主题中抽出一个词(例如货币)。每个词的产生过程彼此独立。LDA算法有训练和测试两个阶段 , 当训练时输入许多文档,输出这两个概率分布的参数;当测试时输入一个新文档,输出它的主题分布。LDA可以从一篇文档中提取少数几个主题,与人们在整理文件的过程中打上标签相似,为信息检索提供了便利。
其基本步骤如下:首先,从主题分布中随机选择一个主题;其次,从该主题的单词分布中随机选择一个单词;重复上述过程,直到生成整个文本。将文档—词语由高维度的向量空间矩阵映射转换为2个低维度的矩阵:文档—主题矩阵、主题—词语矩阵,其中文档—主题及主题—词语均服从多项式分布。一篇文档中每个词语出现的条件概率公式如公式(1)所示。
P(词语|文档)=∑主题P(词语|主题)P*(主题|文档) " (1)
式中:P(词语|文档)为该词语在文档中出现的概率值,是已知的,P(词语|主题)与P(主题|文档)是未知的,P(词语|主题)为词语在对应主题下的概率,如果概率值越大就说明特征词与该主题的关联性越大。P(主题|文档)为文档对应主题下的概率值,如果概率值越大就说明主题与文档的联系更紧密,这样可以反映主题构成情况。假设共有M篇文档,可提取K个主题。每个文档都是独立的主题分布,主题概率分布参数α服从狄利克雷分布。θ为每篇文章的主题分布,对于第i篇文档的主题分布是θi。每个主题都有各自的词项分布,词项分布概率参数β也服从于狄利克雷分布,α、β与主题数目K都是建模前需要确定的超参数。
针对文档内第n个词语,首先,完成从相应的文档中主题分布进行主题抽取的步骤,其次,再去完成词项分布中主题抽取的步骤,最后,持续重复上述步骤,直到完成文档的所有遍历过程,其联合概率如公式(2)所示。
(2)
式中:t为主题topic;w为文档中的词word;α为主题概率分布;β为词项概率分布;θ、t为隐含变量;N为文档中全部词的数量。
1.2 高斯混合模型聚类
1.2.1 高斯混合模型(GMM)
高斯混合模型(Gaussian Mixed Model,GMM)是一种基于概率密度函数的概率建模技术,它假设每个聚类都是由多个高斯分布组成的混合分布。GMM的目标是通过最大化似然函数来估计模型参数,包括每个高斯分布的均值、方差和混合系数,以及数据点属于每个聚类的概率。当聚类时,GMM将数据点分配到概率最大的聚类中,而不是像K-Means那样将数据点硬性分配到某个聚类中。GMM在许多应用中都表现出色,当数据点没有明显分离时,可以对复杂的多维数据进行建模。高斯混合模型基于一个假设:数据点x=(x1,x2,...,xn)T服从高斯分布;Xi为d维随机变量,则其模型的概率分布如公式(3)所示。
(3)
式中:xi为第i个观测数据;k为子高斯模型的数量;ak为观测数据属于第k个子模型的概率;ϕ(x|θ)为第k个子模型的高斯分布密度函数。对于这个模型来说,参数θ=(μk,αk,σk)也就是子模型的期望、方差(或协方差)以及在混合模型的概率。然后需要由观测数据求混合模型中的参数θ,对于参数估计来说,通常使用的就是极大似然(Maximum-likelihood)估计方法。对于高斯混合模型来说,它的Log-Likelihood 函数如公式(4)所示。
(4)
通过公式(4)中最大化对数似然函数来得到参数θ的估计量,由于不知道每个数据观测点是属于哪个子分布的隐变量的,因此在log中还有求和,对于每个子模型都有未知的(μk,ak,σk),无法直接进行求导计算,需要采用迭代的方法求解,通常使用EM这种迭代计算的方法。
1.2.2 期望最大算法(EM)
EM算法属于迭代优化策略,其作用是找到概率模型中参数的最大似然估计,利用Jensen不等式计算似然函数的下界(Lower bound),通过极大化下界得到极大化似然函数。期望最大算法的每次迭代都有2个步骤,即E-step(求期望),M-step(求极大)。其具体步骤如下。对参数进行初始化。
E-step:基于当前状态的参数值,确定每条数据来源各子模型的概率值,如公式(5)所示。
(5)
M-step:计算新一轮迭代的模型参数,如公式(6)~公式(8)所示。
(6)
(7)
(8)
重复计算步骤(2)和步骤(3),直至收敛。
式中:xj为第j个观测数据;ϕ(xj|θk)为第k个子模型的高斯分布密度函数;θk也就是第k个子模型的期望、方差(或协方差)以及在混合模型的概率;rjk为数据j来自子模型k的概率;μk为第k个高斯分量的期望向量;∑k为第k个高斯分量的协方差矩阵;ak为新一轮迭代后的数据j来自子模型k的概率。
EM聚类步骤如下:在E步中根据给定的观测变量与当前的参数估计值计算完整数据对数似然函数的条件期望值;在M步中根据E步得到的后验概率,计算使对数似然函数值最大的参数估计量。E步与M步之间交替迭代,当公式(8)收敛到某一确切值时停止迭代,最终每个样本的聚类结果由其后验概率最大值所在的下标决定。通过以上部分获取高斯混合模型的参数。虽然EM算法具备收敛性,但是仍然需要通过初始化几次不同的参数进行迭代,取结果最好的那次,保证找到全局最大值,而不是局部最大值。
1.2.3 算法优化
根据上述算法步骤可知,当模型在开始阶段估计参数时,初始值非常敏感,设置不同的初始值导致模型可能产生南辕北辙的估计结果,对EM算法来说,需要找到合理的初始化方法。目前,对于模型的初始化主要是利用其他聚类算法,虽然能够获取较优异的结果,但是这种方法进行初始化不仅复杂,而且还会造成重复聚类。由于国家电网用户是亿级,业务自身所生产数据是上亿级别的量,为了保证系统稳定性,减轻算法运算压力,因此本文对模型初始值选择进行优化。这样避免了选择初始值时重复聚类的问题,也减少了模型运算负荷。本文引入三分位数优化初始值,分位数本质上是一种排序方式,它是连续分布函数中的一个点,将其划分为几个等份的数值点,在统计学研究中会经常使用中位数、三分位数等。三分位数是在某排序的数列中存在2个分位点,将该数列划分为3个等值部分。假设将一列数据依据值得大小进行排序,三分位数可以将这列数据分割成高、中、低3个部分。
根据高斯混合聚类算法,基于EM模型实施初始化聚类,主要目的是为了获得初始分类中经验知识占比较高的状态。当数据服从高斯混合分布时,尽量将组成部分的各个多维高斯分布进行比较明显的区分。当基于高斯混合聚类算法结合EM算法开始聚类过程时,其步骤明细如下。
假设聚类的对象是一个n×p的数据样本,n为样本的数据个数,p为样本的维度。
步骤一:首先,对数据样本的第一列进行值排序,其次,计算该列的三分位数,根据分位数C1和C2的将其划分为3个等值部分,为3个初始的分类。对数据样本中第2,3,…,p列的值进行上述过程,结合三分位数法确定剩下的p-1个初始分类方式。
步骤二:依次计算p个初始分类方式的参数θ,然后计算每个初始分类方式中各类别的中心距离dj(j = 1,2,3,…,p),dj为马氏距离,然后确定dj中最大值,则其为对应的初始分类,同时该分类方式下的参数θ={ω1,ω2,...,ωk,μ1,μ2,...,μk,∑1,∑2,...,∑k},作为EM算法聚类的初始值。
2 舆情群体性事件的识别
首先,本试验利用爬虫抓取95598数据分析平台的工单数据,其次,对训练的文本数据集进行分词处理,同时考虑到具体使用场景对部分停用词或者语句进行剔除,减少数据文本的干扰信息。最后,舆情数据文本数据处理后,再引入评价指标衡量最佳主题数,在统计学中,常用困惑度来评价LDA模型的性能优劣,如公式(9)所示。
(9)
式中:p(w)为每个词在文本中出现的概率;N为文本中所有词的集合。如果困惑度过小,就说明模型对未见过的数据的预测能力强,反之表明模型对未见过的数据的预测能力较弱。
本文使用LDA主题模型,模型服从狄利克雷分布,LDA主题模型中的“文档-主题”和“主题-词项”的概率分布,即q和j的值。首先,得到q和j的先验分布,其分别有一个狄利克雷的先验分布,其超参数分别为a和b。然后,采用Gibbs抽样法进行推断,推断出q分布,最后,用LDA主题模型中的“文档-主题”的概率分布q作为每篇网络群体性事件文档的向量,建立向量空间。LDA主题模型求解包括以下3个过程。1)以a为先验超参数,对每个文档初始化“文档-主题”的概率分布q。2)以b为先验超参数,对每个主题初始化“主题-词项\"的概率分布j。3)舆情文本d中的每个词项,从该文本的q分布中抽取一个主题;再从该主题的j分布中抽取一个词项。经过Nd(Nd表示舆情文本d中的所有词的集合)重复抽取,获取最终舆情文本d。
首先,通过网格搜索法参数寻优确定最佳主题数T=50,在曲线的最低拐点附近抽取主题效果最佳。其次,采用高斯混合聚类算法进行文本主题聚类,其步骤包括以下5个。1)采用三份位数法对参数进行初始化。2)E-step。基于选取的参数,确定数据集中的每个j来源于子模型k的概率。3)M-step。计算新一轮迭代的模型参数。4)重复计算步骤2)和步骤3),直至收敛。5)利用兰德指数(Rand index,RI)评价聚类效果,RI取值范围为[0,1],值的大小能够直接表明聚类结果与实际情况是否一致,值越大,聚类效果越好。当试验中聚类个数为6时,聚合效果最好(见表1)。
3 结语
由于高斯聚类算法具有收敛速度快、可以处理非常复杂的数据分布等优点,因此其在文本聚类的数据挖掘中有优异的表现。同时发现高斯聚类需要预设聚类个数,且其对于初始值的敏感性较大,不同的初始化方法会得到不同的聚类结果。本文结合95598工单数据,为了提高网络群体性事件识别结果的准确性,结合LDA主题模型确定初始化主题,然后再利用高斯混合聚类模型完成主题事件聚类。当聚类模型估计参数时,针对初始值敏感造成估计结果偏差的缺陷引入三分位数法优化初始值,避免了初始值选择时重复聚类的问题,也减少了模型运算负荷。采用上述方法减少迭代步骤,提高抗噪声的能力,提高群体性事件聚类准确率。目前,95598舆情监测机制是一个非常重要的舆情监测工具,及时发现潜在的危机,提高公众形象和公众信任度。在后续研究中通过引入结果判别方法,使主题分类的结果更符合实际情况。
参考文献
[1]MACLENNAN B, KYPRI K, LANGLEY J, et al.public sentiment
towards alcohol and local government alcohol policies in New Zealand[J].
International Journal of Drug Policy,2014,23(1):45-53.
[2]张君第.基于自然语言处理与智能语义识别的舆情监测预警模型研究[J].电子设计工程,2022,30(17):165-169.
[3]秦洋,郑楠昱.基于大数据的热点话题舆情分析系统设计[J].无线互联科技,2022,19(2):49-50.
[4]赵明辉,张玲玲.基于网络评论文本挖掘的技术预见方法研究[J].科技管理研究,2022,42(16):176-181.
[5]陈谦,徐兴梅,陈帅.基于文本挖掘的多用户投诉数据流聚类算法[J].计算机仿真,2022,39(5):423-426.
[6]周忠宝,朱文静,王皓,等.基于弹幕文本挖掘的社交媒体 KOL 研究[J].计算机工程与科学,2022,44(3):521-529.
[7]田水承,黄权.基于文本挖掘的煤矿瓦斯事故致因分析[J].煤矿安全,2022,53(5):241-245.
[8]林丽丽,马秀峰.基于LDA模型的国内图书情报学研究主题发现及演化分析[J].情报科学,2019,37(12):87-92.