朱光婷 潘晓琳
(重庆师范大学 数学科学学院, 重庆 401331)
网络舆情是指在互联网上流行的舆论,其中包含网民或公众针对现实生活中的一些热点问题、焦点问题、突发事件表达的意见、态度和情绪等等,它们在一定时间段内集聚汇总,便会对与这些问题或事件相关的当事人造成舆论压力,即形成网络舆情危机。研究网络舆情危机涉及相关的评价指标体系,而有关指标数据的属性有两种类型,即连续型和离散型。数据挖掘中对连续型数据进行预处理,有关算法都比较复杂。本次研究,主要针对网络舆情危机评价指标体系探索一种简化指标的方法。基本思路是:首先,对评价指标按选取规则进行初步选取,去除无法搜集或难以收集数据的指标;然后,运用布尔推理的高效实现算法将连续型数据离散化,为约简粗糙集提供高准确率的信息表数据;最后,采用启发式约简算法计算指标属性重要程度,进而删除冗余指标。
离散化问题主要是根据断点把连续型数据的值域范围切割成有限个区间,使每个区间的对象具有相同的类别,这是用一定阈值对数据进行空间拆分的过程。
设决策表为T=(U,A,V)。其中,U为至少有1个元素的样本集合;A=C∪D,为非空有限个条件属性集与决策属性集组成的集合;V=∪Va[1]。对于∀a∈C,值域Va=[la,ra]。Pa为Va上的一个划分:
Pa={[Ca0,Ca1),[Ca1,Ca2),…,[Cak,Cak+1)}
la=Ca0 Cai即为属性a在值域Va上的一个断点;Ca={Ca1,Ca2,…,Cak},为Va的断点集。每一个断点集确定唯一的一个划分。如果 |Pa|=1,表示没有断点,集合为空集。集合P={Pa|a∈C∪D},称为T的一个划分。由P定义一个新决策表TP=(U,CP∪D,VP),称为T的P离散化。 离散化问题可转化为由决策表求解最优划分的决策问题。按典型的基于粗糙集与布尔推理的离散化算法(RSBRA),根据最大分辨能力找出的实际断点组成的集合为原决策表的次优断点集。布尔推理离散化过程中是完全根据原始数据挖掘数据的信息,不会对数据造成破坏。布尔推理离散算法,直观、简单、容易被人理解,但以此算法确定一个断点,空间复杂度和时间复杂度都比较高。因此,需要采用高效的实现算法来降低计算的复杂度。 【定义1[2]】令决策表集L={U},样本子集X=L。将属性a的数值排序,得到Va1 (3) 【定义2】对任意断点Cai,a∈C,1≤i≤n,j=1,2,…,r;n为样本子集的样本数目。令 WX(Cai)=lX(Cai)·rX(Cai)- (4) 布尔推理离散化的高效实现算法步骤如下。 第一步:对决策表中的数据按定义1进行处理,求出候选断点数,确定候选断点集。 第二步:对∀c∈C1,计算断点Cai分辨的样本对数,并根据其最大值选出实际断点(记为Cmax),加入集合P中,并从C1中剔除Cmax。 第三步:对于X∈L,如果Cmax将X分割成X1和X2,那么从L中去除X,将X1和X2添加到L中。 第四步:对∀Xi∈L,若Xi中的样本不属于同一类,则回到第二步;若Xi中样本属于同一类,则选择结束。由此可得出实际断点集P,将原始数据离散化。 粗造集的主要思想是利用现有数据信息,将不完整、不确定的都近似得出,从而找出所有信息之间的关联性,保证筛选的客观性。决策表经过处理后,最终得到的属性约简集可能是多个的。我们希望求得个数最少的集合。有研究[3]表明,求取最优约简的算法是不完备的,于是可退而求其次,寻找高效的近似约简算法或者快速的启发式约简算法。我们采用启发式约简算法,将可识别矩阵与可降低复杂度属性的重要度相结合,进行属性约简。这种方法有利于处理属性繁多且数据量大的数据集。可识别矩阵[4]是一个主对角线元素为0的对称矩阵: 运算过程[5]如下。 第一步:为了减少可识别矩阵计算量,对离散化决策信息表中的决策属性的表达进行简化。选取其中一个样本的决策属性为是(其余全为否),则对应该样本的条件属性全为是(其余条件属性为否)。通过简化后的决策表,构造出只有1行的可识别矩阵。 第二步:根据各属性在可识别矩阵中的频度和长度,求出各条件属性的重要度。频度较大、长度较小的条件属性,其重要程度较大。具体方法是根据属性在识别矩阵中的频度和长度,对条件属性的重要性进行加权处理[6]。 第三步:对求出的条件属性重要度进行排序,然后按照重要程度进一步对数据进行优化处理,得到约简过程表。 第四步:按照约简规则进行约简,得到最终的优化指标。约简规则为:若UInd(C-Ci)=UInd(D),Ci为可约属性;若UInd(C-Ci)≠UInd(D),Ci为不可约属性[7]。UInd(D)为由指标集D导出的等价类。 选取在2019年9月和10月发生的无锡高架桥坍塌、中通快递双十一涨价、波音延长停飞计划等10个近期影响程度不同的事件,将围绕这些事件的舆情(热点话题)记为X1至X10,作为评估对象。根据专家评价、百度指数和微博等传播渠道与途径,获取舆情指标数据[8]。指标初选,既要考虑指标对网络舆情危机反映的全面性和准确性,也要考虑指标的实际意义。为便于收集指标数据,主要选择可量化和可操作的指标,适当选取主观性指标。参考相关文献[9],从网络舆情的参与者、被传播的话题及传播途径3个方面,初步选取指标共计23个。 选择常用的Z-score标准化方法,基于原始数据的均值和标准差对数据进行处理。设:xij为事件i对j个指标的值,yij为标准化后的指标值,Xj为指标j的数学期望,Sj为指标j的标准差。则yij=(xij-Xj)Sj。标准化后,指标值的区间为[-2.5,2.5]。然后,按布尔推理离散化的高效实现算法计算出23个指标的离散化过程和信息表[10](见表1,未全部列出)。比如第23个指标C23,离散规则为3个连续区间,分别是[,0.003 52),[0.003 52,0.906 17),[0.906 17,];每个区间的对象具有相同的类别,以从小到大的整数0、1、2分别代表这些区间。 表1 指标的离散规则和信息表 对23个初选指标,按舆情主体、舆情媒体、舆情客体构成3个决策表,利用可识别矩阵和属性重要度进行属性约简,删除冗余指标。 以舆情主体为例,用U表示事件,X1至X10代表热点话题,C16至C23分别表示观点极化数、是否含偏激观点、点赞浏览比、转发浏览比、评论浏览比、舆情参与人正面情感比率、舆情参与人负面情感比率、情感倾向强度等8个指标,d表示决策属性。首先,对离散化决策表对决策属性的表达进行简化,形成指标决策表(见表2),其中用1表示是,用0表示否。X1为条件属性和决策属性全为肯定的肯定性样本,基于指标决策表,按照可识别矩阵的定义,求出的舆情主体指标可识别矩阵如表3所示。 表2 舆情主体指标决策表 表3 舆情X1主体指标可识别矩阵 在决策表中,各个条件属性带来的影响的大小是有差异的,也就是说其重要程度[11]是不同的。因此,需探究哪些条件属性去掉后影响较大,哪些去掉后影响较小,确定各条件属性的重要程度。通过以上求出的舆情主体指标的决策表和可识别矩阵,计算出的各条件属性的重要度如下。 把条件属性对应的指标按照重要度从小到大的顺序依次加入约简指标集合中,考察各指标是否满足约简规则,是否可约简。若不满足,停止属性约简,生成约简过程表(见表4)。 表4 舆情X1主体指标的约简过程 把C17(是否含偏激观点)、C20(评论浏览比)和C21(舆情参与人正面情感比率)约简后,剩下的5个指标即C16、C18、C19、C22和C23便构成约简后的舆情主体指标集合。以同样的方式,可以得到舆情客体和舆情媒体的指标约简集合,初选的23个指标最后保留15个。最终建立的网络舆情危机指标体系如表5所示。 表5 约简后的网络舆情危机指标体系 使用KW检验,对指标做显著性分析,显著水平取0.05。利用SARA软件,将保留下来的15个指标进行检验,得检验概率值为0.001 8,远小于0.05,表明保留下来的指标相互间差异明显。这也证明了算法的合理性,基于改进的粗糙集算法,对网络舆情危机评价指标体系进行约简优化,具有可行性和有效性。 为解决网络舆情危机评价指标体系存在的冗余和不确定性问题,使用改进的粗糙集算法对指标进行了约简处理。首先对连续属性数据进行离散化处理,采用布尔推理离散化的高效实现算法,降低确定一个断点的空间复杂度和时间复杂度,然后依据可识别矩阵和属性重要度进行属性约简,删除冗余指标。指标初选阶段,直接从原始数据中获得真实、客观的潜在信息,既考虑指标的实际意义,又保证筛选的客观性。KW检验结果表明,通过约简后的网络舆情危机评价指标相互间差异明显,说明算法是合理的。2 实证分析
2.1 样本及指标初选
2.2 指标的离散化
2.3 指标集的约简
3 结 语