结合情感分析的突发事件舆情网络关键节点挖掘∗

2015-11-02 08:37张晓霞王名扬贺慧新罗嗣卿
关键词:招远命案麦当劳

张晓霞,王名扬,贺慧新,罗嗣卿

(1.东北林业大学信息与计算机工程学院,哈尔滨150040;2.同方知网技术有限公司,北京100000)

0 引言

突发事件是指突然发生、造成或者可能造成重大人员伤亡、财产损失、生态环境破坏和严重社会危害、危及公共安全的紧急事件[1].我国是一个人口众多的国家,突发事件可能会严重影响到我国的正常社会秩序,如,2009年由民族分裂分子通过互联网等渠道煽动引起的新疆乌鲁木齐的打砸抢烧事件;2011年的郭美美炫富造成红十字会信任危机事件;日本核泄漏引发的国内抢盐风潮;2012年因“世界末日,连黑三天”谣言而引发的抢购蜡烛风潮;2013年传言天然气涨价而引发的天然气囤积行为等.由于突发事件一直是社会发展过程中无法避免的一种社会现象,因此如何控制突发事件的演变和降低整个事件发展过程中对社会造成的损失显得至关重要.

实践证明,在线社交平台信息的传播对事件的发展起着极其重要的推动作用[2].而信息传播网络中的关键节点不仅对于信息、思想的传播具有扩大化的效应[3],还会左右普通网民的情感倾向[4].网民群体不良情绪的聚集、激发及感染将会带来意想不到的集群行为[5].因此,识别突发事件信息传播网络中的关键节点,并结合情感分析对传播具有消极情感信息的关键节点进行重点监控,对迅速掌握舆论走向,抑制消极信息的传播扩散,降低发生次生、衍生突发事件的可能性具有重要的现实意义.

1 相关工作

目前,对于关键节点挖掘的研究已有很多成果.关键节点的挖掘方法大体来说有4大类[6]:

a.依据节点近邻的挖掘方法.这类方法根据节点的直接邻居的数目或节点的位置来判定节点的重要程度,如度中心性[7]、半局部中心性等.

b.基于路径的挖掘方法.这类方法认为网络中存在一些没有很大的度,但是对于信息流的传递却具有极大的控制作用的节点,这种节点也同样是网络的关键节点.度量的方法有离心中心性、接近中心性[8]和介数中心性[9]等.

c.基于特征向量的挖掘方法.这类方法认为节点的重要性不仅依赖于邻居的数量同时还受到邻居的质量的影响,如PageRank算法、HITs算法等.

d.基于节点移除和收缩的挖掘方法.其理论依据是网络的结构会处于动态变化之中,节点的重要性往往体现在该节点被移除之后对网络的破坏性.主要有节点删除的最短距离法,节点删除的生成树法等.

应用领域和研究对象的不同促使在选用关键节点挖掘方法时会有所侧重[10−12].值得注意的是,目前对于关键节点挖掘的研究大都是将复杂的、具体的研究对象抽象成一个网络,每个研究个体抽象成网络中的一个个节点,这种处理方法具有划时代的意义,将复杂问题简单化,并且能够直观地掌握研究对象的整体情况.但是信息传播网络是复杂社会网络的一个缩影,网络中的每个个体都是具有思想、情感、意识的独立行为人,每一个突发事件信息的传播都会伴随着各种情感的滋生与扩散.假设网络中一些具有很大影响力的关键节点传播了带有消极情绪的信息,这将会给突发事件的舆情监管带来不利影响.因此在对突发事件信息传播网络进行关键节点挖掘时应充分考虑节点的情感特性,增强舆情监管的目标性.

基于此,本文将分三个阶段对微博平台突发事件信息传播网络关键节点进行挖掘,并以“招远麦当劳命案”为例展开实证研究.阶段一为数据采集及信息传播网络构建,搜集并爬取微博平台所有关于“招远麦当劳命案”的微博信息,从采集到的信息中提取出微博转发关系并以此构建网络拓扑结构;阶段二为信息传播网络关键节点挖掘,将第一、二类关键节点挖掘方法进行融合,挖掘出网络中的关键节点;阶段三为微博文本情感分析及消极情绪关键节点标识,对网络中的每个节点依据其发布与突发事件相关的信息进行情感分析,情感分析的结果分为三种——积极、消极和中性,识别出持有消极情绪的关键节点并建议相关机构对其进行重点监控.

2 数据采集及信息传播网络构建

2.1 事件概述

2014年5月28日21时许,山东招远一麦当劳快餐店内,6名男女向一女性索要电话号码遭拒后,竟对该女性进行疯狂殴打,最终致其不治身亡.招远市公安局110指挥中心在接到报警后,迅速出警,警方到达现场后,立即制服并控制了犯罪嫌疑人.然而自案发当天到案件的整个审理过程中,先后有多个谣言滋生散布.先是“警方出警严重迟缓,导致受害人被活活打死”的谣言,接着有“犯罪嫌疑人是金矿矿主,背景深厚,警方在有意包庇犯罪嫌疑人”的谣言,后来又有谣言称“犯罪嫌疑人多次行贿招远市公安局局长,官商勾结”.这些谣言不但影响了新闻媒体的正常报道,而且给人民群众造成错误的舆论导向.

2.2 数据采集

本文选择新浪微博为信息传播平台,以“招远麦当劳命案”和“招远麦当劳”为关键词分别进行搜索,合并相同微博后,微博分布情况如表1所示.从表1中看出,案发当天仅有5条消息在新浪微博上发布,案发第二天消息量也较少,然而5月30日事件相关信息数量骤然增加,仅一天微博数量就达到了百万条,其中绝大多数是转发微博.5月31日事件依然引发热议,但较前一天略有降温.到6月6日,即案件发生的第10天,相关信息量降至一千以下,说明事件发展已基本趋于稳定.

本文借助新浪提供的API接口爬取事件相关微博信息,共获得148011条微博数据,包括微博用户基本信息、微博信息及微博内容.

表1 “招远麦当劳命案”微博分布情况

2.3 信息传播网络构建

在网络舆情信息的传播过程中,网民对信息的转发行为是舆情信息传播的关键,是信息共享的重要驱动力[13].因此本文从采集到的信息中整理提取出所有微博转发关系,以构建信息传播网络拓扑图.规定,若有关系A转发B,则在图中表现为一条从A起始指向B的有向边.去掉重复的边、自环边以及孤立的节点后,即得到一个具有最大节点数的连通网络.利用可视化工具Gephi对筛选后的转发关系进行“招远麦当劳命案”信息传播网络可视化图谱的绘制,结果如图1所示.图中网络节点与节点标签的大小和节点的度成正比,节点及节点标签较大,说明在“招远麦当劳命案”事件信息传播过程中较为活跃,所起到的作用也相对较强.从网络拓扑图中可以直观的看出,绝大多数节点度值较小,仅有少量节点具有较高的度值,网络具有明显的异质性.说明网络中存在一些数量不多但却发挥主导作用的节点,即关键节点.挖掘出网络中的关键节点并加以监控对于突发事件的舆情管理具有重要的意义.

图1 “招远麦当劳命案”信息传播网络拓扑图

3 信息传播网络关键节点挖掘

3.1 关键节点度量指标

信息传播网络中的关键节点不仅是网络中较活跃的节点,还应该是对信息传播起到极大控制作用的节点.综合考虑,本文将点度中心性、接近中心性和介数中心性三个度量指标相结合来挖掘“招远麦当劳命案”信息传播网络中的关键节点.

点度中心性刻画的是一个节点与其他节点直接交互、联系的能力.点度中心性越大,节点的这种能力越强.其计算公式为:

其中Dc(i)表示节点i的点度中心性,k(i)表示网络中与i节点直接相连的边数.

接近中心性通过信息在网络中的平均传播时长来确定节点的重要性.一个节点的接近中心性越大,该节点与网络中其它节点的平均距离越小,就越有利于信息的传播.其计算公式为:

其中,Cc(i)表示节点i的接近中心性,di表示任意一个节点到网络中其他节点的平均最短距离,n表示网络中的节点总数.

介数中心性刻画了节点对网络中沿最短路径传输的网络流的控制力.它认为网络中所有节点对的最短路径中,经过一个节点的最短路径数越多,这个节点就越重要.其计算公式为:

其中,Bc(i)表示节点i的介数中心性,rab表示从节点a到b的所有最短路径的数目,riab表示从节点a到b的所有最短路径中经过节点i的路径的数目.

3.2 关键节点挖掘

对信息传播网络中的每个节点进行点度中心性、接近中心性和介数中心性三个度量指标的计算,依据三个指标对节点分别排序,提取出每个指标下排名前10的节点,结果如下:

1)点度中心性排名前10的节点是新浪山东、头条新闻、中国新闻网、中国经营报、中国之声、新华社中国网事、疾令除、新浪四川、经营智慧官微、香港成报;

2)接近中心性排名前10的节点是法制日报、新浪山东、头条新闻、中国新闻网、中国经营报、中国之声、新华社中国网事、德行天下JSBC、疾令除、中国青年网;

3)介数中心性排名前10的节点是齐河律师、新浪山东头条、新浪山东城市频道、法制日报、新浪山东、头条新闻、中国新闻网、中国经营报、中国之声、新华社中国网事.

通过对比三个指标的排名结果发现,点度中心性较大的节点,其接近中心性和介数中心性也相对较大.另外网络中确实存在一些对信息传播起到极大控制作用但其点度中心性不大的节点,说明将点度中心性和接近中心性、介数中心性三个指标相结合挖掘关键节点是有必要的.

对三个指标的计算结果进行整理,得到“招远麦当劳命案”信息传播网络中的关键节点,如表2所示.

表2 “招远麦当劳命案”信息传播网络关键节点

4 情感分析及消极情绪关键节点标识

4.1 情感分析

由于微博的大众化,导致信息来源不能及时得到验证,不法分子借助微博散布虚假信息,造成民众恐慌.但是应该注意到,谣言在散布的过程中往往夹带着负面的、消极的情绪,因此可以通过情感分析对谣言等消极的信息进行识别,以达到消除或减轻其对舆论造成危害的目的.

中文微博的情感分析方法主要有基于情感词典的方法和基于机器学习的方法两大类[14].本文选用基于情感词典的方法对“招远麦当劳命案”的相关微博文本进行情感分析.其基本思想是:每一条微博的情感倾向由微博中所包含的情感词决定.首先依据情感词典筛选出微博中的情感词,然后给情感词赋予情感倾向度值,即赋予一个权值,最后以加权求和的方式计算微博的情感倾向,大于0为积极情感,等于0为中性情感,小于0为消极情感.每个处理过程的工作概述如下:

a.文本预处理.主要是对微博文本进行分词、词性标注、停用词过滤等.

b.特征抽取.文本预处理后,需要抽取出能够表征微博情感特征的特征词,本文采用基于情感词典的特征抽取方法,即将微博文本中在情感词典里存在的词作为情感特征词进行保留,其他的词删去.

c.情感词典构造.目前,中文情感词典主要有知网、《情感词汇本体》和《学生褒贬义词典》等.本文中情感词典将知网和《情感词汇本体》中的词汇进行融合,并将情感词典中所有褒义词情感极性值赋为1,贬义词情感极性值赋为-1,中性词情感极性值赋为0.

d.微博文本情感计算.计算公式如下:

其中Fl和Wl分别表示一条微博文本中第l个词的情感极性值和权重值.情感极性值根据情感词典得出,若是褒义词,则情感极性值赋为1;若是贬义词,则情感极性值赋为-1;若为中性词,则情感极性值赋为0.权重值的计算方法如下:

其中,freql表示第l词在所有事件相关微博中出现的频次,TotalText表示事件相关的微博总数,HitTextl表示在所有事件相关微博中包含第l个词的微博文本的数量.

对“招远麦当劳命案”信息传播网络中的每个节点对其所发布的事件相关微博进行情感分析,情感计算结果如表3所示.

表3 “招远麦当劳命案”相关微博情感类别统计

从表3中看到,98.53%的微博都带有情感,有87.94%的微博具有明显的情感倾向,这其中有超过半数的微博带有消极情感.

4.2 消极情绪关键节点标识

对3.2小节挖掘出的关键节点所发布的事件相关微博进行情感计算,计算结果如表4所示.

表4标识出在“招远麦当劳命案”信息传播网络中带有消极情绪的关键节点有中国之声、新华社中国网事、新浪四川、经营智慧官微、德行天下JSBC、中国青年网、齐河律师.

需要说明的是,由于突发事件本身所具有的特性,如危害公共安全、造成人员伤亡等,有时在对事件进行客观描述时不可避免地需要使用带有消极情感的词汇,这样在做情感分析时,可能会被标注为消极.因此,对于标注为负面情感倾向的关键节点,应做进一步工作,通过人工审阅的方式来最终判定其所发布的信息对于舆情导向是否具有危害.对相关部门而言,应重点对持负面舆情导向的节点进行监管,以降低谣言等不良信息对事件发展造成的恶性影响,提高公众对事件认知的判断力和准确度.

表4 “招远麦当劳命案”关键节点情感倾向计算

5 结论

本文提出一种结合情感分析的突发事件信息传播网络关键节点挖掘方法,并以“招远麦当劳命案”为例展开实证研究.首先构建信息传播网络,发现网络具有较高的异质性.说明网络中存在少量起到重要作用的节点,即关键节点.接着结合点度中心性、接近中心性和介数中心性三个指标对网络中的关键节点进行挖掘.最后对事件相关微博文本进行情感倾向性分析,并对带有消极情感的关键节点进行标识.本研究不仅能够降低舆情监控的成本更增强了舆情监管的针对性.

猜你喜欢
招远命案麦当劳
麦当劳的小吃货
一年送出15亿个玩具的麦当劳
传递光明 融化冰雪 招远站
深度剖析招远市古村落发展现状
盘山公路局的命案
麦当劳里
投毒凶手
“命案不能错”当为司法常识
六盘山下红军命案解谜