基于SNA与模糊TOPSIS的网络舆情关键节点识别分类模型研究

2017-08-30 15:13彭丽徽李贺张艳丰
现代情报 2017年8期
关键词:社会网络分析识别综合评价

彭丽徽+李贺+张艳丰

〔摘 要〕 [目的/意义]在舆情监控和管理的实践过程中,迅速有效地识别出舆情网络中的关键节点,对舆情的监督和治理具有重要意义。[方法/过程]从内容与结构双重维度,设计一种完整的网络舆情关键节点挖掘、识别和分类的技术方法。涉及GooSeeker、Gephi、Fuzzy AHP和TOPSIS等软件和算法,并以新浪微博“8·12滨海爆炸”事件为例进行具体分析。[结果/结论]突破了单纯从单一维度进行关键节点排序的局限性,使关键节点的识别与分类进一步深入,并明确演化特征,对网络舆情的科学应对具有参考价值。

〔關键词〕网络舆情;关键节点;识别;分类;社会网络分析;综合评价

DOI:10.3969/j.issn.1008-0821.2017.08.003

〔中图分类号〕G206 〔文献标识码〕A 〔文章编号〕1008-0821(2017)08-0017-09

〔Abstract〕[Purpose/significance]In the practice of public opinion monitoring and management,identifying the key nodes in the public opinion network quickly and effectively is of great significance to the supervision and management of public opinion.[Method/process]From the dual dimensions of content and structure,this paper designed a complete method for mining,identifying and classifying key nodes of network public opinion.Involving GooSeeker,Gephi,Fuzzy AHP and TOPSIS software and algorithms,and Sina micro-blog 8·12 coastal explosion event as an example for specific analysis.[Result/conclusion]It broke through the limitation of sorting only the key nodes from a single dimension,made the identification and classification of key nodes further,and made clear the evolution characteristics,which had reference value to the scientific response of network public opinion.

〔Key words〕network public opinion;key nodes;identification;classification;social network analysis;comprehensive evaluation

随着互联网技术和Web2.0技术的广泛应用和发展,自媒体社交服务平台(诸如微博、Twitter、Facebook等)成为大众交流与信息推广的主要方式之一,用户以文字、图片和视频等形式在自媒体平台上进行信息交互,从而产生海量个人信息和交互数据,形成基于事件或其变异的网络舆情[1]。从自媒体平台用户交互数据中挖掘出有价值的个人信息和交互信息的网络舆情分析逐渐成为数据挖掘领域的研究热点课题。在自媒体平台信息传递与人际交互过程所形成的社会网络关系中,以点和有向关系线条会形成一个复杂的社会网络关系域,其中存在少数具有影响范围广、活跃度较高、重要性较强的节点,称之为关键节点(也称为意见领袖、网络精英等)[2]。关键节点的连接度较高,其发表的言论会对社会关系域其他节点产生巨大影响[3],甚至少量的关键节点却能影响到网络中大部分节点 [4]。关键节点挖掘与分析在网络舆情识别、监测与预警领域,尤其在热点事件和突发事件的传播中起到了引爆事件或加速事件发生的重要作用,如果不能及时掌控关键节点的发展致使网络谣言恶意散布更会造成难以预见的后果。因此,本文结合社会网络分析方法(SNA)及模糊TOPSIS分析方法,对网络舆情关键节点进行识别和分类,以加强对网络舆情的监督,促进网络环境治理。

1 研究述评

国内外关于网络舆论中关键节点的相关研究主要从社会网络拓扑链接关系、基于内容属性综合评价和基于动力属性的传播影响力评价3个方面进行具体阐述和分析。

1.1 社会网络拓扑链接关系分析法

该方法根据节点的社会网络关系来考虑节点间的相互链接关系对影响力的贡献程度。D.Miorandi等[5]从中心度(K-shell)出发,提出K分解分析法,如果节点位于网络中的层次在核心的位置上,K-shell值点越大,节点影响力越大。Lǚ等[6]提出可以通过关注信息传播的宽度和广度选择有影响力的节点。康伟[7]以“7·23动车事故”为例基于邻接矩阵数据进行了网络密度、聚类系数和中心性测度等来进行关键节点分层与识别;庞科等[8] 发现社会网络结构洞分析法能够准确地寻找到那些在网络参政中发挥重要作用的虚拟参政者以及这些参政者在参政过程中所发挥的作用。张磊等[9]引入超网络理论对微博语义社会网络进行理论建模,使用情感本体以及LDA话题模型对数据实现节点量化,提出超边排序算法对用户节点进行计算和排序从而获取关键节点。

1.2 基于内容属性综合指标评价法

该方法侧重于特定平台环境,主要利用层次分析、主成分分析及综合评价等方法,从话题传播内容角度分析影响要素,如粉丝数、点赞数、转发评论数等指标进行混合加权建模,以此评判网络舆情关键节点的重要性程度。Cha等[10]以Twitter为例,从粉丝数、转发数和被提及数3个指标要素进行对比研究,发现在舆情传播过程中转发数和被提及数对舆情传播的影响力更大;Pal等[11]在Twitter平台上通过个体的发帖数、回复数、被转发数和被提及数分别计算个体的转发影响力、被提及影响力和扩散影响力等。周雪妍等[12]基于标题聚类将同一话题下数据抽象成变规模回复关系网络,综合考虑了帖子的话题属性、情感倾向和网络结构关系,结合节点的网络结构和情感属性,给出节点ID的影响力排序以提取舆论领袖。

1.3 基于动力属性的传播影响力评价法

该方法主要根据信息的传播效果及观点扩散规模直接考察节点影响力。毛佳昕等[13]提出了一个通过预测用户传播信息能力大小来分析和度量用户社会影响力的方法。蒋侃等[14]针对舆情信息扩散网构建WSD-Rank扩散影响力度量模型,并实验证明该模型能更直接、细化的度量用户实际影响力;Bakshy等[15]基于twitter数据集,根据相同页面链接的统一资源定位器URL构造传播级联树,利用种子节点的扩散规模来度量扩散影響力。

在以上研究中,网络舆情指标要素提取、关键节点识别及类别划分存在以下问题:舆情社会网络指标要素较少,考虑传播属性间权重分配问题;从传统单维度、单因素分析对关键节点识别作用具有很大的局限性,并且很少将情感倾向作用及情感认同度运用到关键节点识别,这是有悖于信息传播规律的;研究通常运用某种方法按节点影响力大小进行关键节点排序,得出的是单一类型排序结果,然而,不同指标集合的综合评判以及增删节点会形成多种形式的关键节点类型,深层次挖掘其活跃节点及潜在隐性节点是舆情识别与预警的关键。

综上所述,网络舆情节点的关键性一方面受到网络拓扑结构特性的影响,另一方面也受到舆情传播内容特征及信息传播动力机制的影响。传统网络舆情关键节点识别研究大多仅从单维度特征来进行研判,并且在内容研究领域,对节点包含的情感、语义等其他属性也涉猎较少。因此,本研究在已有文献的基础上,利用GooSeeker、Gephi等数据挖掘方法,结合SNA和模糊TOPSIS算法,提出包括原始数据挖掘、节点识别及影响力计算、关键节点分类等一套网络舆情节点识别分类的技术方法,并以“8·12滨海爆炸事故”为案例进行具体分析,从内容属性和社会网络属性两个维度对关键节点进行综合评判,使网络舆情事件关键节点的发现和网络舆情危机的引导更具客观性、预见性和科学性。

2 模型构建与算法设计

2.1 研究框架

本文研究框架主要包括3个任务步骤:①对初始网络舆情进行数据提取、过滤,结合网络舆情传播特点,基于内容与结构维度分别从内容要素指标和社会网络指标两方面提取指标要素原始数据;②根据指标量化规则,量化各属性值并构建网络舆情特征矩阵,通过构建指标过滤模型来进行指标属性特征值计算、指标属性权重计算和关键节点排序计算;③通过对不同维度指标计量及删失关键节点后重新进行社会网络分析,可进一步对网络舆情关键节点进行有效分类。本研究网络舆情关键节点识别分类过滤模型框架和推理流程如图1所示。

2.2 指标模型

本研究通过文献调研和专家咨询,改进、完善文献[16]的网络舆情属性指标要素,从网络舆情社会网络指标和内容要素指标两个维度构建网络舆情话题参与者的8个指标,构成本文的“8度”指标要素,本研究构建网络舆情关键节点概念指标模型如图2所示。

其中,社会网络指标是网络舆情传播所形成的网络拓扑结构中的中心要素指标,从网络节点中心度、关联度、聚集度和路径长度4个指标要素计量,社会网络指标要素有其固有的计量算法和公式,通常使用社会网络分析软件Ucinet和Gephi进行数据分析和可视化呈现;内容要素指标是网络舆情传播过程中传播数据对关键节点的影响指标要素,包括活跃度、影响度、认同度和扩散度4个指标要素,内容要素指标主要反映信息传播内容及语义情感对节点关键性的影响,一般通过特定的评价算法予以指标数据量化。本文拟定这两个维度属性对网络舆情关键节点的作用是相同的,故忽略其权重对网络舆情关键节点计算数据的影响。网络舆情关键节点二维量化属性指标矩阵如表1所示:

表中,设,表示网络舆论参与某个事件讨论的Agent集合;,表示Agent属性的个属性指标值。其中,是第个Agent的第个属性值,本文构建的8个指标要素组成是网络舆情社会网络传播要素重点参考的内容,也能够比较全面反映网络舆情传播内容对关键节点影响的作用功能。

2.3 指标分析与量化

2.3.1 社会网络指标

2.5.2 关键节点分类

由于舆情传播的复杂性,单一的综合“8度”指标排序来判断关键节点的方法仅能形成一种舆情传播节点类型,而社会网络指标要素代表话题参与者在话题网络传播的关联度,代表重要地位人物节点,内容指标要素主要表示话题参与者在网络舆情传播中的参与度,代表在舆情话题中该节点的活跃程度。因此,可根据不同属性维度指标分别计算和排序,可呈现具有不同作用特点的不同类别关键节点。因此本研究从社会网络指标角度和内容要素指标角度两个维度综合判断节点类型。具体来讲:

1)对话题参与者的“8度”指标模糊TOPSIS综合评价并排序,排序位前者即为综合关键节点,也称为意见领袖节点。

2)将“8度”指标排序识别出的关键节点删除,构建其余话题参与者的新二维结构量表,并结合属性指标值重新进行TOPSIS推理计算排序,可以进一步识别出潜在意见领袖。

3)从社会网络指标的中心度可评判社会网络节点入度与出度的关系,可以衡量话题参与人在该社会网络关系中关系的紧密程度,反映节点在社会网络地位的重要程度,可用以识别重要节点和重要地位人物。

4)删除社会网络已识别的重要地位人物节点重新进行指标的运算和可视化分析,可得到潜在重要地位人物节点。

5)从内容要素指标的活跃度、影响度、认同度、扩散度能够很好地判断话题参与人的发帖能力和参与话题的活跃程度,可视为关键活跃节点,用以识别关键活跃人物。

具体分类与运算流程如图3所示。

3 案例研究

3.1 数据搜集

本文选取新浪微博中的“8·12滨海爆炸”事件舆情作为分析的案例,主要基于以下两点:①新浪微博是一个具有代表性的自媒体传播平台,是一个相对比较成熟的网络舆情传播渠道,吸引了众多网民参与相关话题的讨论。②“8·12滨海爆炸”事件被认定为特别重大生产安全责任事故,事件发生之后迅速得到了网络媒体和社交平台等传播媒介的关注,相关衍生事件和话题不断增加,衍生成为2015年度一个舆论热点话题。

初始数据采集方法是使用集搜客GooSeeker[20]网络爬虫软件爬取网络舆情关键节点指标信息,从指定事件出发,选取“天津爆炸”、“812”、“滨海爆炸”作为挖掘的关键字对微博中网民的中心度、关联度等“8度”指标数据进行挖掘采集。所获取的数据集包括2015年8月12日至2015年9月12日,共计1个月时间内126273个节点,对发帖者的回复数量与转发数量进行爬取和计量,并删除入读为0和转发次数少于10次的节点,然后将节点进行编号,经过上述数据处理得到10214个有效节点数,根据3.3节指标量化方法,即公式(1)-公式(10),计算各节点指标数据作为最终用于推理的网络节点计算参数。

3.2 关键节点识别

该阶段通过运用模糊加权TOPSIS算法,对已经结构化的数据进行操作,计算出该事件中每个节点的影响力。首先,笔者邀请28名网络舆情研究的专家根据3.4节公式(11)-公式(16)构建的模糊层次分析法进行优先矩阵比较两两比较专家评分,包括6名具有副高以上职称的从事高校情报、舆情分析的研究者,4名从事传播领域研究方面的专家,18名来自国内985高校情报学网络舆情方向在读博士研究生,经计算“8度”指标权重分别为。确定指标权重后,再通过公式(17)-公式(23)的计算过程,对这些节点的影响力分值分布进行统计如表2所示:

由数据可以看出,全部节点有14520个,而影响力在(0-0.1)之间的节点有11986个,占了全部节点的83%左右,构成整个社会网络构成的大众群体,而节点影响力在0.1以上的节点有2534个,约占17%,其中包含了影响力分值在0.5以上的顶端关键节点14个。可以总结出该节点网络83%的节点的影响力较小,对信息传播方向和对网络舆情的走势影响极小,故在研究中不作为影响因素考虑。根据信息资源传播的二八定律,在节点分值为[0.1,0.5]的5个分值区间,分值顶端的1/5的节点区间才是我们需要关注的关键ID范围,即本文节点分值大于0.5的14个节点。因此,本研究选取表2中分值大于0.5的14个顶端节点进行关键节点分析,根据ID编号抽取他们的基本信息如表3所示:

14个关键节点的“8度”指标数据构成下一步分析的基础数据,编号对应用户名和节点影响力的14个顶端关键节点分值信息如表4所示:

3.3 关键节点分类

根据2.5.2关键节点分类原理,经过计算各个发帖人的“8度”属性指标模糊TOPSIS计算可得网络舆情关键节点综合排序,得到意见领袖节点;将“8度”指标模糊TOPSIS排序识别出的关键节点删除,结合属性指标值重新进行TOPSIS推理计算排序,可以识别出潜在意见领袖;从社会网络指标的入度和出度指标进行社会网络可视化分析可以识别重要地位节点;删除社会网络已识别的重要地位人物节点重新进行指标的运算和可视化分析,可得到潜在重要地位人物节点;从内容要素指标的活跃度、影响度、认同度、扩散度能够判断识别关键活跃节点。

其中重要节点计算使用Gephi软件,选取表2的14个顶端关键节点的入度与出度进行拟合,根据节点大小进行排序,得到该14个节点与其他相连节点的社群图,如图4所示:

在本研究中,进出度排序前4,排序为“媒体人张晓磊”、“晋江我想吃肉”、“飞扬小LH”和“简单其实很辛苦”,其特点是事件爆发后第一时间发帖进行事态播报,具体发帖信息如表5所示。

在本案例中,表中4个节点为基于进出度的重要地位节点,关键节点舆情信息传播的危机程度与其情感态度有较大关联,因此本文考虑其节点的情感属性,首先可以将负面关键节点“晋江我想吃肉”和“飞扬小LH”隔离,另外“媒体人张晓磊”与“简单其实很辛苦”虽然发帖的态度为中立,但对应的回帖态度大多是负面回复,所以考虑将该节点一并隔离,这样将有效减少90%以上的话题参与人与节点回复关系,并且社会网络图中潜在重要地位关键节点也将显示出来,潜在重要地位节点社会网络关系如图5:

综合以上分析,“8·12滨海爆炸”事件网络舆情各类型关键节点如表6所示:

3.4 关键节点类型特征分析

由分类结果可知,在“8·12滨海爆炸”事件中,基于内容与结构的网络舆情关键节点可分为5种类型,相比较于传统单一类型划分,本研究能够实现多维类别关键节点类型不同演化特征规律的结果展現,也能够进一步通过各类型关键节点分类特征的归纳和总结,针对不同节点类型特征制定不同的引导措施。

1)意见领袖节点代表为“晋江我想吃肉”、“媒体人张晓磊”、“刺客嘉文”和“飞扬小LH”,所发帖子内容正是网民对本事件的最主要争议点,且“媒体人张晓磊”和“飞扬小LH”的发帖时间正好为帖子数量趋势图两峰值的前一天,对事件舆情走势起到了极大的推动作用。

2)潜在意见领袖节点代表是“简单其实很辛苦”、“财神万”、“徐凤文”与“Miss_aa豆”,可以发现此类型节点一般与意见领袖节点直接相连,并且已拥有一部分回帖支持者,且回帖内容支持率较高。潜在意见领袖具有隐性节点特征,虽然当前影响力不高,但极具引爆舆论走势的潜力,潜在意见领袖观点有利于舆情观点引导以及网络谣言的澄清和分辨。

3)重要地位节点排名第一的为“媒体人张晓磊”,虽然该类型节点粉丝数与活跃度并非最高,但拥有大量回复和转载,社会网络关系连接的进出入度较高,对舆情事件传播起到直接的促进作用。

4)潜在重要地位节点的代表是“刺客嘉文”与“徐凤文”等,此类节点多是重要地位节点之间连接的过渡节点,处于次网络中心地位,是网络舆情中后期传播扩散度及舆论走势持续性的关键。

5)关键活跃人物排名第一的为“晋江我想吃肉”,虽然该发帖人社会网络连接度不是最高,但发帖频率、帖子获取点击数和粉丝数很高,对舆情事件的发展与传播具有隐性的影响作用。

综合以上分析,针对不同类型负面舆论关键节点制定不同的干预措施如表7所示:

综合本文关键节点识别分类结果与现实“8·12滨海爆炸”事件对比分析,事件爆发后以“晋江我想吃肉”、“媒体人张晓磊”等形成的意见领袖节点和重要地位节点迅速发声并跟踪事态发展,引发众多回复和转载,从而形成一股强大的网络舆情传播力量;以“简单其实很辛苦”、“财神万”为代表的潜在意见领袖节点和“刺客嘉文”与“徐凤文”等潜在重要地位节点以更加客观的角度对舆情事件进行阐述,引导了舆情事件中后期舆论传播走势,是舆情事件初期舆论扩散传播的潜在重要力量;而以“晋江我想吃肉”为代表的关键活跃节点由于发帖量大和粉丝数高,很多微博大V转发其微博从而形成新的舆论焦点,对舆情事件的传播发挥了隐性的影响作用。对比发现,本研究识别、归纳的各类型关键节点在整个舆情事件的发展过程中发挥了重要的作用,产生了极大的社会网络舆论传播效果,与真实事件舆情转播过程联系紧密并且高度相关,从而也证明本研究基于内容与结构的网络舆情关键节点算法和分析具有一定的前瞻性与科学性。

4 结语

本文利用GooSeeker挖掘网络舆情数据,使用Gephi进行舆情传播的社会网络分析,结合Fuzzy AHP法和TOPSIS算法对“8·12滨海爆炸”在微博中的关键节点进行挖掘、识别、分析与分类,综合考虑内容与结构两个维度得到舆情事件关键节点影响力排名,并且在对关键节点进行挖掘的基础上进行类别划分,转变传统使用单一用户节点计算的局限性,突破了单纯从单一维度进行关键节点排序的局限性,使关键节点的识别与分类进一步深入和明确演化特征。在理论层面,提出一种较为科学、严谨的网络舆情关键节点识别分类过滤模型方法;在应用层面,有利于舆情监测部门掌握网络舆情事件中关键节点特征与作用机制并有效地加以利用,从而提高网络舆情识别、监测与管理的水平,对不同类型节点实施相应的管理机制,提前做出预警和应急策略。

同时本研究也存在一些局限,一是由于指标量化是从内容与结构两个维度由专家经验得出的模糊数据,量化结果存在一定的主观偏差,指标维度与“8度”指标要素都存在一定的可拓展性;二是大数据环境下网络舆情传播方式和表现形式呈现多种形式和多样性的特征,关键节点的影响力不仅反映在新浪微博中,还可以由新闻、论坛、博客等构成,诸多平台数据和隐性指标数据未能予以完全考虑。在后续研究中,将进一步拓展维度与指标要素,优化指标量化分析与关键节点排序算法,并从不同平台选取更多的数据源和更广泛的舆情话题对网络舆情关键节点识别与分类进行更深入研究。

参 考 文 献

[ 1 ]朱卫未,王海琴.基于社会网络和偏好排序的意见领袖识别方法研究[J].情报杂志,2015,(6):104-108,125.

[ 2 ]刘志明,刘鲁.微博网络舆情中的意见领袖识别及分析[J].系统工程,2011,29(6):8-16.

[ 3 ]肖宇,许炜,夏霖.网络社区中的意见领袖特征分析[J].计算机工程与科学,2011,33(1):150-156.

[ 4 ] Weng J,Lim E P,Jiang J,et al. Twitter Rank:Finding Topic-Sensitive Influential Twitterers[C].In:Proceedings of the 3rd ACM International Conference on Web Search andData Mining.New York:ACM Press,2010:261-270.

[ 5 ] Miorandi D,Pellegrini F.D.K-shell Decomposition for Dynamic Complex Networks[C]//Proceedings of the 8th International Symposium on Modeling and Optimization in Mobile,Ad Hoc and Wireless Networks (WiOpt).Piscataway:IEEE,2010:488-496.

[ 6 ] Lü,L.Y,Zhang,Y.C.,Yeung,C.H.,et.al. Leaders in Social Networks,the Delicious Case[J].PloS one,2011,6(6):e21202,1-9.

[ 7 ] 康伟.基于SNA的突发事件网络舆情关键节点识别——以“7·23动车事故”为例[J].公共管理学报,2012,9(3):101-111.

[ 8 ]庞科,陈京民.社会网络结构洞在网络参政领袖分析中的应用[J].武汉理工大学学报(信息与管理工程版),2011,(1):86-89.

[ 9 ]张磊,马静,李丹丹,等.语义社会网络的超网络模型构建及关键节点自动化识别方法研究[J].现代图书情报技术,2016,(3):8-17.

[ 10 ] Cha,M.,Haddadi,H.,Benevenuto,F.,et.al.Measuring User Influence in Twitter:The Million Follower Fallacy[J].ICWSM,2010,(10):10-17.

[ 11 ] Pal,A,Counts,S.(2011).Identifying topical Authorities in Microblogs[C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining.New York:ACM,2011:45-54.

[ 12 ]周雪妍,楊静,林泽鸿,等.基于标题聚类的论坛舆论领袖发现算法[J].计算机工程与设计,2014,(12):4316-4319,4334.

[ 13 ]毛佳昕,刘奕群,张敏,等.基于用户行为的微博用户社会影响力分析[J].计算机学报,2014,37(04):1-10.

[ 14 ]蒋侃,唐竹发,隋浩.基于微博信息扩散质量的网络舆情关键节点识别[J].情报科学,2016,(7):64-69

[ 15 ] Bakshy,E.,Hofman,J.M,Mason,W.A.,et.al.(2011).Everyones an Influencer:Quantifying Influence on Twitter.[C]//Proceedings of the Fourth ACM International Conference on Websearch and Data Mining. New York:ACM,2011:65-74.

[ 16 ]刘怡君,李倩倩,马宁,等.社会舆情的网络分析方法与建模仿真[M].科学出版社,2016.

[ 17 ]张吉军.模糊一致判断矩阵3种排序方法的比较研究[J].系统工程与电子技术,2003,25(11):1370-132.

[ 18 ]张吉军.模糊层次分析法(FAHP)[J].模糊系统与数学,2000,14(2):80-88.

[ 19 ]司守奎,孙玺菁.数学建模算法与应用[M].北京:国防工业出版社,2011.

[ 20 ] GooSeeker.MetaSeeker[EB/OL].[2017-03-18].http://www.gooseeker.com/product.

(本文责任编辑:郭沫含)

猜你喜欢
社会网络分析识别综合评价
10kV配电线路带电作业安全综合评价应用探究
主成分分析法在大学英语写作评价中的应用
基于社会网络分析的我国微课研究探析
青岛市中山公园园林树木易混淆品种识别