姜靓
摘 要:随着计算机技术的飞速发展以及微博的兴起,在线社交网络上出现了一种影响力很大的用户,即舆论领袖,其在舆论的形成、发展和传播过程中都发挥着巨大作用。目前,在线社交网络上的舆论领袖识别是研究的热点,多种相关理论和方法已被提出,这些方法有一个共同点,就是均使用节点的度数、紧密度和介数等社会网络分析中的常用方法。这些方法虽简单,但是由于缺乏对节点内部属性的利用分析,导致识别的准确率不高。提出了一种改进的影响力计算模型方法,该方法能够考虑到节点的内部属性,比如节点的内容和内在联系,解决了准确率低的问题。最后通过实验仿真,验证了该算法的准确性和识别率。
关键词关键词:网络社区;影响力发现;舆论领袖
DOIDOI:10.11907/rjdk.162057
中图分类号:TP301
文献标识码:A 文章编号文章编号:16727800(2016)011002802
0 引言
随着科技的飞速发展,互联网已经通过各种途径影响到了人们的生活方式,俨然成为公共舆论传播的主要载体[1]。随着各种社交软件的兴起,人们在网络中的参与性、互动性大大增加,人们可以通过各种社交平台与朋友互动,比如论坛、贴吧、博客、微博、朋友圈等。这些社交平台每天产生数以万计的信息,人们通过这种方式了解、参与日常社交活动[2]。在社交平台上人们可以自由地发表评论和看法,其自由随意的特点不可避免地使得社交平台与各种敏感话题的产生和传播密不可分,若产生和传播负面内容,则会在人群中产生很大的负面影响,应及时对负面舆论加以监督、管理和引导[1]。在舆论传播过程中,任何人都可以加入自己的观点,随时随地参与热点话题的讨论,这其中都会产生舆论领袖(Opinion Leader)[35]。然而目前,在线社交网络中舆论领袖的识别研究很多只是对节点的外部属性,比如度中心性指标进行识别,没有考虑到节点的内部属性,比如文本内容、链接等。鉴于此,本文提出了改进的影响力计算模型。
本研究思路为:首先根据社交平台中话题发布者、回复者以及他们之间的回复关系,建立对应的在线推荐网络,接着采用改进的影响力扩散模型IDMS计算出基于文本内容挖掘、发帖者特性、回帖者特性以及相互回复关系的舆论领袖的影响力排名,最后使用科学有效的方法筛选出社交平台中的舆论领袖,从而建立识别社交平台中舆论领袖的模型方法,并通过采样的新浪微博数据对筛选方法进行验证,采用前N个结果中的正确率P@N进行评估。本文设计的舆论领袖识别模型中所涉及的热点话题的识别以及舆论领袖的识别,对于电子商务领域各种商品的销售和推广,以及舆论的监督、分析和管理有着重要的指导意义和实际应用价值。
1 舆论领袖识别模型
1.1 社会网络分析
社会网络分析是采用图论、矩阵等数学工具对社会关系进行定量研究的一种方法。它以参与者及其相互间的关系作为研究内容,通过建立参与者之间的关系模型并对其进行描述,分析关系模型中所蕴含的结构及其对参与者与整个群体的影响。
社会网络分析主要是研究社会网络的两种属性集合:关系属性和结构属性。网络中的关系属性主要是研究网络参与者之间关系的内容和形式,指网络中正在被传播与交换的资源、信息、影响力和社会支持。网络中的结构属性通常通过3个层次的分析体现出来:个体节点层次(关注的是一个目标节点)、子网络层次(关注的是一个具有共同特点的节点集合)和整个网络层次。个体参与者方法用来描述个体与网络中其他参与者之间联系的差异以及被用来定义个体的角色,子网络方法作为分析的单元用来表示整个网络中一组结构化的特点,整个网络方法描述了所有参与者之间的各种联系模式。
1.2 问题描述
假设C={C1,C2,…,Cn}是一个帖子的集合,同时Ci(1≤i≤n)指任意一个帖子。通过认可度计算模型,可以得出热门帖子,也即影响力大的帖子,然后根据发热门帖子的多少筛选出认可度高的网络用户,为进一步识别舆论领袖打下基础。为此,需要做如下工作:①虚拟出帖子之间的链接结构;②根据帖子内容、数量进行计算;③识别出具有高认可度的帖子和高认可度的发帖者(网络用户)。
利用网络爬虫进行相关帖子的爬取,根据网页结构可虚拟出帖子之间的外部联系。随后通过分析帖子内容,计算出帖子间的相似度,并且发掘帖子间的内部关系,从而得到每条联系边的权重,以此建立起对应的帖子网络。
1.3 模型改进
IDM模型[6]的主要思想是发掘出网络文本内容和回复内容的规律,以此来实现衡量参与者的活跃度,并假设论坛影响力最高的用户就是论坛舆论领袖,通过帖子中关键词语出现的频率识别出热门帖子,然后根据最多热门帖以及在发帖、回帖等基于文本内容交互的观点影响力计算出网络用户的影响力。
为了不再受到类似IDM模型缺陷的影响,使得模型具有包容性、扩展性和开放性等属性,将模型分开进行计算。第一部分根据发帖和回帖中出现频率高的关键词在论坛上筛选出所有领域的热门帖子;第二部分在计算用户影响力时,通过高频关键词对热门帖子进行影响力传播过程中的影响力分配,根据帖子中所含高频关键词的个数比给每个帖子赋值一个相应的影响力。该过程整合了帖子回复结构网络特性、用户统计信息、词语主题内容相关性等可用信息,从而使得改进的模型具有开放性、正确性、扩展性和包容性。
2 实验结果与分析
2.1 评估指标
前N个结果中的正确率P@N=前N个结果中人工判定为真正意见领袖的个数[]N
实验中,将根据用户发帖的内容、权威度、认可度以及影响力等几个方面作为标准,以此判断该用户是否具备作为一名舆论领袖的资格。
2.2 实验方法
通过与以下几种方法进行对比实验,验证了本文方法的准确性:①IDMS,本文提出的舆论领袖影响力计算改进模型;②IDM,基于影响力传播模型IDM的舆论领袖发现方法;③Authority,基于权威度的舆论领袖发现方法。
为了能够定性评估不同方法的效果,采用随N变化的P@N曲线图加以直观反映。
由图1可以得出以下结论:在数据节点较小时,3种算法的识别率相差无几,随着数据节点的增加,3种算法的差异开始体现出来,其中本文提出的改进的影响力模型算法IDMS的识别率最高。这是由于本文算法在舆论领袖识别过程中,充分考虑到了网络的内部及外部结构。单一地考虑权威度中的粉丝数或者被关注数,或传统的影响力传播模型都不能识别出真正的舆论领袖,既考虑网络链接的外部属性,又考虑内部属性才能更加准确地识别出真正的舆论领袖。
3 结语
本文对舆论领袖的识别问题进行了研究,基于目前比较热门的影响力计算模型进行了相关改进。主要分为两个部分进行研究:第一部分根据发帖和回帖中出现频率高的关键词在论坛上筛选出所有领域的热门帖子;第二部分在计算用户影响力时,通过高频关键词对热门帖子进行影响力传播过程中的影响力分配,根据帖子中所含高频关键词的个数比给每个帖子赋值一个相应的影响力,该过程整合了帖子回复结构网络特性、用户统计信息、词语主题内容相关性等可用信息,从而使得改进的模型具有开放性、正确性、扩展性和包容性。后续将对影响力传播最大化问题作进一步研究。
参考文献:
[1] NING MA,YIJUN LIU.Superedgerank algorithm and its application in identifying opinion leader of online public opinion supernetwork[J].Expert Systems with Applications,2014(41):13571368.
[2] SANGMIN CHOI,YOSUB HAN.Representative reviewers for internet social media[J].Expert Systems with Applications,2013(40):12741282.
[3] FENG LI,TIMON C DU.Who is talking? an ontologybased opinion leader identification framework for wordofmouth marketing in online social blogs[J].Decision Support Systems,2011(51):190197.
[4] LAZARSFELD,P F BERELSON,B R GAUDET H.The people′s choice:how the votermakes up his mind in a presidential campaign[M].New York:Duell, Sloan&Pierce,1944:102107.
[5] YANYAN LI,SHAOQIAN MA,YONGHE ZHANG,et al.An improved mix framework for opinion leader identification in online learning communities[J].KnowledgeBased Systems,2013(43):4351.
[6] MATSUMURA NAOHIRO,OHSAWA YUKIO,ISHIZUKA MITSURU.Influence diffusion model in textbased communication[J].Transactions of the Japanese Society for Artificial Intelligence,2002,17(3):259267.
(责任编辑:孙 娟)