一种鉴别博客空间意见领袖的算法研究

2012-09-11 10:17:02宋昭君黄东旭
微处理机 2012年6期
关键词:博文博主领袖

宋昭君,戴 航,黄东旭

(西北工业大学自动化学院,西安 710072)

1 引言

博客是人们思想和观点传播的重要途径。博客空间的意见领袖鉴别可以发掘出网络中的主导观念,跟踪网络舆情的走势。近几年来,博客空间意见领袖鉴别已成为网络舆情中的热点研究领域。

国内外在博客意见领袖鉴别上做了很多研究,但都具有一定的局限性。Nakajima[1]采用普通网页的分析方法,从链接关系入手,但是该算法忽略了博客的链接较普通网页稀疏的特点。鉴于此种缺陷,Adar[2]研究了博客空间的显式链接结构以及隐式信息传播途径,增加了链接的密度。Ko Fujimura[3]提出的EigenRumor算法通过分析博文的链接并结合博主的信誉度,一同来鉴别意见领袖。Apostolos[3]从链接关系以及博文间的共同属性提出Blogrank算法来研究重要的博客。但是上述研究策略并没有考虑到博文的内容。Song.X[5]提出的InfluenceRank算法从博主是否为网络提供新颖信息方面入手来鉴别意见领袖。最近几年国内外对于博客空间意见领袖的研究主要集中在博文的链接关系上,对于博文的内容考虑不足。

因此综合博文的内链接数,外链接数,评论数和文章长度,基于这四个属性,提出了OLRank算法。实验结果表明,与传统的基于链接分析的算法比较,该算法在评估标准全路径覆盖率和话题多样性下表现良好,可以更好的实现博客空间意见领袖的鉴别。

2 博客空间影响属性分析

2.1 博客空间结构

博客在短短几年的时间内发展成为继E-mail,BBS,ICQ之后出现的第四种新型网络交流方式。典型的博客站点,由许多按照时间倒序排列的条目(Entry)组成,如图1所示。典型条目包括了文本、图片,与别的博客站点或是网页的链接,以及其他媒体指向该博客的链接[6]。博客空间(Blogosphere)是包括了许多博客站点的虚拟区。一般认为,活跃在人际传播网络中,经常为他人提供信息观点或建议并对他人施加个人影响的人物,可以称为意见领袖(opinion leader)[7]。意见领袖是网络团体中最具信息力,最有影响力的节点,鉴别意见领袖可以了解网络中的主导观点,分析博客空间的舆情走势。

图1 典型的博客站点

2.2 博主的属性分析

成为意见领袖的博主必然具备若干特点,例如拥有许多的跟随者,发表的博文非常具有创新性、有说服性,博文评论也比较多。因此,先从博主具有的属性入手,然后衡量博主的每篇博文的影响力得分,最后通过博文的影响力得分排名来找出意见领袖。

归纳的博主属性有如下四点:

(1)认可度:即博主被别人承认的程度。认可度越高,就越有可能成为意见领袖,对他所在群体的影响力度就会越大。这里用博文的内连接数(inlinks)来衡量。内链接数是博主的文章被他人引用的数目,被引用的数目越多,也就认为该博主的认可度越高。

(2)创新度:就是博主文章的新颖程度。创新度越高,就认为该博主从其他博客,媒体获取的信息越少,自主创新的程度就越好。这里用博文的外链接数(out-links)来衡量。外链接数是该博主引用他人文章的链接数目,外链接数越多,就认为该博主的创新度越低。

(3)活跃度:就是博主在博客空间中积极的程度。可以间接用博文获得的评论数(comments)来衡量。换言之,如果一个博主发布的博文没有评论或评论很少,也反映出他的话题有很少的追随者。因此,大量的评论数反映出博主的文章影响了许多人,人们也有兴趣针对该博文写评论。

(4)说服度:意见领袖必须要有说服力。考虑意见领袖的说服力,可以从一篇博文传递的信息多少来衡量。文章的长度往往可测,且能够在一定程度上反映一篇文章传递信息的多少和文章质量的好坏。因此用博文长度来衡量博文的质量度。

由以上可以看出,博主的四个属性,可以用每篇博文的内链接数、外链接数、评论数、文章长度来衡量,分别用字母α、β、γ、σ来表示。

2.3 博主属性量化修正

2.2 节中提出用博文获得的评论数来衡量博主的活跃度。获得的评论数越多,说明他对别人就越具有影响力,成为意见领袖的可能性也就越大。然而评论中存在不少垃圾评论。博客垃圾评论[8]的种类很多。文中主要涉及的垃圾评论是指重复评论,即一个博主的一篇博文可能会被同一个评论者进行多次评论且评论内容相同。可以借鉴文献[9]的处理方法:如果发现来自同一个用户对博主的同一篇博文评论内容相同,就将该用户在同一篇博文中相同的评论条数降为1。

3 博客空间意见领袖排名算法(OLRank)

博客空间中的意见领袖是在所研究的博客空间中,最具影响力的前K名博主。设博主bx有L篇博文{P1,P2,...,PL},假设这 L 篇博文都有一个影响力得分I(Pl)(1≤l≤L)。博主bx的影响力指数记做In(bx),wl是博主bx每篇博文的权重值,In(bx)通过计算博文的影响力得分得到。研究对象扩大为一个包括 M 个博主{b1,b2,...,bM}的集合 U。集合Vj是集合U的第j个按博主影响力指数排序的子集,即 Vj⊆U。Vj包括 K 个博主{bj1,bj2,...,bjK}其中 K≤M,如按照影响力指数从大到小排序为In(bj1)≥In(bj2)≥...≥In(bjk)。对于集合U中的Vj集合外的任何一个博主by,只要满足In(by)≥In(bjk)就可以归为新的意见领袖集合中。因此鉴别Top-K名意见领袖,就是找出包含最具有影响力的子集Vj。根据2.2节中对于博主属性的分析,可以得到博主影响力算法流程图如图2所示。

(1)博主的认可度与创新度

直观起见,可以将研究的博客空间作为一个复杂网络空间(network),包含有许多个节点,每个节点代表一个博主。因此,鉴别意见领袖也就是鉴别网络空间中的重要节点。由2.2节可知,节点包含四个属性α、β、γ、σ。用I(P)表示一个节点的影响力得分,Link(p)表示一个节点由内链接数和外连接数决定的最后得分,计算公式如下:

win,wout分别表示内链接数和外连接数的权重值,取值范围介于[0,1]。|α|,|β|分别代表内链接总数和外连接总数。从公式(1)可以很容易看出,一篇博文得到的内链接数越多,该博文的认可度越高。外连接数越少,该博文的新颖度越高,影响越广泛。

图2 OLRank算法流程图

(2)博主的活跃度

考虑文章的评论数γ,博文P的影响力得分与该博文得到的评论数,最后的链接数得分成正比。即:

γsp垃圾评论数,wcom表示博文评论数γp提升博文P影响力得分的权重值,wcom∈[0,1]。

(3)博主的说服力

由2.2中,将博文质量作为博文影响力得分的因素之一,而博文质量好坏与传递信息的多少有关,我们采用博文长度σ来衡量这一因素。其中w(σ)是与博文长度有关的一个函数,用文本分析工具进行分析,计算博文影响力得分的公式如下:

(4)博主的影响力指数

以上三个公式给出了计算博文影响力得分的方法。鉴别意见领袖的方法,就是看博客空间中博主的影响力指数In(bx),它的计算公式如下:

其中bx表示研究的博主,I(Pl)(1≤l≤L)表示博主bx的第l篇博文,wl是博主bx每篇博客的权重值表示所有博文权重值的绝对值之和,μ代表阻尼因子,一般情况下取0.85。有了影响力指数后,就可以在一个博客网站上进行博主排序,选出前K名意见领袖。

4 数据收集及仿真结果分析

4.1 实验环境和实验数据

采用新浪博客(http://blog.sina.com.cn)作为实验的博客空间。实验平台为:操作系统,Microsoft Windows Vista Home Basic,CPU 2.80GHz,内存(RAM)2.00GB。采集工具为一款小巧方便的数据采集器“网络神采”。数据采集的时间段为2011年11月10日到2011年12月10日,在此时间窗口内,共采集种子博主418位,博文6016篇,关键词779个,评论数97859条,去除垃圾评论得到过滤后的数据为评论数83562条,内连接数为3742,外连接数为1044。

4.2 评估标准

为了评估第3节的意见领袖排名算法(Opinion Leader Rank algorithm)简称为OLRank算法的有效性,使用两种评估标准。

(1)全路径覆盖率:网络空间中,有影响力的节点直接或间接影响其他节点覆盖范围的比率[5]。应用到博客空间即为:博主直接或间接的被其他博主链接的数目与收集的博客集中所有链接的比率。计算公式如下:

集合M表示所研究的所有博主,Link(Pi)计算公式参照公式(1)。

(2)话题多样性:给出每篇博文的关键词,然后比较这些关键词两两之间的相似度,如果相似度小,就认为话题比较多样。给出关键词 ti(i=1,2,3...,n)计算公式如下:

4.3 结果及分析

在确定的时间窗口内由OLRank算法得出Top-5的意见领袖,如表1所示。

表1 OLRank算法得到的Top-5

由OLRank算法得到的Top-5与新浪博客用流量得出的Top-5对比,可以看出两种方法得到的Top-5排名顺序基本相同,如表2所示。

选择常用来计算网页重要性的PageRank[10]算法(简记为 PR)、HITS[11]算法、从采集的种子博主中随机抽取K个博主的方法(简记为RS),这三种算法和本文的OLRank算法进行对比研究。四种算法在全路径覆盖率评估标准下对比结果如图3所示。

表2 OLRank与流量得到的Top-5对比

图3 四种算法全路径覆盖率对比

可以看出在全路径覆盖率这个指标下,PR算法和OLRank算法表现最好,但从Top6开始,OLRank较PR算法表现得更好。说明了PR算法适合于利用超链接计算Web页面权重,而博客站点不同于Web页面的是它不仅依赖于博客间的链接关系,还与博客的内容紧密相关。

四种不同算法得到的意见领袖在谈论话题多样性指标下的比较结果如图4所示。

图4 意见领袖话题多样性比较

可以看出OLRank算法用于K<15时对鉴别意见领袖话题多样性很有效。随着Top-K的增大,OLRank,PR,HITS三种算法话题多样性指数相差不大。

5 结束语

从博客空间中博主具有的属性出发,通过分析博文的内链接数、外链接数、评论数、文章长度来衡量一篇博文的影响力得分。然后在此基础上提出OLRank算法来鉴别博客空间的意见领袖。从仿真结果也可以看出,该算法在评估标准全路径覆盖率和话题多样性中相比传统的基于链接分析的算法表现良好。最后在实验仿真时,对权重采用的是相同的值,没有考虑到这四个参数权重值不一样的情况。因此在后续工作中,研究选取不同权重值来衡量这四个参数对博文影响力得分,将是下一步工作的重点。

[1]Nakajima S,Tatemura J,Hino Y,Hara Y,Tanaka K.Discovering Important Bloggers based on Analyzing Weblog Threads[J].2nd Annual Workshop on the Weblogging Ecosystem:Aggregation,Analysis and Dynamics,2005:604-608.

[2]E Adar,L Zang.Implicit structure and Dynamic of Blogspace[J].workshop on the weblogging Ecosystem:Aggregation,Analysisand Dynamic,2004,16989 -16995.

[3]Fujimura Ko,Inove T,Sugisaki M.The EigenRumor algorithm for ranking blogs[J].In:Adar E,Glance N,Hurst M,eds.Proc.of the world wide web 2005 workshop on the weblogging Ecosystem:Aggregation,Analysis and Dynamic,2005,619 -622.

[4]Apostolos Kritikopoulos,Martha Sideri and Iraklis Varlami.Blogrank:ranking weblogs based on connectivity and similarity features[J].In AAA - IDEA06:Proceedings of the 2nd International workshop on Advanced architectures and algorithms for internet delivery and applications,New York ACMPress,2006:467 - 474.

[5]Song X,Chi Y,Hino and Tseng B.Identifying opinion leaders in the blogosphere[J].In proceedings of CIKM,2007:971-974.

[6]T Nanno,Y Suzuki,T Fujuki and Mokumura.Automatic collection and Monitoring of Japanese weblog[J].www 2004workshop on the weblogging Ecosystem:Aggregation,Analysis and Dynamic,New York,2004:191-193.

[7]Cohen E,Krishnamurthy B.A short walk in the Blogistan[J].Computer Networks,2006,50(5):615 -630.

[8]Abu-Nimeh S,Chen T.Proliferation and Detection of blog spam[J].Security&Privacy,2007:42 - 47.

[9]Zhai,Z.W,Hua X.Identifying opinion leaders In BBS[J].IEEE Proceeding of Intelligenceant Intelligent Agent Technology,2008:398 -401.

[10]冯振明.Google核心—PageRank算法探讨[J].计算机技术与发展,2006(2):88-90.

[11]Nomura S,Oyama S,Hayamizu T,and Ishida T.Analysis and Improvement of HITS Algorithm for Detecting Web Communities[J].The 2002 International Symposium on Applications and the Internet,2002:132 -140.

猜你喜欢
博文博主领袖
领袖风范
黄河之声(2022年6期)2022-08-26 06:46:04
跟着零食博主买拼多多小吃
好日子(2022年6期)2022-08-17 07:16:42
如果孩子想当美妆博主
咱们的领袖毛泽东
第一次挣钱
时尚博主谢慕梓:分享身边的美
金桥(2021年1期)2021-05-21 08:22:04
谁和谁好
领袖哲学
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
平民领袖