基于微博的用户社区网络挖掘分析

2014-07-28 00:41李佳肖基毅吴霖
电脑知识与技术 2014年16期
关键词:特征分析

李佳 肖基毅 吴霖

摘要:以新浪微博为研究平台,随机获取微博用户数据作为研究样本,通过共链关系构建社会网络,利用聚类分析方法对样本进行微博关注好友的网络群体分析,网络内部子结构分析和个体角色分析。进而从微博用户好友数据中挖掘关注对象的特征和关注对象间的关联特征,并对改进微博用户关注好友的推荐和信息推送提出一些建议。

关键词:微博社区;用户关系;特征分析;关注推荐

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)16-3943-05

Abstract: With sina microblog platform for research, access to user data as the research samplerandomly, build social networksby public chain relationship, analyze microblogfriends network group, network internal substructure and the individual character using of clustering analysis. Then mining the characteristics of friends and the connections between them from data of they own, and to improve the recommendationof the microblogging users about his best friend's and the information push to some users.

Key word: the microblogging community; user relationship; characteristics analysis; recommend attention

微博,即微博客(Microblog)的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。最早也是最著名的微博是美国的twitter。2007年5月,饭否网成立,这是中国国内第一家微博网站。此后,叽歪、做啥网、腾讯“滔滔”、嘀咕等微博网站如雨后春笋般大量涌现。2009年8月份中国最大的门户网站新浪网推出“新浪微博”内测版,成为门户网站中第一家提供微博服务的网站,微博正式进入中文上网主流人群的视野。 如今微博已经不再是一个新鲜的名词。中国互联网络信息中心发布数据显示[1],截至2013年12月,中国网民规模达6.18亿,据统计网民中微博使用率为45.5%,微博已经成为人们表达思想,传播信息和交流学习的平台。

受到智能手机的推广普及,手机端应用的使用独占性较强,类似平台性手机即时通信的快速发展及其对微博功能的高度重合分流了部分手机微博用户,使得微博用户略有下降。一些人认为,随着微博的发展并进入稳定期,一些营销账号、僵尸账号的主动或被动消失,可能是微博用户下降的重要因素。对已注册了微博的人,用户体验不好,最多是不用;减少的大部分可能还是机器人。因此微博的自我进化和发展更新已经到了一个用户关系结构趋于合理固化的阶段。

微博用户如此庞大,微博平台上的用户信息量和微博消息数量惊人,如何更加有效的挖掘用户之间的网络关系,更加合理的了解用户需求,更加合理的划分用户群体一直是微博用户关系挖掘研究领域的热点话题。然而目前的研究都是对热点人物,热点话题的研究,没有对微博用户群体进行特征关系的更普遍性的特征分析研究。

微博社区群体的挖掘,不同的分类挖掘方式会得到不同的社区群体。传统的网络群体的分类有很多,常见的有:家庭、同学、同事、朋友等社区,这些社区和现实世界中常见的个人社会圈有很多相似之处[3]。而微博用户按照个人兴趣构建的社区网络更加多元和复杂化,这种社区群体在现实社会中受到地区、性别、学历、环境等条件的限制很难组合起来,但以互联网为基础的微博网络平台上就很容易实现。这种根据兴趣或相似性特征构建的社区网络的关系对好友推荐以及其他信息推送都有很好的指导性作用。

对微博社区群体的挖掘,杨方方提出了一组人物相关性的计算方法,并给出了人物网络的构建方法。根据数据的特点,选择适合的人物相关性方法进行组合即可得到人物之间的相关性计算结果,并通过网络构建方法构建相关的网络,在相关性网络的基础上开展了团体挖掘的工作,介绍了网络分析的概念和应用于团体挖掘的GN算法[4]。何黎等利用UCINET软件进行基于(Girvan andNewman' s)算法的社区划分,通过设置区间范围,选择出模块度值最大的划分方式,从网络密度、聚类系数和平均距离三方而分析,选取的4个社区均优于划分前的社会网络,说明社区划分是有效的[5]。袁园等以新浪微博为研究平台,随机抽取部分用户及其关注对象数据作为研究样本,通过共链关系建立社会网络结构[6]。

本文就是以新浪微博500个用户为研究样本,使用java语言和微博开放平台提供的SDK对用户数据进行分析处理,使用UCINET软件,利用共链关系构建社会网络。通过聚类分析方法,挖掘微博用户之间的关系特征,对微博用户关注好友的推荐和其他信息推送提供一些建议。

1 数据处理

目前由于新浪微博API对friendships/friends接口实行了限制,只提供获取自己关注好友的权限。因此用户关系样本没有从新浪微博平台上直接获取最新的用户,而是取自数据堂会员ckj1989提供的随机获取的500条用户关系数据[2]。,该文首先对从数据堂网站下载新浪微博500条用户关系(如图1所示,由于数据量较大和页面宽度限制,仅列出12条用户部分信息,下同),使用java语言和新浪微博开发平台官方提供的SDK对该数据进行处理并从该平台上获取关注好友信息。经过若干步程序运算处理,获取共链关系数据,生成网络社区群图。具体操作步骤如下:

1) 使用java语言编写程序从500个用户关系文件中获取所关注的全部好友,共42122个被这500个用户关注的好友,利用新浪微博开放平台提供的SDK,通过users/show接口获取关注好友的基本信息(如图2),并按被关注频次降序排列(每一行第一个逗号之前的数字表示该被关注好友的在500个微博用户中被关注的频次)。图中现示this user not exists表示该用户数据被官方关闭或注销。

2) 利用获得的数据,使用java语言编写程序生成被关注好友的共链关系下三角矩阵(按被关注频次降序排列,42122阶矩阵),如下表3所示(由于篇幅有限只截取了部分数据表)。矩阵中单元格U(i,j)表示i和j同时被关注的频次,同时被关注的频次越高表示两者关系越强,相似度越高。

3) 对表3微博关注好友的共链矩阵分析,当被关注好友频次小于16时,矩阵中将出现大量零值,因此选取被关注频次前277个微博用户进行分析,利用UCINET软件对277阶的关注好友矩阵进行二值化处理(菜单导航:transform>symmetrize),然后把处理后的共链关系矩阵导入UCINET软件(菜单导航:network>centrality>degree)生成被关注好友的社区群图,如下图3所示(由于篇幅有限图中离群点成员仅显示了部分)。

2 数据分析和讨论

2.1微博关注好友的网络群体分析

采用中心度指标(Centrality)分析判断微博用户在整体网络中的重要性,中心度指标主要分为两种:一种是点度中心度,它刻画的是个体之间发生关系的能力;另一种是中间中心度,它刻画的是个体控制网络中其他个体的能力[7]。

1) 点度中心的分析

将二值化处理的277阶关注好友的共链矩阵导入UCINET(菜单导航:Network>Centrality>Degree),生成277个关注好友社群节点的点度中心度,如表2所示(限于篇幅仅截取排名靠前的12个关注好友进行展示,下同):

表2中给出了每个关注好友的序号(OrderNo)、名字(Name)、绝对点度中心度(Degree)和相对点度中心度(NrmDegree)。UCINET同时分析给出了关注好友社群的点度中心:Network Centralization = 33.00%,这说明此社群的点度中心度并不是很高,这可能跟数据随机选取,而不是针对特殊群体(如热点人物)有关,这反而更能体现了该方法结论的普遍性。其中点度中心度降序排名前8的关注好友是:240号韩庚、213号胡歌、82号全球超级时尚、244号郭德纲、239号明道、223号佟大为、150号服饰搭配控、109号闺蜜至上。此结果说明在该微博社群的沟通交流中,这些被关注的好友与500个微博用户关系密切,是样本用户关注的核心对象。

2) 中间中心度分析

将二值化处理的277阶关注好友的共链矩阵导入UCINET(菜单导航:Network>Centrality>Freeman Betweenness>Node Betweenness),生成277个关注好友社群节点的中间中心度,如表3所示:

表3中给出了每个关注好友的序号(OraderNo)、姓名(Name)绝对中间中心度(Betweenness)和相对中间中心度(nBetweenness)。UCINET同时分析给出了关注好友社群的中间中心指数:Network Centralization Index = 5.76%,这说明此社群的中间中心度并不是很高,同样这可能跟数据随机选取,而不是针对特殊群体(如热点人物)有关,这反而更能体现了该方法结论的普遍性。其中点度中心度降序排名前8的关注好友是:240号韩庚、82号全球超级时尚、213号胡歌、244号郭德纲、243号李厚霖、275号非诚勿扰、21号女人帮大本营、223号佟大为。此结果说明在该微博社群的结构中,这些被关注的好友具有相对较高的资源控制盒链接互通功能,处在所有微博关注好友的“中间位置”。

从以上两个方面对中心度分析可以看出240号韩庚、82号全球超级时尚、213号胡歌、244号郭德纲、223号佟大为同时具有相对较高的两种中心度表现,说明他们居于该样本社群的核心位置。是500个微博用户关注的焦点,也可能是微博用户借以联系其他更广泛用户的中间桥梁。

2.2 微博关注好友网络的内部结构分析

为了刻画这些关注好友的内部之间的联系属性,通过成分分析和派系分析进一步对该群体的内部结构进行分析研究。寻找该网络内部成员间关系的紧密程度,以期更有力的表现网络结构特点。

1) 群体成分分析

将二值化处理的277阶关注好友的共链矩阵导入UCINET(菜单导航:Network>Regions>Components>Simple Graphs),生成成分分析清单,如表7所示:

从表7给出了277个被关注好友分成了123个成分,成分1由侦探柯南小说集等155个成员组成,其他成分都只有一个成员,这说明该社网络内部成员之间联系相对紧密和集中。

图4可以看出277个关注好友社群多达345个派系,由此可见派系众多,群体中个体之间关系错综复杂,各个派系成员的重叠度很高。结合表5和表6可以看出,派系10、1、303拥有较多的成员,但相对于277个成员数并是很多,这说明派系多而杂,群体内部紧密性不高。240号韩庚、213号胡歌在较多的派系中都有出现,说明他们在该网络中的核心成员,能够和大多数其他关注好友间有联系。还有大量成员出现在几十个派系中,他们是该网络的主干成员,发挥重要作用,另外还有123个成员不属于任何派系,他们在该网络的贡献几乎为零,处在网络的边缘。

由群体内部结构分析可见,随机抽取的微博用户所关注的好友构成的网络,结构比较复杂,派系较多,派系之间区别不明显。从单个成员角度来看,大部分成员存在于很多派系之中,这个说明个体的特征较多样性明显。社区群体内部之间多以名人热点方知名用户为核心成员,这和现实人们的兴趣爱好广泛,热点人物或事件受关注较多时一致的。

2.3关注好友在网络中的角色与位置分析

以上从两个方面对关注好友的整体网络从结构上进行了分析,下面将从内容上对每个关注好友的角色位置进行分析。利用UCINET(菜单导航:Network>Subgroups>Cliques)软件中的层次聚类分析工具来挖掘社群的聚类结果,如图5所示(由于成员较多全部成员显示分辨率不佳)。

通过放大图5可以看出,213号胡歌与240韩庚、215号淘宝五十元专区与239号明道、115号恋上微小说与117誓言心语等聚成小类他们在该社群网络中具有较高层次的相似性,结构位置对等。223号佟大为与244郭德纲聚成第一小类后与265号六六构成第二小类,而后再与李厚霖构成一类,这种情况说明六六在第一小类与李厚霖之间起到了桥梁作用。通过聚类发现,微博名人大多在较高程度上聚集在一起,而后在与其他生活、体育、娱乐、新闻、科技类主题微博构成关联。

3 结束语

微博用户的需求往往具有多元性和分散性的特点。 微博用户形成的群体网络错综复杂,从整体分析效果上看,没有明显的结构特征,社群成员之间联系紧密性并不高,成员之间主要被一些名人或热点类微博用户所联系起来。从个体层面看,用户随机性组合进行关注好友的群体分析可能过于分散,下一步将在对用户类别分类的基础上进行社群分析研究。

参考文献:

[1] 第33次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201403/t20140305_46240.htm.

[2] 新浪微博500条用户关系[EB/OL]http://www.datatang.com/data/46116.

[3] Gruzd A,Wwllman B,Takhteyev Y.Imaginging Twitter as an Imagined Community[J].American Behavioral Scientist, 2011,55(10):1294-1318.

[4] 杨方方.面向社会化媒体的社会网络挖掘与分析[D]. 哈尔滨:哈尔滨工业大学,2011.

[5] 何黎,何跃,霍叶青.微博用户特征分析和核心用户挖掘[J].信息系统,2011,34(11):121-125.

[6] 袁园,孙霄凌,朱庆华.微博用户关注兴趣的社会网络分析[J].情报分析与研究,2012(2):68-75.

[7] 张玥,朱庆华.Web2.0环境下学术交流的社会网络分析——以博客为例[J].情报理论与实践,2009,32(8):28-32.

猜你喜欢
特征分析
1822号台风“山竹”演变特征分析
64排CT在脑梗死早期诊断中的应用及影像学特征分析
穆夏艺术特征分析
泡罩包装挥发性有机物排放特征分析
2016年14号台风“莫兰蒂”特征分析
2012 年南海夏季风特征分析
凉山州闪电活动特征分析
近35年云贵高原暴雨特征分析
听神经瘤患者的远红外热像特征分析
肾康注射液不良反应特征分析