刘 宇
(重庆工程职业技术学院,重庆 402260)
基于社交网络用户特征的数据挖掘研究
刘 宇
(重庆工程职业技术学院,重庆 402260)
随着网络与移动通讯的发展,人们的社交关系与网络衔接越来越紧密。本文对互联网社交网络用户特征进行分析,分析社交网络群体结构、用户影响力、用户活跃度,从用户特征权重的角度进行预测算法研究,建立社交网络用户特征的数据挖掘模型,利用蒙特卡罗仿真方法,实现对社交网络用户特征数据的加工与利用。
社交网络;用户特征;数据挖掘
互联网技术与移动通信技术的发展改变了人们传统的社交方式,微博、微信等越来越普及。对于社交网络信息数据的挖掘,研究用户的生活规律与兴趣偏好,对于信息的个性化推荐及企业发展方向具有非常重要的现实意义。
2.1 群体结构
在社交网络中,大多数为普通用户,其朋友圈和粉丝数量会随着用户网络社交的时间递增。新加入社交网络的用户会选择自己感兴趣的好友进行关注,老用户会不断维护自己的朋友圈。若将社交网络中话题的发起者设为初始,则其朋友圈接收信息的人群为1阶用户,1阶用户的朋友圈为2阶用户,2阶用户的朋友圈为3阶用户,以此类推用户群体结构随着时间的递增,结构呈树形拓扑,互联网社交网络用户群体信息传播结构如图1所示:
图1 社交网络用户群体信息传播流程
2.2 用户影响力
在社交网络中,不同用户因为其在公众领域、行业领域、区域团体等的角色不同,用户的影响力也不同。在社交网络中,如微博,社交用户的友好关系是单向和双向协同的,即A用户添加B为关注对象,B中的好友名单中不会出现A,A如果也添加B为关注对象,则AB信息交互是双向的。在微博中用户可分为认证用户和普通用户,认证用户在某一领域具有较高的辨识度,具有较高的粉丝数量,这也标志这用户微博信息的受众数量多,微博的转发率也就高。
2.3 用户活跃度
用户在社交网络中的活跃度是信息传播的重要因素。用户的活跃度根据用户在一定时间范围内发送微博数量T、转发微博数量R,提及数量M构成,用户活跃度特征W=(a+b)其中,t为设定时间范围,a,b表示用户历史微博信息的平均回复率和平均转发率。
3.1 用户权重排序
社交网络是通过互联网进行人与人之间的沟通与互动,用户特征关系的权重分析,可基于HITS算法的节点权重进行分析,根据HITS算法原理,每一个互联网中的页面存在两个值:hub值与authority值。网页的hub值由该页面所指向的所有网页的authority值构成;网页的authority值由指向该页面的所有网页hub值构成。在互联网中,具有较高权值的网页更倾向于与其它髙权威网页相互连接,即:如果网络中有大量具有高权威性的网页同时指向某一未知网页,那么该未知网页将有很高的可能性也为高权重网页。得社交网络用户权重计算为用户i所指向好友j的数量,由此可得一个用户所连接的好友越多,则其传递给每个好友的权重值越小。
3.2 用户个性推荐
社交网络中关注好友的日志、微博、图片、状态等信息均以推送的形式发送至相关用户主页,这种推送模式在强化了用户信息交互的同时,也给使用者带来了信息风暴的冲击,因此社交网络中的个性化推荐算法将对提高用户体验与信息交互质量产生重大的影响。
用户个性化推荐算法中,推荐的主体是经过短文本聚类的微博话题。根据NBI算法推荐思想用于微博推荐时,若用户A发布了关于话题a的微博,同时用户B发布的微博话题中也包含了话题a的微博信息,那么用户A与B之间通过话题a形成了一条网络拓扑连接关系:A-a-B。基于用户特征的NBI推荐算法:
其中Si,t表示一条来自用户j发出的微博t,对于用户i的推荐评分。为微博t的作者j对于目标用户/的归一化用户影响力特征。Rij为用户i与用户j交互关系。f'(xt)为推荐评分的影响。
3.3 用户层次聚类
社交网络微博中具有大量粉丝的明星用户通常只具有少量的好友数目,而且这些好友通常也具有很高的粉丝数或本身就是明星,这些用户的微博往往具有很高的回复与转发率。也有一些用户,如媒体或广告,他们同时拥有较高的粉丝数量和好友人数,但这些用户所发布的微博通常只为特定产品或品牌服务的,而这些微博也不会被广泛关注。通过微博用户的分析可以得到规律:如果一个高权重用户所关注的好友越多,那么关注的每个用户将越不重要;反之如果关注的好友越少,那么关注的每个用户将越重要。
用户层次聚类算法设用户的j为用户i的粉丝,Fj为用户j的粉丝数量,nj为用户j的好友数量,得:
根据HITS算法将节点的hub权重与authority权重统一为单一authority权值,其中authority权值由指向该节点的所有邻居节点入度比出度值累加获得。于是,本文提出的用户影响力模型由用户粉丝数量与粉丝质量加权组成:
第一部分Ni代表用户i的粉丝数量;第二部分为用户每一位粉丝对用户影响力的贡献之和,即粉丝质量;参数μ用于调节两部分的权重。
4.1 数据集说明
本文社交网络用户特征分析数据采用新浪微博用户进行采集分析,用户特征分类通过用户共同好友关系及用户标签信息等的相似度进行描述,用户标签信息具有衡量用户兴趣偏好的重要特征,标签信息有广泛性的标签譬如:“电影”、“韩剧”、“笑话”等,也有专向性的譬如:“iphone6”、“金融”、“搏击”等。衡量标签权重是社交网络用户共性的标准,如果用户特征相似度越低则标签权重越大,如果用户特征相似度越高则标签权重越小。
4.2 用户特征相似度模型
建立用户特征相似度模型,设m表示采集涉及网络用户数量,top-n表示用户某一特征相似度模型计算排名处于前n位的用户信息,此时,用户i与用户j存在的关系表示为Rij=1,不存在的关系表示为Rij=0。得用户特征相似度模型为:
4.3 网络拓扑关系预测模型
社交网络用户传播信息过程中,用户在t0时间发布一条信息,该用户的所有粉丝是否会在t1时刻转发这条信息,粉丝的粉丝是否会在t2时刻转发这条信息,成为网络社交的拓扑结构关系。由此,网络拓扑结构关系预测根据蒙特卡罗仿真模型在每隔一定的时间间隔Δt对各节点进行随机取样,如果随机取样概率小于节点先验概率则认为该节点将触发某一事件,并将与该节点相连的邻居节点加入到下一个Δt的随机取样过程中。随机过程直到若干时间间隔后没有新的节点触发事件结束仿真,此时网络中该事件被触发的节点总数为在社交网络发布者的首次接收用户取样过程在0与1之间均匀取出一个随机数,记为rand(t1),同时该用户存在对该条信息是否进行传播的先验概率prior(t1),网络中其粉丝被称为1阶用户,每一个用户根据自身兴趣,对每一条信息选择是否传播的先验概率均不同。若在t1时刻,某1阶用户的随机取样结果小于其对于该信息的先验概率,即rand(t1)<prior(t1)则认为该用户会转发这条微博。于是将该用户的所有粉丝即2阶用户,加入时刻的用户传播分析,以同样蒙特卡罗随机过程进行决策分析与仿真,并以此类推。
在社交网络中,数据特征种类丰富,信息量大,用户的特征性较为鲜明,基于社交网络用户特征的数据挖掘对用户群体结构、影响力、活跃度进行研究,分析用户特征权重,建立用户特征数据挖掘模型,研究用户特征相似度模型和网络拓扑关系预测模型。在社交趋于网络化的今天,社交圈蕴含着大量的具有潜在价值的数据,对于这些数据的挖掘对互联网行业的发展、企业网络推广于信息传播具有非常重要的实际价值。
[1]黄成维.面向社交网络用户商业价值细分的数据挖掘模型[J].旅游纵览(行业版),2012,(01).
[2]杨瑞仙,李露琪.基于社交网络的个性化知识服务模型研究[J].新世纪图书馆,2014,(09).
[3]王连喜,蒋盛益,庞观松等.微博用户关系挖掘研究综述[J].情报杂志,2012,(12).
[4]朱彦杰.基于社交圈的在线社交网络朋友推荐算法[J].科技视界,2014,(09).
[5]蔡孟松,李学明,尹衍腾.基于社交用户标签的混合top-N推荐方法[J].计算机应用研究,2013,(05).
Data Mining Based on the Features of Social Network Users
Liu Yu
(Chongqing Vocational Institute of Engineering,Chongqing 402260)
With the development of network and mobile communication,people’s social relationships in the network converge more closely.This paper analyzes the features of the Internet social network users,analyzes the group structure,user influence,user activity in social networking.The prediction algorithm is studied from the users feature weight,to establish the data mining model of social network user features.Monte Carlo simulation method is used to process the social network user features data.
social network;user features;data mining
刘宇,男,重庆人,博士研究生,研究方向:安全监测监控方面的研究。