王佳宁 国际关系学院
基于社交网络的用户行为分析
王佳宁 国际关系学院
在线社交网络的兴起引出了一个有趣的问题:如何较好的鉴别不同的与用户行为。一般来说,用户行为的鉴别基于用户的个人特征,但是这种方法不适用于在线社交网络用户。在这种情况下,用户通过网站上传或是浏览内容,选择交友,订阅喜欢的咨询或是其他一些交流活动。不同的交流模式可以代表了不用的用户群体。本文将提出一种分析鉴别在线社交网络用户行为的方法。分析鉴别不同的用户行为具有巨大的商业价值,例如,可以用于改善在线广告推荐系统,从而获得更大的收益。
在线社交网络 群体 用户行为
目前对于互联网来说,一件至关重要的事就是鼓励用户之间的交流。像微信、微博,他们允许用户创建他们自己的日志,包括图片、文字或是视频。用户通常喜欢从其他人那里搜索、交换信息或是浏览内容。鉴于人类的本性,用户不愿意展现单一的行为。
对在线社交网络用户行为的理解有助于服务提供者合理分配资源。为了建立一个模型来描述用户行为的种类,研究者必须了解如何区分和鉴别不同期望的用户。为了实现这个目标,我们设计了网页抓取工具来收集youtube的数据,收集了标题网络、用户关注、分享给他人的链接等。这些数据将用于构建每个用户的特征向量。
YouTube成立于2005年,是最大的视频网站。同样可以作为在线社交网站,通过用户行为对用户进行分组。例如,将用户作为节点,如果一个用户加了另一个用户为好友、两个用户同时评论了一个视频或是一个用户评论了另一个用户的视频,我们都认为他们之间就有直接联系。这个设想就构成了一个网络,称作订阅网络。基于广度优先搜索这个网络,以一组用户作为开始,不断添加她的订阅以及该订阅的最后一个用户。
我们通过标准化向量的值计算距离,基于用户行为可以对来对用户进行分组。将用户表示为特征向量。我们将用户特征向量定义为一维的长度为9的矢量,定义如下:useri=[f1,f2,f3,f4,f5,f6,f7,f8,f9].其中前五个位置代表每个用户的属性,后四个位置代表与用户交往的相关用户的属性。这九个位置的具体意义如下:
f1:代表用户上传视频(或其他)的数量,这个数量能够表示一个用户作为生产者的潜力;
f2:代表不同视频被用户浏览的次数,这个数量能够表明一个用户作为内容消费者的潜力;
f3:不同频道被浏览次数,这个数量能够表示用户在搜索时最有可能浏览的频道;
f4:用户在Youtube建立账号的时间;
f5:用户从创建账号到最近一次登录,在Youtube上花费的时间;
f6:聚类系数,用来衡量用户与他的“邻居”之间的联系。
f7:相互关注的概率。
f8:代表用户作为消费者的潜力;
f9:代表用户作为生产者的潜力。
这九个特征代表了不同的单元和维度。考虑到聚类算法所使用的的距离是基于每一个特征的值,必须将数据标准化以确保距离是以同样权重的特征计算的,否则最大规模的特征就会掩盖其他的。通过特征向量最大话来规范化数据,每个特征的范围从0到1。
为了对有相似行为的用户进行聚合,使用K-means算法作为聚类算法,欧几里得距离作为距离测量方法。简言之,K-means就是选择k个对象作为初始聚类中心,计算剩下的每个对象与这些中心对象的距离,重复计算的步骤直到满足一定条件,如函数收敛时,则算法终止。
那么K值是如何确定的?本文认为应该通过变异系数来解决这一问题,最小化颗粒间CV和最大化簇间CV。这两个CV值得比率我们记作βcv,当βcv趋于稳定时,K取得了最好的值。为了取得最好的K值,我们要采取以下算法:
取两个中心记作C1和C2,以d(C1,C2)=abs(∑Fi=1(C1[i]-C2[i])/F)来标记他们的距离,其中abs(x)是未知量X的绝对值,F是特征向量的长度或者特征向量的值。对K赋予初值2,执行,然后不断增加1.计算Ck,直到k,x|d(Ck,Cx)<T。
当前形势下,不同的用户出于不同的目标,会联合不同的用户群体发生行为,如果能够准确的识别主导用户行为的因素,就能够更准确的为用户提供服务。本文将提出一种分析鉴别在线社交网络用户行为的方法。分析鉴别不同的用户行为具有巨大的商业价值,例如,可以用于改善在线广告推荐系统,从而获得更大的收益。
[1]杨善林,王佳佳,代宝,李旭军,姜元春,刘业政.在线社交网络用户行为研究现状与展望[J].中国科学院院刊
[2]吴信东,李毅,李磊.在线社交网络影响力分析[J].计算机学报
[3]陈克寒,韩盼盼,吴健.基于用户聚类的异构社交网络推荐算法[J].计算机学报
[4]王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程