邵天会++翁苏湘++张佳强++周彤++刘虹余
【摘 要】随着网络迅猛发展,网络社交成为人们交友、联系的新方式,如何建设一个人性化的社交网络,建设人性化的社交网站的依据是什么?如果更好的为用户服务?这些问题归结到社交网络用户行为的分析上,对用户行为数据进行分析,根据不同用户的行为属性分类进行数据挖掘,从而得出不同类型用户的习惯和偏好。
【关键词】社交网络 用户行为 数据挖掘
在WEB日志挖掘的过程中,信息的采集和清洗是个很重要的过程,特别是有目的进行数据的归类,为了更好的实现我们的研究目的,我们针对性的对WEB日志进行处理原理进行分析。
1 用户行为的分类
根据用户访问的目的进行用户行为的分类,本文利用用户典型的访问行为进行分类,根据用户对某些订阅信息产生的特征向量从而发现用户的个人和社交的信息。我们对用户的特征向量进行聚类分析,得出用户的不同类型分组,区别与其他的兴趣度的研究方向,典型的行为研究更加简洁和显著。
优酷是中国最大的视频网站之一,优酷提供了一个很重要的用户社交和交互功能,我们将视频分类,用户的功能有:添加好友,分享视频,关注好友的视频,留言互动,视频评级,视频标注热爱度等。我们根据这些点进行用户分类,每个用户为一个节点,两个节点的用户进行交互时,产生“订阅向量”,一个用户的视频会直接分享到另一个用户,并且随着用户交互的数量增多,类似订阅的用户聚类,即相近兴趣聚类。
(1)根据广度优先算法进行随机抽选访问用户的信息,对随机抽选的用户进行具体的跟踪和调查,由一个用户扩展到和他相关联的用户,如同滚雪球一样关联的用户越来越多,收集的信息也随着增多,直到手动停止结束。
(2)根据被其他用户订阅数量的排名进行筛选用户,排名最高的用户作为最初的集合,从最初的集合向下扩张。
(3)用户向量表示法:每个用户为一个向量,长度为9,每个向量包含该用户所有的信息:1)用户上传视频的数量:表示访问用户上传不同视频数量。2)浏览视频的数量:表示访问用户访问不同视频数量,区分潜在消费者。3)创建账号时间:表示访问用户创建该账号时间。4)账号年龄:表示访问用户在该社交网络活动时间。5)用户聚类系数:表示访问用户之间紧密系数,例如:A用户访问B,B访问C,则A访问C的系数增加。6)订阅潜在值:表示某访问用户订阅数量从而推测现在的消费用户。7)被订阅制造值:表示A用户被其他访问用户订阅的总数量,进而找到视频制造用户。8)订阅用户数量:表示A用户订阅其他用户的数量。9)交互潜在性:表示用户相互订阅系数。针对每个属性进行规范化,每个属性都分布0到1区间值。
(4)基于用户访问距离聚类:利用K-means算法进行用户访问距离分组,欧式距离作为访问用户之间的分组依据,即通过信号的相似度进行做距离向量的值,信号越相似距离越近,距离越近越容易聚类为一个组。
(5)通过聚类向量法相算法中的K值是影响用户访问特征向量的关键,因此我们选择K值是关键。
2 测试分析
我们通过对Web服务器记录日志的流程进行数据采集,通常情况下WEBserver日志文件和server位于同一臺服务器,分析的方法一般2种:
(1)编写日志分析代码在服务器上,当进行日志分析时启动分析程序代码,整个过程在服务器进行,分析完成我们只需要把分析结果取回,然后反馈到客户端。这样省去了网络带宽的要求,不需要大数据的传送,减轻了客户端的负载。
(2)利用FTP把服务器端的日志文件传到客户端,在客户端进行日志文件的分析,这种方式的优点是减轻了服务器的压力,但是同时在传输数据时占用带宽,因为我们采样的日志文件一般超过几百兆或者几个G大小,如果客户端和服务器地理位置相对较远,这种方式不合理。
本文采用的是第一种方法,流程为上图1-2所示,在服务器端进行数据分析处理。
Web服务器:负责接收客户端的分析请求,并将分析结果最终形成的WEB页面发送给客户端。
CGI程序:把从WebServer传送过来的请求传送给日志分析程序,接收日志分析程序分析的结果并以页面的形式发送给Web服务器。
日志分析程序:接收CGI程序传送来的分析请求,从日志文件里读数据,分析后把结果传给CGI程序。
设置2个分类向量:A1和A2,计算它们之间的距离,D为向量长度。算法的伪代码:
1, D<=2;//K 值为D
2, 重复下列代码:
3, D<=D+1;
4, K-means运行
5, 循环(每次返回的D值)
6, Do<=聚类D
7, 如果( 8, 直到( 得出的结果中:0代表向量相同,1表示向量相反,如果D值比T值小那么这两个用户访问向量类似因此可以聚类为一组。我们可以将T值设置为10的-4次方。 利用网络爬虫抓取优酷网站上15天的访问用户数据,根据用户访问特征向量属性7个值进行分析,表1是数据的分析图。 我们把收集的用户数据信息进行分组: (1)Z1,小区成员:用户数量不多,但是用户之间的互动量大,活动程度高,例如:家人,同学,同事。本组的用户一般只在特定的社区活动,很少参与订阅和被订阅。 (2)Z2,制造者:本组用户在网站时间长,互动时间长,并且经常访问不同的频道,被其他用户订阅的数量也大。 (3)Z3,消费者:浏览数量大,网站定期对本组用户推送消息。 (4)Z4,制造和消费共同体:此类用户数量最大,既上传视频也订阅视频,但是用户之间的互动少。 (5)Z5,其他用户。 数据分析:访问用户特征向量进行聚类,能够有效的将优酷网站用户进行分组,上述的5组中,每组用户的目的均不同,在网络社交中起到不同的作用,在一个相对活跃的网站社区上,每组人的比例有很大的关系,单纯一组人数过多会直接影响网站互动,进而影响网站的访问量和订阅视频数量,对网站的在线用户数量产生直接的影响,本文的研究模型对网络社交网站的数据分析和改进有针对性的作用。 参考文献: [1]Michael J.A.Berry,Gordon S.Linoff,数据挖掘技术:市场营销,销售与客户关系管理领域应用[M].北京:机械工业出版社,2006,312-375. [2]青虹宏.基于数据挖掘技术的客户关系管理[J].重庆工商大学学报(自然科学版),2004,8:388-391. [3]David Hand,Heikki Mannila,Padhraic Smyth,数据挖掘原理[M].北京:机械工业出版,2003:209-224. [4]陆嘉恒.Hadoop实战[M].北京:机械工业出版社,2011. [5](美)怀特(White.T)著,周敏奇,王晓玲,金澈清,钱卫译.Hadoop 权威指南[M].北京:清华大学出版社,2011. [6]苏新宁,杨建林,江念南,栗湘,数据仓库和数据挖掘[M].北京:清华大学出版社,2006.4,17-185. [7]Jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].数据挖掘概念与技术影印版,北京:高等教育出版,2001:1-3.