严春景 谢胜利
摘要:网民借助于网络工具进行的一切操作都会产生大量的有用数据,尤其是在当下电商的迅猛发展局势下,利用数据挖掘技术分析这些数据有助于提出更好的推荐系统和广告设置。该文就基于目前的研究现状分析并设计以Hadoop大数据平台为依托,采用K-means算法实现本系统。
关键词:数据挖掘;网络行为;Hadoop大数据
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)03-0049-02
据《中国移动互联网用户行为统计报告2015》一文中的数字显示,截至2014年,中国移动互联网用户规模达7.29亿,其中社交、娱乐、实用工具以及阅读类应用用户占比超过70%,出行旅游、消费(实物)类应用用户占比大于40%[1]。网络世界里充满着多方面的信息和数据,如何通过分析这些数据来发掘用户的潜在需求,为用户推荐更好的产品或服务是当前电子商务的一大营销策略。本文从云计算技术和聚类算法的两个角度来设计用户行为分析系统,希望能为电商系统的精准营销做出贡献。
1系统流程
本次研究主要是围绕如何在Hadoop分布式处理平台之上,借助云计算的方法来研究网络用户的行为而展开的。利用网络用户行为所产生的海量的日志数据构建大数据环境,借助Hadoop分布式处理的框架和聚类算法等挖掘出相应的信息。
1.1数据提取
本系统针对网购用户的行为进行分析,数据来源于搜狗实验室所提供的用户查询日志,主要是Sogou搜索引擎部分通过网络爬虫抓取到的网页查询需求及用户点击情况的网页查询日志数据集合,该数据集合的格式为:访问时间 用户ID [查询词] 该URL在返回结果中的排名 用户点击的顺序号 用户点击的URL,其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID[2]。
1.2数据预处理
Sogou实验室所提供的数据格式是一条数据占据一行,行内数据以空格间隔,因此需要切割数据并存放在一组对象数组中,对象元素包含1.1所叙述的数据集合格式的基本属性。
1.3用户行为的集群性分析
本系统需要对用户的行为进行分门别类,即打上用户标签,标注该用户行为的详细信息,比如用户停留在某一网站时间长短、购物车里的物品类别以及上网时间段等更细粒度的信息。把结果归并成某一特征规律,从而得出用户和网站之间的映射关系。如果此后再关注用户的网络行为时,便可以产生相应的推荐系统。
1.4挖掘用户潜在的其他可能行为:
通过给用户贴标签,分析用户的上网习惯并结合关联规则,我们可以发掘出客户的多种需求,向其推销相关的产品或服务。比如购买圆珠笔的顾客中有65%也会购买笔记本,利用这个规则,网站可以合理地规划商品摆放问题。
1.5优化用户行为分析流程:
为了提高用户行为分析效率,本系统需要解决的问题是“如何利用用户的标签行为给用户推荐物品”和“如何在用户给物品打标签时给用户推荐适合该物品的标签”。
2实验方法及过程
通过聚类算法可以把相似度高的对象归为一类,以实现“物以类聚”,我们可以用聚类算法来对用户的上网行为进行“聚类”,将具有相同的上网习惯的用户归为一类,并为其“贴上”相同的用户标签。本文采用K-means算法实现聚类过程,并将其 MapReduce化。
2.1 K-means算法简介
K-means算法是十大经典算法中的之一,其核心思想就是将m个样本点细分为n个聚簇,每个簇有为数不一的样本点,簇的数量由划分时的设定值决定[3]。其中簇内样本点相似度较大,而簇与簇之间的样本点相似度却很低,通过计算每个簇中样本点的期望值来决定相似度值的大小。
2.2 Mapper与Reducer任务
//1、确定Mapper 实现过程
public static class KmeansMapper extends MapReduceBase implements Mapper
public void map(LongWritable key, Text value,OutputCollector
String [] strArr = value.toString().split("\t");
. . . //根据聚类坐标,把文件中的点进行类别划分
}
}
//2、确定Reducer过程,即计算新的聚类中心
public static class KmeansReducer extends MapReduceBase implements Reducer
. . .
}
3 结束语
基于Hadoop的大数据平台分析用户的网络行为有助于推动对用户上网行为的研究向前发展,以目前的互联网和电商的发展趋势来看,用户上网所产生的数据量及其所具有的潜在价值都值得我们对其认真研究。本系统的技术架构的优点在于它的分层处理思路清晰,灵活使用Hadoop的生态系统搭建适合本系统的数据挖掘环境。采用了经典的K-means算法实现聚类思路,并且将其MapReduce化,虽然最后得出结果,但其中仍然有待优化的地方,尤其是在处理PB级别的数据量时,系统的稳定性更是得出结果的关键。
参考文献:
[1] 搜狐媒体.中国移动互联网用户行为统计报告.http://mt.sohu.com/20150318/n409959259.shtml.2015
[2] 搜狗实验室.用户查询日志.http://www.sogou.com/labs/resources.html?v=1.2015
[3] 韩晓红, 胡彧. K—means聚类算法的研究[J]. 太原理工大学学报, 2009, 40(3):236-239.