校园网用户行为分析系统设计与实现

2015-05-04 22:06许闻秋高伟申健
数字技术与应用 2014年12期
关键词:行为分析校园网

许闻秋++高伟++申健

摘要:用户视频浏览行为是视频个性化推荐及视频网站优化的关键,而校园网用户区别于其他社会群体有其特殊代表性。本文基于校园网流量,提出了一种基于MapReduce的校园网视频用户行为分析方案,融合深度包检测与网络爬虫技术,挖掘校园网用户视频行为特征。以优酷网为例,统计了用户行为识别率并分析了视频用户行为,给出校园网用户视频推荐列表。

关键词:校园网 视频用户 行为分析

中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2014)12-0134-02

Design and Implementation of Campus Network Users Behavior Analysis System

Xu Wenqiu,Gao Wei,Shen Jian

大数据时代,信息量增长,用户数增加。截至2014年12月,我国网络视频用户规模达到4.33亿,比去年年底增加了478万,用户使用率为66.7%,中国网络视频的用户规模持依旧呈现出持续稳定上升的态势[1]。校园网用户不同于其他社会群体,有其独特的行为和偏好特征。视频浏览是校园网用户学习生活的一部分。

本文在传统视频推荐及流量识别的基础上,提出了一种对校园网视频流量识别及用户行为分析方案。

1 研究背景

传统的视频推荐技术需要首先获取视频网站日志挖掘用户数据,再对视频网站用户行为进行研究。传统基于端口及协议的流量识别方法并不能满足校园网大数据流量的存储与分析要求。前人的研究无一例外都是以商业网站的自身优化为目的。为了解决传统数据挖掘算法无法对TB级校园网流量数据进行存储于运算的问题,本文借助MapReduce的分布式存储及并行运算优势。融合深度数据包检测及视频网站爬虫技术对校园网视频用户行为进行挖掘和统计分析,并生成推荐列表。

本文创新点如下。

(1)研究对象不同。不同于前人对商业视频网站的用户行为研究,本文针对校园网用户,研究该群体在主流视频网站的用户行为。

(2)研究方法不同。不同于前人基于P2P或提取网站日志的流量识别方法,本文基于深度包检测技术,对校园网数据中心交换机端口的镜像信息进行抓包。并结合网络爬虫技术,爬取视频网站视频信息,从而识别用户视频行为的研究实属首列。

(3)研究目的不同。前人对视频用户行为研究目的在于调控网络流量和网络计费,本文目的在于针对校园网管理及视频资源优化。

2 系统方案设计

2.1 校园网视频用户行为识别

以优酷网某视频请求为例。通过抓包分析,对数据包重组解析,用户HTTP请求内容有明显视频用户行为标识特征,如图1所示,数据数据包中Full request URI可由Host域名和GET请求URI组合而成。当用户浏览某视频时,HTTP GET请求中会带有明确的Host域名和视频对应ID号。如访问优酷网时,请求URI “GET /v_show/id_XNDYyODM3MDM2.html”中的XNDYyODM3MDM2就是优酷网视频“重庆邮电大学传媒艺术学院运动会啦啦队”的唯一标识ID号。

2.2 MapReduce编程模型设计

本文通过多个MapReduce任务实现校园网流量数据包解析,如图2所示。

(1)job 1数据包HTTP重组。通过PcapIputFormat从HDFS中读取数据包,以数据包在文件的偏移量为key、数据包为value作为map阶段的输入,map任务对数据包解码,以五元组(源IP、目的IP、源端口、目的端口、传输协议)进行数据包分流,并将时间戳、TCP序列号添加到数据包净荷前面,用以reduce阶段数据重组,最终形成以五元组为key、数据流为value作为map阶段的输出。

(2)job 2~3用户视频行为特征提取。以job 1 reduce输出结果作为job 2 map输入,拼接Host字段和GET字段还原完整的URL。同时提取Referer字段,存入Referer数据库。reduce结果输出以视频行为特征字段/商品ID为key、计数为value的形式。

(3)job 4用户视频行为统计。以job 3 reduce结果为输入,通过与视频信息库匹配,得到用户浏览视频具体信息,结果输出以视频行为特征字段/视频ID/计数为key、视频具体信息为value的形式,完成对用户视频行为的统计。

3 实验结果与分析

3.1 实验环境及数据

本文在Hadoop测试平台,基于单位网络中心3台服务器上部署十台虚拟机构成的集群。该集群由普通的PC机所组成,1个NameNode,8G内存,500G硬盘;5个DataNode,均为4G内存,500G硬盘。几个节点均由交换机相连,使用双核CPU。平台使用Hcap-224F千兆数据采集卡,配置Hadoop1.1.2和JDK1.7.0_45。

采集本校学生公寓的数据,通过机房中心端口映射,以pcap(libpcap)格式保存离线文件。总计采集四天正常工作日校园网数据,即2013年12月9-12号,其中9-11日三天采集了校园网用户课后自由支配时间段的数据,即18:00-23:00;11-12日两天采集了校园网用户工作时段的数据,即09:00-18:00。总计采集数据500G。

3.2 实验结果分析

本文以校园网用户的性别、时间段为主要分析纬度,分析视频网站、频道、节目的视频访问量,从以上三个方面对校园网视频用户行为统计分析。(如表1)

如图3所示。18点至晚上21点视频请求量显著增大,并出现一天当中的峰值21点以后,视频请求量再次下降,学生逐渐进入休息状态。

4 结语

本文在视频推荐研究基础上,提出了一种基于MapReduce分布式模型的校园网视频用户行为分析系统。通过结合深度包检测技术和网络爬虫技术,实现了对视频业务内容的准确识别,并对校园网用户行为特征进行归类、统计、分析和展示。为高校管理者及时了解在校学生的思想行为动态,为视频提供商为有针对性订制视频节目,也为视频网站优化、实现精准营销提供依据。

参考文献

[1]中国互联网络信息中心(CNNIC).第35次中国互联网络发展状况统计报告[R].2015:87-98.

[2]Tom White.Hadoop:The definitive Guide (3E),OReilly,2012.

猜你喜欢
行为分析校园网
试论最大匹配算法在校园网信息提取中的应用
基于VRRP和MSTP协议实现校园网高可靠性
NAT技术在校园网中的应用
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
金融经济中的金融套利行为分析及若干研究
公开课与常态课学生学习心理和行为的表现分析
校园网贷有哪些违法隐患
VPN在校园网中的集成应用