使用DPI 技术研究校园网站的用户行为*

2013-07-20 09:40徐江红赵婉芳
微处理机 2013年4期
关键词:数据包校园资源

徐江红,赵婉芳

(北京电子科技职业学院,北京 100016)

1 前言

随着信息技术和网络技术的飞速发展,各种各样网络学习平台的出现,使用户的学习越来越方便。借助于各种各样的终端设备,用户可以通过互联网在校内和校外方便的连接到校园网络上,提取自己所需的资源,实现随时随地学习。与此同时,随着教学改革的不断深入,许多院校都做了大量的课程开发工作,开发出像教师资源库,专业资源库、课程资源库、素材库等,这些资源作为各个专业课程建设的一部分,极大地丰富了校园网站上的教学资源,也成为用户课下自主学习的重要资源。校园网站的设计能否吸引用户对这些资源库进行访问,在很大程度上影响着用户自学实践的效果。如何让网站的设计更人性化、个性化,吸引用户对网站访问,使得这些资源能够被有效地利用起来,是每一个院校网站亟待解决的问题。结合北京电子科技职业学院校园网站,针对用户对网站资源库上信息访问情况,使用DPI 技术挖掘出用户行为特征,提出基于用户行为的网站设计的改进策略。

2 研究背景

在当今高速大容量的Internet 环境中,有许多人使用日志挖掘技术,对网站用户行为进行过研究,通过协议识别对网络进行流量控制、网络计费、内容过滤、以及流量管理,以达到优化网络管理,优化带宽策略的目的。比如,清华大学岑荣伟老师的“基于日志挖掘的搜索引擎用户行为分析”,四川理工学院李莺老师的“新一代WLAN 网络监控与用户行为分析系统”等。他们研究的方向无一例外地都是以商业网站为背景,或研究分析移动用户的行为,或研究分析因特网的用户行为,用以商业网站更好地优化自身的网络。

与此同时,借助校园网站中优秀资源库完善课堂学习已经成为一种必然的发展趋势。对于院校网站而言,用户对网站的访问量、浏览兴趣和行为模式直接成为网站设计的导航工具。北京电子科技职业学院作为国家级高职示范性学院,其课程开发一直走在高职队伍的前列。学院针对每个专业都开发了大量的精品课程和网络课程教学资源,大量的专业培养方案、课程教案、PPT、教学案例、动画演示、素材、实验方案、教学视频等已经挂到校园网络上,供任课教师和学生学习之用。那么,如何合理设计优化校园网站,以最大限度地吸引师生对网站资源的访问,是不容忽视的课题。本课题以北京电子科技职业学院校园网站为背景对用户访问网站的行为做研究,通过收集和分析用户访问网站信息,发现用户的浏览兴趣和行为意图,为web 系统的管理者提供策略,优化Web 系统性能,改善web 站点结构,调整网页的链接和内容,并能向用户提供个性化服务。总体来看,本研究与前人研究的不同有以下三点:

(1)面向对象不同。前人研究的是商业网站用户行为,而本研究是结合自己学院网站,研究用户在校园网站上的用户行为。

(2)采用的技术不同。前人研究是基于P2P 技术,采用日志挖掘技术进行研究;本研究基于DPI 技术,对交换机端口的镜像信息进行抓包研究。DPI技术作为目前最新的协议识别技术,应用到校园网络的用户行为研究尚属首次。

(3)研究的目的不同。前人研究网站用户行为的目的是调控网络流量和网络计费;本研究的目的是优化校园网站,优化管理,优化资源,更好地为用户服务。

3 DPI 技术概述

DPI(Deep Packet Inspect)称为深度包检测。所谓深度是和普通的报文分析层次相比较而言的,普通报文检测仅分析IP 包4 层以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型,而DPI 除了对前面的层次分析外,还增加了应用层分析,识别各种应用及其内容。当IP 数据包、TCP 或UDP 数据流经过基于DPI 技术的带宽管理系统时,该系统通过深入读取IP 包载荷的内容来对OSI7 层协议中的应用层信息进行重组,从而得到整个应用程序的内容,对流量中的具体应用类型和协议做到比较准确的识别,然后按照系统定义的管理策略对流量进行整形操作,从而有效管理网络带宽。DPI技术的关键能高效识别出网络上的各种应用,与日志挖掘技术相比较,其优点包括:准确性高、健壮性好、具有分类功能。准确性高是由于该方法执行精确特征匹配,因此极少存在误判问题。健壮性好是由于可以处理数据包丢失、重组等,因此能适应如今复杂的网络应用。具有分类功能是由于深层数据包检测技术可以依据不同应用的载荷特征来准确分类各网络应用,因此可以为实施流量监管策略提供准确的信息。

本研究基于DPI 技术,通过利用交换机端口镜像,对网站使用数据挖掘技术,收集并处理相关的数据信息,对用户的行为和访问意向进行研究,发现用户对网站的访问模式和访问趋势,并以此为依据,及时调整网站的设计风格和内容,改善网站结构,调整内容设置,更快捷地将信息提供给用户,让网站上的资源能够更好地反映用户需求,更好地服务于用户。

4 DPI 系统在校园网中部署结构

DPI 系统在校园网中部署的位置和方式非常重要,不能因为DPI 系统的加入,影响整个校园网络的性能。因为DPI 系统是对需要研究的数据流做实时或准实时的深度检测,如果部署的位置和方式不合适,使DPI 系统成为全网性能和可靠性的瓶颈,给网络带来沉重的负担,甚至会导致网络的瘫痪。DPI系统的接入位置主要考虑尽可能只让需要研究的数据包被采集,而不需要的数据不通过DPI 系统。部署的方式分串联式和旁路式2种。其中,串联式指DPI 系统被串联在被监控的链路中,实现网络业务识别和流量管理;旁路式指DPI 系统通过流量分离设备获取被监控链路的流量复本,实现网络业务识别,并通过被监控链路的预留接口实现流量管理的一种方式。在选择部署方式上主要考虑是否影响设备的性能和网络链路上的数据包流量。

校园网的各种资源库信息存放在服务器中,而服务器作为校园网络DMZ 区域,有独立的IP 地址段,并通过接入层交换机连接到核心交换机上,因此,所有进出服务器的信息流量都必须经过核心交换机与服务器组所在的接入层交换机相连接的GE接口。基于校园网站的DPI 系统由数据采集系统和数据分析系统两部分组成。数据采集系统提供对数据包的采集和识别功能,通过对核心交换机GE 接口做端口镜像,采集进出服务器的数据包,通过DPI技术识别并解析IP 数据包成网络呼叫详细记录,记作CDR(Called Detail Record)文件。数据分析功能提供对采集系统中CDR 文件信息的读取、入库处理、统计分析,最终完成策略呈现。考虑到校园网络中访问教学资源信息流量不是特别大,镜像端口业务不会影响核心交换机转发数据的性能,因此,在本设计中采用旁路接入的方式,如图1 所示,DPI 系统和原网络转发数据的通路形成并联方式,DPI 系统不会改变现有数据流的流向,不影响数据包正常的出入,成为相对独立的功能系统。流经服务器的数据包一方面正常转发,另一方面被DPI 系统采集处理,互不干涉。

5 DPI 系统在校园网站中数据库设计

DPI 技术的优势主要体现在能够对网络数据包从数据链路层一直到应用层数据深度挖掘,能够关联网站结构和语义信息。通过对应用层数据的检测、采集,获得IP 包源地址、IP 包目的地址、协议类型、端口号、URL 地址、访问路径,对采集到的这些信息进行归类,形成具体所需的数据库字段,保存到数据库文件,然后对数据库中统计的信息进行分析,获知用户访问的兴趣习惯特征,依据用户行为指定网站优化策略。本研究结合校园网站资源信息的特点,进行数据库设计(如表1 所示)。其中数据来源有两种,一种是直接采集数据包就可获得的,包括IP 地址信息、端口号、URL、协议名称、登录登出时间、用户访问频率;另一种通过对采集后的数据包处理可以得到,即由目的IP 关联而成,包括停留时间、目标课程、目的文件名、资源类型等。这些信息都直接记录了用户访问行为,反映了用户行为习惯和兴趣特征。

图1 DPI 系统部署结构图

表1 DPI 数据库表

6 基于用户行为的策略设计

本DPI 系统设计前提是保证用户对网络的正常访问,在此基础上获取用户实时访问行为流量,从中提取用户行为特征,并对这些行为特征进行归类、入库、分析,得到用户行为个性模式和共性模式,依据用户的个性模式,推出用户个性化服务策略;依据共性模式,调整校园网站内容设计,从而实现更科学地管理校园网。具体说来,基于用户行为研究的校园网站改进策略,主要有两个方面。

(1)根据用户行为推出个性化路径策略

本DPI 系统通过对网络数据流的“特征”识别、应用层网关识别、行为模式识别,了解用户的个人偏好和潜在需求。例如,该用户访问时段、通过FTP服务器访问还是页面导航进入、访问资源所属专业和课程名称、对资源是在线浏览还是下载、从校内访问还是校外访问等,继而形成访问习惯记录保留到数据库中,生成用户个性化路径策略。这样当用户再次访问网站时,有针对性地按照访问习惯迅速为用户优先定位到习惯访问资源。通过DPI 系统对每个用户访问Web 页面行为作深度挖掘和精细分析,获知用户的个性化习惯特征,依据用户习惯特征生成的个性化路径策略使网站服务更加主动、丰富准确,这样可以大大节省用户的访问时间,提升用户对校园网站的满意度及忠诚度。

(2)依据用户的共性特征,调整网站内容

网站上资源库的内容众多,资源形式各异,涉及到不同学院不同专业,通过对用户行为的深度解析,可以统计分析哪些专业的网络资源利用率高,哪些资源形式是用户喜欢访问的。例如经常访问网站的用户身份,哪些专业的资源利用率更高,是否为正在修或者教的课程,课程是否为网络课程或者精品课程。在素材、PPT、视频、动画、课业等多种形式的资源访问频率有什么不同等。应该说,用户对网站资源的共性需求一定程度上反映了对所访问资源形式和内容的认可度。学院根据用户对资源的兴趣特征,出台鼓励政策,对课程开发方向、内容、形式等做调整,从而实现课程开发资源与用户需求相匹配。例如如果统计出相对普通课程,网络课程和精品课程资源访问人数多,说明网络课程和精品课程能很好地激发用户对课程资源访问的主动性,这样就可以得出从课程设计上,需要更多地变非网络课程非精品课程为网络课程和精品课程,从而出台政策鼓励教师们开发网络课程和精品课程。

7 结束语

如何更加有效地利用校园网站资源为用户提供优质的服务,提升用户对校园网站的满意度,需要对校园网站用户行为进行深入挖掘研究,从用户的兴趣、习惯和需求出发建设校园网站。结合DPI 技术,从DPI 系统部署、数据库设计和网站优化策略设计三个方面进行了分析和设计。本研究最大的创新点是,把数据挖掘的目标定位在改进网站建设上,而不是控制网络流量和带宽。挖掘用户行为是很复杂的过程,下一步将深入研究具体的挖掘算法,使DPI 系统的设计更具实效性和可行性。

[1]徐卫,陈丽亚,刘功申.基于用户行为分析的网站广告投放策略[J].计算机工程语应用,2006(28):225-226.

[2]朱霖.深度包检测系统(DP1)在江苏有线网络中的应用[J].江苏科技信息,2012(5):30-33.

[3]范智勇.基于用户兴趣度的校园网带宽管理策略应用研究[J].计算机与现代化,2012(7):127-131.

猜你喜欢
数据包校园资源
二维隐蔽时间信道构建的研究*
基础教育资源展示
民用飞机飞行模拟机数据包试飞任务优化结合方法研究
一样的资源,不一样的收获
资源回收
SmartSniff
资源再生 欢迎订阅
校园的早晨
春满校园