米热古丽·克比尔
摘要:校园网是一种开放的网络环境,用户群体的行为十分活跃,多样化的用户行为使校园网的管理非常复杂。数据挖掘技术可以从海量数据中抽取相关知识,并对用户行为进行分类。本文将数据挖掘技术用于校园网用户行为分析,得到用户使用校园网络的行为模式,可以为校园网的建设、流量分析以及相关决策提供依据。
关键词:数据挖掘;用户行为分析;K-means算法
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)22-0145-02
1 数据挖掘技术
数据挖掘技术又称为数据库中的知识发现,目的是从网络上的海量数据中快速提取有用的信息;一般而言,数据挖掘技术有如下特点[1]:(1)海量数据。数据挖掘面向的数据量很大,所以如何高效地存取数据,并从大量数据中找到存在于这些数据中的关系,是首先要考虑的问题。(2)不确定性。应用于数据挖掘的数据多数是为特定目的而收集的数据,但是收集数据时可能会遗漏重要的变量,而遗漏的变量可能在做数据挖掘时时至关重要的,因此未知性以及不确定性可能会存在于数据挖掘的全过程。(3)先验知识的失真性。从事数据挖掘的人员可能不希望“假设检验”的存在,即不太愿意将其先验知识预先内置于数据挖掘算法中。
要得到良好的数据挖掘效果,就必须对海量数据进行采集、预处理和优化,优化过程可能需要经常重复一些步骤。原始数据的采集是数据挖掘的第一步,此过程中产生的费用会占整个数据挖掘系统相当大的比重;为确保得到良好的数据挖掘效果,就不得不采集足够多的原始数据。采集后的数据要进行抽样和清理:抽样过程会从大量的元素数据中,提取出有代表性的数据作为样本数据;并不是所有的数据对数据挖掘都是有用的,异常数据、冲突数据等都会对数据挖掘产生不良影响,清理过程的目的就是去掉噪声数据、矛盾数据等不适合训练和学习的数据。数据经过预处理和优化后,随之形成数据仓库,此时即可应用各种数据挖掘算法。
数据挖掘的算法多种多样,具体哪种算法合适要根据实际情况而定;同一种数据挖掘算法可能只适合特定的应用环境。根据数据挖掘过程中是否需要指导,可以将数据挖掘算法分为有指导的学习和无指导的学习两类。无监督的学习过程又被称为聚类分析,聚类过程中不会标记样本,而是需要通过聚类算法自动确定;样本数据不会经过训练即可被划分为若干类。分类算法利用判别函数将样本数据划分为若干簇,此算法的本质目的是通过训练方法得到判别函数。
经典的数据挖掘算法包括[2]:(1)决策树算法。作为一种典型的分类方法,决策树算法先借助归纳算法生成决策树(可读的规则),然后再使用决策树分析新數据;它是从机器学习领域发展成的一种分类函数逼近方法,其核心是构造精度高、规模小的决策树。构造决策树分为生成决策树和决策树的剪枝两步。(2)神经网络算法。用于模拟人的逻辑思维并根据逻辑规则进行推理。神经网络算法先把数据信息化为可以用符号表示的概念,接下来根据符号运算进行逻辑推理。推理过程可以写成串行的指令交由程序执行。(3)统计分析方法。在使用其他的数据挖掘方法之前,可以先尝试使用统计分析方法来解决问题。通过对某些指标的分析,可以反映数据存在的差异和变化;常用的统计分析方法有假设检验,回归分析以及方差分析等。(4)朴素贝叶斯分类。朴素贝叶斯方法源于古典数学理论,只需要很少的参数即可对数据进行分类,并且对缺失数据也不太敏感。贝叶斯公式常用于表示不确定性,所以朴素贝叶斯方法是一种研究不确定性的方法。(5)K-means聚类方法。这是一种基于距离的聚类算法,认为相似度大的两个数据间的距离也越近。K-means算法首先选取任意k个数据作为初始聚类的中心,然后在此基础上进行分类;这k个聚类中心点的选取对聚类结果的影响很大。
2 校园网用户行为的分析
用户网络行为指的是大量用户在使用多种多样的网络资源过程中,所表现出来的规律性行为。目前我国网络用户已高达1.2亿,其中校园网用户占很大一部分,而尚在校园中的学生的世界观、人生观等很容易受到网络不良环境的影响,因此有必要掌握和了解校园网用户的行为。另外,掌握校园网用户行为对改进校园网络设计、增强校园网用户的体验有重要的现实意义。
用户的网络行为可以分为沟通交流类、信息获取类以及电子服务类等。沟通交流类的用户行为指的是校园网用户间借助即时通讯软件、电子邮件等进行交流;另外,校园网是一个重要的信息获取平台,校园网用户可以获取教学资源、课表信息、课表、成绩学分信息等;除此之外,还可以通过校园网实现奖学金申请及发放、选修课程、借阅图书等服务。校园网用户的行为是如此多种多样,以至于用传统的技术很难以得到校园网用户的行为模型。
目前国内对校园网用户行为的分析还处于起步阶段,一般是对服务器中的数据进行分析,并解析用户的行为特征。用户网络行为的分析方法无非如下几种[3]:(1)记忆web日志的方法。校园网服务器中会记录用户的网络行为日志,通过分析客户端的请求页面等信息,可以利用已有的行为数据预测未来的校园网络行为。(2)基于IP地址和点击率的方法。网络层的源IP、目的IP的不同组合对分析用户网络行为会有所帮助;而基于点击率的方法可以用于分析校园网的哪些链接经常被点击,影响点击的因素有哪些等。基于Web日志的方法可以把握整个校园网络的流量、使用情况等,但由于这些数据来源对客户端的IP、访问时间等有很大的依赖,加之数据比较单一,所以无法实现对访问过程中造成的流量关系等比较细节的数据信息。基于IP地址和点击率的方法中缩短访问时间、优化页面等方面有所成效,但无法确切地把握整体的网络性能。数据挖掘技术能够良好的解决上述问题,合理的数据挖掘模型可以在宏观上指导整体的网络性能分析。
为了数据挖掘技术进行聚类工作,需要对校园网用户进行整体的分类,然后再依据不同用户在使用校园网过程中的时长、流量以及偏好等进行大量分析和实验,最终得到用户行为模型。按照校园网用户角色的不同,可以将校园网用户分为学生和教职工两类,学生用户又分为办公区及宿舍区,教职工用户又分为办公区及家属区用户,不同地区的用户可能有不同的使用偏好[4]。作为校园网用户的主要组成部分,学生用户又可以按照不同分类标准划分为不同的群体;例如,可以按照年级和学历进行划分。学生的学号中含有进入学校的年度,可以据此进行年级的划分;研究生以及本科生的学号也有所不同,因此可以根据学号对校园网用户进行多角度分析。
要全面的分析校园网用户的使用行为,可以根据不同时间段、在线时长、网络流量以及访问链接等进行全面分析。分析不同时间段的校园网用户在线情况,能够从宏观上了解整个校园网的使用情况。在没有将数据挖掘技术应用到校园用户行为分析中时,校园网络管理人员需要提取某一时间段内的用户数据,然后人工进行分析。
3 数据挖掘在用户行为分析中的应用
校园网络的管理人员在进行决策时,一个重要的依据是反映校园网络行为的历史数据;但将海量的数据都提供给网络人员并不现实,传统的行为分析方式单纯依靠人工对大量数据进行分析,这无疑低效而且不可靠。数据挖掘技术解决了传统的数据库技术难以从海量数据中获得有价值信息的难题,在将数据挖掘技术应用于校园网用户行为分析时,可以遵循如下的通用模型[5]:
校园网用户行为分析的对象是具有正常行为的“活跃人群”,在用户模式未知的情况下,统计方法不再可用,因此只能使用聚类方法。用户行为的不同参数间可能有一定的关联,比如一个用户的在线时间、网络流量等都是有联系的,而其中的联系会受到用户习惯的影响,所以使用数据挖掘方法进行聚类分析时不能忽视这些内在联系。实际挖掘过程中,需要在大量数据的基础上进行聚类,从中得到用户模式,然后使用统计分析方法分析用户模式中已知的项,最终结合统计分析的结果得到最终的聚类结果。
在用数据挖掘对校园网个体及群体用户的行为特征进行分析时,可以从以下方面入手:网络使用时间、不同地区的使用情况、相同时间内使用各协议的用户数等。分析校园网用户行为的基础是获取可靠的分析数据源,数据流可能在短时间内大量到达,而且具有随时间动态变化的趋势,所以在获取分析数据源时,需要结合不同情况采取不同方法[6]:(1)流量统计法。路由器等网络设备都具备流量统计功能,所以可以记录所有校园网流量的地址信息、数据包流量信息,然后定期读取并分析。虽然这种统计方法的结果比较准确,但由于流量统计会占用大量路由器内存,所以可能对网络性能有一定的负面影响。(2)实时数据采集。端口镜像技术解决了流量统计方法对网络的延时问题,可以实时获取网络上的数据。
本文在实际应该过程中,为了合理分配校园网的带宽资源并进行流量控制,采购并安装使用了网络层的流量管理设备——Netmizer。利用Netmizer采集到的校园网络数据是由数据包组成的,对这些数据包进行解析后判断它们的协议类型及格式。数据包的内容包括:数据包的协议类型(TCP、ARP以及IP等)、源IP地址和目的IP地址、源端口以及目的端口等。当把数据包解析到应用层的时候,就可以根据应用层协议的特征库进行协议识别,从而找到要分析的原始数据。
得到用户行为分析的原始数据后,需要去掉其中的噪声数据,中消除重复记录的基础上进行数据类型转换。用户在访问校园网时,基于同样的目的可能存在大量重复数据,为得到确切的挖掘效果,可以合并这些重复记录。校园网一般都采用网关登录方式,这样可以保证用户及其对应的IP是一对一的,可以将一个IP访问相同地址的重复数据合并为一条记录。另外,数据挖掘算法对数据类型有一定的要求,而且不同的算法可能要求不同;本文在对用户网络行为进行分析时,将协议数据转换为易于分析的数据类型,避免了后续的噪声数据问题。
校园网的流量按照功能上可以分为上课学习、管理科研等目的,按照数据流向可以分为校园内部访问、校内访问校外以及校外访问校内。本文使用VLAN划分不同的校园网用户群。不论哪种用户群,对数据的分析工作都可以按照不同的时间段展开:小时、天、工作日及休息日等。以小时为单位可以分析当天的网络使用特征,得到当天各个时间段内使用网络的校园网用户在线人数及变化趋势,知晓当天学生的工作学习情况等。一天为单位进行分析可以得到校园网在比较长的一段时间内的网络使用情况。与此同时,比对工作日和休息日的使用时间,可以分析休息日和工作日的用户群在使用校园网上的人数差异。最后,可以在对上述三个方面进行纵向分析的基础上,做横向的比对。
4 总结
数据挖掘技术在很多领域得到广泛应用,校园网用户行为分析是一个典型的方面。本文首先介绍了数据挖掘技术,包括數据挖掘技术的特点、典型的数据挖掘算法等;然后分析了校园网用户行为及传统的用户行为分析方法;最后在此基础上将数据挖掘技术应用于校园网用户行为分析,得到校园网用户行为模型。相信本文对掌握校园网用户行为、改进校园网络设计以及增强校园网用户的体验有重要的现实意义。
参考文献:
[1] 牛凯.Web数据挖掘在校园网搜索引擎系统中的应用研究[J].电脑开发与应用,2014-01-25.
[2] 姜亚南.数据挖掘在校园网用户网络行为分析的应用研究[D].河南理工大学,2013-10-01.
[3] 周清清,郭鑫.基于Web的数据挖掘在校园网教学资源共享系统的研究与应用[J].电脑知识与技术,2014-07-05
[4] 付永贵.基于数据挖掘技术的校园网电子交易平台分析[J].山西科技,2013-11-20.
[5] 王家鑫.基于数据挖掘的校园网用户网络行为分析[J].数字技术与应用,2014-11-15.
[6] 申淑平.数据挖掘技术在校园网入侵检测中的应用研究[J].信息与电脑(理论版),2015-10-15.