聚类算法在高校网络用户行为分析中的应用

2016-07-09 14:27薛黎明栾维新
现代电子技术 2016年7期

薛黎明 栾维新

摘 要: 高校网络管理部门在运行管理过程中积累了大量用户上网行为数据,对用户上网行为进行整理分析将能掌握用户上网习惯、规律,科学有效地制定上网管理策略。以一具体高校为例,通过对用户上网数据进行预处理,抽取相应字段构建分析数据集,通过图表形式对上网登录时间进行统计展示。以上网时长为指标值,分别使用K-均值聚类与Kohonen神经网络聚类方法对上网记录进行聚类分析,得到聚类结果。结合用户信息,以用户与上网记录的对应准则作为判断聚类效果的准则,对两种聚类方式得到的结果进行比较,选择合适的结果。结合计算结果对实验单位的上网情况进行分析,对上网管理策略提出建议。

关键词: Kohonen神经网络; 高校网络管理; 上网行为; 上网管理策略

中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2016)07?0029?04

Abstract: The network management departments in universities have accumulated users′ mass online behavior data in ope?ration management process, which can master users′ online habit and regular pattern by reorganizing and analyzing the users′ online behavior, and formulate the online management strategy scientifically and effectively. A specific college is taken as the example, the users′ online data is preprocessed, and corresponding field is extracted to built the analysis dataset. The online login time is showed in graphic form after statistics. By taking online time as the index value, the clustering analysis for the online record is conducted with K?means clustering and Kohonen neural network clustering methods to obtain the clustering results. In combination with the user information, the results obtained from the two clustering methods are compared by taking corresponding criterion of user and online record as the criterion to judge the clustering effect, and the suitable result is selected. The online condition of the experimental unit is analyzed with the computed results to propose some suggestions for online management strategy.

Keywords: Kohonen neural network; university network management; online behavior; online management strategy

0 引 言

信息技术的高速发展,不但对人们的生产生活产生了巨大的影响,同时也给传统的学校教育带来了很大的冲击[1]。随着互联网应用的普及,网络用户数量快速增加。对国内高校而言,互联网已成为学校师生学习、工作、生活的基本需求,网络用户几乎覆盖了学校100%的人员。高校用户具有知识性强,使用互联网积极性高,信息交互量大等特点,对联网速率、网络稳定性都提出了较高要求。而由于我国高校网络用户连接互联网大多通过学校统一网络管理部门出口连接互联网,对高校而言,互联网出口带宽是有限的,网络管理部门在响应用户的上网需求时,有较大压力。为解决相关问题,各高校网络管理部门也采取了一定措施。一方面,通过技术手段优化学校网络结构,升级网络设备,提高网络可用性;另一方面,通过出台相应的管理措施利用经济与行政手段对用户上网行为进行相应引导,平衡用户的联网需求。

目前国内的很多高校在校园网的运营管理上都会使用一些应用服务器,主要用于认证计费、入侵检测、流量监控等方面。在提供服务的同时,也产生了大量的日志数据存储于后台数据库中。这些数据包含着整个校园网内部用户的使用状况。如果能对这些数据进行科学有效的分析,并对分析结果加以合理利用,将会对整个网络管理起到很大的推进作用[2],为网络管理进行有效支撑,为决策科学化、管理精细化提供帮助。本文以一具体高校为案例,对用户上网行为进行分析,找到相应规律,根据相应指标对用户进行分类,为用户分组,制定用户管理决策提供帮助。

1 数据抽取与分析

D校在进行用户链接互联网管理过程中,用户通过专用客户端软件登录的方式登录互联网,网络管理部门对用户的登录上线时间、退出下线时间,登录总时长等都有专门数据库进行记录。每一次登录在后台都会出现一条记录。由于运行数据库相对庞大,表之间关系较为复杂,数据结构多样,为方便分析,从运行的上网数据库中提取与教工用户上网时间相关的字段,构造上网时间分析表进行分析,如表1所示。

从图1可以看出,每天大约6点钟后开始有少量教工登录互联网,在早8:00—9:00间达到高峰。在中午下班前11:00—12:00间登录人次降低。中午休息及下午上班前(12:00—14:00)登录人次较中午休息前增加,临近下班登录人次降低,下班后登录互联网人次相对稳定但低于上班期间数量。

2 上网时长聚类

聚类(Clustering)是数据挖掘中一种重要的挖掘方法,它是将物理或抽象对象进行分组并将相似对象归为一类的过程[3]。

对于数据库中的记录,上网时长字段(TIME_LONG)是指从登陆网络到退出网络的时间,上网时长指标有一定规律性,为掌握用户上网行为,科学制定用户上网管理策略,下面对用户每次登陆的上网时长进行分析。

K?均值算法是一种基于划分的聚类算法,它通过不断的迭代来进行聚类,当算法收敛到一个结束条件时就终止迭代过程,输出聚类结果。由于其算法思想简便,因此K?均值算法己成为一种最常用的聚类算法之一。

使用K?均值聚类算法对一学院教工上网时长记录进行聚类,根据样本数量,设置聚类个数为4个,经过聚类,四个类的聚类中心分别为:聚类1,中心为3.51;聚类2,中心1.19;聚类3,中心44.25;聚类4,中心72.86。

为每条记录增加一个字段,表示该条记录所属的类别。按上网时长排序的聚类结果如表2所示。

Kohonen网络是自组织竞争型神经网络的一种,它能够识别环境特征并自动聚类[4],该网络为无监督学习网络,能够识别环境特征并自动聚类。该方法用迭代算法优化目标函数来获取对数据集的分类。

聚类结果如表3所示。

3 聚类结果比较与策略分析

对照原始数据发现,一个用户每天可以频繁多次登陆退出网络,在有联网需要的时候上网,不需要上网的时候及时退出,待有需要的时候再次联网,在这种情况下,对于同一个用户,在数据库里一天可以有多条记录。同样,也存在这样的情况,有的用户每天只登陆网络一次,待关机时自动退出网络,对于这样的用户,一天只有一条登录记录。

对于绝大多数用户,个人的上网行为是有一定规律的,而在上述对上网时长进行聚类的过程中并没有考虑用户的因素,这就出现了同一用户的不同上网记录被划分到不同类别的情况,如果上网时长相差较大,被分在不同类别是可以理解的,而如果同一个用户每次上网时长比较接近,且恰巧在聚类边界点附近,但被划分在不同类别,那么聚类结果则不能被很好的理解。

基于这种现象,对上述两种聚类方法的聚类效果进行评价。

评价偏好假设:相比于类间距、类内距离而言,将同一个用户主体距离较近而类别不同的记录记为一类更有意义。对不同聚类算法而言,聚类边界点附近的属于同一个用户但被划分为不同类别的记录越少越好。边界点附近的记录对比结果如表4所示。

在[K?]均值聚类结果中,200720x2,199610x0,200420x0,200910x9四个用户具有在边界点附近且被划分为不同类别的记录,而在Kohonen聚类的边界点附近却没有类似的数据。因此,根据评价偏好,在本例中采用Kohonen聚类方法聚类效果更好,对实际数据的解释效果更好。

策略分析:通过对用户上网时长进行聚类,分析聚类结果,约70%的上网记录为第一类,上网时长集中在1 h之内,说明对大部分用户,都能根据上网需求,调整上线时间,在没有上网需求时,主动退出互联网,这也与大部分用户选择的按时上网收费策略是相关的,说明相应的策略能够影响用户的上网行为。

第四类上网记录数量不多,但上网时长较长超过6 h,对比上网记录的用户信息,发现主要集中在个别用户,结合实际工作与走访调查,发现上述用户普遍存在对上网工具使用不熟悉,不会主动退出网络,只在关机时自动退出网络的现象。针对这种情况,对此类用户进行有针对性的上网工具培训,同时在上网管理策略中增加规则,对上网时长超过6 h的记录,通过消息推送对用户进行提示,有效引导用户使用行为。

4 结 语

本文结合具体实例,对一特定单位网络用户上网时间数据进行分析,根据将同一个用户主体距离相近而类别不同的记录记为一类更有意义的前提假设,对传统[K?]均值聚类算法进行改进。在具体实例中,结合记录中的用户信息,通过将同一用户在边界点附近且属于不同类别的记录调整为一类,对聚类边界点进行调整,改进后的聚类结果对样本数据有更好的解释效果。

参考文献

[1] 仇心荣.浅谈高校校园网管理[J].硅谷,2009(13):133?134.

[2] 丁青,周留根,朱爱兵,等.基于K?Means聚类算法的校园网用户行为分析研究[J].微计算机应用,2010,31(6):74?80.

[3] 叶良艳.基于改进后的K?Means聚类算法的网吧用户行为聚类[J].安徽科技学院学报,2009,23(4):27?30.

[4] 刘纯平.基于Kohonen神经网络聚类方法在遥感分类中的比较[J].计算机仿真,2006,26(7):1744?1746.

[5] 李翔,顾捷.运用聚类算法预测地区电网典型日负荷曲线[J].电力与能源,2013,34(1):47?50.

[6] 马小惠,阳育德,龚利武.基于Kohonen聚类和SVM组合算法的电网日最大负荷预测[J].电网与清洁能源,2014,30(2):7?11.