数据挖掘技术在高校网络运维管理中的应用研究

2018-09-13 10:54霍旭轮
电脑与电信 2018年7期
关键词:网络故障决策树数据挖掘

赵 文 霍旭轮

(三亚航空旅游职业学院,海南 三亚 572000)

1 引言

随着信息技术的发展,在高校信息管理中将数据挖掘技术应用于高校网络维护管理、教学资源管理和教务管理等方面已经成为一种重要的手段。其中,在高校网络维护管理方面,应用数据挖掘技术对于网络故障进行诊断,找出导致故障发生的原因,提高网络运维的效率,对于高校网络健康发展具有非常重要的现实意义。

1.1 高校网络运维管理系统

高校网络运维管理系统是保障高校校园网络服务质量的主要系统之一,其能够准确并及时地应对各类网络故障,保证高校网络的服务水平。高校网络具有典型的用户特征、数据交换特点和网络应用需求,因此高校网络运维管理系统主要是对用户运维管理、网络资源运行管理和网络资源监控管理。其中,用户运维管理是用户可以自助开通和变更服务内容和状态;网络资源运行管理是对校内的IP地址资源、网络设备资源、设备设置信息、应用服务资源进行管理;网络资源监控管理是对网络路由拓扑状态、入网设备位置追踪、网络设备监控系统和应用服务监控系统管理。

1.2 数据挖掘技术

数据挖掘是基于数据仓库提取具有潜在价值的信息,经过加工计算发现规律,进而为决策做出可靠性判断。数据挖掘的前提要保证被挖掘的数据具有一定的规模、挖掘模型具有复杂性、数据变量具有离散性和挖掘算法评价的有效性。数据挖掘的对象可以是关系数据库中结构化的数据,也可以是时间序列、多媒体、互联网数据等半结构化或者异构型数据。数据挖掘的过程经历了数据的准备、数据的挖掘和数据结果应用三个阶段,首先对数据仓库中的数据进行筛选,得到目标数据,再经过预处理和变换得到规范数据集进行数据挖掘,最后对数据做出解释或评价得到所需要的知识。

1.3 数据挖掘算法

数据挖掘是一门交叉性的技术,针对不同的对象挖掘的方法可形式不同,因此数据挖掘算法种类非常多,常见的算法主要包括:遗传算法、关联规则算法、决策树算法、时序算法、BP神经网络算法等。本文所研究的数据挖掘技术在高校网络运维管理中的应用主要采用了决策树、关联规则、时间序列三种算法。

决策树算法是根据事件发生的数据进行归纳学习,进而进行预测建模的算法。决策树算法的挖掘过程经历了数据的预处理、构建决策树模型、样本集验证和预测分析四个过程。数据的预处理是对数据集进行整合、清洗、规范化和离散;构建决策树模型是创建决策树,并对决策树训练样本数据集;样本集验证是对决策树模型输入样本集,通过归纳或者分类判断决策树的可靠性;预测分析利用决策树模型得到预测的结果,并对结果进行分析。

关联规则算法是描述事件之间的关联性的一种算法,其表 现 形 式 为。 如 果 设是项的集合,与任务相关的数据集为D,集合T是数据集中的每个事务T⊆I,规则A⇒B的支持度为,置 信 度 为,支持度和置信度的值越大则关联性越高。

时序算法是通过时间序列分析作出未知的预测,假设已知时间序列{X}在{1到m-1}的历史时刻观测值为{X1,X2,…,Xm-1},那么对未来时刻m+l(≥1)的值Xm+1进行预测,l=1则进行单步预测,l>1则进行多步预测。在时序算法中,本文运用了回归滑动平均算法,该算法是预测时间序列常用的算法之一,该算法原理是利用数据间的自相关性通过历史骚动和历史值对影响系统预测值的因素进行分析,原理公式表达为:

其中p和q为模型阶数,xm+l和是m+l时刻的真实值与预测值,{εt}为白噪声序列,φi和θj为模型的待估参数。

2 网络故障数据挖掘

基于数据挖掘技术的高校网络运维管理模型要求能够实现对数据仓库错误或者缺失的数据进行清理,并采用决策树、关联规则和时序算法进行多层次的挖掘,实现网络故障信息的挖掘和对数据挖掘结果的查询与展示。

2.1 构建数据仓库

数据仓库是进行数据挖掘的基础,根据高校网络运维管理特点构建数据仓库包括数据源层、数据获取层、数据存储层和数据分析层。数据仓库中存储数据包括用户信息、网络故障处理信息、基于时序的网络故障统计信息和网络故障类型信息与诊断信息。这些数据信息中一部分存在数据不一致、数据不完整、数据重复等问题,为此要对数据进行抽取、转换和加载操作,也就是ETL(Extract-Transform-Load)处理。数据处理完成后构建数据仓库,根据高校网络运维管理特征建立故障分析事实表、学生信息维表、网络故障信息维表、网络故障统计信息维表。故障分析事实表如表1所示:

表1 故障分析事实表

学生信息维表如表2所示:

表2 学生信息维表

网络故障信息维表如表3所示:

表3 网络故障信息维表

网络故障统计信息维表如表4所示:

表4 网络故障统计信息维表

2.2 网络故障决策树挖掘

决策树挖掘是利用决策树算法对网络故障信息的关系和规律进行分析,找出导致网络故障发生的因素。其挖掘过程主要包括四个步骤:一是创建项目及选择数据源;二是选择属性;三是创建挖掘结构;四是挖掘处理并建立挖掘模型。

创建项目及选择数据源可以采用SQLServer Data Tools for Visual Studio工具对数据仓库中的特定数据表建立数据源视图;选择被预处理过的网络故障信息表中的故障编号、网络故障类型、故障诊断结果等属性进行处理;运用决策树算法进行挖掘,将网络故障类型作为输入变量,故障诊断结果作为预测变量,建立挖掘模型,得到决策树依赖关系网络。

2.3网络故障关联规则挖掘

关联规则挖掘是利用关联规则算法对网络故障因素之间的关联性进行挖掘,发现潜在的故障危机,从而降低网络故障的发生率。其挖掘过程包括创建挖掘结构和建立挖掘模型。创建挖掘结构是对数据仓库中的预处理网络故障信息表中的报修人、故障诊断结果、学生信息表中的学号等属性进行关联规则算法计算,分别设置支持度参数和置信度参数,支持度参数可以控制算法生成的项集数,置信度参数可以限制模型生成的规则数目,进行处理后查看挖掘结果。

2.4 网络故障时序挖掘

时序挖掘是依据历史记录进行预测,采用连续的时间段统计的故障类型作为数据基础,预测未来网络故障发生的概率和原因。其挖掘过程包括创建挖掘结构和建立挖掘模型。创建挖掘结构选择数据仓库预处理过的网络故障统计信息表中故障发生的数量、故障发生的日期、故障发生的区域和类型等属性进行处理,运用时序算法选择时间范围,将网络故障发生数量设置为输入变量和预测变量,将故障统计时间、区域和类型联合设置为键列,设置时间序列重复叠加时间间隔参数、时间轴参数等通过挖掘模型查看其挖掘结果。

3 实验结果分析

本文以某高校网络运维管理为例,该校2008年建立网络运维管理系统,系统为了保证高校网络服务质量,主要功能包括网络设备的监控、网络故障的报修和网络故障的处理等。经过十年的故障信息数据积累,已经形成了庞大的、有价值的数据库,可以作为基于数据挖掘技术的高校网络运维管理分析源数据。采用ASP.NET平台进行开发,ADOMD.NET分析服务数据访问接口和开放XMLA协议与分析服务器通信,调用本文的预测模型使用DMX质量查询数据挖掘结果。

3.1 决策树挖掘结果分析

采用决策树算法对数据进行分类,获得的缺失事例数为0,由此可以判定决策树挖掘的数据具有完整性,ETL数据处理的结果符合数据质量要求,决策树挖掘结果如图1所示。

图1 决策树挖掘结果

由图1可知,导致网络不稳定的主要因素“接入层交换机因素”的概率最高,事例达到2413件,进而缩小了网络故障诊断的范围,提高了故障排除的效率。

3.2 关联规则挖掘结果分析

关联规则挖掘是通过数据层面的挖掘表现事务之间的关联关系。例如:在高校网络运维管理中,因感染病毒而导致的网络异常非常常见,但是要准确判断病毒导致网络故障的具体原因则非常困难,如果采用全盘查杀非常耗时,所以通过大数据挖掘来判定病毒入侵的方式和感染的位置对于快速处理网络故障具有非常好的效果。本文针对决策树挖掘结果“接入层交换机因素”的关联关系进行双向预测,接入层交换机工作不稳定所关联的关系主要有计算机系统问题、网卡故障、室内网络模块损坏、认证客户端故障、网络病毒攻击、网卡工作不稳定、认证客户端版本问题和网络连接会话数超过限制阈值等,将所有关联关系连接按照强弱筛选,结果如图2所示,“接入层交换机因素”与“网络连接会话数超过限值阈值”双向关联,并且关联强度最大,所以得到的挖掘结果是可以提供控制网络连接会话数量和合理设置网络连接会话数阈值的方式预防接入层交换机工作不稳定问题的发生。关联规则挖掘是通过对网络问题关联关系的分析找到关联强度最大的因素,分析出潜在的风险,进而能够提前做出预防措施降低故障发生的概率。

图2 关联规则挖掘结果

3.3 时序挖掘结果分析

将高校网络运维管理的数据按照时间区分,选择2008年10月28日至2018年4月28日的连续时间数据进行挖掘,得到的挖掘结果如图3所示,该数据存在连续的时间轴维度,在以往的数据中9月是网络故障集中的高发期,这是与学生结束假期回校学习的时间规律相吻合。

图3 时序挖掘结果

4 结语

本文通过构建高校网络故障信息数据仓库,利用数据挖掘技术对网络故障信息进行挖掘,介绍了三种在高校网络运维管理中应用广泛的数据挖掘方式,包括网络故障决策树挖掘、网络故障关联规则挖掘和网络故障时序挖掘,三种数据挖掘方式对于高校网络运维管理具有非常重要的应用价值,能够准确判断故障发生的原因,并找到导致故障发生的因素,进而能够提前做出预防措施降低故障发生的概率。同时,又能够判断出高校网络故障高发的时间,便于维护人员提前做好运维准备工作。在高校网络运维管理中,数据挖掘技术具有很好的应用效果。今后还需要对算法进行不断的优化,以提高数据分析结果的准确性。

猜你喜欢
网络故障决策树数据挖掘
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
VxWorks网络存储池分析在网络故障排查中的应用
基于信息流的RBC系统外部通信网络故障分析
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
Wireshark协议解析在网络故障排查中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用