◆马佳华
操作系统、网络体系与服务器技术
基于网络知识资产库的网络协同运维系统研究
◆马佳华
(92493部队13分队 辽宁 125000)
本文通过对本单位现行网络运维模式的分析,针对当前异构网络间诊断应用系统资源共享和服务协同的需求,阐述了通过信息化和网络技术手段,构建网络协同运维系统,将远程网络维护专家与现场运维人员实现互动,在短时间内调动各种故障诊断资源,实现对网络故障的快速、准确恢复。
知识资产库;网络协同运维;资源共享
面对本单位信息化的迅猛发展,网络已成为信息化战争不可或缺的重要元素。随着新设备的不断增加,网络结构变得日趋复杂,故障发生率也变得越来越高。新业务的不断增加、新技术的不断演进、新应用系统的越来越多都对网络运维人员的运维知识量、故障定位和恢复效率提出了更高的要求,但网络运维护人员的能力却没有增加甚至被削减,原因在于,知识的隐性化、共享范围小和传播能力低下是网络运维人员维护技能不足的主要原因。传统的运维模式下设备、人员相对分散,各地单独管理,专家的经验和知识不能得到有效地传递,管理形成“孤岛”,运维效率低下。当前,网络运维难度与运维人员维护技能之间的矛盾日益突出。因此,亟须一套网络协同运维系统,实现对网络内全系统的监测,及时发现网络故障并告警,通过本地经验知识库和远程经验知识库的支持以及远程协同维护专家的配合,为本地网络运维人员提供辅助决策,使运维工作简单化、科学化,快速准确的解除网络故障,提高时效性,为打赢信息化战争提供强有力支撑。
面对本单位网络发展的迅速、复杂、庞大等特点,本单位网络运维人员的运维技能显得日益捉襟见肘,主要原因在于长期以来运维知识和经验不能够得到有效的共享和传递,知识没有积累并形成一种共有资产,而是在人员更替的过程中不断流失,从而严重影响了网络运维的效率,初步分析主要有如下几个特点:
由于本单位的岗位职责分工明确,网络运维工作被划分成很多岗位,运维人员对负责本岗位之外其他岗位了解非常有限,缺乏熟悉了解所有岗位情况的技术人员,当出现负责某岗位的人员不在位的情况时,其他人员不能及时处理相应岗位的网络故障。
网络运维知识作为一种非物质资产并没有引起足够的重视,由于本单位的岗位具有很大的流动性,铁打的营盘流水的兵,运维人员新老更替较快,而此时网络运维人员未能及时将自己积累的所有网络运维经验传递给新人,新人的知识和经验积累又需要漫长的过程,出现网络故障时往往是现学现用,单位的网络知识资产随着人员的流动不断的流失,大大影响了网络故障恢复的效率和本单位运维人员的工作效率。
各个运维人员都在独立进行网络管理运维工作,当网络出现故障时,都是独立进行资料查找和故障恢复,效率低下。由于影响网络运行的因素很多,出现网络故障时往往需要多个岗位以至于所有岗位人员共同配合查找问题,任何一个环节都有可能影响整体恢复效率,但由于没有一个运维知识和管理共享交流的平台,运维知识和经验得不到共享,运维管理得不到专家的协助,不但增加了故障恢复时间,也造成了资源浪费。
综上所述,本单位运维人员的技能不足是影响网络运维效率的主要因素,日常的运维训练和突发故障的处理是积累人员运维理论知识和实战经验的主要途径。面对网络运维复杂难度越来越大,现行本单位运维人员或没有一个供人员学习、训练、运维的平台,或是有但平台孤立,知识量匮乏,可用性不大。一个统一的网络协同运维系统的建立显得迫在眉睫,一个由各单位共同支撑起来的强大数据库将为本单位运维人员技能迅速提高提供平台,使得本单位运维人员根据自身情况进行不同阶段的针对性训练,快速提高本单位运维人员工作效率。
在当前本单位网络运维需求的强烈指引下,设计了一套网络协同运维系统,先将系统的组织结构介绍如下:
如图1所示,该系统组织结构由物理层、数据层、服务层和应用层组成。
物理层由网络状态显示设备、预警监测设备、故障诊断设备、服务器、路由交换设备组成。
数据层由预警监测数据库、故障诊断数据库、运维知识数据库、经验知识数据库、运维工具数据库组成。
服务层由网络预警监测服务、故障智能诊断服务、网络辅助决策服务、运维工具服务组成。
应用层由预警监测系统、故障诊断系统、辅助决策系统、运维工具系统组成。
图1 网络运维系统结构图
如图2所示,正常运行时,整个网络的设备和线路状态以模拟仿真的形式显示在LED状态显示屏上,当网络故障发生时,首先预警监测设备监测到网络故障方向和线路,按照不同故障级别,网络设备和线路以不同的颜色闪烁并声音告警,系统收集故障数据提供给故障智能诊断系统并向其他可通远程系统发出故障信号。然后,故障智能诊断系统会结合预警监测系统提供的数据进行故障智能诊断,更深入的判断具体故障源,并将故障描述提供给辅助决策系统和终端。辅助决策系统收集故障智能诊断系统提供的数据后,调用本地和远程经验知识库并结合运维知识库给出相关的辅助决策并对结果进行优先排序,发送至终端。
可通远程系统收到故障信号后,辅助决策系统对本地经验库进行检索,对结果进行优先排序后发送给请求系统。并向请求系统发送专家在线信号,本地系统接收到数据后,结合本地系统决策对所有决策进行优先排序,将辅助决策信息和在线专家列表提供给本地运维人员,运维人员参考系统故障描述和辅助决策信息后使用运维工具系统中的网络工具对网络故障进行检查和修复。
当运维人员感觉对系统故障恢复困难时,可点击在线专家进行求助,远程系统收到求助信号时,发出信息和声音提示,如果远程运维人员同意帮助,本地运维人员将与远程专家建立视频链接或进行多节点视频会议,进行远程协助尽快恢复网络故障。
网络故障恢复后,运维人员将恢复经验进行资料整理,通过系统输入到本地运维知识库和经验知识库,对经验知识进行积累。运维知识库由所有运维人员日常进行收集和整理,亦可针对主要网络设备联合地方科研、厂家等力量远程进行不定期维护,分布在各地的运维知识库将定时同步更新。最终,通过使用该系统实现网络知识和经验不断积累丰富,达到全网系的资源共享,为运维人员学习、训练、运维和提高技能提供强有力的支撑。
图2 网络系统运维流程图
网络协同运维系统主要分为网络预警监测、故障智能诊断、辅助决策、运维工具、学习训练五大功能模块,各部分功能模块主要实现以下功能:
网络预警监测:负责网络的安全和性能监测,通过对系统的各项指标阀值的设置,一旦发现有性能指标超标或者安全危险行为,立即发出图示和声音预警并收集数据提供给故障诊断模块使用。通过查看网络功能,运维人员可查看整个网络的拓扑图,图上的设备显示有温度、流量、状态等相关详细信息。状态分析功能为用户提供整个网络的运行状态、趋势、峰值等信息,为运维人员分析整个网络的运行状态提供参考。历史记录模块记录了历史的告警、超负荷等信息,供用户随时查看。
故障智能诊断:网络设备状态以动态拓扑图形式仿真在状态显示屏上,当故障发生时,系统根据预警监测系统提供的数据和运维知识库进行比对,智能判断出网络故障,显示屏上故障设备闪烁,故障线路以红色线条显示,运维人员可通过状态显示屏直观获取故障源。
通过故障查看功能,运维人员可查看更具体的详细故障信息,如端口协议关闭、设备死机、服务停止、流量堵塞等。通过拓扑维护功能,运维人员可更新网络的拓扑图结构、外观、类型等信息。
辅助决策:当网络故障发生时,系统会收集本地相关资源并向远程在线系统发出故障信号,远程系统收到信号后收集并传回相关决策,远程运维人员如果在线,可根据本人经验向故障发生地主动推送辅助决策。本地系统将本地、远程和主动推送的辅助决策方案进行整理优先排序,运维人员通过查看功能,对辅助决策进行参考,结合自身经验快速对故障进行恢复。故障发生期间系统会提供远程在线专家列表,运维人员如恢复故障困难可通过即时通信功能向远程专家请求协助,远程专家通过网络音视频对故障现场提供技术支援。
运维工具:系统中包含了大量的运维工具,主要包括网络工具、系统工具、查看工具、连接工具等,网络故障发生后,运维人员可以使用这些工具,实现流量分析、端口查看,远程登录等操作,进行故障地快速查找、定位、恢复等。通过查看使用教程功能,对运维工具使用方法进行快速学习。工具维护功能使运维人员可对本地工具库进行更新和丰富,以备运维时能更好对硬件支持并使用。通过工具共享,本地系统可快速及时地检测到其他远程系统最新上传或更新的工具并提示给用户,为运维人员及时更新运维工具提供有效途径。
训练学习:该功能可提供学习、自测和考试三个模块,学习模块将知识资产库中的数据进行资料整理,以树的形式分类后展现给运维人员,运维人员可根据自身技能情况有针对性选择资料进行学习。也可通过筛选和搜索等功能快速、准确获取所需知识进行临时性学习。当运维人员感觉知识量积累到一定程度时,也可以使用该模块勾选需要自测的数据库进行自测试卷的生成,对阶段性学习进行巩固。管理者认为运维人员可以进行上岗考试时可通过系统进行试卷生成,进行在线上岗考试。
图3 网络系统运维系统功能图
网络知识资产库作为网络运维单位的资产,不仅是供运维人员学习、培训和提高技能的基础更是网络协同运维系统能够正常运转的核心。本系统采用了Oracle数据库作为存储媒介来存储网络知识,Oracle Database又名Oracle RDBMS,是由美国ORACLE公司提供的以分布式数据库为核心的数据库管理系统,是目前世界上使用最为广泛的数据库管理系统,它具有完整的数据管理、分布式处理、容纳数据量大、实时性高、数据可靠性高等特点,能够轻松实现数据仓库的操作。采用Oracle作为知识存储媒介,不但保证了数据的安全性,更为系统间数据的共享、同步等需要打下了坚实的基础。将网络知识按照特点分为安全知识、交换知识、传输知识、智能网知识等大类,又将智能网知识划分为网络评估、资源管理、业务分析等小类,以此类推,将知识分类存入,共同组成了网络知识资产库。
分布式技术是指数据和程序分布在多个服务器上,它有利于任务在整个计算机系统上进分配与优化,克服了传统集中式系统会导致中心主机资源紧张的缺陷,解决了网络GIS中存在的数据异构、数据共享、运算复杂等问题。分布式服务器技术在本系统中的应用将有利于数据的分布存储和共享,数据一部分存储在本地,另一部分存储在远端,当本地程序需要数据时,可同时获取本地以及远程数据,不但节省了本地空间加快了本地数据的读取,更减少了数据冗余和重复。
信息化时代,本单位对网络的需求越来越多,设备的增加和不断更新使网络运维的难度不断加大,运维人员的能力素质成为制约工作效率的重要因素。网络协同运维系统能够有效解决这一问题,将各地的运维人员和资源充分调动共享起来,形成一个运维专家团队和庞大的网络知识库和专家经验库,共同的处理网络故障,不但能够快速、准确的恢复故障,提高运维效率,无形中对运维人员也进行了一次“故障恢复培训”,同时也对网络知识进行了积累,为本单位运维保障、学习训练和知识传递提供了平台。
同时,我们需要看到,协同运维系统只是一种辅助技术手段,再好的设备没有人驾驭也只是一堆废铁,所以只有当运维知识资产得到足够的重视,通过日常不断积累和设备厂家等科研单位的协助,逐渐形成一个庞大的分布式数据库并被广泛应用时,本单位运维人员的工作效率才能随着设备的不断更新而快速上升。
[1]李振银.网络管理与维护[M].中国铁道出版社,2004.
[2]王淑江,刘晓辉.网络管理自动化[M].电子工业出版社, 2009.
[3]李先, 谭汝聪.网络数据库[M].机械工业出版社, 2010.