文/刘建峰 朱亦宁
南京大学:IT服务提升校园网运维效率
文/刘建峰 朱亦宁
如何提高校园网络的运维管理效率,切实保障应用系统可靠、稳定、高效地运行,以进一步提升用户的满意度,是高校网络信息中心长期的追求。南京大学网络从平台架构、运行监控及服务理念等方面进行了系列实践。
作为基础设施的校园网络管理,已经逐步实现从被动式用户报障服务,转变到要求能够主动发现问题,以流程贯穿整个管理过程,提高运维管理的效率,切实保障应用系统可靠、稳定、高效地运行,提高用户的满意度,全面提升校园网的服务质量。
虽然通过学校的信息化系统的整合,部分实现运维系统功能的集成和数据的统一,但此前南京大学的网络运维在资源管理、任务调度、故障处理、任务分发等方面依旧采取传统的方式,缺少运维服务流程管理的网络化、自动化,无法及时跟踪故障情况,不能有效利用历史故障的发生频率、发生类型、处理情况、解决办法等知识的经验,对于故障的处理无法进行效率评估和考核;技术人员忙于应付突发事件和处理问题,工作效率不高。为此,我校基于校园网运维管理与服务的具体实践,提出有效提升运维管理效率的方法。
优化网络架构
传统的大学校园网普遍采用三层架构模式,即核心、汇聚、接入的三层交换网络架构,就一般校园应用而言,传统的三层架构适应校园网在不断扩展阶段的高带宽内部互联互通的需求。但是,三层交换模式存在这样一些问题:支持新业务难,故障点定位慢,无法实现精细化管理,用户端的安全问题导致全网受影响等等。以上这些问题将随着校园网规模的逐步扩大、多业务应用模式的叠加、用户数的不断增加和流量的爆发式增长而显得越来越突出,校园网整体的稳定性和可靠性降低,管理维护成本越来越大。
通过国内高校多次学校调研及专家论证,广泛借鉴运营商的大规模网络建设与运维管理的思路,南京大学校园网络在体系架构上一改传统的思路和模式,即采用以纯路由为核心的扁平化的校园网络架构模式,全网实现精细化的用户管理。扁平化的网络架构,并非将网络物理层面变为两层,而是从网络中设备所承担的功能上进行区分,将网络划分为业务控制层和宽带接入层。宽带接入层由汇聚和接入层设备构成,仅提供基本的用户高带宽接入功能和相互之间的VLAN二层隔离功能;业务控制层则由核心层设备构成,提供网络中的用户接入控制、业务功能实现等复杂功能。这样进行功能划分后,网络的层次更加清晰,更有利于全网的管理维护。
精细化管理
以纯路由为核心的扁平化的校园网络架构模式可以实现对校园网进行精细化的管理控制。
通过网络中的宽带接入层面实现VLAN 的细分功能,VLAN的划分可以细致到每个接入层交换机的接入端口,这样能够实现任意端口之间的二层VLAN隔离功能,避免相互的干扰和影响,做到可细分、可隔离;当端口数量超过4K时,需要采用QinQ的方案,实现VLAN支持能力的扩展,提供全网4K×4K的VLAN支持。
对用户的各种信息,如用户账号、MAC地址、IP地址、上线时间及其访问行为的识别和记录,做到可跟踪、可追查。
实现基于用户身份的行为控制,对诸如可访问的资源权限、对网络带宽的占用等方面,做到可控制、可管理。
网络应用的精细化管理,实现完善的流量识别和控制能力,保障重要应用系统的网络承载,包括安全性、带宽保障、可靠性等方面,做到可识别、可保障。
此前我校网络信息中心的部门设置,是采用纵向一条龙的管理模式,即从规划、调研、建设、管理到维护都是由一个部门负责到底。在网络规模不大、应用相对简单的情况下,此种管理维护模式可以保证最快速度、最高效率的运行。在网络规模扩大、应用系统增多而高校网络中心运维管理人员数量增长较低的情况下,常常因为应急性的事务而忽略了很多细节,如分管设备的巡检和数据备份,数据中心机房的公共设施的健康状况等。从用户的角度来讲,出现的问题是各式各样的,涉及网络、安全、应用系统等各种情况。
显然,传统应付式的运维服务方式,已经无法满足用户的需求。参考国外大学设定的专门的服务管理机构ITSC(Information Technology Services Center),以及学习国内高校的经验,我校网络信息中心成立系统运行部,对内负责数据中心环境及各种应用服务系统,对外负责用户综合信息咨询及故障处理,有统一的服务电话,工作人员登记信息至运维管理系统以进行流转,负责监控的流程将最终信息反馈给用户,同时处理结果,形成经验保存为经验库,作为后续维护参考。系统运行部促进了组织业务流程与服务管理基础架构集成,协调用户和IT服务人员之间的联系,为提升运维管理效率做好体制保障。
源自于英国的ITIL(Information Technology Infrastructure Library,信息技术基础架构库)管理理论是IT基础架构运维管理最佳实践的集合。许多企业多年的实践证明,ITIL的良好应用可以帮助企业优化IT服务管理流程,提高内外部客户的满意度,提升IT服务管理水平,帮助企业降低IT服务成本,提高管理效率,ITIL也就成为事实上IT服务管理的国际标准。
采用ITIL标准的网络运维服务体系包括:建立符合ITIL标准的统一信息架构,建立服务台,建设标准的配置管理数据库和知识库,规范工作流程,明确工作职责,实现进度可视化,由角色分工向流程分工转变,实行绩效管理。
建立自动化运维管理平台
IT运维自动化管理建设的第一步是建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源的实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如在自定义周期内进行自动触发,完成对IT运维的例行巡检,形成检查报告,包括自动运行维护、数据备份、病毒查杀等。
智能告警,提高效率
建立共享数据库,把各个监控系统的信息采集到同一数据平台,进行数据分析挖掘,变被动查询为主动分析。同时根据全面的数据采集和智能化的分析手段,对告警信息进行标准化、压缩、归并关联处理,将重复的告警信息进行合并处理之后,提炼出事件的主要故障排除人员和辅助故障排除人员,将智能化之后的告警事件指派到具体负责人和协助人员,并分配不同的任务,运维人员必须在指定时间内完成流程所规定的环节与工作,以提高运维响应问题的效率。
流程跟踪,保障进度
IT运维自动化管理建设时,需要建立故障和事件处理跟踪流程,利用表格工具或知识库等记录故障及其处理情况,以建立运维日志,并定期回顾,从中辨识和发现问题的线索和根源。事实证明可以减少运维操作的随意性和强化执行力度,在很大程度上降低故障发生的概率。同时,用户也可以通过开放的页面随时追踪该用户故障请求的处理状态。
等级划分,保障核心业务
针对不同的运维流程和不同的业务系统,设定不同的优先级,在设置自动化流程时要引入优先处理原则,例行的事件按常规处理,特别事件要按优先级次序处理,优先级高的优先处理,这可以最大限度地保障核心和关键业务的正常服务。
利用外包服务,优化资源配置
就数字化校园运维来讲,外包是指将具有基础性的、非核心、耗时耗力的大量简单重复性的运行维护工作外包给其他企业来完成,使高校网络信息中心能优化资源配置,让有限的技术人员从事网络技术的研究、应用系统的开发等高层次工作。南京大学自2008年到现在,采用将重复、基础性的校园网维护维修工作承包给专业公司的模式,取得了很好的效果,解决了高校网络信息中心人手不足、多校区校园网维护困难的状况。
采用“校园网维护维修外包,中心工作人员接听报修电话,登记在报修系统,给外包人员派单”的方式,充分融合了人员、技术设施和流程这三大关键因素,形成统一的整体,在相关规则的作用下,形成对运维事件的快速响应、流程化处理,实现事件处理的高效性、效果可重复性和服务质量可期性,切实有效地提高高校师生的满意度。
目前数字化校园关注的重心慢慢地从“以数据为中心”、“以系统为中心”转移为“以用户为中心”。系统运行部以用户为中心,不断调整服务体系的组织结构、工作内容、工作方式、工作方法、工作流程和工作范围,全力保障网络和应用系统安全、高效、稳定地运行,为用户提供优质服务。
统一服务平台
打破时间及地域限制,提供开放式的网络服务、一站式服务和紧急故障电话24小时服务,同时保证每天14小时的现场服务,在服务过程中注重服务态度和细节。
“以网相连,用心沟通”的服务理念
秉承“以网相连,用心沟通”的服务理念,南京大学网络信息中心多次开展“请进来,走出去”的活动,与用户进行沟通交流。一方面把用户请到中心来,给用户介绍网络与数字化校园建设情况,让用户更加了解数字化校园建设,了解IT服务人员的具体工作环境、方式、方法,并听取用户的合理化建议,并融入后期的工作中。另一方面,我们变被动服务为主动服务,到院系部门单位中去主动帮他们解决在网络和应用系统中遇到的问题,并听取部门用户对网络建设和应用建设的需求和意见,共建共享合理、优化的数字化校园。
南京大学网络信息中心在采用了扁平化架构及上述IT服务管理方法后,校园网络运维变得更加顺畅、更加高效和富有针对性。新的实施方案提升了校园网络服务质量,在师生中赢取了较高的美誉度。
(作者单位为南京大学网络信息中心)