统一运维降低校园网故障率

2012-11-09 13:43何嘉俊
中国教育网络 2012年2期
关键词:校园网运维流程

文/何嘉俊

统一运维降低校园网故障率

文/何嘉俊

随着高校数字化校园网建设的深入推进,信息系统的规模不断扩大,校园网用户对网络的体验和依赖性在加深,用户对校园网服务品质也提出更高的要求。学校的网络中心(或信息中心)承担学校的信息化建设和校园网的运维工作,受编制所限,学校自行维护的人力严重不足,服务品质也受到制约。目前大多高校采用的是故障“来电响应式”的IT护维模式,该模式因维护成本高、响应模式被动,局限性已显露无余。高校的维护模式主要有学校自行维护、第三方专项分散式维护和第三方整体运维。

校园网运维特点

响应要求高

校园网用户群体普遍比较年轻和活跃,对网络的依赖性很强并且网络体验较深,因此对网络质量和服务品质有较高的要求。

链路层故障比较集中

因设备间基础环境较差、线路老化和标识不清等原因,50%以上的网络报障集中在链路层面。

网络安全和行为管理是重点

校园网用户群体文化教育程度很高,很多人喜欢尝试各类技术探索,如此一来,规避潜在的计算机网络业务风险,保障校园网信息平台系统高效的、安全的运行是一项重要的工作。

缺少统一的运维系统

受限于经费和意识等因素,学校没有部署统一的运维系统,部分学校也仅部署网络监控系统,即便如此,监控的层面和颗粒度都远远不能适应服务要求。

运维需求

按照运维的技术广度和深度,校园网运维问题主要体现在四个核心需求层面上,即核心层网络层面、接入层网络层面、应用数据层面和用户服务层面。核心层网络层面包括核心网(城域网)网络维护服务、机房环境(含动力系统)维护服务、服务器设备维护服务、网络安全服务等;接入层网络层面包括链路维护服务、接入层网络维护服务。应用数据层面包括数据库系统、应用系统和门户等;用户服务层面在教学、科研和生活方面提供优质快捷的网络质量和网络服务。

除了核心需求之外,校园网运维管理中还涉及许多日常的业务运维需求,譬如决策分析需求:校园网运维的量化管理需为高校决策层提供IT投资及管理方面的数据支持,同时也将是校园网运维管理人员的绩效考核的重要依据。因此在决策分析层面,决策层对校园网运维系统的管理需求同样是非常明确,应该可以直观查看性能报表、实现对网络运行质量的考核、作为绩效考核的依据。

现有运维模式探讨

高校自行维护的模式

采用这种模式的高校主要有暨南大学、广东外语外贸大学等,上述学校采用设备自行维修,维护工作量最大的链路维护交由学生团队,团队由网络中心的教师管理。这种维护模式的最大益处是可以节约经费,但存在服务不到位、服务质量不高,网络中心为从事低技术含量、重复性的工作所困扰等问题。

第三方专项维护的模式

采用这种模式的高校主要有广东工业大学、广东中医药大学和广东药学院等,上述学校把服务器设备的维修维护、网络链路的新增维护、动力系统分包给第三方;这种维护模式的益处是让学校的教师有更多的精力从事业务系统和关键系统的维护,花较少的经费把工作量大而繁琐、技术含量较低的链路或者专业的工作交由第三方负责, 但也存在流程脱节、服务不到位等问题。

第三方整体外包的模式

采用这种模式的高校主要有广州大学等。学校把核心层网络层面、接入层网络层面和用户服务层面整体打包给专业的第三方机构,网络中心主要关注于业务系统、应用数据层面和科研。这种模式的益处非常明显,服务方通过各类规范机制,能够预警或者第一时间处理各类问题,可给用户提供高质量的网络、高水平的网络服务,学校的各个群体对此都很满意。

点易科技运维体系

点易科技运维体系(见图1)遵循ITIL国际规范和ITSM规范,以IT资源配置管理为核心,紧密围绕校园网用户的各项需求,进行全面设计。在面对用户日益复杂的IT环境,整合IT资源,通过运维体系实现对IT基础架构的统一全面监控和管理,能够及时采集各类告警数据、性能数据和配置数据,进行集成统一的分析、查询、报告和展示,帮助运维管理人员方便有效地定位系统问题,直观快速地诊断和分析问题,将运维模式由被动的支持转为主动式服务。通过服务台接收各类告警事件,按照预先定义的事件管理流程完成事件的处理。建立故障管理、问题管理、变更管理、配置管理等八个服务工作流程,通过管理人员、技术和流程的有机结合,实现IT运维管理标准化和规范化,形成一个整体的IT运维体系。

该体系实现IT 服务支持过程的标准化、流程化、规范化,极大地提高故障应急处理能力,提升信息部门的管理效率和服务水平。

服务体系

整个运维服务体系(见图2)包括运维技术力量、管理人员、IT综合资源和IT运维系统(DTSM)四大部分。通过IT运维系统的标准化、流程化的管理方法,实现人管流程,以客户为中心、以流程为导向的运维服务目的。

1. 运维管理方法

运维管理方法采用基于ITIL的服务管理方法论作为指导,建立完善的IT资源综合维护管理体系。在运维管理体系中,各种系统及其职责简要描述如下:

(1)服务台

建立运维人员、用户与用户管理员之间的单一联系点,统一受理用户的咨询、服务请求、故障报修、流程跟踪、投诉等情况,通过突发事件管理流程及时处理,及时跟踪和通报处理进展,借助知识库和方案库,解决大部分常规事件。

运维技术人员和管理员通过服务台可以获取维护的各种统计和报表、7×24小时电话值班管理和完善的巡检和保养制度。

(2)事件管理

事件管理(Incident Management)流程是事件驱动的日常流程。服务台接收到的事件(Event)主要包括故障(Incident)和服务请求(Service Request)。事件管理负责事件的调查、诊断、修复,其主要目标是尽可能快地解决故障,以恢复受影响的业务。

(3)问题管理

主动的问题管理主要是进行各个系统的巡检、分析和建议。被动的问题管理主要是分析各个系统的故障,定义问题,并提出可能变更以解决问题的建议。问题管理也是各类IT系统以及用户服务工作中的重要方面。

(4)资源配置管理(资源管理)

配置管理是识别和确认系统的信息项,记录和报告信息项状态和变更请求、检查信息项的正确性和完整性等活动构成的过程。其目的是提供IT基础架构的逻辑模型,支持其他服务管理流程特别是变更管理和发布管理流程的运营。为此配置管理需要计量所有IT资产,为其他流程提供准确的信息,为事件管理、问题管理、变更和发布管理等提供基础。

(5)变更和发布管理

图2 服务体系

各个流程提请的变更,必须通过规范化的变更管理流程进行管理和控制,以免变更可能产生负面的影响。维护小组指定一名变更管理员,在用户托派的变更负责人的统一领导下,按照既定的变更管理流程,进行变更的审核和审批。

(6)服务水平管理

主要包括对业务服务水平指标管理和对流程服务水平指标管理两部分。

对业务服务水平指标管理包括:平均无故障工作时间、平均故障修复时间、平均业务响应时间、网络带宽保证等;

对流程服务水平指标管理包括:故障规定时间解决率、故障解决时间、资产平均变更次数、部门或个人每天工单处理完成数量和比例等。

(7)知识库/方案库管理

通过知识提交、审核、发布、查询等功能自动沉淀校园网IT运维服务以及用户服务日常运维中的工作经验,帮助各级支持人员提高技能水平,简化网络物理层服务任务,同时降低对具体个人的依赖。

同时也对各个系统的故障应急方案进行收录,定期演练,不断完善,极大提高服务体系应对故障的能力。

(8)绩效考核管理

绩效考核管理参考服务水平协议、内部管理指标和服务成本因素,对运维执行过程进行分解量化,实现运维人员的工作计量和统计,并结合岗位能力给予考评,从而确保人员的工作效率和服务质量。

2. 运维技术力量

按照运维技术力量的分布方式和专业性特点,分为一线服务团队、二线服务团队和三线服务团队。

(1)一线服务团队

一线服务团队是指现场驻点或最靠近现场的所有技术维护人员、服务台人员、项目经理和相关其他服务人员组成的服务团队。通过统一的运维服务中心对整个校园的各种信息化设备和系统资源进行运维。

(2)二线服务团队

二线服务团队支持是指公司流动服务团队,具有较高水平的故障分析能力以及丰富的实践经验,能为一线服务团队的运维服务工作提供各种后勤保障和技术支持。

(3)三线服务团队

三线服务团队支持是指依靠合作伙伴和合约厂家等的合作关系。三线服务团队具有较高的专业技术水平以及丰富的专属产品实践经验和解决方案,能为一线服务团队的运维服务工作提供各种技术支持。通过三线服务团队,可以提供网络设备原厂维修、备件、现场技术和培训等服务。

3. 运维服务流程

建立维护人员与用户之间的单一联系点——服务台,通过各种方式进行7×24小时统一受理用户的咨询、服务请求、故障报修、投诉等情况,及时跟踪和通报处理进展,借助知识库和以往事件的解决方案,解决大部分常规事件,并结合定期巡检保养,主动预防各种故障,大大降低故障率,缩短故障响应和处理时间,见图3。

运维系统

点易科技校园网综合运维管理平台(DTSM)是为整合校园网系统运行环境、网络、服务器与业务应用等的分割管理,实现对IT资源的集中、统一、全面流程管理的专业平台。平台系统设计遵循 FCAPS、eTOM、ITIL等国际服务管理标准和规范,达到技术、功能、服务三方面的有机整合。以IT资源基础架构为基础,实现对各种IT资源的管理、数据采集和实时监控。通过服务台管理、事件管理、问题管理、变更发布管理和知识库管理等各种规范流程和管理方法,实现IT运维的自动化、标准化和规范化。该平台有效融合IT运维管理中的IT资源、监控、运维流程、人力资源和服务各个重要元素,提高故障应急处理能力,提升系统运维的管理效率和服务水平,实现校园网用户入网流程管理、网络服务流程管理、网络资源管理和各种视图展现。平台能够与收费系统和主流802.1X厂商认证系统对接并实现数据交互。目前该平台已经部署在广州大学、华南理工大学、广东药学院等高校。

总而言之,该平台能够统一IT运维门户,资源管理、资源监控、运维流程和服务一体化;是应需而动、随需而动的动态业务平台;可以根据客户要求二次开发;拥有可视化、仪表化、智能化导航管理的运维模式。

图3 运维服务流程

统一运维案例

广州大学现有大学城、桂花岗两个校区,网络信息点60000多个,接入层设备2000多台,服务器100多台,安全和出口设备若干台,出口带宽2G。学校的网络与现代教育技术中心承担校园网、数字化校园应用系统、基础教学实验室和300多间多媒体课室的建设、管理和维护。在2010年度之前各类故障的响应和处理占据教师和相关技术骨干的主要工作时间。

点易自从2010年接手广州大学的运维之后,通过前期的调研之后,着手部署运维平台(DTSM)、采集和建立统一资源配置库,建立和规范相关管理制度和流程。将各种IT 管理活动按照流程的方式加以组织,并且赋予每个流程以特定的目标、范围和职能,从而加强IT 管理的全面性和综合性。

采集和建立IT资源配置库

从工作区的端口编号到设备间的配线架表和对应的接入层交换机、中心机房的服务器、安全设备、应用系统、数据库、机房动力系统和统一录入和配置到运维系统的资源配置库。

完善IT资源监控系统和运维系统

通过统一资源配置库,对网络设备、服务器设备、服务应用、数据库系统等资源进行实时采集和监控。值班人员能通过统一展现平台,提前发现和解决问题。

根据用户IT管理的特点而建立的各类制度建立和执行中心机房管理和巡检制度、变更制度、风险和应急管理制度和服务台制度。

效益分析

通过点易统一运维体系实现对IT基础架构的统一全面监控和管理,以及建立基于流程的标准化服务体系,使广州大学IT系统得到稳定、可靠、安全的运行,使广州大学校园网运维工作步入一个有序的、规范的层次,使IT系统更好地为广州大学校园网业务系统提供服务,从而提高整体运行效率,提升运行服务水平。通过以上工作,广州大学的各类报障从2009年以前的日均80多个下降到2011年度的日均5~8个,事件响应和解决控制在30分钟,全年没有出现一起3类以上故障(一栋楼宇的网络故障),2010年度、2011年度的用户投诉数量都在3起以下。稳定快速的网络质量、服务到位的网络服务有力地支持学校的教学、科研和生活活动。网络中心也有更多的精力从事各类科研和项目规划,在2011年度网络中心获得广州市科信局4个科研立项。

(作者单位为广州市点易资讯科技有限公司)

猜你喜欢
校园网运维流程
吃水果有套“清洗流程”
数字化校园网建设及运行的几点思考
运维技术研发决策中ITSS运维成熟度模型应用初探
试论最大匹配算法在校园网信息提取中的应用
基于VRRP和MSTP协议实现校园网高可靠性
风电运维困局
违反流程 致命误判
杂乱无章的光伏运维 百亿市场如何成长
四川省高考志愿填报流程简图
NAT技术在校园网中的应用