国网甘肃省电力公司信息通信公司 张 磊 杨 波 卫 祥
随着社会经济的迅猛发展,移动信息化正成为一场时代的革命,信息技术迅速发展,智能终端高度普及;对于企业而言,移动办公所带来的高效率和便捷令竞争力和经济效益得到进一步提升,通过移动设备来访问电子邮件、文档和应用程序已形成规模,企业为适应这种转变而对系统管理控制和安全策略也应随之扩展到相应的移动设备,企业级应用与移动终端正在快速对接,随之而来的就是对于新形势下移动信息化的运维技术发展的一个新动向,作为信息化的重要组成,随着其工作的自动化、碎片利用、互联网化等优势正被广泛应用。
传统的IT运维服务,人才、地域等因素都受到一定程度的限制,并且员工的个人发展空间和企业发展空间相对狭小。在移动办公的迫切需求之下,信息化的移动运维管理广域、高效、低成本的特性深受各界青睐。移动信息化技术将数据信息打破时间或地域的限制,使之更加快速和高效的被接收和处理,对企业互联网业务涉及到的基础设施、服务以及线上业务进行日常巡检以发现潜在隐患,对整体流程架构进行优先,对监控数据和日志进行技术分析以加强系统的稳定性,及时响应故障,减少维护次数,缩短服务中断时间,保障系统持续稳定运行,使公司日常管理工作的效率得到提升明显。
移动信息化全球企业移动信息化的发展趋向,随着网络环境改善,移动终端设备的普及,移动互联网进入企业级应用的时机已经到来有效解决了员工的协同工作问题
本文就来讨论一下在移动信息化快速发展的大背景下,运维技术发展的新动向。
移动互联网等新技术手段,已迈入智能化阶段,当前移动所面临的困难随着移动信息化规模的加大而增大,具体表现在:随着信息化系统规模的日益庞大,需要信息化办理的业务不断增多,在大数据、物联网、云计算的大环境下,多系统、多业务、多厂商设备等原因导致信息化系统环境复杂多变,对资源的调度、监控、系统设备的维护难度成几何倍数增长,运维服务的交付和支撑等各个环节都造成了冲击和影响;在基础资源的监控方面,用户体验与业务系统的运行和交易情况成为新的关注点;在业务数据方面,由于较多的用户仍然习惯性的将数据中心内部工作作为重点,所以对提升外部服务便捷度与客户满意度的考虑相对较少,运维管理的成熟度还不够高,内部运维管理的业务导向和服务导向成为当前移动运维管理的一大挑战;对于信息化相对完整的企业,由于经历多年运维管理体系的建设,设备五花八门,服务商众多,人员接口复杂,不便于统一指挥和调度,不能及时响应维保服务的需求,因采购建设而产生的数据割裂,工具分散等问题普遍存在,因此,移动运维管理软件的一体化、平台化也是当前运维管理的又一大难点。
管理是移动运维管理的本质所在,管理的成熟度与管理体系的完善度成正比。依照现阶段国内外运维管理体系的标准规范,基于PDCA的原则和理论,从人员组织、制度规范、技术支撑三方面与企业业务目标与IT运维目标相整合,形成一套运维管理体系.实现"监管控"一体化,提高信息化故障分析与诊断的效率、加强业务管理的效率和精细化,满足“集中监控、集中维护、统一管理、自动处理”的现代运营维护需要,实现系统的安全运行状况掌控,快速定位的目标,对信息资源的统一监控和管理,保障信息化系统长期稳定的运行。
信息化移动运维管理的内容主要是针对平台系统运行进行状态监测及故障分析,真正实现信息化的智能化;其主要内容包括:系统主机、网络设备、存储设备、备份硬盘等硬件设施;以及数据库、操作系统、各中心的应用等软件设施;对业务子系统中各类告警信息进行分析,对网络内部的性能和网络运行质量进行量化管理,将系统软件的关键点提供监视和运行保障功能,将故障按照组织、时间段、类型、编号等条件进行运维确认和分配,维修完成后进行进一步的确认以及故障不处理等流程的跟踪查询,支持工单创建、派发、修改、跟踪、核查、统计、关闭等功能;支持将工单信息通过多种方式发送给相关人员,如邮件、短信等;掌握各子系统的资源配置信息,并实现交流与共享,在高扩展的分布式架构下对大型网络结构进行更好的运维管理。
将从数据资源层提取出的数据进行初加工处理,对来自于监控工具的信息进行采集、过滤,进行规格化处理与归并,通过系统自动同步、下发到各个具体的适配器并解释和执行采集原始数据。包括数据采集周期、格式转换定义、过滤条件、归并条件等,根据采集策略过滤重复数据或垃圾信息,进行压缩和过滤,根据规则转化信息格式进行处理后提交给事件规则层进行处理和应用。
通过对软件、硬件、服务进行与应用项目关联,按照系统的重要性划定系统监控的级别,按类型、程度、等级、影响范围、影响度定义等,快速从配置管理数据库的关联树中得到故障的分类和定级。并从IT基础设施信息, 应用项目关联、规则定义等方面在监控对象之间实现绑定,绑定后一个对象作为应用配置中的一个点。
依照监控内容和策略,形成运维响应机制,进行日常维护管理,从而实现事件统一处理,按照自动生成的事件记录,针对故障分析,提供完整的历史数据、实时数据分析和配置方案,启动响应机制在系统中进行处理、解决。包括事件的登记、事件的分配、事件的方案记录、事件的升级和事件关闭等。
知识库管理的重点是对维护和管理各应用系统的知识进行积累,对不同事件的不同处理手段以及异常性能指标所采取的措施进行详尽记录,在故障自动处理和人工处理的过程中通过在知识库中检索相关故障维护的分类和快速定位,提供有意义的数据,找到匹配的处理案例,加快故障和问题的解决速度,使性能监测真正融入到全面运维工作当中。
新形势下,"智能化、自动化、信息化"等技术革新对移动运维管理提出了新要求,传统的运维管理模式存在适应性问题。企业的数字化程度越高,运维的管理难度也越大,随着人工智能技术的不断成熟,通过平台化带来的可扩展性打造新一代的智能运维体系,充分满足企业数字化进程中不断变化的运维需求,为我国企业的数字化转型提供更聪慧、更有力的支持。