郭建超
(工业和信息化部网络安全产业发展中心(工业和信息化部信息中心))
《“十四五”推进国家政务信息化规划》中提到,“‘十四五’时期是我国乘势而上开启全面建设社会主义现代化国家新征程、向第二个百年奋斗目标进军的第一个五年,围绕推进国家治理体系和治理能力现代化的总目标,加快推进数字政府建设,政务信息化工作面临新的形势任务要求。”随着信息技术的发展,党政机关业务逐渐电子化,各系统建设越来越复杂,电子政务系统的运行维护也越来越重要。但是,现实中往往单位重建设而忽视了运行维护的重要性。经验告诉我们,系统在开发、建设中要投入资金、人力,在运行维护中也要投入相关资源。只有这样,才能确保电子政务系统平稳高效运行。否则,容易造成虎头蛇尾,有始无终。
电子政务运行维护工作是电子政务信息化最为核心的工作之一,它要求从点滴着手,从细微处下功夫。电子政务运维工作面临的主要问题主要有以下几方面:一、信息运维过程可视化程度低。目前多数单位运维主要是“救火式”运维,没有专门的监控平台,缺少事前预警机制,使得运维人员只能充当“救火队员”,服务缺乏主动性。二、信息运维处理流程不够规范。目前,各系统多数是烟囱状态,缺少统一的维护标准和流程。三、缺乏有效的知识积累和共享,缺少知识库构建。没有有效的知识积累,且运维人员更换频繁,造成操作维护效率低下,类似的故障和问题仍然在不断发生。面对上述问题,急需建设全方位的运维体系,将各类服务器、终端、网络、应用系统全方位统一监控,实现全运维过程可控可管,协调各方运维力量实现全方位协同,是解决当前运维问题的重要抓手。
随着电子政务运维工作重要性的日益凸显,电子政务运维管理必然从粗放管理走向科学管理。保障运维经费,稳定运维队伍,提升运维服务水平,要从运维管理上升到服务管理,满足电子政务业务应用发展需要。运维工作是一项长期的工作,需要我们围绕业务需求为业务提供支持保障,不断更新运维技术,与时俱进,确保电子政务的平稳高效运行,为机关作好有力支撑。
当前,机关电子政务运维工作主要包括:基础环境运维、硬件运维、终端运维、系统运维、安全运维等。
基础环境运维是对机房空调系统、配电系统、UPS、消防系统等的运维,主要是保障电子政务软硬件有一个良好的运行环境。硬件运维主要是指对服务器、路由器、交换机、防火墙、存储等设备的运行维护。终端运维是指对在机关运行的内、外网终端进行维护保障,及时处理用户报修的故障。系统运维是指对机关部署的应用系统(如OA、门户网站、许可事项审批系统等)的运行维护,负责系统故障处理,定期巡检,协调部署更新等。
安全运维主要是指对部署在机房的安全设备进行运行维护,保障设备的正常运行。
当前,机关电子政务运维存在的问题主要有以下几点:
近几年来,主流信息技术的发展日新月异,大数据、云计算、人工智能、网络安全等新技术不断涌现,信息技术快速迭代,更新频繁,设备升级换代成为运维工作的常态。设备的更换和升级使系统的性能得到大幅度提高,提高了机关的办公效率。虽然设备更新后大大提高了运行效率,但它给电子政务运维工作也带来了巨大的挑战。旧设备和新购设备多数都是混合使用,新老设备的兼容性问题越来越突出。而且设备更新换代快,新旧系统混用引发的问题非常突出,机关电子政务运维往往缺乏先进的运维监控手段和工具,仅使用简单老旧的运维管理软件,运维人员技术相对滞后,跟不上新技术的变化。
随着机关信息化建设的不断深入,系统建设越来越复杂。但是运维方面却没有跟上时代的步伐,缺少统一的运维标准,往往是一个系统一个运维方法,一个人一个运维手段,“救火式”运维现象较为普遍,缺少全面的运维管理体系。特别是最近几年,信息技术发展日新月异,信息系统从业务层、数据层到基础架构层均变得愈发庞大和复杂,从而使得机关信息化运维对系统和设备都提出了新的要求。为了应对更加复杂的挑战,我们急需建立统一的运维标准,建立全面的运维管理体系,根据运维管理体系指导机关电子政务运维工作,以使运维更加规范化、科学化。
在日常运维工作中,设备陈旧、人才匮乏是机关运维存在的重要问题,这一系列问题的存在使得运维中不能及时和准确地解决各种故障,同时也无法对设备事件和链路状态进行研究分析,无法有效地监控和维护核心业务系统,更加难以解决设备性能等深层次的复杂问题。在管理方式上,信息部门往往也没有建立运维知识库,过度依赖核心成员,年轻人员成长慢。过度依赖外包厂商,往往出了故障就打电话叫厂商来支撑,缺少事后分析和归纳总结。运维工作停留在传统的接电话响应模式,运维人员工作较为被动,缺乏主动意识和创新意识,工作局限性大。此外,运维人员流动性较大,往往刚培养出的人才却流失掉,运维人员待遇不高,运维队伍不稳定。
为有效解决机关电子政务运维服务工作中存在的问题,基于精益化管理理念,提高运维工作效率,从机关运维架构统筹考虑,我们提出构建面向机关电子政务的“大运维”管理模式[1],以解决统一运维管理的问题。
通过对机关电子政务运维的梳理可知,机关电子政务运维范围涉及机房基础设施、服务器、网络设备、应用系统、终端设备、安全设备等的运维管理。将各软硬件设备纳入统一规划,统一运维和管理,建立一套全流程、全方位运维的大运维系统,优化管理和运维流程,实现集中监控、统一运维及风险防范,对达到降低运维成本,实现资源共享,提升运维效率具有重要意义。
大运维系统具有如下优势:
(1)提高运维效率。大运维系统根据数据信息情况,实时监测完成数据收集、统计、分析、分类存储,实时判断分析应用程序关键性能指标、趋势,减少了人工预判的限制,以真实数据作为判定标准更加准确。系统通过统计分析采集到的数据,实时发出警报并解决问题,缩短平均故障间隔时间,快速恢复原有功能。
(2)业务拓展。大运维系统可统计、分析网站或应用程序等 IT 环境中的数据,了解用户使用模式和地理分布趋势,并确定最具分量的用户。通过用户的划分,掌握有效用户实际需求,针对性优化业务流程,为用户提供更加优质的服务。
(3)实时监测。大运维系统运用机器学习算法和大数据技术,基于服务器和网络基础设施监控,提供针对端对端的网络运维分析,具备对错误事件、容量配置、服务器和网络元件安全性进行深入考察的功能,能实时监测操作系统,主动预防,管理Windows 和 Linux 操作系统中的性能问题,监测意外事件并作出告警,还可以综合了解业务应用状态、资源消耗情况、处理能力等。
所以,建立一套大运维系统,通过主动式监控对服务器、数据库、网络设备、应用系统等进行监控分析,并根据规则对监控数据进行实时检测,以及时发现问题并进行告警,为未来系统建设和业务的升级改造提供依据,具有重要意义。
大运维系统从逻辑上划分,可分为五个模块,分别是用户访问层、业务系统层、数据加密层、数据服务层和基础资源层。
主要包括系统用户、运维工程师和后台管理员对系统的访问。根据需求,设置不同用户角色,系统用户主要是查看系统运行信息,故障及时报修等;运维工程师主要是使用系统巡检、承接运维工单;后台管理员主要是对用户、权限、系统指标项(所巡检系统、服务器等)的配置。
包括对统一运管平台、重要应用系统的访问。
可实现对数据库服务器、数据存储的加密存储,分为结构化数据加密存储和非结构化数据加密存储,用来保障数据库、存储的安全性。
提供运行状态采集、数据采集,监控告警,并把告警推送到相关的系统维护人员手中,做到实时采集、实时维护、实时告警。
主要指服务器、网络设备、安全设备、存储设备、数据库等。
运维工作是一个技术信息密集的领域,需要丰富的知识和经验支撑。在日常运维、服务等工作过程中,会产生大量有价值的信息资料,比如系统文档、应急预案、故障处理记录、操作手册等。基于运维场景进行知识沉淀与推送,是一个现实的挑战。
在运维工作的过程中,总结出了各种经验与知识。对这些通过实践获得的宝贵经验与知识进行科学的管理与利用,将会有效地提升运维团队的技能水平、知识储备,从而降低运维成本。而且多数问题及其解决方案都可以在知识库中获取,更多的事件都可以直接得到解决,从而将电子政务运维人员从重复性的工作中解放出来。可以将更多的精力放在解决其他的新问题上,进而达到提升工作效率,降低运维成本的目的。而经验与知识的总结,通过建立运维知识库[2]将会是一种有效的手段。运维知识库将主要由产品资料库、系统问题库、检查清单库、制度规范库与培训资料库组成,可根据实际的资料积累情况进行调整。
图1 运维知识库
产品资料库主要存放与产品相关的资料,如《系统安装手册》《用户使用手册》《系统升级方案》等,其版本迭代随着系统的变更进行,因此需要做好版本管理。一些资料是事务性工作的产物,可与具体的工、单或任务关联起来,以便进行全过程跟踪与追溯。
对各类运维过程中遇到的事件或问题进行深入的复盘分析,形成文档并归档到运维系统问题库,利用开源系统或自制的系统进行管理,方便查询与分享,促进知识共享与交流。当遇到同类问题的时候可以提供快速的处理方案,同时也有利于对问题进行统计分析,找出系统中的弱点并进行完善,从而有效提升系统的可用率与可靠度。
清单是保证运维工作质量的有效手段,对于不同的工作有不同的清单模板,需要进行有效的组织与管理,方便归档与查询。随着系统的变化,清单也会不停地迭代更新,因此需要进行及时的维护,并做好版本管理。清单的执行结果也需要进行归档管理,方便查询与审计,清单执行结果需要与具体的“工单”或“任务”关联,以便进行全过程跟踪与追溯。
运维工作管理的各个制度、规范与标准,均归档于此。这些内容也会随着运行实际情况的变化而进行迭代更新,因此也需要进行及时的维护,并做好版本管理。
在新的运维体系中,培训分享是知识传递的重要方式,各专业小组负责人的工作职责之一就是培训,为其他小组成员“轮岗”进行提前准备。制作的培训资料就归档于此,以便进行查找与分享。
图2 网络安全保障技术手段
运维知识库还可与应用系统进行对接,作为应用系统的知识输出平台。与应用系统对接后,通过智能检索可以共享知识库中的内容,获取有价值的知识反馈,进而实现知识库的推广应用,方便了用户的使用。
机关电子政务运维保障直接影响党政机关的政治安全、经济安全等,具有重要意义,我们应加强网络安全保障。为此,可以从定期安全评估[3]、安全加固、安全巡检、新系统安全检测、加强数据安全几个方面着手。
根据电子政务系统和所在运行环境的不同,可分为网络设备评估、操作系统评估、应用程序评估三大类,重点加强相关安全保障,周期性地进行安全评估,确保机关电子政务系统的平稳高效运行,为机关正常办公提供有效的信息化支撑。
我们可以对网络设备、安全设备、防火墙、操作系统、应用程序等进行周期性安全加固。其中,对安全设备的加固对象为防火墙、交换机、IPS系统。
应定期对机房硬件设备、软件系统展开安全巡检,指派专业人员确定安全状态监控的对象,形成巡检对象列表。使用专门的巡检工具,借助大运维平台的拨测等功能,定期进行巡检,可将巡检内容定期上传,以做备份。此外,从规章制度上,应该建立完善的运维巡检体系[4],确保巡检有章可循。应及时对巡检过程中发现的问题进行分析,及时发现安全事件并作好记录,分析其发展趋势,及时报告上级主管领导。根据情况作出研判,并作出响应。
新系统上线前检测[5]是应用系统生命周期中的重要组成部分,在对应用系统建设进行规划,并深入调研的基础上,根据机关信息系统上线要求,制订系统上线前的安全检测方案,结合信息系统平台建设情况,按照系统上线前安全检测方案实施检测工作具有重要作用。所以我们在系统上线前,要采用对系统非侵害的测试方法,进而及时发现系统安全风险隐患。
我们可对数据进行加密,从而加强数据安全。数据主要分为结构化数据和非结构化数据,结构化数据主要是数据库表、字段等,非结构化数据主要是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括办公文档、文本、图片、图像和音频/视频信息等。电子政务系统数据加密,可以用加密算法,对数据进行加密,确保即使数据被窃取,也知道数据的具体内容。
信息技术已经成为政府机关运行的坚强保障,而做好政府机关电子政务运维工作是机关信息化的重要环节。做好此项工作是一项复杂的系统工程,需要注重加强制度建设,建立统一的运维制度体系,树立大运维理念,建立运维知识库,并且要加强安全保障,还要注重更新知识结构,总结经验,加强学习,来及时掌握最新的主流技术的实践运用,进而提高机关电子政务的运维水平,保障信息安全,为机关信息化作有力支撑。