铁昆 李乐 董斌 程建强
【摘 要】在数字经济高速发展的浪潮下,数字化赋能为企业发展带来了新的机遇。伴随新理念、新技术的推广应用,企业信息化运维管理工作也面临新的挑战。论文从企业信息化运维管理存在的问题展开分析,论述了规范运维管理工作的目标任务,并就运维的日常操作、应急处置、巡检监控、隐患处置以及监督考核等内容的规范管理进行了较系统的阐述,提出从“管人”向“管事”以及从“被动运维”向“推动服务”转变的工作思路,进而实现信息运维服务和管理水平全面提升。
【关键词】数字化;信息运维;规范管理
【中图分类号】F270 【文献标志码】A 【文章编号】1673-1069(2022)05-0040-03
1 引言
随着信息化建设的不断发展和深入应用,信息网络和信息系统的运行维护管理已经成为各单位领导和企业信息服务部门普遍关注的问题。按发展时间进度大体上可以分为两个阶段:第一阶段是企业集约化阶段,多数企业选择了信息运维外包,既解决了企业人手不足的问题,又得到了更专业高效的运维服务;第二阶段是企业数字化转型阶段,党的十九大以来,大中型企业加速数字化转型,运维数字化技术的快速发展更新使得原本的运维的管理跟不上步伐,企业在零散式、分布式、交叉式等多样化新型管理转型出现时又引出了一些新的问题,需要进一步从运维管理的基础面进行分析并开展设计和实践。
2 信息运维管理存在的问题
企业信息系统运维管理是一个复杂的体系,涉及企业信息机房、计算、存储、网络、数据和安全,还有一些其他的网络元素。加上近年来企业积极进行数字经济与实体经济融合,希望运维管理数字化赋能可以给企业带来推动力。然而,面对运维庞大的综合管理,企业在信息运维管理方面却存在以下问题。
2.1 运维数字化潜能不足,服务优化有待提升
随着企业数字化信息系统承载业务量不断增高,以及国家对网络安全管理要求不断提升,信息安全运行保障、系统运行压力与风险不断增大,对运维人员提供的服务要求越来越高。企业需要深挖运维数字化数据潜力,为企业数字化转型作出贡献与保障。然而现阶段,运维人员能力水平、培训程度参差不齐,提供的服务有高有低,技术学习跟不上数字化发展的脚步,数字化信息系统安全保障不确定因素变大。企业信息安全和系统运营带给运维管理新的挑战,运维服务保障优化有待进一步提升。
2.2 内部管理效率不高
随着企业信息化管理职能的不断演进,对现行运维工作的管理模式、职责范围、考核方式等带来变化和挑战。信息化管理部门在日常的信息运维工作中,缺少一致有效的管理与汇报的衔接机制,工作的上传下达效率较低,信息化管理薄弱问题凸显。
2.3 运维管控力度薄弱
企业运维标准不统一,难以形成管理合力。企业现有的信息运维管理制度、流程、标准不统一,难以保障运维服务质量,亟需有效整合企业各类要素资源,开展协同运维和统一技术支持,实现业务与技术相互配合协同,成就企业一体化运营效益的最大化。
2.4 运维职责界面不清晰
工作职责界定不明确,管理范围责任不清。运维人员与企业管理人员之间的工作交集重叠,存在多头管理、越级越权指挥等现象。为适应新形势新要求,建设企业级标准统一的运维体系,由“管人”为主过渡到“管事”为主,进一步优化提升运维管理体制机制就显得非常必要。
3 规范运维管理的目标和内容
3.1 规范运维管理的目标
当前我国步入了建设网络强国、数字中国、智慧社会的新发展阶段,在数字化大发展的潮流中,企业应更加重视“网络与信息安全是信息化建设生命线”的理念,紧扣新发展理念和高质量发展要求,持续增强企业信息化运维保障能力,不断优化提升信息系统运维体系,强化系统及设备安全准入、集中监视和统一调度,切实做到“保障业务信息和客户数据安全”目标,提升本质安全和各类要素稳定运行水平。
3.2 运维管理工作内容分类
服务接入是企业应用系统统一对内服务的一线客服,负责开展业务运营相关工作,对应用系统服务请求和故障进行统一接入受理、统一登记,提供应用系统操作指导、信息发布、故障跟踪协调等服务。系统运行是企业应用系统运行维护二线,负责数字化信息系统巡检监控、故障处理、系统运行管理等,保障信息系统的稳定运行。平台监控是保障企业基础软硬件安全稳定运行的技术支撑,负责主机、数据库、中间件、存储、虚拟化等资源要素的运维。桌面运维是企业面向桌面办公系统的技术支持工作,负责办公计算机及外设、桌面终端、操作系统、办公软件问题的解决。网络运维负责保障企业内、外网网络连接、访问安全和机房运行管理。
3.3 规范运维管理的内容
3.3.1 运维操作管理
坚持“安全第一,预防为主”的方针,深入推进现场标准化作业,严防误操作事故,确保数字化信息系统和网络安全运行。运维人员进行设备操作时应严格执行机房操作两票制,包括任务派发工单和具体指导操作的操作票。每张工单只能填写一个操作任务。操作票的内容应包括开始时间、结束时间、操作对象、操作内容、操作步骤、安全保障操作。工作组人员应熟悉操作票上每一步操作,操作时必须按操作票步骤依次进行。
信息化管理部门应充分利用平台监控数据,派发主动工单并对工单执行情况进行质检,实现人员工单化、工单绩效化。工单由发起人填写或运维管理系统自动生成,明确工作范围、执行人和时间要求等要素,经审核后签发并许可实施。运维人员进入工作场所(含信息机房、设备间、配电间等)需按工单内容逐步实施,操作完成后进行验证确认,最后由主要负责人向工作票签发人办理工作终结手续,并归档相关资料。
3.3.2 运维应急管理
針对信息网络及数字化信息系统事件引起的对企业正常经营、管理构成影响和威胁的各类突发风险事件,按照不同应急事件场景制定现场处置方案。按照现场处置方案规定的处置流程,对各类突发事件和安全事件进行处置。应急预案应结合企业自身实际情况,聚焦新知识和新技术,制定切实可行的培训方案,按照企业应急预案修订的要求,每年开展一次应急预案修订工作。
当企业网络和数字化信息系统发生突发事件时,运维人员应及时响应。首先,启动相应的应急响应程序,进行判断和分析,确定事件造成影响的严重性是否存在风险事件。其次,运维人员根据事件性质和紧急程度,制定处置措施,组织相关人员进行应急抢险,并根据事件的严重性进行事件上报。上报内容包括情况描述、影响范围、风险大小及处理方式等。严重事件:第一时间进行事件上报,联系所有相关技术人员、用户代表进行快速影响分析,启动重大故障预案,保证企业经营管理有序进行。重要事件:判断、分析事件影响,并根据故障处理所需时间,及时到达现场进行故障处置。普通事件:完整记录事件,制定改进计划,组织相关方进行相应处置。突发事件得到处理后,立即对整个事件进行评估,形成详细报告,其内容包括:事件现象、事件原因、处理过程、处理结果、第三方出具的说明等。认真开展网络与数字化信息系统隐患排查和治理工作,避免同类事件再次发生,以闭环管理划句号。
3.3.3 运维巡检管理
企业各类数字化信息系统和信息机房一般实行7×24小时不间断运行,运维人员要负责各类基础设施和设备的监控巡检。信息机房及设备巡视分为定期巡视和特殊巡视。定期巡视是指运维人员定期巡视检查机房设备、电源系统、网络系统、应用系统的运行状况及机房温度和湿度,并做好巡视记录,发现异常情况及时报告。特殊巡视是指遇到恶劣天气、设备异常或运行中有可疑现象及重大事件时,安排运维人员进行巡视,适当增加巡视频度。运维人员在巡检过程中严格按照巡检操作手册要求进行巡检操作并填写巡检记录。巡检排班确定后,运维人员严格按值班表规定的时间进行巡检工作。
运维人员应充分利用可视化、自动化工具开展监控和巡检工作,对巡检时发现的设备故障和各类告警进行甄别,组织相关人员及时分析,对影响业务运营或较为重大的风险应及时进行上报,并有责任督促相关人员解决,直到故障、隐患排除。巡检过程中如发现设备存在一般故障隐患,如双电源设备的电源报警灯闪烁,需填写事件报告单,遵守事件报告制度及时向信息化管理部门上报。信息化管理部门在收到事件报告后,立即指派人员负责该问题的跟踪工作,直到问题排除。运维人员除填写特殊情况记录表外,应通过电话等通报手段向相关人员告知。巡检记录每月归档整理,装订成册后由专人保管,按巡检内容和时间顺序码放,以便后期查阅。
3.3.4 安全隐患管理
为建立隐患发现、隐患分析、追踪整改、隐患消缺的闭环管理机制,提高数字化信息系统整体安全防护水平,实现系统安全的可控、能控、在控,应建立安全漏洞和隐患发现机制、信息安全内控机制和信息安全督查机制。漏洞和隐患治理工作主要是常态开展网络与安全漏洞和隐患发现工作,互联网重大网络安全事件分析、重大网络安全事件调查核查、威胁预警,结合现有安全防护措施,查找缺陷和漏洞。信息安全内控工作通过安全审计和监测分析,落实运维合规性检查和风险隐患排查工作,分析企业存在的数字化安全隐患,对发现的隐患漏洞开展整改工作。信息安全督查工作主要对安全漏洞的全生命周期进行安全监督,是隐患排查通知的发起工作,并根据相关团队排查反馈结果判定是否需要继续开启隐患治理工作。
根据外部机构发布的信息安全首发漏洞、安全预警通知等,信息化管理部门创建安全隐患排查通知单,明确隐患排查工作的要求和结办时间。信息安全内控人员协调安全专业机构制定隐患漏洞工作整改计划,开展隐患排查工作,针对不能及时完成整改的部分将遵循“先降风险,后整改”的原则,采取适当的风险把控措施,针对已及时整改完毕的隐患漏洞,将整改过程及整改结果情况反馈至信息安全督查团队处。督查团队对信息安全隐患治理通知单进行汇总归档,同时对重大和典型隐患进行复查,确保实现相关流程的闭环管理。
3.3.5 数字化资产管理
信息化管理部门应建立资产台账,包含固定资产和无形资产。对于固定资产,应制定相应的上架流程,包含加电测试、安全基线管理、设备配置信息等内容。软件产品应做好版本管理、配置管理、用户管理和数据管理工作,运维人员必须在授权后进行操作。软硬件资产投产前必须经过试运行,运维人员应严密监控其运行情况,以及对网络安全造成的影响,当发现网络运行不稳定或者出现明显可疑情况时,应立即启动应急预案。试运行结束,应开展验收和资产登记工作,验收时应核对资产是否与项目合同内容一致,及时更新数字化资产台账信息及网络拓扑图。对于超过資产使用寿命且无法使用的数字化资产,应按照企业已有的资产管理规定进行报废,报废须经过专业处理,确保所涉及的软件、硬件被安全处置,保证数据被彻底销毁。
3.3.6 设备故障管理
硬件设备发生故障或者其他网络原因影响业务开展时,信息化管理部门组织开展故障排查、原因分析、制定方案、快速实施和恢复网络等工作。发生网络故障时,运维人员先定位故障设备或线路,并进行故障隔离,切换至备用设备或备用线路,恢复网络正常运行。网络恢复后,组织相关团队对网络故障原因进行分析、对故障进行定级,制定解决方案、实施方案恢复网络并形成书面报告。对于3级故障信息通报:运维团队负责向信息化管理部门进行通报,以书面形式说明故障情况,分析故障原因,提出整顿措施。对于影响企业业务的故障信息通报:运维团队向信息化管理部门通报有关情况,包括故障现象、影响范围、原因分析、规避手段、整改措施及有关责任人处理情况。设备故障应建立从发现、定位、处理、恢复、维修、记录全过程的跟踪流程。与设备全生命周期形成资料链,确保每一步都有据可查,并形成闭环管理,持续更新。
3.3.7 运维考核监督机制
信息化管理部门对运维人员进行分级管理和考核,协同服务商建立联合管理考核机制,形成管理合力,强化管控力度,突出管理成效。定期组织开展运维考核评价工作,针对项目费用执行、人员管理、运维服务质量等方面进行考核评价,并通过通报、沟通等多种方式加强监督联动。运维团队每3个月工作结束时进行工作及指标完成情况汇总上报,工作报告中应有对运维团队的工作评价及改进意见。信息化管理部门对运维团队的运维工作进行考核,并在每季度最后一个月的月度例会上,将考核结果进行通报。由运维负责人将考核结果落实到本月的人员薪酬绩效中。
4 结语
企业在数字化转型的全新发展阶段,信息演变与产业发展都在不断地加速和深化,因此,推动传统“大统一”的运维体系向“小核心、大外围”体系转型,偏向借助更专业的团队提供精准、精细运维服务将逐步成为趋势。运维管理的标准化应更加注重对事件和各类要素过程的监控与把控,使其为企业提供高效的服务与安全保障,进一步推动运维工作从“支撑业务”向“推动服务”转变,实现企业数字化运维管理工作再上新台阶,为企业创新发展提供坚强保障。
【参考文献】
【1】董科,王敏媛,樊栽根,等.信息运维服务项目的服务评价机制研究[J].计算机产品与流通,2020(01):124.
【2】陈倩.一体化运维体系在电力信息通信中的价值探讨[J].山东工业技术,2017(06):161.
【3】裴求根,张春梅.大型能源企业一体化信息运维服务体系研究[J].企业管理,2019(S1):264-265.
【4】温海滨,裴卓雄.信息系统运维管理的安全风险分析[J].电子技术,2021,50(10):202-203.
【5】郭东旭.大型传统企业IT运维服务体系的探索与实践[J].石油库与加油站,2017(03):13-19.
【6】马幸飞.数据中心自动化运维管理及平台的建设研究[J].科技创新与应用,2017(36):103-104.