刘日堂++梁野++谷丰强++高明慧++马力
【摘 要】电力监控系统内网安全监视闭环管控技术集安全监视、安全分析、安全运维、安全执行、安全审计等技术于一体,将各类信息安全事件的发现、分析、处理、控制形成管理闭环。整个“闭环管控”过程以“内网安全监视”为基础,通过对安全事件采用过滤、合并、关联等技术手段,获得响应事件的应急处理建议,同时将多个相关事件的应急处理合并生成一个流程工作单进行解决,提高管理人员的工作效率,提升对安全事件的掌控力度。在上述闭环管控环节,通过采用多重身份鉴别、动态授权、强制访问控制等技术,加强安全管理自身的安全性。通过安全状态统计分析对全网监控系统的安全运行进行全面的评估分析,为进一步改进监视策略提供依据,以保障电力监控系统的内网运行安全。
【关键词】电力监控系统 内网安全监视 闭环管控
1 引言
随着电力监控系统安全防护工作和信息系统安全等级保护工作的深入开展,各级电力公司部署了大量监控系统安全防护设备(系统)。上述安全防护设备的运行和管理一直处于松散状态,产生海量的运行数据及安全事件使管理人员疲于应对,无法做到对电力监控系统安全状态的全面掌控,同时缺乏集中监控和统计分析手段,难以及时发现安全隐患。为解决安全防护设备缺乏有效集中监管的现状,本文对电力监控系统内网安全监视闭关管控技术进行研究,实现了全省电力监控系统安防设备(系统)实时在线监控及量化管理。
本文根据闭环管理相关理论为基础,结合电力监控系统内网安全事件的特点,在电力系统内率先提出了“监视→分析→管理→解决→总结”的安全事件闭环管控机制,有效地解决了内网安全事件分析结果不直观、处理过程无监控、处理结果无归档等问题。该系统将安全事件按照七个基本程序进行管理,即事件发现、事件分析、事件处理、事件变更、事件管控、事件关闭、事件总结。七个环节环环紧扣,缺一不可。
为实现对安全事件的科学分类和有效管理,湖北省电力调控中心针对安全告警事件开展了深入研究,同时也借鉴了一些先进的理论和模型。
2 闭环管控系统
2.1 闭环管控相关理论及模型
2.1.1 PDCA循环
PDCA循环又名戴明环,是管理学中的一个通用模型[1]。最早由休哈特(Walter A. Shewhart)于1930年构想,后来被美国质量管理专家戴明(Edwards Deming)博士在1950年再度挖掘出来,并加以广泛宣传和运用于持续改善产品质量的过程中。它是全面质量管理所应遵循的科学程序,包括质量管理活动的全部过程,这个过程按照PDCA循环,不停顿地运转。它不仅在质量管理体系中运用,也适用于一切循序渐进的管理工作,可以使管理工作能够不断创新发展,理顺管理者的工作思路。在管理的过程中,注重检查及反馈,以达到不断改进策略,提升管理水平的目的[2]。PDCA循环,如图1所示。
其中P (Plan) 计划,包括方针和目标的确定,以及活动规划的制定;D (Do) 执行,根据已知的信息,设计具体的方法、方案和计划布局;再根据设计和布局,进行具体运作,实现计划中的内容;C (Check) 检查,总结执行计划的结果,分清哪些对了,哪些错了,明确效果,找出问题;A (Action) 处理,对检查的结果进行处理,对成功的经验加以肯定,并予以标准化;对于失败的教训也要总结,引起重视。对于没有解决的问题,应提交给下一个PDCA循环中去解决。
2.1.2 IDEAL模型
IDEALSM是SEI推出的过程改进模型。该模型将过程改进分为五个阶段来完成,形成一个螺旋推进、循环往复的改进策略。而且该模型还强调每个改进周期内的闭环机制,即:改进问题有被识别、具体的改进措施有被纳入计划,且被执行、被验证和总结。IDEAL[3]模型结构,如图2所示。
其中I代表Initiating(初始化),确定改进的目标并获得改进的基础结构;D代表Diagnosing(诊断),确定现状与改进目标之间的差异;E代表Establishing(建设),计划如何达成目标;A代表Acting(行动),根据计划开展工作;L代表Learning(学习),从经验中学习,以提高未来过程的效能。
上訴理论及模型广泛应用于各行各业,得到了充分的验证,以及普遍的认可。本文提出的电力监控系统内网安全监视闭环管控系统充分继承了PDCA循环和IDEAL模型的精髓,实现了从事件发现、事件分析、事件定位、事件处理、事件控制、事件提升的闭环管理。
2.2 闭环管控系统架构
电力监控系统内网安全监视闭环管控系统是集安全监视、安全分析、安全运维、安全执行、安全审计于一体的管理中心[4,5],其系统架构如图3所示。
2.2.1 数据采集
数据采集是闭环管控的基础,其实现了对电力专用安全防护设备(横向物理隔离设备、纵向加密认证装置)、防火墙、入侵监测系统(IDS/IPS)、防病毒系统,以及电力调度系统内部关键应用的数据采集。
其中,事件获取是采用Syslog方式获取各种安全防护设备的事件内容;事件过滤是将大量无需关注、不重要的安全事件过滤掉;事件归并和聚合是对重复事件进行归并,所有重复事件只记录其第一次发生时间、最后一次发生时间和发生的次数;事件转发是将初步处理后得到的安全事件提交分析引擎。
2.2.2 通信管理
通信管理是整个系统架构中的重要组成部分,主要实现对原始信息的监听以及上下级协同告警信息的发布。
其中原始信息监听主要通过标准的514端口对各类安全防护装置(系统)的syslog告警信息进行监听,为数据采集功能提供重要支撑;同时,闭环管理系统可以采用多级部署,利用信息加密隧道实现对于上下级事件的同步感知,使全网的安全防护及闭环管理工作形成有机的整体,避免安全防护工作出现短板导致安全事件的发生。
2.2.3 分析引擎
该系统实现了事件类型关联、事件内容关联、资产信息关联,能够通过特定算法从大量安全事件数据中挖掘当前的安全趋势和规律[6,7]。关联分析类型如下:
①基本关联,根据事件的基本属性信息关联分析结果;
②攻击关联,根据安全设备发出的告警事件,结合目标资产的类型生成关联分析结果;
③位置关联,根据事件来源的位置或者目标资产的物理位置,生成关联分析结果;
④角色关联,根据事件相关用户名结合事件基本属性,生成关联分析结果;
⑤因果关联,根据事件类型结合事件行为结果,生成关联分析结果。
2.2.4 闭环管控
该系统通过安全监视发现问题,通过事件统计分析问题,通过策略执行处理问题,通过权限管理和安全审计控制问题处理过程,通过知识管理总结问题,提升安全事件处理能力。
其中,安全监视主要是指内网安全监视平台,主要实现对安全事件的采集、分析及告警;问题跟踪是对安全事件进行管理,使安全事件管理的质量评定与工作绩效相结合,提高维护人员的主动性;权限管理对事件处理的人员、权限、时限、内容及步骤进行严格控制,加强在操作过程中的安全防护,减少因非法操作和误操作而带来的系统性风险;执行管控是对解决问题过程进行全程监督和审计,形成事中、事后的审查机制,从而提高运维人员的自律性;知识管理是建立内网安全事件的专家知识库,实现知识的统一搜集、整理、管理[8,9]。
2.3 闭环管控流程
电力监控系统内网安全监视闭环管控系统将安全事件的发现、分析、处理、控制、提升形成管理闭环,整个过程可分为7个阶段,分别是“事件监视与告警”、“事件分析与诊断”、“事件处理”、“变更管理”、“配置管控”、“恢复与确认”、“总结与改进”[10,11]。如图4所示。
第1阶段-事件监视与报警。
值班人员通过内网安全监视应用对电力监控系统安全情况进行监视,及时发现安全事件,并通知相关人员进行处理。值班人员采用二种方式(即内网安全监视的事件告警和值班电话)集中发现和记录内网安全事件,通过创建安全事件工单对事件进行集中流程化处理。
闭环管控系统会对收集上来的事件之间相关性采用过滤、合并、关联的技术手段分析出有效的事件处理切入点,将多个相关事件合并生成一个流程工单处理解决,简化值班人员处理安全事件流程,提高其工作效率。在生成事件工单后,值班人员将工单转给相关系统管理员,由系统管理员对事件信息进行核实后进行进一步处理。
第2阶段-事件分析与诊断。
系统管理员在分析事件的过程中可以与相关的运维人员一起协同分析,并由系统管理员根据事件紧急度、优先级、及影响范围再次确定事件级别合理性。系统管理员可以使用内网安全监视闭环管控提供的事件分析工具,通过过滤、合并、汇总、分析等规则,采用图形化分析手段,直观解析事件关系,帮助运维人员理清思路、找到解决方法。在事件原因和解决思路明确后,系统管理员将事件工单指派给相应的运维人员处理。(如图4)
第3阶段-事件处理。
在运维人员明确解决方案后,将开展事件的处理工作。据事件具体情况进一步由二线、三线运维人员介入处理。
运维人员处理过程中,可以借助知识库管理系统直接提供类似关联事件处理经验以供参考。如果处理事件不涉及到资产配置的变更,则直接处理并将处理完的结果提交值班人员确认;如果处理事件涉及到资产配置的变更时,则要提出变更申请,执行相关变更流程,完成变更后再提交处理结果由值班人员确认。
第4阶段-变更管理。
在事件处理的过程中,如果涉及到资产配置的变更,则需要启动变更管理流程。由运维人员提出变更方案,方案中包括涉及资产、变更内容、风险评估、应急预案、回退措施等子项,变更方案提交给系统管理员审批,经审批后指派相关运维人员进行处理,如果变更方案不通过则重新由运维人员提交新的变更方案。在系统管理员审核通过后,系统将自动关联管控机策略,开启相关资源的“操作通道”,授权相关运维人员完成配置变更操作。
第5阶段-配置变更操作管控。
运维人员在获得资产配置变更操作授权之后,将使用运维专用机对相关资产进行配置修改,同时系统管理员可以实时监视运维人员操作行为,并对不合规操作强制阻断。在强制阻断后,运维人员需要重新考虑变更方案,重新开始新的变更流程。对于运维人员操作全过程采用内容录像方式保存,提高操作全程记录审计能力。
运维专用机对资源帐号密碼采用统一记录与管理,运维人员无法获取系统资源帐号及密码,只有“系统管理员”根据具体事件工单涉及的相关设备进行“动态式”授权,后台自动建立访问控制策略后,运维人员才能操作和修改资源配置。这样能够有效的防止密码外泄,加强相关人员操作访问的权限、时限控制,减少因非法操作和误操作而带来的系统性风险。
第6阶段-恢复与确认。
在运维人员事件处理完毕,系统恢复正常工作后,运维人员将事件工单提交给发现事件的值班人员,由值班人员对事件处理结果进行确认,采用检查资源状态、电话回访等方式确认事件是否解决。同时,值班人员将进行事件处理的满意度调查,由值班人员填写事件处理满意度调查结果和评价。
第7阶段-总结与改进。
在事件恢复后,运维人员对处理内容、方法进行总结,系统自动将处理经验生成事件处理报告并提交系统管理员,系统管理员对事件处理报告进行审核,对满足经典经验的知识进行标注,将经验纳入知识库中。通过对搜集、整理的内网安全事件处理经验进行专家评审,提高知识专业性,形成专家知识库。
3 应用效果
本文提出的闭环管理模式进一步规范了事件管理的程序和标准,丰富和发展了适用于电力监控系统内网安全事件的管理方法,使安全管理工作迈上规范化、程序化的运行轨道。湖北省电力调控中心通过内网安全监视闭环管控系统的建设,使系统管理员可以跟踪事件处理流程,能够及时了解事件处理进度;另外,每周定期查看事件处理操作记录,也可以审计处理操作的合规性。同时,通过建立健全良性的激励约束机制,发挥系统管理人员在工作中的主观能动性,促进了执行效果和执行效率的同步提升。以内网安全监视的闭环管控为例,2015年安全事件数量与去年相比下降较为明显,湖北电网每日安全事件数量基本控制在10个以内。安全事件曲线,如图5所示。
另外,系统管理员生成运维人员绩效报告和事件全程审计报告。绩效报告对运维人员绩效进行统计,包括对事件请求量、事件解决量、事件解决率、事件平均解决时间、事件满意度平均值、事件处理及时率等指标,通过统计分析对安全状态、安全工作进行全面的评估分析,为进一步提高业务能力,进一步改进监视策略提供依据。事件全程审计报告记录事件整个处理过程,对从事件发生、到流程处理、到操作过程、到解决完毕进行全程监督和审计,提高对问题在事中、事后的掌控力度。
4 结语
通过理论和实践证明,电力监控系统内网安全监视闭环管控系统有助于电力监控系统安全防护体系由边界防护向纵深防御发展,解决了电网调度系统对关键安全设备、服务器的日志集中采集和统一管理问题,实现了对安全设备的实时告警与运行状态监测,为电网调度系统提供全面的安全基础支撑,能够及时掌握电力监控系统存在的安全隐患,采取有效措施阻止恶意攻击行为,保障电网的内网运行安全。
参考文献:
[1]宋华明,韩玉启.PDCA模式下的一体化管理体系.南京理工大学[J],2002(2):10-12.
[2]陈建亚.现代通信网监控与管理[M].北京邮电大学出版社,2000.
[3]McFeeley Bob. IDEAL: A User's Guide for Software Process Improvement[M] Software Engineering Institute, CMU/SEI-96-HB-001, February 1996.
[4]胡炎,董名垂,韓英铎.电力工业信息安全的思考[J].电力系统自动化,2002(7):1-4.
[5]高雷,肖政,韦卫.安全关联分析相关技术的研究.计算机应用,2002(7):1526-1528.
[6]刘雪飞,马恒太,张秉权.NIDS报警信息关联分析进展研究.计算机科学,2004,3(12):61-64.
[7]李亚琴.网络安全事件关联分析方法的研究与实现[D].华中科技大学,2006.
[8]王保义,张少敏.电力企业信息网络系统的综合安全策略[J].华北电力技术, 2003(4):19-22.
[9]刘康平,李增智.网络告警序列中的频繁情景规则挖掘算法闭[J].小型微型计算机系统,2003,24(5):891-894.
[10]李先彬.电力系统自动化(第5版)[M].中国电力出版社,2007.
[11]林海.生产流程管理细化量化与过程控制[M].广东经济出版社,2009.