以态势感知为中心的网络安全应急响应工作体系研究

2022-09-09 05:50徐文君

电子技术与软件工程 2022年12期

徐文君

（上海市水旱灾害防御技术中心上海市 200050）

2019年，水利部发布《水利网信水平提升三年行动方案》，重点抓等级保护的落地和攻防演练。经过三年建设，省级水利工程等级保护完成率达到100%，攻防演练达到90%。通过等级保护，可使得一个组织迅速建立起管理安全和技术安全兼顾的安全防护体系，并可接受权威网信部门的定期检查监督，是当前电子政务和工业生产领域网络安全的主要推进方式。但是，基于等级保护的安全建设，主要面向合规。其建设过程多为专业安全集成公司根据等级保护标准要求，进行设计，其合规性接受等保测评机构检验。在这个过程中，有可能存在业主单位参与较少，发生为了合规而合规的情况。

作为业主单位，其网络安全应建立在主流技术和成熟产品之上，应将等保标准作为方案参考，重点考察自身安全监控能力和业务保障需要来建设。特别是安全产品集成，要将信息安全产品根据自身的安全监控能力来编排设计。因此，在这种场景中，网络安全态势感知产品，作为一个安全中心，可协调全部安全产品，进行安全分析和安全展示，其对于业主单位的作用就显得尤为重要。但是态势感知产品，其研发重点在于态势要素收集、态势理解和态势预测上，并未充分考虑如何与业主单位的网络安全保障工作相结合。因此，往往在实践过程中，未能融入业主单位的安全保障理念，仅在领导参观时对外展示，从而沦为一个摆设。

从安全保障来看，业主单位的整个网络安全运维，应面向应急响应体系开展。系统发现故障或网络安全产品发现问题后，在态势感知中，立即呈现出事件等级。这样，业主单位才能选择响应的预案进一步采取措施。同时网络安全应急响应也应与生产应急响应体系融合，使之成为业务人员能力理解的指标和征兆，从而使得整个网络安全工作成为生产保障的一部分。

1 面向业务的网络安全应急响应体系

应急响应体系的建设，应该参考《信息安全技术信息安全应急响应计划规范》（GB/T 24363-2009）。整个预案编制过程，基于风险评估的剩余风险清单，进行结合风险对业务的影响，对事件进行分类分级，从而形成针对不同等级的应急预案。在具体工作中，我们发现应急预案的编制人员多为信息化部门或信息安全供应商，其对风险的认知过于技术，从而导致预案的预警部分往往仅能在信息部门中进行适用。然而信息系统是服务于整个组织工作的系统，其用户不仅仅是信息系统的运维人员，同时也应该包括信息系统的使用人员。基于这个情况，我们建立了运维监测和业务监测两个预警体系，如图1所示。

图1：应急响应监测体系图

《GB/T 24363-2009》中，对网络安全事件分级是四个级别，主要是考察事件的影响范围。以往的应急预案中以受损金额为判断依据，对事件进行定级。而标准对网络安全事件的分类是根据网络安全攻击类型来编制的，比如分为攻击事件、故障事件、灾害事件等。实际工作中，我们发现这种分类分级在网络安全事件发生时较难直观得出结论。因此我们做了调整。事件分级由两个维度来判断：

第一个维度根据受影响的终端数量来判断，这样可以直接由信息化运维团队在一段时间内接到的保修数量直接完成定级，同时保留特大级为上级领导责成调查；

第二个维度是事件恢复时间，应急响应时，最可靠的处置方式是备机恢复。因此可对信息化设备和系统的备机情况折算成恢复时间。比如有热备系统，则可认为1小时内；有冷备系统，可认为1小时内恢复到临时环境；需要重装操作系统，可认为4小时内恢复；需要临时调动备品备件则可认为4小时以上。

因此，我们重新调整了应急事件的判断标准，不以具体的安全事件为判断依据，而以对信息系统的影响作为判断依据，形成事件的分级，其分级结果如表1。

表1：网络安全事件分类分级表

至于事件的分类，则放到应急事件后期的取证分析环节，在充分调研了事件的前因后果后，再作出结论。

除以业务恢复工作为主的紧急处置以外的网络安全的取证分析和加固强化，因耗时较多，情况复杂，其工作环节和具体开展时间，不宜在紧急处置过程中开展，本文不予以讨论。

以重大事件为例（其预案涵盖了所有措施要素），我们将处置内容分为技术处置、业务处置和对外信息发布处置三个部分进行。其流程如图2。

图2：应急响应预案流程

2 应急响应对态势感知系统的要求

2.1 产品部署

一个组织的网络安全能力，其从根本上讲，是对业务能力的保障。虽然每个组织业务不同，有的需要保障业务生产能力，有的需要保障持续收益能力，这是组织网络安全的根本战略。针对不同的战略，组织对信息有保密性、可用性、可控性、完整性和不可抵赖性的安全需求。在水务行业，其可用性和可控性方面需求更甚。因此我们将网络安全战略定位为业务系统连续工作的保障。基于这个战略，网络安全的应急响应就是面向计算能力的保障。从业务视角来看，信息系统没有足够的算力执行系统的既定计算功能，具体表现为系统卡顿，直至死机，就应该认为受到了网络攻击。此外，类似切入网络后发送恶意工艺指令的中间人攻击、数据泄露等网络安全事件，其对信息系统本身影响不大，对业务工作目标或组织的商业目标影响巨大。在实际工作中，此类问题的发现往往不是由信息系统和信息安全产品，因此此类网络安全事件，较难直接触发应急响应预案，本文不予以讨论。

基于上述分析，我们的态势感知要素分两个层面

（1）业务监测：监测信息系统各计算节点和信息传输节点的性能保障。

（2）运维监测：监测必要业务运行以外的行为，针对这些行为进行更为早期的预警。

因此，在水务行业，态势感知的体系部署如图3所示。

图3：水务行业态势感知系统及其配套产品部署

态势感知及其探针的主要有三大类，第一类是日志探针，用于收集操作系统、网络设备的日志和安全产品的告警事件；第二类是流量探针，即对网络流量进行旁路解析和探测，以发现恶意用网行为（比如病毒传播、僵尸木马控制、访问非法网站等）；第三类是导入类探针，比如漏洞扫描报告的导入。这三类探针应尽可能覆盖信息系统的全部设备，以形成态势感知的态势信息全面采集。在水务行业中，工业控制系统、办公系统和互联网应用平台并存，在部署探针时，要注意防火墙的穿透和物理隔离网络的数据摆渡，才能实现信息的全面采集。

2.2 扩展开发

通用态势感知平台着重于态势信息的展示，其风险大屏在领导参观时能够全面展示信息系统运行和网络安全状况的概览。但是在实际的安全运维工作中，工作人员不可能实时监测大屏以发现问题。安全运维和应急响应是需要通过告警事件立即掌握问题风险范围和同类问题存在的可能性，并得到处置知识库的直接支持。

基于以上考虑，我们对通用态势感知平台进行了如下扩展开发：

（1）网络连通性：在拓扑图基础上，我们引入了交换机接线信息的录入，使得系统可以计算每个计算节点到其他节点的访问路径。

（2）设备信息扩展：对设备信息的记录，我们扩展了漏扫报告提供的相关信息，每台硬件设备需要记录操作系统、安装的软件，以及相关模块，由此使得漏扫信息导入后，可直接展示在拓扑图上和接线图上，并可根据拓扑计算和网络连同性计算，计算出漏洞路径和关键漏洞设备。

（3）备件信息库：在态势感知各类探针发现设备的基础上，我们建立了备件信息库，登记了探针不能发现的热备系统、冷备系统、备用磁盘、备用移动介质、备用手机等信息，可在主件设备变更后，显示备件的有效性，还可记录演练过程中备件的有效性。

（4）风险警示：我们建立了事件分类分级机制，并将之与设备进行了关联。参考拓扑图和网络连通性的计算，任意一点设备发生问题，可直接显示其潜在风险，并根据影响设备数量和备件情况，直接对告警事件进行面向应急响应的分类分级展示。

（5）应急响应工作流及知识库：在风险警示后，运维人员可根据事件分级，决定该风险是日常运维事件还是应急响应事件，从而发起应急响应工作流。该工作流根据事件最终的分类分级，进入不同的响应流程，并可在知识库提示运维人员如何开展工作，联系相关人员。

通过上述扩展功能的开发，我们基本可以形成一个面向应急响应的功能体系，运维人员仅需根据告警事件提示，就可结合预案和以往处置的知识库开展工作。

2.3 工作体系

态势感知产品部署后，在工作体系层面，需要建立以下工作机制：

（1）软硬件设备的责任体系：态势感知通过日志采集系统和网络安全产品的资产扫描能力，可汇总形成信息化资产清单，网络安全工作人员，就需要对这份清单进行梳理，并将管理使用责任落实到人。

（2）值守工作体系：态势感知系统部署后，作为全系统的安全中枢，需要对态势感知系统进行值守，特别是对性能阈值被突破的时候，需要毫不犹豫的立即按照应急预案，成立指挥部，开展处置工作。

（3）日周月报工作体系：除了值守工作需要形成日报，每周需要对安全产品的预警事件，安排工作计划，进行问题确认、风险消除或不合理策略调整。每月要根据当前的政治、安全环境，安排重点工作。比如2月的两会保障、7~8月间的护网保障等。

（4）与业务系统的应急处置融合：这部分工作，应从风险评估开始，将网络安全问题导致的故障或事故，与组织生产经营故障相结合；反过来以组织的生产经营损失来量化网络安全后果。同时以已有的组织生产经营应急响应预案来统合网络安全应急响应预案。通过这样的融合过程，可进一步统一全组织对网络安全问题的认识。

（5）对外合作：由于建立了完善的日志体系和备机体系，在网络安全事件发生时，可以近乎完整地保留攻击期间的所有证据。在特大网络安全事件下，应积极配合组织内外部的专家、上级主管部门和网信部门，进行分析取证，为进一步举证网络安全攻击者提供相关信息。

通过网络安全工作体系的建立，可使得网络安全的保障工作，贴近组织的生产经营活动，得到组织内所有信息系统使用者的认同，从而使得态势感知系统成为网络安全工作中必不可少的工具之一。

2.4 应用效果

本文所述工作方法，是严格遵循《信息安全技术信息安全应急响应计划规范》（GB/T 26343-2009）的规定，具体应用效果如下：

（1）风险评估：态势感知自身具备了拓扑图和接线图的网络连通性计算能力，结合漏扫报告，可直接展示风险点和同类问题设备，为补丁工作提供了概览和工作清单。

（2）业务影响分析：结合连通性计算，可提供每个设备或一组设备发生问题后业务影响的分析报告，从而使得用户可直接根据影响设备数量和备机恢复整理，了解业务影响情况。

（3）预警和预防：态势感知是网络安全产品的集中展示系统，各类面向黑名单的恶意行为和面向白名单的非可信行为，都可直接在态势感知上实现预警，根据网络连通性进行访问控制策略的加固，从而实现预防。

（4）应急响应流程：通过我们的扩展开发，将应急响应的事件分类分级和各类事件的响应均建成了工作流，使得运维人员可根据工作流开展应急处置工作。

（5）应急响应措施的保障：我们扩展了备件信息库，从而大大提升了应急物资的信息化管理，使得在系统变化时可以同步提示备件的验证和更新，并可在演练中检验和记录备件有效性，从而强化了应急物资的保障。

总体来讲，本方法是针对应急响应，来应用和强化态势感知系统，使之能够让用户遵循国家标准，开展应急响应的预案信息化和处置规范化工作。

3 不足与展望

本文所述工作方法，对水务行业以外的工业类关键信息基础设施有一定的借鉴意义，受限于本文作者工作经验和能力水平，还不足以形成全行业通用的解决方案或最佳实践。后续工作需要继续研究信息系中的设备失效与信息系统工作目标失效的对应关系和推算算法，使得态势感知能够直接根据预告警事件给出具体的生产经营风险，从而使得整个体系更为量化，并成为系统的功能之一。

本文源于上海市水务局网信办多年来对上海市水务行业网络安全检查、相关企业网络安全应急响应预案编制和演练工作和标准《水务工业控制系统网络安全分级分类指南》的工作经验，以及与大量信息安全厂商调研访谈，总结而来，并在某水务集团内部进行了工程验证。对于水务行业，业务相对成熟稳定，其自身的应急响应预案体系完善，但是在网络安全方面，受限于发展时间短，人力资源有限，其应急响应体系建设不足，使得网络安全工作，尚不能与单位的生产经营活动紧密结合，成为生产经营保障支撑的重要力量之一。通过本文，可使得行业内的信息安全工作人员，以态势感知系统为抓手，统合全单位信息化建设和网络安全建设成果，构建起网络安全工作体系，并使之与已经相对成熟的生产经营应急响应体系相融合，真正做到单位的网络安全保障能力大幅度提升。