李桢
(中国石油化工股份有限公司 茂名分公司,广东 茂名 525000)
某大型炼化公司乙烯厂为了解决控制室过多而分散的问题,2021年建设全厂中心控制室,涉及操作员站的搬迁和部分分散控制系统(DCS)的升级改造。由于中心控制室空间有限,操作员站、工程师站的数量与之前相比大幅减少,中心控制室设置了1台可以访问多套装置的总工程师站,网络的互联对工业控制系统的安全提出了更高的要求。该公司炼油厂2018年曾发生MTBE装置的1台OPC服务器感染了“挖矿”病毒后通过网络传播至其他部分装置操作员站,致使多台操作员站电脑发生频繁重启的事件。因此,网络安全防护和应急处置是该次DCS改造的一个重点内容。尤其是包括操作员站、工程师站、组态服务器等操作节点的完全备份和快速、准确恢复是应急处置工作的关键,本文结合DCS升级改造项目,提出了一种安全、高效的操作节点备份还原的方案。
该次DCS的升级改造,主要采用ECS-700控制系统,单套装置的DCS架构如图1所示。
DCS由控制节点、操作节点和系统网络构成。其中,控制节点包括过程控制站及过程控制网(SOnet)上与异构系统连接的通信接口等;操作节点包括工程师站、操作员站、组态服务器(主工程师站)、数据服务器等连接在过程信息网(SCnet)和过程控制网上的人机会话接口站点;系统网络包括I/O总线、过程控制网、过程信息网、企业管理网等。SCnet网连接控制系统中所有工程师站、操作员站、组态服务器、数据服务器等操作节点,在操作节点间传输历史数据、报警信息和操作记录等。SOnet网连接工程师站、操作员站、数据服务器等操作节点和过程控制站,在操作节点和过程控制站间传输实时数据和各种操作指令。在中心控制室设置了1套冗余的OPC服务器,各装置的生产管理系统实时数据库的数据通过OPC服务器、安全数据采集网关送到生产信息管理系统。中心控制室设置的总工程师站可通过软件访问、切换实现与各装置组态服务器的连接,从而实现对具体装置的组态、监控。同时,为了达到工业控制网络安全“横向隔离”的要求,各装置之间通过工业防火墙加以隔离。
操作节点存在的风险因素主要有: 硬盘故障、操作节点内存等硬件故障,旧主机硬件生命周期结束后无法将系统整体迁移至新的硬件,网络病毒导致多台主机同时宕机、备份不及时导致主机整盘备份数据不完整等。因此,需要在DCS中配置1套备份还原系统,能够实现不停机在线自动定期备份(包括磁盘克隆、增量/差异备份)、异机还原、灾难发生后系统快速恢复等功能。
当前,工业控制系统的备份还原软件主要有美国Veritas公司的Backup Exec(或/和System Recovery)和安克诺斯公司的Acronis Backup。Backup Exec(或/和System Recovery)软件的整机备份功能仅支持VMware和Hyper-V虚拟机的永久增量备份,备份方案针对不同类型数据制定,且在异构硬件平台恢复镜像步骤复杂、存在局限性。而Acronis Backup软件支持物理机和虚拟机磁盘的永久增量备份,1个备份方案可备份所有数据,通过异机还原功能将现有系统备份中必要的系统数据,包括文件、配置、应用程序、操作系统等迁移至新的硬件平台。因此,该项目选用了Acronis Backup 12.5系统备份、恢复软件。
2.2.1网络连接
在中心控制室配置1台备份服务器,并安装管理服务器软件,作为备份数据的存储节点。在需要进行数据备份的操作节点(操作员站、组态服务器等)上安装执行数据备份、恢复的代理程序。备份服务器经工业防火墙与各装置中装有代理程序的操作节点相连,备份还原系统网络连接如图2所示。
2.2.2备份策略
备份采取在线备份的方式。操作员站、OPC服务器的数据平时很少改变,对备份恢复的速度要求高,可采取整机永久增量备份的方式,在操作节点有配置变化时更新整机备份。数据服务器是冗余配置,可每月进行1次增量/差异备份,节点配置变化时进行整机备份即可。组态服务器的数据(组态)平时修改较多,除了每年自动进行1次整机备份外,每月还进行1次增量/差异备份。操作节点的备份频次见表1所列。
表1 操作节点的备份频次
2.2.3 威胁防护
Acronis Backup 12.5软件自带的Acronis Active Protection功能,使用行为启发式方法来分析由进程执行的文件系统事件,并将其与恶意行为模式数据库进行比较,对“勒索病毒”“挖矿病毒”等网络病毒,则在行为开始前采取早期预防措施。同时对备份文件和备份代理实施自我保护,除该软件外,系统中没有任何进程可以修改备份文件。
为了防止网络病毒的传播,备份服务器与各装置操作节点主机之间都采用工业防火墙隔离,除了备份服务器必要的TCP端口在工业防火墙上打开外,其他所有端口都关闭。
当操作节点出现故障时,应用备份还原系统措施如下:
1)紧急恢复。当受到快速传播病毒的攻击,出现大量操作员站无法正常工作时,而这些操作员站又需要同时恢复。网络恢复可用于单台操作员站的紧急恢复,但不建议通过网络进行大规模恢复。因为在同一时间恢复许多计算机时会遇到瓶颈,所以通常建议在受到恶意软件攻击时首先关闭网络,以防止网络病毒进一步传播。
在本地操作员站存储本机的备份。当灾难事件发生时,将操作员站置于离线,采用可引导媒体装载机器,每台机器在本机并行同时恢复,对其他机器不会造成影响。
2)异机恢复。在操作节点的软、硬件生命周期结束后,控制系统不具备整体升级改造条件时,或操作节点损坏没有相同版本硬件备件时,需将包括文件、配置、应用程序、操作系统等的系统数据与依赖的硬件脱离关联,迁移至新的硬件平台。利用通用还原(acronis universal restore)功能,可将备份的系统还原到不同的硬件环境。实现这一功能的前提条件是: 有新硬件平台硬盘驱动器(HDD)控制器、网络接口卡(NIC)、芯片组(chipset)的驱动程序,并且要用包含通用还原的可启动媒体启动计算机。
3)在线恢复。在线恢复功能可以通过网络对出现问题的操作节点进行系统恢复,将保存在备份服务器(存储节点)上的备份恢复到该操作节点。在线恢复的速度取决于网络的运行状况,必须确保网络中每台机器的网络端口速率和工作模式配置一致。该项目实施过程中,曾经出现因为网络中不同机器网络端口速率和工作模式配置的不一致导致网络恢复速度变慢。因此,在系统投用前,一定要做好网速的测试、检查。
数据备份的目的是为了在发生意外的情况下能及时准确地恢复数据,备份还原系统在乙烯厂投用后,提高了系统备份的准确性,减少了操作节点故障恢复的时间,提高了劳动生产率。
需要注意的是数据备份、恢复系统中,数据源端硬盘、数据源端网卡、网线、交换机、数据目的端网卡、数据目的端硬盘各环节中,每一环节都可能影响网络备份、恢复的速度,因此,在系统投用前期要配置、检查好。高效的备份还原系统不仅提升了工业控制系统维护业务的运作效率,同时也为操作节点的数据灾难恢复提供了保障,将成为大型炼化企业工业控制系统安全防护中一个不可或缺的重要组成部分。