摘要:近几年,无论是机场还是空域随着航班量的增加愈来愈繁忙,而对国内外民用航空飞行安全保障能力的要求也更加具体化,本文简要分析民航弱电系统的具体灾备方案。
关键词:民航;弱电系统;灾备方案
1 灾备环境建设意义
随着科学技术的发展,像IBM的HACMP高可用集群多处理技术,容错服务器等可以在局域网范围内解决大部分的硬件和软件引起的系统不可用问题,但是由地震、洪水、火灾、战争等天灾人祸或由于软硬件故障而使生产环境整体无法正常工作等情况所造成的损失依然可以轻而易举地摧毁机场的IT系统。所以,建立灾备环境便成了机场必然的选择。为了能在生产环境产生故障后,灾备环境能快速上线运行,支持机场正常进行生产运营,需要①主机:操作系统运行正常,业务系统部署正常,能迅速启用业务系统。②业务数据:通过存储灾备技术实时将生产环境的业务数据同步到灾备环境的存储系统。③网络:能透明地为用户提供业务系统服务。达到以上三点,那么,灾备环境可以在生产环境故障后迅速上线,并且不丢失数据。
2 民航弱电系统灾备方案
2.1 数据灾备
通常说来,对于灾难恢复方案建议用户建立两个应用环境,生产环境和灾备环境。正常情况下,应用运行在生产环境的计算机系统上,数据也存放在生产环境的存储系统中。当生产环境由于断电,火灾甚至地震等灾难无法工作时,则立即采取一系列相关措施,将网络、应用切换至灾备环境,并且利用灾备环境计算机系统重新启动应用系统。
传统的磁带备份方式一般采取定点备份,而当系统崩溃时。距最近一次备份时间之间的数据将全部丢失,无法恢复。而且磁盘备份恢复时间比较长。由于速度慢,缺乏实时性,无法满足用户大数据量数据恢复及数据库连续性,实时性的要求。
而现在流行的灾难恢复方案主要是采用实时的数据备份的方式。它的主要原理是通过通信线路,实时地将生产环境更新数据拷贝至灾备环境存储系统中,保证数据的实时一致性。当生产环境无法工作时,备份中心可以立即接管业务,并且确保数据的最大完整性。
2.2 应用灾备
灾备环境中的主机,处于“就绪”状态,操作系统运行正常,应用软件与生产环境保持一致性。一旦生产环境发生灾难性故障,灾备环境中的主机,启动应用程序,就能快速上线,为机场的生产运营提供信息系统的支撑。应用切换是指生产环境由于发生灾难而瘫痪时,可由灾备环境的备用服务器提供业务接管,确保业务运行的高连续性。
2.2.1 实现应用切换的前提条件
数据已经从生产环境同步到灾备环境;灾备环境配置与生产环境对应的应用软件服务器、数据库服务器和中间件服务器等,且运行正常;灾备环境网络运行正常或能够实现正常切换。
2.2.2 应用切换技术
(1)双活数据库技术
部分数据库复制容灾软件,能够实现生产中心和灾备环境数据库双活,即灾备环境的备份数据库也处于Open状态,客户端可对灾备数据库进行只读访问。生产环境和灾备环境数据库保持双活,可提高灾备环境的资源利用率,分担生产环境的业务负担,在发生灾难时,自然也可以实现应用和业务的接管。
这种方式的缺点之一是只适合于特定的数据库应用,不适合文件系统等应用,有一定的局限性。
(2)远程集群技术
远程集群是指通过在生产中心和灾备环境的应用服务器上安装远程集群软件(例如Veritas Storage Foundation中的GCO组件),实现跨广域的多服务器状态的监控,当发生灾难时,实现应用服务器的自动切换。
这种方式的主要弊端在于,多种潜在因素(例如集群服务器心跳线中断、网络短时间中断、应用服务器响应不及时等)容易导致在生产中心实际运行正常情况下进行误切换,运行风险高。我们知道,灾备环境的应用接管是一个管理和决策的过程,需要人为参与,无法完全交给机器和软件来替代完成的。
其次,对于存在多应用情况下,采用自动切换,可能导致部分应用出现故障时切换,由灾备环境接管,而其它应用在数据中心运行正常,没有切换,最终产生两个数据中心同时运行,造成数据混乱。
另外,需要注意的是,即使实现了应用服务器(或者数据库服务器)的自动切换,也并不等同于应用的自动切换。一般来说,一个应用由应用服务器和数据库服务器构成,前者提供前端客户端的直接读写请求,并通过数据库服务器进行真实的读写操作,应用服务器本身并不进行数据存储操作,而数据库服务器才是真正和存储系统打交道的服务器。采用集群技术,能够实现应用服务器或数据库服务器的自动切换,但是应用服务器和数据库服务器之间往往存在着依赖关系,它们之间连接关系的建立,一般无法自动完成,因此也无法实现真正的应用自动切换。
(3)手动切换方式
手动切换方式实现较简单,总体成本低,适用范围广,而且較可靠。采用这种方式时,灾备环境部署与生产环境相对应的应用服务器和数据库服务器,安装相应软件。在正常情况下,灾备环境服务器可选择不运行或者处于就绪状态但对外不可访问;发生灾难时,可在人为决策后,将灾备环境服务器启动或恢复对外访问,实现业务的快速切换。
通过对以上应用切换技术的分析,建议首选手动切换方式,针对个别核心数据库应用,也可选择数据库双活技术,提高灾备环境的利用率。
3 容灾系统的管理
3.1 组织机构
容灾备份系统需要由专门机构(指定现有相关部门或者设立新机构)负责日常的管理、维护、以及灾难发生后的系统恢复等工作。该机构的主要职责、职能主要包括:
(1)备份系统的日常维护工作,确保当前备份系统是正常、有效的、以及数据备份的完整性、一致性;
(2)测试及研究工作。测试工作包括对当前备份系统、备份数据有效性、可用性的测试、以及对应用软件的升级测试等;研究与容灾备份相关的技术方案优化以及相关制度、规程的完善;
(3)日常管理、协调职能。负责本部门的日常管理工作,并负责与主用中心、以及相关方面的协调工作;
(4)灾难发生后的系统恢复以及生产组织职能。
3.2 管理制度和操作规程
容灾备份系统的管理、维护、系统恢复、生产组织等需要完善的管理制度和严密的操作规程予以约束、规范,以确保备份系统的可用性和生产恢复的有效性。
在建设容灾备份系统的同时,应结合自身情况建立并不断完善相关的管理制度、操作规程,其中包括:容灾备份工作的领导与组织分工;容灾备份中心机构的职能、职责;人员岗位责任制度;日常维护管理制度和操作规程;测试管理制度;(包括备份系统有效性测试、应用软件升级测试等)灾难/故障的监测与分析、报告制度、以及审批流程规定;系统恢复/切换的操作流程和规范;备份系统恢复运行后的生产组织制度;(其中应包含数据的安全与备份)主用系统重新恢复工作的管理与组织制度。
3.3 灾难的预防
系统技术设计方案的不断优化,在不断提升系统自身安全可靠性的同时,使系统和数据备份的实施、管理、操作更简便、运行更可靠;容灾备份策略和技术方案的不断完善,不断提高备份数据的一致性、完整性,缩短系统运行中断的时间;相关管理制度、操作流程和规程的不断完善、改进;努力减少系统的安全隐患;可能也包括备份系统机房地点的合理选择等。
4 结语
总而言之,维护民航弱电系统的安全性、完整性及可用性是民航各部门的职责,民航管理部门必然认真做好灾备系统建设工作,以备不测之需。
参考文献
[1]陶佩.基于Oracle DataGuard技术的航空情报系统设计[J].网络安全技术与应用,2013.
[2]刘玥.浅谈CNMS灾备系统的设计与实现[J].军民两用技术与产品,2017.07.
作者简介:李颖,1984,男,汉族,四川,本科,助理工程师,研究方向:民航软件开发与测试。
(作者单位:民航成都信息技术有限公司)