商业银行金融信息系统稳定性策略研究

2014-04-04 08:00
河南科技 2014年6期
关键词:高可用性备份机房

王 刚

(陕西省汉中市邮政局,陕西 汉中 723000)

0 引言

商业银行金融信息系统已全部完成了逻辑大集中,系统运行的稳定性和高可用性至关重要。根据人民银行和银监局统计造成金融信息系统故障的主要方面是硬件问题占40%、软件问题占30%、人为因素占20%、环境因素占10%。因此,稳定性和高可用性设计应尽可能地考虑到上述因素。金融信息系统的稳定性和可用性将取决于内部的应用系统、主机、存储、数据库、网络和基础设施环境等。稳定性策略和高可用性设计是确保系统稳定运行和故障快速恢复的关键。

1 应用系统

银行金融信息系统在应用软件架构设计中应从渠道层、渠道管理层、业务处理层等不同层面通过多种措施和策略的综合设计来提高应用系统的高可用性和稳定性[1]。

1.1 应用负载均衡

应用软件负载均衡通过多个层次上不同的负载均衡策略一起实现整体的负载均衡,设计思路是将大量的并发访问分担到多台节点设备上分别处理,从而提高服务响应速度,避免服务请求集中于单一节点导致拥塞。

1.2 应用软件失效备援

应用软件构建在面向服务的架构、设计思想上,应用服务具有较高的可灵活部署性。通过这种灵活性,结合系统基础设施的规划、部署可以实现应用软件的失效备援。失效备援是在应用管理框架中实现应用服务的冗余部署,利用硬件负载均衡设备或应用软件负载均衡可以在需要时将服务请求切换到相应的冗余服务设备。

1.3 流量控制

流量控制是通过应用软件对系统实施控制的功能。流量控制基于系统逻辑架构,依据系统、子系统、渠道等不同层面的交易流量、交易状态和确定的控制策略、控制规则,对系统实施控制[2]。 应用系统具有的功能:(1)流量数据采集;(2)流量值计算;(3)交易流量控制;(4)渠道流量控制;(5)控制策略及规则管理。

1.4 故障隔离

在应用软件系统发生故障时,通过故障隔离把故障造成的危害控制在最小范围内,提高系统对外服务的整体能力。应用系统故障隔离具有的功能:(1)按渠道的故障隔离;(2)按子系统的故障隔离;(3)支持异常服务的故障隔离;(4)按交易的故障隔离。

1.5 网络负载均衡

在柜面网点前置系统侧,应采用硬件负载均衡器对网点终端连接到网点前置的负载均衡,利用负载均衡器的连接状态检查和负载均衡策略可以灵活地调整终端的连接指向,屏蔽因网点前置机故障导致的终端操作异常,提高网点前置系统的可用性。

2 主机系统

主机系统作为各应用系统的运行平台,其可用性和稳定性是业务系统能够持续、稳定运行的前提。其高可用性和稳定性可从以下几方面加以保障。

2.1 主机自身的高可靠性

主机采用高度冗余设计,可充分保障自身的运行可靠性。主机采用多种容错技术,可有效提升自身的可靠性。

2.2 主机关键部件全冗余配置

为确保主机运行的可靠性和稳定性,系统主机的所有关键部件均采用冗余配置,以消除主机自身的单点故障,其中包括:(1)配置热插拔N+1或N+N冗余电源、风扇;(2)配置冗余系统盘,并通过操作系统进行系统盘的RAID1镜像保护;(3)配置冗余网卡,并采用多网卡绑定技术,实现多网卡间的自动冗余和流量的负载均衡;(4)配置冗余光纤通道HBA卡和InfinibandHCA卡,通过多路径软件来实现多HBA/HCA卡的自动冗余;(5)配置冗余的主机管理处理器,能够在线配置、管理主机并监控主机状态,同时支持透明接管和在线更换管理处理器。

2.3 主机系统的高可用性设计

在主机设计上采用电气隔离的动态硬件分区技术,同时各分区采用相互独立、冗余的I/O配置以实现自身的高可靠性。硬件分区技术在优化主机资源利用的同时,可在同一主机硬件内全面隔离分区故障。如果一个分区中的操作系统、软件或甚至是硬件出现问题,运行在其他分区中的操作系统和软件均不受影响。通过各分区相互独立的I/O接入数据网络、心跳网络和存储网络,从而确保主机系统整体的高可用性。

2.4 主机系统的高可恢复性设计

主机系统的可恢复性从一定程度决定了系统出现故障时是否能够自动修复和快速恢复,应通过主机系统的备份与容灾设计来确保其高可恢复性。主要包括:(1)对主机系统盘将定期进行自动化克隆备份;(2)银行金融信息系统应采用两地三中心+同址备援的容灾体系设计。即同城容灾、异地容灾、同址备援。

通过上述设计,主机系统中将不会存在单点故障隐患,保证了主机系统的稳定性;同时,主机能够在线进行故障硬件更换、在线扩充、不停机进行软件和补丁升级,有效避免了主机的计划内停机。

3 存储系统

数据是所有应用系统运行的基础,而储存这些数据的存储系统的可用性与稳定性对于整个系统来说至关重要。存储系统的可用性和稳定性需要从以下几方面加以保障。

3.1 存储自身的高可靠性

无论是高端存储还是中低端存储应采用高度冗余的高可靠结构设计,充分保障自身的运行可靠性,如:中低端存储的共享总线或交换总线、高端存储的交换矩阵和直连矩阵、多存储控制器架构、冗余后端磁盘路径/双端口物理磁盘等;同时,存储可采用高速缓存镜像写保护、多个前端主机端口并行访问、高速缓存电池后备保护等措施。

3.2 存储关键部件全冗余配置

为确保存储运行的可靠性和稳定性,系统存储的所有关键部件应采用冗余配置,以消除存储自身的单点故障,其中包括:(1)配置N+1冗余存储控制器,避免因控制器故障造成存储无法访问;(2)每个控制器上均配置多个主机接口,同时分别连接不同的光纤交换机,构成全冗余的存储网络环境;(3)内部磁盘均配置为双端口企业级磁盘,两个端口分别连接后端的存储控制器,以确保后端磁盘访问路径的可达性;(4)在根据容量需求和RAID方式进行磁盘配置的同时,在存储中为应用按需配置全局热备盘,进一步加强存储的可用性。

3.3 存储系统的高可用性设计

在存储系统中,需要依据各应用系统的容量和性能需求来分配存储资源,同时根据应用数据所需的安全可靠性等级来定义其磁盘组的RAID保护级别。对于关键数据和重要数据,应采用RAID0+1进行保护,对于次重要数据可采用RAID6或RAID5进行保护。

3.4 存储系统的高可恢复性设计

存储系统的可恢复能力将直接体现在数据的可持续应用方面,需要通过数据备份与存储容灾设计来确保存储的高可恢复性。主要包括:(1)系统的全国数据中心和灾备中心应采用自动化备份管理工具对关键数据进行定时、按策略的自动D2D(磁盘到磁盘)备份,并实现D2D2T(磁盘到磁盘,再到磁带)多重备份,从而确保数据的高可用性。在存储的数据发生丢失时,通过备份管理工具按故障时间点进行数据恢复;(2)银行金融信息系统应采用两地三中心+同址备援的容灾体系设计。即同城容灾、异地容灾、同址备援[3]。

4 数据库

为了避免数据库主机、数据库存储或数据库逻辑错误等引起的数据库故障,应保障数据库提供7*24小时的对外服务,Oracle提供了一个高可用性、高可靠性和高可扩展性的数据库环境。Oracle数据库提供数据库集群RAC(Real Application Cluster)、Data Guard、 自 动 存 储 管 理 ASM (Automaic Storage Management) 故障组镜像、 闪回技术 Flashback、Stream、RMAN快速备份和恢复等技术来保障数据库的高可用性和稳定性等功能[4]。应充分采用Oracle数据库技术保证高系统的稳定性和可用性。

5 网络

逻辑集中系统从网络结构、网络设备、网络连接和访问策略等几个方面对网络进行了全面的容错保障设计,使网络系统可提供实时的、不间断的网络访问服务,满足其所承载的逻辑集中系统的高可用和持续稳定的运行要求。

5.1 层次化、模块化分区的网络结构设计

全国数据中心应按照业务安全级别进行网络安全域划分,用防火墙、网闸等设备完成的网络隔离;采用VPN、SSL等保证通讯安全和数据传输安全。提出了“网络隔离、数据落地”的安全原则,即按照业务特征、安全要求、风险大小将网络隔离成多个不同的安全域,采用访问控制、路由隔断、防火墙等技术措施进行“网络隔离”,将金融核心系统部署在安全级别最高的安全域中,拒绝直接访问,所有进出该域的数据都要存档备查、所有对系统的访问都要登记日志备查,做到“数据落地”。

依照此原则,逻辑集中系统网络结构必须按照系统所实现功能和安全防护需求的不同进行区域划分。在网络结构设计中,通过功能区域的划分可充分提高各区域之间的独立性,强化区域安全性,隔离网络故障且便于分级管理;同时,模块化的区域划分可提高各区域的可用性,屏蔽各区域间的差异性,将各区域间的相互影响降到最小;此外,区域划分可以使网络层次化更加清晰,复杂度降低,同时也便于各功能区域的内部纵向扩充(Scaleup)和网络系统整体的横向可扩展性(Scaleout)。将网络系统按功能应用进行模块化区域的划分,形成性能更高、安全性和扩展性更强的层次化、模块化的并行结构,并通过区域间的故障隔离机制来提升网络系统总体的可靠性和运行稳定性[5]。

5.2 网络设备级高稳定性、可用性设计

金融信息系统设备级的稳定性和可靠性主要是通过冗余的备份设备和模块来实现的。设备的备份特别是核心设备的备份对网络的可靠运行是非常必要的,设备的备份要求多台互为备份的设备在硬件和软件(操作系统和配置参数)两方面均必须一致和对称。因此,对网络中的关键设备,如各级平台的核心交换机、路由器等设备,原则上都要采取双机热备或负载均衡方式,并要求有冗余电源、风扇、端口和线路,启用设备保护机制提高设备的可靠性。按照系统7*24的高可用服务需求,在系统建设时要进行冗余设备和冗余线路的建设,在网络设计时要满足当进行设备停机维护、配置变更、软硬件升级等操作时不能影响业务系统的运行。

5.3 网络层的高稳定性、可用性设计

网络层面的稳定性和可靠性要对网络架构进行冗余设计,包括物理的冗余和相关协议的配置和优化。原则包括:(1)使用网络设备本身的故障检测和恢复机制来提供更快速和可预测的故障恢复时间,而不是采用设备之间的协商机制;(2)在网络系统中灵活部署多方位的故障检测和恢复机制;(3)确保网络设计能抵抗抖动和故障的蔓延,例如配置路由汇总等来确保故障影响的范围最小。

6 基础设施

机房的电源、制冷散热等基础设施环境是支撑硬件设备稳定运行的前提和基础。为确保系统硬件设备的运行稳定性,对于机房的基础设施环境应提供高可用性方面的保障。

6.1 电力保障

大部分银行的全国数据中心机房采用了高可靠的双路双总线(2N)UPS为机房内设备供电,同时配备了发电机(2+1组柴油机)提供应急后备保护;在同城灾备中心也采用了并联冗余(N+1)的UPS进行供电。因此,在UPS容量足够的前提下,现有机房的电力基础设施环境完全能够保障系统硬件设备的稳定、可靠运行。

6.2 运行环境保障

6.2.1 机房制冷散热控制

全国数据中心和同城灾备中心的机房空调应采用冗余配置模式,并提供了30%-50%的冗余。在部分空调设备损坏的情况下,仍可有效控制机房内的温度。在系统的实际部署中,可进一步通过机房制冷散热与布局优化设计来优化机房空间布局,节省空间并避免产生局部“热点”,同时最大化的降低散热产生的能源消耗。

6.2.2 机房湿度控制

非正常范围内的相对湿度,不仅影响设备的稳定性、可靠性和寿命,而且会对人员造成生理损害。通常,数据中心环境的最佳相对湿度范围是45%~50%。为了避免湿度过高或过低造成设备故障,全国数据中心和同城灾备中心机房的相对湿度应采用机房除湿机或机房加湿器等方式控制在B级 (40%-70%)的正常范围内。

6.3 机房运行监控保障

为避免因环境异常变化产生的设备故障隐患,在全国数据中心和同城灾备中心机房应对机房温度、湿度、UPS、配电等方面进行实时监测,从而及时发现、快速解决机房运行环境中的问题。

7 结束语

本文遵循软件工程的原则,对银行金融信息系统的应用系统、主机、存储、数据库、网络和基础设施等进行分析研究,提出了保障信息系统高稳定性和可靠性的技术措施。在金融信息系统投入运行后,需要可靠的售后服务体系、专业的服务团队和高质量的运维管理流程的支撑[6],以提高运维工作效率,提升客户满意度。

[1] 王刚,冯雨明.商行信息系统应用软件架构研究[J].金融科技时代,2013(10):100-104.

[2] 王珍珍.网络控制系统的稳定与控制[D].江南大学,2008:6-17.

[3] 王刚.商业银行容灾系统建设方案[J].计算机系统应用,2013(11):70-73.

[4] 林树泽,历铁帅.ORACLE数据库管理之道[M].北京,清华大学出版社,2012:73-97.

[5] 王稼祥.国家审计署办公自动化系统稳定性的实现[D].大连理工学院,2009:42-46.

[6] 王刚,周靖华.商业银行信息系统开发项目质量管理的研究[J].福建电脑,2013,29(5):55-58.

猜你喜欢
高可用性备份机房
“备份”25年:邓清明圆梦
创建vSphere 备份任务
超长公路隧桥高可用性监控平台方案分析
旧瓶装新酒天宫二号从备份变实验室
校园一卡通服务端高可用性改造实施方案
N通信公司机房节能技改实践
OpenStack云计算平台高可用性的研究
某IDC机房结构设计
新型有线电视机房UPS系统的配置
大功率发射机房冷却送风改造