张晓平
(河南省信息咨询设计研究有限公司,河南 郑州 450008)
宽带认证鉴权系统是整个宽带系统的基础支撑系统,可以检测和防止各种非法使用通信资源和业务行为,有效阻止非法注册用户使用电信业务资源,保证宽带网络安全和保障电信运营者及用户正当权益,并提供宽带用户上网行为的记录和溯源功能,为公安部门打击各种网络犯罪提供有效支撑。在地震、火灾、洪水、飓风等众多自然灾害以及恐怖袭击等不可预知的灾难发生时,有可能导致企业信息系统的瘫痪,足以毁灭系统中的所有数据。认证鉴权系统如何能在灾难中及灾难后迅速恢复系统数据以保证业务不中断将是本文要探讨的主要问题。
容灾的级别一般分为:数据级、应用级、业务级。
数据级容灾:是指系统可以将主中心的所有数据完整地备份到灾备中心,是更高级容灾模式的基础[1]。它只能保证数据的完整性,业务可能会因为灾难而中断。
应用级容灾:是指在灾难来临时主要业务不中断,但是重要的客户数据以及计费数据可能丢失。
业务级容灾:是指在灾难来临时主要业务不中断,并且重要数据在灾备中心有存储不会丢失。
通信行业是一个特殊的行业,是与人民群众的生活密切相关的。一方面,当灾难来临时需要保证重要上网业务不能中断;另一方面,客户资料和计费资料对于企业本身又是非常重要的,必须保证这些重要数据不能丢失。故宽带认证鉴权系统的容灾需要考虑业务级的容灾。
宽带认证鉴权系统对容灾的需求:
①采用主中心和灾备中心同时建设的双中心模式,要求双中心必须为异地建设;
②实现数据远端备份,确保关键业务系统及其关联系统的数据安全,保证两中心节点间数据的完整性、可靠性和一致性;
③规避不可抗力导致的区域性灾难(地震、强降雨、大范围停电等),提供系统恢复机制,将引发的业务损失降低到可接受的程度;
④规避恶意攻击导致的全系统瘫痪;
⑤双中心互为热备,正常情况下平均分摊全网的业务压力,减小服务器超负荷运行带来的宕机风险。
主中心部署系统所有核心业务,包括系统数据库、Radius、认证计费服务器、业务管理、接口、统计分析等,主中心正常系统业务一切正常。
灾备中心部署系统主要业务,一旦主中心系统无法运行,灾备中心可提供系统主要业务,确保用户正常上网。但是业务无法受理,统计分析、自服务等辅助业务无法使用。灾备中心主要包含radius、认证计费服务器、逻辑备份服务器和数据库服务器。
电信运营商的宽带认证鉴权系统一般在各省集中设置一套认证鉴权系统,系统由主中心和灾备中心组成,两个中心采取异地建设模式。主中心设置在省会城市,灾备中心设置在尽可能距离适中、地震烈度不能高于主中心城市的另外一个城市,两个中心采用负荷分担的工作模式。系统网络链路采用双向冗余,确保其安全性和可靠性。
结构采用的是三层架构,应用层、业务处理层、数据库层。
应用层由Radius 服务器组成,主要功能是接收各种接入服务器的消息报文,对报文进行解析、预处理等,然后把标准化后的报文传送给后面的认证计费业务层进行认证授权、计费等处理。
业务处理层由认证授权、计费等各种服务器组成,包括认证授权服务器、计费服务器等。
数据库层由数据库组成,存放各种用户资料、设备资源信息和用户清账单等。
总体网络结构如下图所示:
此系统的容灾部署大体可以分为三个部分:网络容灾、应用容灾和数据容灾。
3.3.1 网络容灾部署
所有服务器均双上联至内网交换机,内网交换机双上联至负载均衡设备,负载均衡设备上联至接入路由器,保证内网交换机、负载均衡设备、甚至是接入路由器任何一台出现故障时,不对业务造成任何影响。
图1 网络结构示意图
在异地建立灾备中心,通过光线传输和主中心组成一个局域网,保证一个中心网络全部出现故障的情况下,另一个中心承载全网业务。
3.3.2 应用容灾部署
每个中心部署多台Radius 主机,负载均衡的同时互为热备,即使在某主机宕机的情况下,不影响认证计费。
系统部署校园宽带免认证、数据库免认证和认证直通模式,分别在短信网关、数据库和认证计费主机出现故障时候启动免认证,优先保证业务的恢复。
每个中心部署2台认证计费主机,通过Corba总线和Radius主机互通,Radius主机自动检测,发现一台认证计费主机故障,自动把认证计费请求转发到另外正常的主机。
数据库安装相应软件,实时检测Oracle 实例的运行情况,当主机Oracle实例无法响应请求,软件自动切换实例到备机。
多项业务均部署多台主机通过负载均衡和热备,提高系统的可靠性和安全性。
3.3.3 数据容灾部署
在灾备中心建设一套数据库和存储设备,通过磁盘阵列底层拷贝方式,把主中心数据库信息实时拷贝到灾备中心,数据差异不足两分钟。
主中心数据库部署RMAN物理备份,每周日全备,其他时间段每四个小时增量备份,几乎可以做到数据不丢失。
灾备中心部署逻辑备份主机,用户信息、设备信息、配置信息等关键信息,每四个小时导出一次,数据保存一个月。
用户清单数据,除了在数据库中保存6个月之外,还导出来放在灾备中心的逻辑备份中心保存6个月。
Radius的Detail原始文件,每天通过FTP方式保存到逻辑备份主机,保存期限6个月,用于数据库无法恢复情况下的清单回收。
3.4.1 存储故障应对步骤
主中心的存储作为主用存储,保存AAA系统所有用户信息、设备信息、Nas分组信息等,灾备中心利用存储设备本身的机制,从主中心通过光纤链路,底层复制,实时增量同步主中心变化的数据量。
图2 底层复制网络连接示意图
若发生存储故障,系统做以下应对步骤:
①系统启用应急模式,只用内存库里面的信息保持认证正常,以最短时间恢复业务;
②停止主备中心存储底层同步;
③启用灾备中心数据库;
④修改主备中心业务应用主机,数据库连接改为备中心备数据库;
⑤恢复系统正常模式。
3.4.2 数据库故障流程
认证数据库主机由两台配置一样主机组成,两台主机以冷备模式运行,正常情况下,一台主机提供所有的数据库服务,数据库主机运行状况、网络连接情况、存储访问情况、监听状态等均需要有软件监控。
数据库主机出现故障,系统应对步骤如下:
①第一时间检测到主数据库异常;
②强制停止主机数据库主机的进程、监听程序、浮动地址,卸载磁盘阵列;
③在备数据库启动浮动地址,挂在磁盘阵列,启动进程,启动监听进程;
④对外提供服务。
3.4.3 应用故障流程
对外提供服务的所有关键应用都应采用两台或者多台主机,主机通过负载均衡设备,对外提供一个公网地址,始终出于热备状态。负载均衡设备接收来自客户端的请求,根据配置的主机IP和端口,按照源地址或者轮训的方式,把请求转发到不同的业务应用主机上。
当某台应用主机出现故障时,系统应对步骤如下:
①发现某台业务主机应用程序异常,停止对应的应用进程;
②应用端口释放;
③负载均衡器实时检测主机IP和端口状态;
④负载均衡器发现出故障的主机应用端口不在线,业务转发时不再往该主机转发;
⑤应用恢复正常后,负载均衡器恢复往该主机转发客户请求。
3.4.4 不可预料性故障流程
两个中心平时处于热备状态,正常情况下互相独立运行,各承载相应宽带用户的认证计费处理,异常情况下互为备份,主机配置,每个中心可以承担全省的认证计费请求。
当有火灾、地震等不可预料的灾难发生时,系统应对步骤如下:
①每台Bras 上都按区域划分,配置主Radius 和备Radius的公网地址;
②一个中心因为不可预知的原因发生重大故障导致网络不可达的时候,Bras 会优先向配置的主Radius 地址发送认证计费请求,当该中心的Radius不响应,Bras则会向所配置的备中心Radius重启发起认证计费请求;
③极端情况下,AAA系统可以启用免认证方式,不对拨号用户做任何校验,直接允许接入互联网;
④极端情况下,Bras设备启用免认证方式,所有用户请求不经过AAA 系统,直接由Bras 返回允许接入互联网。
文章以电信运营商的认证计费系统为例,部署了业务级容灾,并详细说明各种情况下,系统的容灾处理。对电信运营商来说,能够保证合法用户正常的上网业务是所有业务发展的基础,故电信运营商的宽带认证鉴权系统部署业务级冗灾是非常必要的。更深层次地研究系统部署中各业务模块的灾备处理流程以及云灾备是否可以顺利地实施等问题具有非常重要的意义。
[1]王碧翠,陈雪冰,魏伟.信息容灾备份技术浅谈[M].上海:上海社会科学院出版社,2014.