冷备份OSS系统一键切换解决方案

2014-07-28 18:49彭丽恩邓雄雷何少萍
中国新通信 2014年8期

彭丽恩+邓雄雷+何少萍

【摘要】 爱立信OSS系统当前一般采用冷备份的容灾方式,主备用服务器上无数据同步功能,应急操作依赖于管理员手工切换,容灾效果大打折扣。作为移动通信网中专用的设备操作管理系统,OSS系统的可用性至关重要,直接影响了对网络的操作维护。因此,本论文提出一种有效的解决方案,实现冷备份系统“准热备份”的容灾效果。该解决方案也可用于其它冷备份系统,提升容灾效果。

【关键词】 冷备份 数据同步 一键切换 软切换

一、背景情况

OSS系统是移动通信网中专用的爱立信设备操作管理系统,提供集中式的无线网络和核心网络的操作维护功能,主要提供故障管理、配置管理、性能管理、鉴权管理四大功能,包含OSS主服务器、备用服务器、COMINF服务器、UAS接口机、OMBS服务器、ENIQ服务器、交换机等设备,这些设备各施其能、各管其职,协同工作,为用户提供爱立信网元的网管服务。OSS系统采用冷备份的容灾方式,当该服务器的软件或硬件出现故障的时候,需要切换到备用服务器上,由系统管理员前往机房操作,同时需要重启备用服务器上的进程,更新备用服务器上的数据。当前OSS的容灾方式和应急操作手段的不足,直接影响了OSS的冷备份容灾效果。

1、主备机间无数据同步机制,数据不同步直接影响了切换后OSS用户的某些维护操作。OSS系统上精确地配置了每个用户的权限,存储了每一个网络设备的配置信息,包括IP地址、帐号权限、网络配置等,以及用户自己的文件。如果主备机切换前用户的权限、网元的配置或者网络参数修发生了变化,而备机没有及时更新,切换后用户就会因权限问题无法进行某些操作,网元出现断连、参数不对无法进行网络优化等问题。虽然切换到了备用服务器,但对于用户来说,OSS的网管服务还是不可用的。

2、人工切换耗时长,需要OSS系统管理员前往机房进行操作,容灾效果不明显。若故障发生在非工作时间,OSS系统管理员赶到机房所耗费的时间,可能比起系统管理员直接修复主机故障所用的时间还长,备机的冷备份容灾方式便形同虚设。

从上面的两点可以看出,当前OSS系统采用的冷备份容灾方式的效果受限于当前容灾操作的数据维护方式和切换方式。而厂家也没有任何解决办法。为此,如何解决当前OSS系统冷容灾方式的不足成为亟待解决的技术难题。

二、技术解决方案

1、备用服务器数据同步解决方案。

在备用服务器上开发数据准实时同步工具,实现备用服务器主动更新TSS、ARNE、HOME三大数据库的数据,保持与主用服务器一致。

(1)增设主备用服务器间数据同步的专用网络。

OSS系统内部原有3个独立隔离的网络:业务网络、管理网络和备份网络,分别负责系统内部的业务通信、系统管理和系统备份。为避免相互干扰,提供安全可靠的传输通道,增设一个专用的数据同步网络,使用C类IP地址,使用主备服务器上的备用网卡和冗余网口。考虑成本问题,采用在交换机上划分VLAN的方式而非增加一台交换机来实现。

(2)主用服务器自动备份相关数据。

从效率、资源成本的角度从发,选用Shell脚本与CRONTAB定时任务结合实现数据备份的功能。SHELL脚本实现的功能是检测数据的变化和将相关数据备份到指定目录。与现网关联的数据主要是网元的连接数据,存储在ARNE数据库里,与用户操作权限相关的数据存储在TSS数据库里,其他还需要实时更新的数据也包括用户自己的数据,存储在/ossrc/home/路径下,还有一些定时任务CRONTAB的数据。这些数据是备机需要与主机同步的,因为他们直接影响OSS的服务。Shell脚本的功能就是定期备份这些数据到指定目录,对于数据量大的用户数据,采用增量备份方式,即只备份在上一次备份之后有变化的新数据。由于TSS是Sybase数据库,和ARNE的Versant数据库类型和架构不一样,而HOME下的数据采用增量备份方式,所以主用服务器上需要配置多个SHELL脚本,实现不同的功能:TSS数据库备份脚本实现账号权限全量数据备份;ARNE数据备份脚本实现网元配置数据全量备份;HOME文件变更检测脚本通过对文件的名字、大小、变更时间的比对发现文件的变更信息,检测出所有用户的文件变更情况和用户CRONTAB任务表变更情况;HOME数据备份脚本将检测到的变更文件备份到指定目录。

综合考虑服务器性能、数据变更频率、数据重要性和对用户的影响程度,并错开网络工程时间,在CRONTAB设置各个脚本的执行频率与时间:

在主用服务器上上配置了这些Shell脚本后,主用服务器便可自动备份指定的数据,并存储到专用的特定目录下。备份周期可根据实际情况调整。例如,用户变更的数据量不大但对用户的操作影响大,每天早上上班前备份一次,而网元连接数据、用户权限等变化少但数据量大的,则每周备份一次。为了使备份数据的工作对OSS主服务器的负荷影响降到最低,可将备份时间设为OSS业务量少,网络工程已结束但日常维护还未开始的早上。同时,若系统管理员进行了大量的数据修改,可在数据修改后手动启动以上各个脚本备份好数据。

(3)备用服务器自动获取主用服务器上的备份数据并更新自身数据。

在备用服务器上布置定时Shell脚本,在主用服务器开始备份数据的30分钟后,采用FTP技术通过专用数据同步网络获取主用服务器上备份好的数据,然后导入到本机上相应的数据库和文件目录下,进行数据更新。

2、主备服务器一键切换解决方案。

将主备用服务器同时接入OSS系统的业务网络,划分在同一个VLAN上面。平时,交换机上备用服务器的业务端口处于down的状态,主用服务器的业务端口处于up状态,对外提供服务。当启动一键切换功能,通过交换机上的管理网络,将OSS的主用服务器的业务端口状态改为down状态,将备用服务器的业务端口状态改为up,由备用服务器对外提供网管服务。

一键切换功能部署在管理主机上。该功能由系统管理员启动,通过Shell脚本实现。Shell脚本登陆到交换机上利用管理网络进行操作,改变业务网络的端口状态实现主备用服务器间的切换。切换后,脚本将检查备用服务器上的数据是否最新,若否则启动数据同步功能,更新备用服务器上的数据,然后启动备用服务器上的ldap-client和cron的守护进程,最后重启所有UAS 接口机。

三、总结

实践证明本文提出的方案有效解决了冷备容灾方式数据不同步的问题,实现了硬切换到软切换的转变,达到了快速切换的目标。该解决方案适合于有数据同步需求或需要在服务器间进行切换的系统引入,尤其适合于想将冷备份容灾方式转化成“准热备份”容灾方式的系统。

【摘要】 爱立信OSS系统当前一般采用冷备份的容灾方式,主备用服务器上无数据同步功能,应急操作依赖于管理员手工切换,容灾效果大打折扣。作为移动通信网中专用的设备操作管理系统,OSS系统的可用性至关重要,直接影响了对网络的操作维护。因此,本论文提出一种有效的解决方案,实现冷备份系统“准热备份”的容灾效果。该解决方案也可用于其它冷备份系统,提升容灾效果。

【关键词】 冷备份 数据同步 一键切换 软切换

一、背景情况

OSS系统是移动通信网中专用的爱立信设备操作管理系统,提供集中式的无线网络和核心网络的操作维护功能,主要提供故障管理、配置管理、性能管理、鉴权管理四大功能,包含OSS主服务器、备用服务器、COMINF服务器、UAS接口机、OMBS服务器、ENIQ服务器、交换机等设备,这些设备各施其能、各管其职,协同工作,为用户提供爱立信网元的网管服务。OSS系统采用冷备份的容灾方式,当该服务器的软件或硬件出现故障的时候,需要切换到备用服务器上,由系统管理员前往机房操作,同时需要重启备用服务器上的进程,更新备用服务器上的数据。当前OSS的容灾方式和应急操作手段的不足,直接影响了OSS的冷备份容灾效果。

1、主备机间无数据同步机制,数据不同步直接影响了切换后OSS用户的某些维护操作。OSS系统上精确地配置了每个用户的权限,存储了每一个网络设备的配置信息,包括IP地址、帐号权限、网络配置等,以及用户自己的文件。如果主备机切换前用户的权限、网元的配置或者网络参数修发生了变化,而备机没有及时更新,切换后用户就会因权限问题无法进行某些操作,网元出现断连、参数不对无法进行网络优化等问题。虽然切换到了备用服务器,但对于用户来说,OSS的网管服务还是不可用的。

2、人工切换耗时长,需要OSS系统管理员前往机房进行操作,容灾效果不明显。若故障发生在非工作时间,OSS系统管理员赶到机房所耗费的时间,可能比起系统管理员直接修复主机故障所用的时间还长,备机的冷备份容灾方式便形同虚设。

从上面的两点可以看出,当前OSS系统采用的冷备份容灾方式的效果受限于当前容灾操作的数据维护方式和切换方式。而厂家也没有任何解决办法。为此,如何解决当前OSS系统冷容灾方式的不足成为亟待解决的技术难题。

二、技术解决方案

1、备用服务器数据同步解决方案。

在备用服务器上开发数据准实时同步工具,实现备用服务器主动更新TSS、ARNE、HOME三大数据库的数据,保持与主用服务器一致。

(1)增设主备用服务器间数据同步的专用网络。

OSS系统内部原有3个独立隔离的网络:业务网络、管理网络和备份网络,分别负责系统内部的业务通信、系统管理和系统备份。为避免相互干扰,提供安全可靠的传输通道,增设一个专用的数据同步网络,使用C类IP地址,使用主备服务器上的备用网卡和冗余网口。考虑成本问题,采用在交换机上划分VLAN的方式而非增加一台交换机来实现。

(2)主用服务器自动备份相关数据。

从效率、资源成本的角度从发,选用Shell脚本与CRONTAB定时任务结合实现数据备份的功能。SHELL脚本实现的功能是检测数据的变化和将相关数据备份到指定目录。与现网关联的数据主要是网元的连接数据,存储在ARNE数据库里,与用户操作权限相关的数据存储在TSS数据库里,其他还需要实时更新的数据也包括用户自己的数据,存储在/ossrc/home/路径下,还有一些定时任务CRONTAB的数据。这些数据是备机需要与主机同步的,因为他们直接影响OSS的服务。Shell脚本的功能就是定期备份这些数据到指定目录,对于数据量大的用户数据,采用增量备份方式,即只备份在上一次备份之后有变化的新数据。由于TSS是Sybase数据库,和ARNE的Versant数据库类型和架构不一样,而HOME下的数据采用增量备份方式,所以主用服务器上需要配置多个SHELL脚本,实现不同的功能:TSS数据库备份脚本实现账号权限全量数据备份;ARNE数据备份脚本实现网元配置数据全量备份;HOME文件变更检测脚本通过对文件的名字、大小、变更时间的比对发现文件的变更信息,检测出所有用户的文件变更情况和用户CRONTAB任务表变更情况;HOME数据备份脚本将检测到的变更文件备份到指定目录。

综合考虑服务器性能、数据变更频率、数据重要性和对用户的影响程度,并错开网络工程时间,在CRONTAB设置各个脚本的执行频率与时间:

在主用服务器上上配置了这些Shell脚本后,主用服务器便可自动备份指定的数据,并存储到专用的特定目录下。备份周期可根据实际情况调整。例如,用户变更的数据量不大但对用户的操作影响大,每天早上上班前备份一次,而网元连接数据、用户权限等变化少但数据量大的,则每周备份一次。为了使备份数据的工作对OSS主服务器的负荷影响降到最低,可将备份时间设为OSS业务量少,网络工程已结束但日常维护还未开始的早上。同时,若系统管理员进行了大量的数据修改,可在数据修改后手动启动以上各个脚本备份好数据。

(3)备用服务器自动获取主用服务器上的备份数据并更新自身数据。

在备用服务器上布置定时Shell脚本,在主用服务器开始备份数据的30分钟后,采用FTP技术通过专用数据同步网络获取主用服务器上备份好的数据,然后导入到本机上相应的数据库和文件目录下,进行数据更新。

2、主备服务器一键切换解决方案。

将主备用服务器同时接入OSS系统的业务网络,划分在同一个VLAN上面。平时,交换机上备用服务器的业务端口处于down的状态,主用服务器的业务端口处于up状态,对外提供服务。当启动一键切换功能,通过交换机上的管理网络,将OSS的主用服务器的业务端口状态改为down状态,将备用服务器的业务端口状态改为up,由备用服务器对外提供网管服务。

一键切换功能部署在管理主机上。该功能由系统管理员启动,通过Shell脚本实现。Shell脚本登陆到交换机上利用管理网络进行操作,改变业务网络的端口状态实现主备用服务器间的切换。切换后,脚本将检查备用服务器上的数据是否最新,若否则启动数据同步功能,更新备用服务器上的数据,然后启动备用服务器上的ldap-client和cron的守护进程,最后重启所有UAS 接口机。

三、总结

实践证明本文提出的方案有效解决了冷备容灾方式数据不同步的问题,实现了硬切换到软切换的转变,达到了快速切换的目标。该解决方案适合于有数据同步需求或需要在服务器间进行切换的系统引入,尤其适合于想将冷备份容灾方式转化成“准热备份”容灾方式的系统。

【摘要】 爱立信OSS系统当前一般采用冷备份的容灾方式,主备用服务器上无数据同步功能,应急操作依赖于管理员手工切换,容灾效果大打折扣。作为移动通信网中专用的设备操作管理系统,OSS系统的可用性至关重要,直接影响了对网络的操作维护。因此,本论文提出一种有效的解决方案,实现冷备份系统“准热备份”的容灾效果。该解决方案也可用于其它冷备份系统,提升容灾效果。

【关键词】 冷备份 数据同步 一键切换 软切换

一、背景情况

OSS系统是移动通信网中专用的爱立信设备操作管理系统,提供集中式的无线网络和核心网络的操作维护功能,主要提供故障管理、配置管理、性能管理、鉴权管理四大功能,包含OSS主服务器、备用服务器、COMINF服务器、UAS接口机、OMBS服务器、ENIQ服务器、交换机等设备,这些设备各施其能、各管其职,协同工作,为用户提供爱立信网元的网管服务。OSS系统采用冷备份的容灾方式,当该服务器的软件或硬件出现故障的时候,需要切换到备用服务器上,由系统管理员前往机房操作,同时需要重启备用服务器上的进程,更新备用服务器上的数据。当前OSS的容灾方式和应急操作手段的不足,直接影响了OSS的冷备份容灾效果。

1、主备机间无数据同步机制,数据不同步直接影响了切换后OSS用户的某些维护操作。OSS系统上精确地配置了每个用户的权限,存储了每一个网络设备的配置信息,包括IP地址、帐号权限、网络配置等,以及用户自己的文件。如果主备机切换前用户的权限、网元的配置或者网络参数修发生了变化,而备机没有及时更新,切换后用户就会因权限问题无法进行某些操作,网元出现断连、参数不对无法进行网络优化等问题。虽然切换到了备用服务器,但对于用户来说,OSS的网管服务还是不可用的。

2、人工切换耗时长,需要OSS系统管理员前往机房进行操作,容灾效果不明显。若故障发生在非工作时间,OSS系统管理员赶到机房所耗费的时间,可能比起系统管理员直接修复主机故障所用的时间还长,备机的冷备份容灾方式便形同虚设。

从上面的两点可以看出,当前OSS系统采用的冷备份容灾方式的效果受限于当前容灾操作的数据维护方式和切换方式。而厂家也没有任何解决办法。为此,如何解决当前OSS系统冷容灾方式的不足成为亟待解决的技术难题。

二、技术解决方案

1、备用服务器数据同步解决方案。

在备用服务器上开发数据准实时同步工具,实现备用服务器主动更新TSS、ARNE、HOME三大数据库的数据,保持与主用服务器一致。

(1)增设主备用服务器间数据同步的专用网络。

OSS系统内部原有3个独立隔离的网络:业务网络、管理网络和备份网络,分别负责系统内部的业务通信、系统管理和系统备份。为避免相互干扰,提供安全可靠的传输通道,增设一个专用的数据同步网络,使用C类IP地址,使用主备服务器上的备用网卡和冗余网口。考虑成本问题,采用在交换机上划分VLAN的方式而非增加一台交换机来实现。

(2)主用服务器自动备份相关数据。

从效率、资源成本的角度从发,选用Shell脚本与CRONTAB定时任务结合实现数据备份的功能。SHELL脚本实现的功能是检测数据的变化和将相关数据备份到指定目录。与现网关联的数据主要是网元的连接数据,存储在ARNE数据库里,与用户操作权限相关的数据存储在TSS数据库里,其他还需要实时更新的数据也包括用户自己的数据,存储在/ossrc/home/路径下,还有一些定时任务CRONTAB的数据。这些数据是备机需要与主机同步的,因为他们直接影响OSS的服务。Shell脚本的功能就是定期备份这些数据到指定目录,对于数据量大的用户数据,采用增量备份方式,即只备份在上一次备份之后有变化的新数据。由于TSS是Sybase数据库,和ARNE的Versant数据库类型和架构不一样,而HOME下的数据采用增量备份方式,所以主用服务器上需要配置多个SHELL脚本,实现不同的功能:TSS数据库备份脚本实现账号权限全量数据备份;ARNE数据备份脚本实现网元配置数据全量备份;HOME文件变更检测脚本通过对文件的名字、大小、变更时间的比对发现文件的变更信息,检测出所有用户的文件变更情况和用户CRONTAB任务表变更情况;HOME数据备份脚本将检测到的变更文件备份到指定目录。

综合考虑服务器性能、数据变更频率、数据重要性和对用户的影响程度,并错开网络工程时间,在CRONTAB设置各个脚本的执行频率与时间:

在主用服务器上上配置了这些Shell脚本后,主用服务器便可自动备份指定的数据,并存储到专用的特定目录下。备份周期可根据实际情况调整。例如,用户变更的数据量不大但对用户的操作影响大,每天早上上班前备份一次,而网元连接数据、用户权限等变化少但数据量大的,则每周备份一次。为了使备份数据的工作对OSS主服务器的负荷影响降到最低,可将备份时间设为OSS业务量少,网络工程已结束但日常维护还未开始的早上。同时,若系统管理员进行了大量的数据修改,可在数据修改后手动启动以上各个脚本备份好数据。

(3)备用服务器自动获取主用服务器上的备份数据并更新自身数据。

在备用服务器上布置定时Shell脚本,在主用服务器开始备份数据的30分钟后,采用FTP技术通过专用数据同步网络获取主用服务器上备份好的数据,然后导入到本机上相应的数据库和文件目录下,进行数据更新。

2、主备服务器一键切换解决方案。

将主备用服务器同时接入OSS系统的业务网络,划分在同一个VLAN上面。平时,交换机上备用服务器的业务端口处于down的状态,主用服务器的业务端口处于up状态,对外提供服务。当启动一键切换功能,通过交换机上的管理网络,将OSS的主用服务器的业务端口状态改为down状态,将备用服务器的业务端口状态改为up,由备用服务器对外提供网管服务。

一键切换功能部署在管理主机上。该功能由系统管理员启动,通过Shell脚本实现。Shell脚本登陆到交换机上利用管理网络进行操作,改变业务网络的端口状态实现主备用服务器间的切换。切换后,脚本将检查备用服务器上的数据是否最新,若否则启动数据同步功能,更新备用服务器上的数据,然后启动备用服务器上的ldap-client和cron的守护进程,最后重启所有UAS 接口机。

三、总结

实践证明本文提出的方案有效解决了冷备容灾方式数据不同步的问题,实现了硬切换到软切换的转变,达到了快速切换的目标。该解决方案适合于有数据同步需求或需要在服务器间进行切换的系统引入,尤其适合于想将冷备份容灾方式转化成“准热备份”容灾方式的系统。