郭艳萍
【摘要】随着联通移动业务快速发展,保证客户信息从前台BSS系统安全、畅通送至后台设备处理,对我们的网络安全提出了更高的要求。本文对现网BSS与后台组网进行分析,结合日常故障处理,分析了网络实际应用效果以及存在的不足并对网络进行整改,降低了网络风险。
【关键词】HLRDCNBSS互联网络
一、引言
当客户通过营业厅提出业务需求时,前台BSS营帐系统会将用户业务需求变更为各种相应的联机指令通过DCN网络自动送至后台HLR设备进行处理,从而实现客户业务需求在后台网元设备内的开通及业务变更。但在日常维护过程中发现,会由于某些原因造成BSS系统与后台HLR设备网络断联,使联机指令在前台堆积,无法正常传送至后台,从而影响用户业务办理。
二、典型故障案例分析
2.1故障现象
接到BSS侧投诉,受理业务无法竣工,并有工单指令堆积现象。从HLR侧查看无告警。
2.2故障分析
现网组网如图1所示:
组网中,HLR至DCN网络为双路由保护,如图1所示。造成联机指令堆积可能有以下几种原因:(1)SMU server故障,SMU双击倒换失败,造成SMU server与营帐系统断连。(2)营帐系统故障,造成营帐系统与SMU server系统断连。(3)承载网故障,造成营帐系统与HLR SMU之间链路中断。
2.3故障处理
根据以上分析进行逐步排查:(1)检查HLR告警台,查看告警台是否有SMU server双机故障及倒换的告警,经检查,SMU server双机正常,无告警,且各个业务进程正常。(2)联系营帐系统工程师排查营帐系统侧是否正常,经检查营帐系统进程及系统正常。(3)在smu侧及营帐侧都不能互相ping通对方,判断为中间链路故障。经确认HLR至DCN网络主用传输链路故障,同时发现HLR内部交换机至光猫2网线断联,见图1(红色链路部分)。
恢复主备通信链路,观察发现业务时通时断,该现象可能与传输链路质量有问题或者网线不好有关,传输机房查看告警无相关告警输出,更换网线故障依旧。数据机房登陆NE40查看HLR服务器所在VLAN 214,该VLAN配置了VRRP,且主备协商正常,再登陆S9303查看VLAN 214所加入的接口,其中S9303-1下行口G2/0/22流量异常,单方向input方向流量非常大,查看S9303-2下行口G2/0/27,该接口output方向流量异常,由此推断在VLAN 214存在环路。经确认HLR内部交换机之前并没有与光猫2直连,现场人员问题处理时无意将网线插到光猫2导致形成环路。Shutdown S9303-2 G2/0/27,业务恢复。
三、制定措施进行网络整改
二层环路所引起的广播风暴,其结果是灾难性的,在网络设计及施工时要尽量避免成环,原来的网络显然存在不合理性,虽然在NE40侧做了VRRP,但实际上并未达到保护的效果,经过协商,我们对现网网络进行了改造,改造后组网如下:
通过本次改造,消除了环路,并减少了光猫部分的风险点,使网络安全性大大提高。
四、HLR SMU双机倒换机制4.1SMU双机原理
4.2SMU双机由四个功能模块组成
(1)主备决策模块。通过心跳消息协商节点状态,最终维持一主一备的稳定状态。(2)文件同步模块。将主机需要同步的文件自动实时同步到备机,主备倒换后文件数据不丢失。(3)数据库同步模块。将主机需要同步的数据库表自动实时同步到备机,主备倒换后数据库数据不丢失。(4)浮动IP管理模块。通过浮动IP管理,主备倒换后对外和对内提供服务的IP地址不变,客户端不需要切换连接IP。
4.3SMU主备切换
(1)主用SMU某业务台5分钟内异常3次时,主用SMU自动请求切换,同时自身置为故障标志。(2)系统提供主备倒换命令(SWP SMU),允许手动进行主备切换。(3)如果双机通信中断超过2分钟,则两个SMU都会自动尝试切换为主用,但只有一个SMU能占用公共资源(目前只有浮动IP是公共资源),因此一般不会出现双主用的情况。在外网和心跳都中断的情况下,可能存在双主机的情况,如果心跳恢复,则最先成为主用的SMU继续维持主用,另一台自动降为备用,同时同步开关被强制关闭,并上报双主用SMU发生冲突告警(4415)。(4)如果备用SMU发现自身存在故障标志,则会拒绝主用BAM的切换请求。(5)触发系统故障标志的条件有:某业务台5分钟内异常3次。(6)任何一个SMU切换成为主用SMU失败,都会释放公共资源,降为备用,因此不会出现各占部分公共资源导致双备的情况。
注意:在SMU未连接外网的情况下,外网网卡上配置的物理IP是不生效的,此时双机程序也不能切换到未连接接外网的SMU上。
由于SMU server采用双机原理,在正常情况下,营帐系统只与SMU浮动IP相连,当主用SMU server自身出现故障或S2000至HLR链路故障的情况下,主用SMU自动请求切换,同时自身置为故障标志,从而保障营帐系统与SMU连接不中断,不影响业务。
五、存在问题
当S2000以上链路出现故障,S2000至HLR内部交换机端口检测仍为UP状态,因此HLR SMU不会发生自动切换,需手工切换SMU,这样延长了业务影响时间。因此我们平时应当加强基础维护管理,提升维护人员维护水平,熟悉维护操作,严格将网络安全风险降到最低。
六、结束语
通过对后台HLR设备与DCN网络之间组网改造,减少了发生故障的风险点,提高了网络的安全性,从业务层面提高了客户服务的支撑力度,使客户感知进一步提升。