李意平,李 江,黄伟锋,杨 迅
(中国电信股份有限公司广东无线网络运营中心,广州 510610)
2009年被誉为中国的3G元年,通过近3年的3G业务发展,移动互联网业务出现了迅猛增加,随之而来的流量出现了井喷式的增长。流量增长,对BSC设备的运行带来了一定的影响,出现了一些潜在的风险。为了提升BSC设备的数据处理能力,支撑流量经营,我们通过使用质量管理方法中的PDCA戴明环,对BSC的日常维护进行不断的优化改进,取得了良好的效果。
PDCA戴明环由舍瓦特定义,戴明改进的一种质量管理方法。PDCA的含义如下:P(PLAN)计划;D(D O)执行;C(C H E C K)检查;A(ACTION)行动。对总结检查的结果进行处理,成功的经验加以肯定并适当推广、标准化;失败的教训加以总结,未解决的问题放到下一个PDCA循环里。又称PDCA戴明环或戴明环。PDCA戴明环有如下几个特点:
(1)周而复始,不停循环进行的,不是一次就完结。每一次循环,解决了一部分问题,可能还有问题没有解决,或者出现了新的问题,需要再进行下一个戴明环进行解决。如图1所示。
图1 循环的戴明环
(2)PDCA循环是爬楼梯上升式的循环,每转动一周,质量就提高一步。如图2所示。
图2 上升的戴明环
(3)PDCA循环是综合性循环,4个阶段是相对的,他们之间不是截然分开的。
(4)推动PDCA循环的关键是“Action—处理”阶段。
戴明环是质量管理的一个基本方法,可以使我们的思想方法和工作步骤更加条理化、系统化、图像化和科学化,能够推动我们BSC维护工作取得进步。
移动互联网业务发展迅速,数据流量的增长导致了BSC数据处理能力出现了瓶颈,在对现网BSC系统的板件进行负荷分析,运行的过程中,发现现网出现了四类BSC数据处理方面的隐患,即部分SPU子系统出现“子系统负荷过高”告警;忙时出现DO连接次数失败增多的情况;PCU断言(即出现失败的数据连接次数);GOUXa单板负荷偏高。
其中,后三类问题基本采取扩容相应的板件就能解决问题,在本文中不再详述。第一类SPU负荷高告警是日常维护当中出现频繁最高、影响客户体验、急需解决的一种隐患。通过活用PDCA戴明环的方法,在不增加资源投入的情况下,解决了SPU负荷过高这类告警,取得了明显的效果。
我们知道,SPU是BSC的通用信令处理子系统,提供BSC信令处理功能。负责处理Um接口、Abis接口、A1接口、A3接口、A7接口、A9接口、A11接口等的信令;负责分配建立业务所需要的各类资源,建立信令和业务连接;呼叫信令处理。
4.1.1 SPU子系统的负荷核查
SPU子系统的负荷检查包括CPU负荷检查和容量负荷检查。
CPU负荷核查的方法是:通过M2000查看SPUO板CPU负荷[%]话统,路径为:SPUO的CPU负荷测量→SPUO的CPU性能统计→SPUO板CPU负荷[%];如果平均负荷超过50%,则需要对该资源持续关注。如果平均负荷超过60%,需要进行扩容或者调整处理。使用LOADMONITOR(负荷监视)检查忙时SPU负荷,如果最大负荷超过70%,需要进行扩容或者调整处理。
容量负荷核查的方法是:使用命令L S T CDMACH: LSTINFO=IBSC, FN=*, SN=*,SSN=*; 框号、槽号、子系统号根据实际填写,如果一个子系统下载波数超过160,则建议调整。1个SPU下建议最优的载波数为不超过140个。当然,这个值同载频类型及其话务量密切相关。下挂的只有DO载频且话务量大的话,这个值就要小很多。
4.1.2 SPU子系统负荷的容量分析
SPU子系统的负荷核查只是一种根据实际维护很直观的一些手段和经验值。理论的分析需要通过SPU子系统负荷的容量分析。
SPU负荷容易受到突发的大量短信寻呼消息的冲击,特别是在重大节假日期间,因此建议重大节假日前进行SPU的负荷检查和负荷调整,并且在节日期间做好负荷监控,如果出现负荷过高的情况应及时通知短信中心,执行短信流量限制等应急处理措施。
SPU子系统可处理960Erl 1X业务或者100Mb/s DO业务,SPU的配置数目是由BSC的1X话务量和DO的数据流量来决定的。
在分析SPU负荷高的过程中,发现同一个BSC部分SPU频繁出现“子系统严重过载”告警,部分SPU从不出现此类告警。出现这种情况的原因从网络结构来分析,所有的1X话务量和DO的数据流量都是从BTS(确切的说是载频)上来的,而且,在配置基站的时候,都需要明确基站下挂在哪个SPU下面,7.0版本的BSC系统的SPU不是负荷分担的;就是说,SPU的负荷间接的体现在下挂载频的数量上。2011年,我们对宝安和龙岗的DO基站进行了成片的大规模扩容,部分SPU下挂的载扇数量突然增加;同时,随着局部区域1X和DO业务的增加,某些SPU负荷出现了“子系统严重过载”的告警,而同BSC的其他SPU因为载频数没有明显增加,业务也只是平稳增长,SPU负荷没有明显的的增幅。这样,就出现了同一个BSC下面某些SPU频繁高负荷告警,另外一些SPU负荷正常的现象。
从上面的分析中我们也得到了一种处理SPU负荷告警的方法:即在SPU子系统数量不增长的情况下,调整SPU下挂的载频数目,将负荷高的SPU下挂载频调整到负荷较低的SPU子系统上,均衡SPU间负荷。消除高负荷的SPU子系统告警,提升BSC的数据处理能力。
按照PDCA戴明环的方法,我们提出如下处理方法:
P(PLAN)计划:通过基站调整,消除或减少部分SPU子系统负荷过高的告警
D(DO)执行:3月份对14个SPU进行过调整。这14个子系统在一周内的告警次数每站在1~424次之间,总告警次数为1093次。
C(CHECK)检查:调整后,检查了这14个SPU子系统在一周内出现告警的次数,有5个子系统告警次数为0,5个子系统告警次数为1,1个子系统为2,2个子系统为4次,只有一个子系统为36次,累计告警次数为51,虽然问题没有彻底解决,但通过对比,还是取得了明显的效果。
A(ACTION)行动:虽然第一次调整取得了明显的效果,但是BSCx-4-10-3号子系统一周还是出现了36次告警;随着业务的发展,一些新的子系统又出现了负荷高告警;于是,在第一次的基础上,我们又实施了第二次的SPU负荷调整。第二次调整了18个SPU下的基站,其中就有第一次调整遗留的BSCx-4-10-3号子系统。一周告警次数最少为4次,最高为174次,累计告警次数为498次。
第二次调整取得了显著效果,涉及的SPU子系统在调整后一周内告警次数全部为0,网络运行质量在原有水平上得到了显著提升。
综上所述,我们运用PDCA戴明环的方法,在没有增加网络资源的情况系,通过2次针对性的调整,彻底解决了已发现的SPU子系统负荷过高的告警。不仅节省了资源投资,取得了良好的经济效益;同时,显著提升了BSC的流量经营支撑能力,提升了网络质量;并率先在全省提出“SPU负荷调整法”,进一步丰富了维护手段,提升了维护水平。随着处理问题的深入,我们也向厂家提出需要优化SPU子系统的负荷处理机制,在BSC内实现SPU子系统资源池的方式来最终解决部分SPU子系统负荷过高的隐患。
移动互联网时代的到来,智能手机的普遍应用,给BSC带来了高负荷的冲击,为BSC的运行增加了风险,尤其给SPU信令处理子系统带来了高负荷冲击。PDCA戴明环是有效的质量管理方法。将其用于指导BSC维护,能够有效消除DO流量带来的网络冲击,不仅能取得良好的经济效益,提升网络质量,也能够提升我们的维护水平,为中国电信移动业务规模发展和流量经营作出贡献。