负荷分担类业务的用户感知提升方法探索

2013-05-07 04:55中国电信广东无线网络中心高俊敏陆伟雄
数字通信世界 2013年5期
关键词:客户群利用率负荷

中国电信广东无线网络中心 高俊敏 冼 健 陆伟雄

一、引言

随着新增资源的入网、基础维护的夯实、精细化运营的深化,现阶段CDMA网络的容量及覆盖已日益完善,网络质量、用户满意度也得到了明显的提高。然而,在移动通信市场竞争日益激烈的背景下,如何进一步提升网络质量和用户感知,成为运营商的重要任务。

负荷分担类业务是指系统中使用两个或两个以上的模块并行实现相同的功能,各模块分摊的业务量可以相同或不同。当某一模块出现故障时,其分摊的业务量可由其他正常工作的模块承接而不影响系统的正常运行。负荷分担模型在通信系统中有极为普遍的应用:从网络到终端、设备到传输、信令和业务各个维度都有负荷分担模型的应用。

负荷分担类主要有以下优点:

⊙ 提高系统的可靠性:如果负荷分担的某一部分出现故障,其他部分可以接替它的工作。

⊙ 提高资源的利用率:负荷分担能节约部分备用的资源,减少热备份带来的资源浪费。

⊙ 系统扩容简单方便:可以通过增加并行的功能模块进行扩容而不影响业务的正常运营。

⊙ 提高用户的感知度:负荷分担类业务发生故障时通信不会完全中断,因此用户感知较好。

⊙ 可提供差异化服务:可以根据不同的用户具体需求使用不同质量的模块提供差异化服务。

二、移动通信用户感知

本文研究的重点侧重于在移动通信网络层面用户感知的改善,因此,下文的用户感知都在网络层面上讨论,而不涉及到用户终端、费用等其他因素。

首先我们按语音和数据进行区分,并从“业务接入、业务保持和业务质量”三个维度进行分解,然后再将以上三个维度细化成可量化的网络指标。

我们将用户感知在两个层面上进行划分:全网总体用户感知和特定客户群的用户感知。前者是全局、宏观的概念,后者是比较局部、微观的概念,其重要性也不能忽视,尤其是重要客户群(如党政军、教育、医疗等重要业务的客户群)。

针对全网总体用户感知,我们采取统计学的方法,通过问卷和实验等方式进行用户调查,确定每一个指标的权重,最终建立了简化的用户感知算法模型,如表1所示。

表1 全网总体用户感知算法模型

由于特定客户群的微观属性,某一特定客户群对各个指标的敏感性可能不同于其他客户群,其在指标相同的前提下对各个维度的主观评分也有所不同。因此,在考虑特定客户群的用户感知时,需明确该特定客户群的特点,然后根据其特点进行具体分析,有针对性地提高其用户感知。比如我们可以根据用户对指标的敏感性将客户划分为“速率导向型”、“业务可用率导向型”、“掉线率导向型”等类型的客户群,根据业务重要性将客户划分“VIP客户群”和“普通客户群”,或者根据流量将客户划分为“高流量客户群”、“中等流量客户群”、“低流量客户群”。然后根据特定客户群确定不同网络指标的主观评分标准和权重,建立特定的用户感知模型。

三、负荷分担类业务中如何提高用户感知

提高用户感知,需要做好系统规划和系统维护两方面的工作。

1. 负荷分担类系统设计的分析

系统规划必须以用户感知的保障为导向,具体规划中需注意的问题如下:

⊙ 资源利用率和系统可靠性的综合考虑。⊙ 横向和纵向的负荷平衡。

⊙ 并联的模块物理上相分离。

⊙ 合理进行差异化服务。

⊙ 根据模块质量进行动态选择,优先选择质量较好的模块。

下面将根据以上五个要素进行阐述:

(1)资源利用率和系统可靠性的综合考虑。每个模块的利用率规划需适当,过小则资源得不到充分利用,过大则系统可靠性得不到保证。

下面将用一个简单的模型说明资源利用率与系统可靠性的关系,假设某负荷分担系统满足以下约束条件:

⊙ 为i个模块并联组成。

⊙ 各模块的处理能力一致。⊙ 且负荷完全均衡。

⊙ 各模块故障率相等。

设系统的实时处理速率为Pt(sys),每个模块的最大处理能力为P(sub),各模块的实时数据处理速率为Pt(sub)= Pt(sys)/i,则故障率与资源利用率(负荷百分比)的关系如表2。

表2 故障率与资源利用率的关系

为了直观看出系统业务量位于峰值阶段时故障率与资源利用率的关系,下面套用数据进行展示(假定系统峰值业务量P(sys)=100,单模块处理速率为30,单板故障率=0.5,不随模块负荷而变化)。

表3 峰值时故障率与资源利用率的关系

从表3中可以看出模块的负荷减少时,即资源利用率下降时,系统故障率随其成正相关下降,即系统通过牺牲资源利用率来换取故障率的降低。我们希望资源利用率不能太低,同时又希望系统故障率不能太高,这两者是一组矛盾,在系统设计时要在综合考虑两者的平衡,以保证业务可用率达到用户在业务保持维度上的要求。

为了进一步探究托伐普坦对心衰患者长期预后的影响,本研究对所有纳入的患者进行为期24个月的随访,比较两组患者的平均住院时间、心衰再住院率、非致死性心梗发生率、心血管死亡率及全因死亡率。结果发现,托伐普坦组的平均住院时间和心衰再住院率均低于标准治疗组(P<0.05),但两组患者的非致死性心梗发生率、心血管死亡率及全因死亡率差异无统计学意义。Vaduganathan等[14]发现,托伐普坦对血清渗透压的影响在出院后4~8周逐渐下降,52周内完全消失,因此托伐普坦不能改善患者的长期预后可能与短期(仅在住院期间)使用有关。研究[18-19]发现,使用托伐普坦1年以上的心衰患者再入院率可能会下降。

需强调的是,如果模块在超负荷工作时会引起退服的情况,那么当模块数量等于4时,一旦有一个模块发生故障,其负荷分摊到另外3个模块上面,各模块负荷变为111.11%,即各模块出现连锁效应,依次瘫痪至整个系统崩溃。所以在系统设计时尤其要避免系统负荷处于连锁反应的临界点,以防单模块故障引发连锁反应。即使系统负荷达到一定门限值能够停止新业务的接入,在设计时仍然需要考虑尽量规避连锁反应,因为限制新业务接入将影响呼建成功率/连接成功率,从而影响用户在业务接入维度上的感知。

(2)横向和纵向的负荷平衡。横向上,相同功能的各个模块之间的负荷如果不平衡,可能出现个别模块的负荷成为系统容量的瓶颈;纵向上,串联实现不同功能的模块之间的负荷如果不平衡,同样可能出现个别模块的负荷成为系统容量的瓶颈。一旦某个模块出现拥塞,将可能影响用户的“连接成功率/呼建成功率、业务可用率”,从而影响用户在业务接入和业务保持维度上的感知。

(3)并联的模块物理上相分离。承担相同业务的模块尽量在物理上分离开来,如不同模块走不同路由、挂接到不同的动力系统等。在相同的资源配置数量下,如果能对物理分离进行合理规划,可以大幅度提高系统的业务可用率,从而提高用户在业务保持维度上的感知。

(4)合理进行差异化服务。由于不同用户对系统可靠性要求不同,部分重要业务(如金融系统业务、医疗业务等)明显高于其他一般的业务;另一方面,负荷分担的并行模块之间,稳定性和质量也可能存在差异。因此,可以将VIP客户的业务承载在质量好、稳定性高的模块上;同时,当资源不足时,可优先为VIP客户分配资源。在相同的资源和系统故障率下,如果能适当考虑不同客户群对网络要求的差异性,对业务的承载进行合理规划,可以提高总体的用户感知。

(5)根据模块质量进行动态选择,优先选择质量较好的模块。由于不同模块可能存在质量的差异,如时延、稳定性、丢包率、误码率等差异。在系统设计过程中,如能加入质量实时监测反馈机制并实现业务在不同质量模块之间的动态指配,优先将业务指配到质量较好的模块上,可以优化网络在业务接入、业务保持和业务质量三个维度上的指标,从而提高总体的用户感知。

2. 负荷分担类业务故障处理的分析

在负荷分担类业务故障的处理中,要时刻以用户感知的保障为导向。具体需注意的问题如下:

(1)调整资源,提高资源利用率。故障出现后,部分模块不能正常服务,如果不能快速修复,应考虑将故障模块所占用的资源释放出来,避免系统拥塞引起“连接成功率/呼建成功率”、“业务可用率”、“丢包率”等指标恶化,从而对用户感知产生影响。

(3)优先处理承载VIP业务的模块。由于不同用户对系统可靠性要求不同,在故障处理中要尽量优先处理承载VIP业务的模块;紧急情况下,需考虑是否将运行正常的模块的资源调配给VIP业务使用。

3. 负荷分担类业务中提高用户感知的案例

【案例1】 Abis接口物理上分离的设计案例

中兴CDMA的Abis接口大部分采用E1连接方式,早期基站的8条E1电路都由单块SDTB板、ABPM板承载,并且同单一的汇聚光端机对接。因此,某一SDTB,ABPM或汇聚光端机出现故障时,可能导致该SDTB下挂的十几个基站同时掉站。为了规避这种风险,后期在Abis接口的设计上做出改进,将基站的8路E1电路从物理上分离:由不同的汇聚光端机、SDTB板、ABPM承载,如图1所示。改进后的系统规避了单一SDTB,ABPM或汇聚光端机故障导致大规模掉站的风险,系统安全性得到大幅度提高,掉站率明显降低,业务可用率得到提升。

图1 改进前后的连接示意图

该案例是通过将并联的模块物理上相分离,避免由于某个模块故障导致业务中断,从而保证业务可用率,提高了用户在“业务保持”维度上的感知。

【案例2】 中断故障模块的业务指配,优化连接成功率和掉线率

目前,中兴ZXSDR系列设备的E1电路指配机制存在一定缺陷,在检测到某路E1误码时仍然会指配该电路,导致的结果是掉线率和连接成功率的恶化,进而影响用户感知。2012年7月18日,古巷长美基站出现“误码高”(第7路2m电路)告警。后台观察发现指标明显恶化。具体影响请见表4。

表4 电路故障前后指标对比

对比发现,E1故障不仅对连接成功率和掉线率影响明显,还对DO流量的吸收产生较大影响。

由于该站物业问题未能及时上站修复电路,为了避免故障电路对业务产生的影响,只能先在后台删除故障电路。删除该电路后,网络指标恢复正常。指标请见表5。

表5 电路删除前后指标对比

该案例是通过调整业务分配策略,中断质量较低的模块的服务,从而改善了“掉线率/掉话率”和“连接成功率/呼建成功率”等指标,提升了用户在业务接入、业务保持维度上的感知。

【案例3】 调整业务分配策略,保证各模块的负荷平衡

目前,广东CDMA的中兴区BSC的部分DO协议处理板SDU板没有采用主备,潮州市每个DO信令处理模块DOCMP都下挂2块DOSDU板(见图2)。

2012年8月27日,潮州BSC0的某一DOSDU出现故障(图2右),由于数据选择表中每个DOCMP模块的轮询频率一致,和故障DOSDU同属一个DOCMP模块的另一个DOSDU板(图2左)的SE利用率升高了一倍,立即出现SE拥塞并且DO的连接成功率明显下降,导致用户感知受到影响。

图2

通过后台调整数据选择表,将故障DOSDU所属的DOCMP模块的轮询频率降低到一半后,拥塞解除,用户感知得到恢复。

该案例是故障引起某一模块的处理能力降低而引起各模块之间的负荷失衡,进而引起拥塞,通过调整业务分配策略保持各模块的负荷均衡,解除拥塞、提高“连接成功率”,进而提升用户在业务接入维度上的感知。

【案例4】利用负荷分担提供差异化服务的案例

目前,广东电信存在大量基站为实现物理成环,而成环改造需要较大的资金投入。在资金有限的前提下,我们优先推动A级基站(覆盖党政军、金融、医疗等重要业务的基站)的物理成环率改造,目前全省A级基站的物理成环率明显高于低级别基站的物理成环率。这主要是考虑到不同用户对“业务可用率”的要求不同而提供差异化服务。

该案例体现了利用负荷分担提供差异化服务的思路。在相同的资源配置数量和系统故障率下,如果能适当考虑不同客户群对“业务可用率”的不同要求,对业务的承载进行合理规划,可以提高总体的用户感知。

四、结束语

本文通过对负荷分担的原理和移动通信中的用户感知进行研究,建立移动通信用户感知模型,并结合CDMA中负荷分担类业务的应用,总结出负荷分担类业务在系统设计和维护中应该注意的问题。系统设计中需重点考虑的问题包括资源利用率和系统可靠性的综合考虑、横向和纵向的负荷平衡;系统维护中需重点考虑的问题包括资源调整和业务分配策略调整。

本文中提出的资源利用率和系统可靠性的平衡、动态调整业务分配策略的理念,以及负荷分担中的连锁效应、差异化服务,可以作为系统设计和维护的参考,有利于提高网络的质量和健壮性,进而提高用户感知。

见www.dcw.org.cn

猜你喜欢
客户群利用率负荷
2019年全国煤炭开采和洗选业产能利用率为70.6%
化肥利用率稳步增长
浅议如何提高涉烟信息的利用率
防止过负荷时距离保护误动新判据
主动降负荷才是正经事
板材利用率提高之研究
负荷跟踪运行下反应堆一回路控制系统仿真与验证
浅析微电影
专注于特殊客户群社交网广告
Savitzky-Golay在含冲击负荷短期负荷预测中的应用