文英, 何长枭, 居天春
(中国移动通信集团广西有限公司, 南宁 530022)
随着手机上网用户的增多,移动数据流量业务及话单增长迅猛。关于套餐使用量的提醒不及时等相关问题及投诉呈上涨趋势。本文首先分析了目前流量阀值提醒短信下发的主要流程及存在的话单生成或采集不及时、离线话单占比高导致提醒时延偏大等相关问题,接着从监控、系统处理等方面提出了一些优化措施。优化后数据表明,在线计费系统处理性能和在线计费话单占比得到了提升,较好地缩短了流量阀值提醒短信下发时延。
某通信运营商全流程提醒服务规范中套餐内数据流量定量提醒定义:对客户套餐内数据流量业务,每账期至少进行两次用量提醒,即当实际使用量接近和到达套餐使用限量时进行提醒。此类提醒是由用户使用话单中使用量触发,一般是通过短信下发提醒信息给客户,又称为流量阀值提醒或流量余量提醒。
相关提醒时延定义:提醒发布时延指提醒触发具备条件至提醒发布并向客户成功展示所需时间,包括计费生成时延、提醒生成时延、提醒下发时延。其中,计费生成时延:指客户相应通信消费行为产生对应计费信息并传送至支撑系统的时间间隔;提醒生成时延:支撑系统收到客户计费信息,在生成提醒内容后发布至下发平台(如短信中心)的时间间隔;提醒下发时延:提醒下发平台(如短信中心)收到提醒内容并成功向客户展示的时间间隔。
各类提醒发布时延和相关指标参考值如表1所示。
从表1可知,在线、离线情况下,阀值提醒短信的最大提醒生成时延参考值分别是5 min和10 min,全流程的发布最大时延分别是10 min和45 min。
根据上述定义,计费生成时延相当于是从话单结束至支撑系统收到客户计费信息的时间间隔;提醒生成时延是从支撑系统收到客户计费信息的时间开始计算。支撑系统收到客户计费信息的时间,准确来说是采集话单或采集在线消息的时间,但目前计费系统中仅有话单文件的采集时间,对应话单量庞大,仅能通过手工统计单个及少量话单对应的采集时间,无法批量统计多个流量话单对应的采集时间。基于此情况,目前提醒生成时延有如下两种统计口径。
表1 提醒时延参考值和指标参考值
统计口径1:考虑到一般情况下采集到批价处理耗时较短,而系统可提供批价时间,故从系统批价时间即生成阀值告警开始计算。
统计口径2:是从话单结束时间开始计算,但离线情况下从话单结束至支撑系统实际采集和处理仍有一定耗时。
目前,移动数据流量业务阀值提醒短信下发的流程,涉及设备侧、BOSS侧计费、账管、短信厅等系统,包括话单生成、话单处理、阀值告警生成及处理、提醒短信生成及发送等多个环节,整理如图1所示。
(1)生成离线话单或根据在线会话消息生成在线话单:客户开始使用移动数据流量业务、产生上网行为时,若是离线方式会在GGSN等设备侧生成离线话单;若是在线方式,由在线计费系统根据会话消息生成在线话单。设备侧数据流量话单按照每2 M流量(上下行流量之和)或每30 min(满足任一条件)进行切割。
(2)生成阀值告警: BOSS系统计费程序会对话单进行批价处理,读取用户资料MDB(Memory Data Base,简称MDB)及免费资源MDB,根据使用量及产品阀值(如剩余10 M、0 M等),判断是否触发阀值告警,满足则触发阀值告警,从免费资源MDB中导出告警记录至账务数据库流量提醒表中。
(3)处理阀值告警生成提醒短信:BOSS系统账管程序会实时扫描账务数据库流量提醒表,多线程并发处理相应记录,根据提醒模板、提醒规则、提醒内容等拼接生成提醒短信,处理后写历史表。
(4)提醒短信提交至短信中心:BOSS系统短厅程序实时扫描短信发表中提醒短信并提交网络侧短信中心,处理后写短信发送历史表。
(5)短信中心下发客户:网络侧短信中心将BOSS提交的短信发送给用户,成功发送则生成相应短信话单。
综上,阀值提醒短信的下发涉及到话单生成、话单处理、阀值告警生成及处理、提醒短信生成及发送等4个主要环节,各环节的时延长短会影响到客户对流量提醒短信是否及时的感知。
基于此流程,结合日常维护和投诉处理相关情况,总结出目前系统中主要存在如下两个问题,这些问题也是导致提醒不及时相关投诉居高不下的重要原因之一。
图1 移动数据流量业务阀值提醒短信下发流程
(1)离线情况下因网络断连、网元异常、账号密码过期等情况造成话单采集不及时,影响到话单后续处理,导致阀值提醒不及时。
例如,2014年5月出现临时网络故障,设备侧与BOSS侧网络断联,导致BOSS侧无法采集到设备侧生成的话单,网络恢复正常后才将积压在设备侧话单采集过来并进行后续处理,延迟最长达30余分钟。
从BOSS侧较难主动发现网元异常情况,而网络连通性问题,易受设备侧、BOSS侧双方影响,且存在较多不可控因素,如施工导致传输断、网络设备老化等,可优化空间较小。基于此,可以考虑从监控网络连通性、业务对应话单文件生成等情况来发现异常。
(2)离线话单占比高,导致整体提醒时延偏长。
以某市公司2014年5月一天全量非漫游移动数据流量话单为例,话单总数为2261万条,在线话单数为1 399万条,在线话单数占比61.87%,即离线话单占比超38%,占比较高。基于统计口径2时,在线情况下提醒短信平均时延已低于0.5 min,离线对应的提醒短信平均时延超过9 min。由此可见,离线话单占比较高,是导致整体(不区分在线、离线)提醒生成时延偏大的主要原因,需要提高在线话单占比。
针对问题1,从BOSS侧主动监控角度出发,新增话单采集点连通性监控、话单超时未生成及生成延迟的监控,可降低网络异常、网元异常等情况对话单采集的影响。
BOSS侧计费主机是一般是通过FTP登录采集点进行移动数据流量话单采集的。梳理采集进程中的采集配置,新增监控脚本,根据采集点IP、采集账号、密码、话单文件源路径等关键字段模拟计费主机FTP登录,根据能否登录、登录后相应路径话单文件数量等情况来判断到对应采集点的网络连通性,对异常情况进行告警,核查确认后通知设备侧进行相应核查。
离线情况下的移动数据流量话单记录是每达到2M流量(上下行流量之和)或每30 min(满足任一条件)时,即生成一条话单记录。根据这一生成规则,查看现网话单生成情况,白天业务量较大,正常情况下话单文件生成频率是5~16个/ min;在夜间闲时,正常情况下话单文件生成频率是个1~3个/ min。考虑BOSS侧采集处理延时,共计设置18个移动数据流量话单采集进程的超时阀值为35 min,即正常情况下超过35 min未生成话单时进行告警。同时在解码环节,增加对话单延迟的相关监控,如延迟超过24 h则进行告警。出现上述告警时,可能是设备侧网络异常、话单生成异常等导致,需进一步核查处理,确定后通知设备侧进行相应核查。
针对问题2,通过分析在线用户产生的异常离线话单,发现大量用户在BOSS侧和HLR侧在线计费属性存在不一致情况,导致在线用户产生的在线话单走离线话单处理,导致提醒生成时延偏大。例如,前期迁入在线计费系统的1500万用户中,BOSS侧与HLR侧在线计费属性一致数据约为1 100万,BOSS侧有、HLR侧无在线计费属性的用户约400万,BOSS侧无、HLR侧有在线计费属性的用户约14万,差异的主要原因为从BOSS侧批量迁入时部分资料发HLR失败导致。
为确保BOSS侧和HLR侧用户在线计费属性一致,分步重新将各地市用户迁入在线计费系统,先从用户量相对少的地市开始,每天迁入约20万用户,迁入后观察在线计费话单情况,无异常后再继续进行迁入。截至2014年10月,共计完成978万用户的迁入,占全区用户的36%。
同时,统计分析BOSS侧内部数据一致性情况,比对营业侧和账管侧在线计费属性相关表,修复相关差异数据,并进行用户资料MDB初始化,确保MDB中数据与数据库中数据一致,逐步建立BOSS侧和HLR侧在线计费用户一致性比对机制。
此外,核查在线转离线的异常话单时,发现存在INBOSS系统处理性能不足导致系统反算超时切离线的情况。针对此情况,对在线计费系统进行扩容,增加2台主机后,共计在4台主机上部署在线计费应用程序,并增加DCC代理与INBOSS的进程个数,调整系统待应答时间。同时,针对4G流量话单,因4G网络下速率较快,参照集团相关参数建议值,调整了在线计费流量片配额值,以减少不断反算申请流量片的系统处理开销以及话单量。通过上述一系列优化工作,来提升在线计费系统处理能力,减少在线转离线的异常情况。
优化措施1涉及的相关监控部署,已于2014年6月底已全部完成。截至10月,设备及平台侧账号过期故障出现2次,话单生成异常(包括超时无文件生成、生成话单延迟)故障出现3次、设备断连故障出现1次,共计出现6次。而通过采集点连通性、话单超时未生成情况的异常告警,均主动发现了上述6次故障,即做到100%主动发现此类设备及平台侧异常的故障,并及时通知设备、平台侧进行处理避免升级至更大故障,极大地降低了故障的相关影响,保障了话单采集及时性。优化后,10月随机抽样数据显示,在线话单占比由优化前的61.87%提升至81.71%,即降低了离线话单占比。
实施优化措施2之前,以全区客户5月不同时间段的阀值流量提醒短信数据做统计分析,各环节时延情况如表2和表3所示。
备注:因各环节无唯一标识,BOSS侧只能根据下发端口、客户号码对应短信下发时间、接收时间等来估算客户接收提醒短信的情况,不能完全准确对应,故环节D为随机抽样数据,总样本数为200余万条。
表2中,在线流量提醒阀值告警占比37.41%。不区分在线、离线时,基于统计口径1、2的提醒生成时延分别是0.11 min和7.23 min,全流程提醒发布时延为7.47 min;96.35%的提醒短信下发时延(环节D)均小于提醒服务规范要求的4 min,平均时延为0.24 min。虽然各环节均满足提醒服务规范要求的最大参考时延,但从客户角度来看,提醒不够及时,影响客户感知。表3中,在线阀值提醒5 min及时率为99.5%,提醒较及时;离线阀值提醒5 min及时率和10 min及时率分别为40.8%和52.62%。不区分在线、离线时,整体阀值提醒的5 min及时率和10 min及时率仅为62.76%和70.16% ,时延较大。
表2 随机抽样数据-5月(优化前)阀值流量提醒时延
表3 随机抽样数据-5月(优化前)、10月(优化后)阀值流量提醒时延分布
表4 随机抽样数据-10月(优化后)阀值流量提醒时延
优化后,以全区客户10月不同时间段的阀值流量提醒短信数据做统计分析,各环节时延情况如表3和表4所示。
表4中,优化后在线流量提醒阀值告警占比79.13%,较优化前提升41.72 PP。不区分在线、离线时,基于统计口径1、2的提醒生成时延分别是0.1 min和3.46 min,全流程提醒发布时延为3.68 min,提醒较及时,较优化前缩短近一半。表3中,优化后在线阀值提醒5 min及时率为99.97%,较优化前提升0.47 PP;离线阀值提醒5 min及时率和10 min及时率分别为66.47%和75.41%,较优化前分别提升25.67 PP和22.79 PP。不区分在线、离线时,整体阀值提醒的5 min及时率和10 min及时率分别为87.63%和91.50% ,较优化前分别提升24.87 PP和21.34 PP。
在目前流量阀值提醒短信下发流程中,话单生成和采集的及时性极大地影响着后续阀值提醒短信下发的及时性。在线计费系统基于在线实时计费消息生成话单,可以较好地缩短话单生成时延,有利于及时下发阀值提醒短信,降低欠费风险,从而提升客户使用感知和客户满意度。随着流量业务向在线计费系统的逐步迁移,对在线计费系统的稳健性和健壮性提出了更高要求。此外,在引导客户了解阀值提醒短信服务、理解提醒短信存在合理时延的同时,可以考虑提供多种渠道的提醒服务来提升客户感知,如实现页面提醒、客户端提醒等。