刍议IPTV 用户体验异常的自动化检测

2020-08-05 07:00
数字通信世界 2020年7期
关键词:机顶盒平均值监测

李 维

(中国移动通信集团广东有限公司,广州 510000)

1 自动化异常检测

1.1 方案选型

离群值是需要检测的重要指标之一,因此,基于统计和预测的异常监测是我们考虑的监测方法,例如ARIMA 模型、Ma 算法等。

尤其是Ma 算法,不仅是方法容易实现,用时短,部署成本低,而且,在整个生产中进行异常监测其实时性能特别高。因此,我们选择Ma 算法作为异常监测算法。

1.2 检测算法

选择时间序列异常监测算法之一的移动平均算法。以计算滑动窗口中数据的平均值(某一时间序列的长度),确定序列的移动趋势,将时间序列123、nyyy 和滑动窗口设置为wu003dn,并计算顺序,即可得到移动平均值:

式中,Vt代表T 周期的移动平均值,图1代表的是指标的时间序列。由图片中的数据可以看出,指标数据的变化具有周期性的规律波动,峰谷值具有明显差异。为使细节看得更清晰,对原始时间值进行对数处理。由此得到,移动平均算法对指数的周期性规则的适应性还是很强的,原始数据的上升变化也可以从移动平均曲线中得以体现。

图1 移动平均值曲线

1.3 方案实现

通常,随着时间的变化,指标也随之变动,同时呈现一定规律性。如果有异常时间点,那么对应的指标波动一定不规则。因此,实际值得离散度可以通过计算实际值残差的标准来确定,同时也可以确定实际值是否异常。首先,时间序列yn1是根据一段时间内的正常数据生成的,滑动窗口大小n,滑动窗口遍历时间序列,计算移动平均值和序列残差的标准差NV,将集合m 乘以正常波动范围delta 指数的标准差,然后判断VNYN 值属于三角洲?如果是,那么yn 是正常点,否则就是异常点。最后,新数据的引入和最早时刻的消除被认为是正确的,如果yn 是正常点,那么VN 值将被加到yn 时间序列中的数据中。如果yn 是一个异常点,则下次检测yn+1时,将移动平均NV 值作为数据yn 添加到序列中,移动平均值将替换异常值。它可以减少异常值对后续时间序列平均值的影响,提高异常检测的精度。

2 提高检测结果策略

2.1 数据来源

省级EPG 交互式数据采集和分析系统基于省内全网用户的体验数据。它分析并存储UV/PV,响应/操作缓慢的用户数量,STB 的加载时间,EPG 服务器的页面加载时间和加载时间,指示灯,操作响应缓慢的用户数量(指示灯1)和加载时间机顶盒(指示灯2)以验证解决方案有很多复杂的因素会影响用户体验。

除了每个节点的故障之外,页面的不定期更改、机顶盒升级等因素也会影响用户体验。所以,实际异常监测过程中出现的各类问题,要结合实际业务特点进行持续的改进与优化异常监测方案。指标1与指标2的实际数据,即连续30天不间断的24小时监测,两项指标的数据周期都是24小时,差异点较为明显,指标2呈现上升趋势。

2.2 检测结果

运维人员认为,EPG 服务器故障造成了低速用户紫外线辐射量大量增加,而机顶盒升级引发了加载时间的增加。在移动平均曲线中,X 数值表示检测到的异常值。从最后得到的结论来看,基于移动平均算法的异常监测方案是准确的。在机顶盒升级后,指标2的时间序列规则呈现波动,这被认为是异常指标。尽管异常监测的最基本要求可以通过移动平均算法的异常检测方案来实现,但是,在日常的业务环境中,仍然存在着很多不确定的情况,比如机顶盒升级后,监测结果中还有很多报错信息。所以,我们还要进一步根据实际的业务需求,不断改进和优化监测方案。

2.3 周期性差异分析

为了消除指标的周期性差异,把每个指标分为24/小时的子序列,同时绘制曲线,检测其是否异常,把异常检测结果的真实异常值的检测效果划分为原始检测结果。其效果相似,但成功地消除了后期峰值和趋势移动平均值的假阳性异常值与实际值接近。

2.4 趋势突变分析

在机顶盒升级后,指标2出现了较大的波动,更高水平的数值被判断为异常。由此判断,简单的用移动平均值代替异常值,作为由正常业务的改进与优化而带来的趋势变化的数据指标引入时间序列,这是不够准确的。

为了处理页面修改、机顶盒升级后所带来的的问题,采用人工干预措施,实行半监督异常检测。如果发现是由正常业务引发的指标数据异常,就人工记录实际值,不可以用移动平均值替代实际值增加新序列。机顶盒升级后,滑动窗口可以完全覆盖正常趋势,恢复原来的异常检测方法。人工干预后,一段时间后显示移动平均值,没有监测到异常数据值。由此可见,采用人工干预的半监督异常监测方法可以更新序列趋势变化,解决由正常突变而引发的长期异常误判问题。

3 结束语

在IPTV 用户体验异常检测中,选择基于移动平均算法的异常检测方案应用其中。结合实际生产中遇到的各项问题,如机顶盒升级后存在数据误报,参数趋势呈现大波动等,对应将单个指标进行序列划分和实际值保留。实时监控与自动化异常监测得到了改进。通过一系列的参数调整,找到解决方案,异常指标被多次及时发现,为运维人员提高了工作效率。

但是,文中阐述的异常监测解决方案还不够成熟,属于初期研发阶段,仍在有很多考虑不周的地方。下一步,我们会结合更多的预测模型,尝试多种方法,减少人工干预,提高整体异常检测的准确性。

猜你喜欢
机顶盒平均值监测
平均值的一组新不等式
特色“三四五六”返贫监测帮扶做实做细
机顶盒上别盖布
安全使用机顶盒注意五点
机顶盒上别盖布
网络安全监测数据分析——2015年12月
网络安全监测数据分析——2015年11月
学习监测手环
变力做功时运用F=F1+F2/2的条件
What is Apple Watch All About?