李维 乔雪 徐木生
摘 要:我国IPTV业务近年来发展迅速,要提升IPTV业务竞争力,除了需要保证内容资源的丰富多彩外,基础的感知服务也非常重要。IPTV业务由于实时性要求高、网络流量大、影响质量因素众多等原因,很难准确和及时的发现故障问题,IPTV电视质量告警的聚类算法研究与实践针对这一问题提出了优化建议。通过IPTV电视质量告警的聚类算法研究与实践可以有效的提升故障监控告警数据的有效性和告警及时性。
关键词:IPTV;故障监控;质差告警;智能聚类
中图分类号:TP311.52;TP18 文献标识码:A 文章编号:2096-4706(2019)02-0055-03
Abstract:IPTV services in China have developed rapidly in recent years. In order to enhance the competitiveness of IPTV services,besides ensuring the rich and colorful content resources,basic perceptual services are also very important. IPTV service is difficult to find fault accurately and timely because of its high real-time requirement,large network traffic and many factors affecting quality. The research and practice of clustering algorithm for IPTV quality warning put forward optimization suggestions. The research and practice of clustering algorithm for IPTV quality alarm can effectively improve the validity and timeliness of fault monitoring alarm data.
Keywords:IPTV;fault monitoring;quality difference alarm;intelligent clustering
0 引 言
我国IPTV业务最早开始于2004年,最初发展缓慢,一直到2015年8月开始才开始快速增长,2016年IPTV业务更是高歌猛进,2017年上半年IPTV用户数就已经突破1亿大关,而据工信部发布的2018年7月份通信业经济运行情况来看,截至7月末,基础电信企业发展的IPTV用户总数达1.45亿户统计,比上年末净增2266万户。IPTV業务是各大运营商进入用户家庭的天然业务入口,围绕固网宽带业务,IPTV业务市场竞争非常激烈。
提升IPTV业务竞争力,除了需要保证内容资源的丰富多彩外,基础的感知服务也非常重要。做好IPTV视频感知质量保障和优化、售后服务工作是提升用户感知服务的关键。IPTV业务由于实时性要求高、网络流量大、影响质量因素众多,导致很难准确和及时的发现故障问题,IPTV电视质量告警的聚类算法研究与实践针对这一问题提出了优化建议。
1 故障监控告警手段提升研究
1.1 研究难点
IPTV业务主要的质量分析手段是通过机顶盒嵌入软探针和部署拉流探针,实现端到端质量监控及故障快速定界、定位等能力;但随着用户规模快速增长,软探针产生海量数据的同时也给IPTV感知分析、故障汇聚带来极大的挑战,主要表现在以下几个方面:
(1)数据量巨大。预警实时性要求高,IPTV用户量大,需要实时上报各项质量数据,每条数据均需要与海量的信息数据进行匹配,然后进行各维度汇聚,实时计算量大。
(2)噪声数据多。由于用户行为的不确定性,软探针会上报各类因用户行为导致的无用、无效数据,比如观看时间极短,反复进入或退出均会产生大量的噪声数据,噪声数据识别、清洗是另一大挑战。
(3)IPTV质量指标多。现网IPTV直播、点播、回看采用完全不同的协议,每类业务有超过100项指标并且主要指标完全不同,需要找出相应聚类类型相关性最强的指标。
(4)IPTV业务对网络要求高、更敏感。在网络丢包高于0.03%或延时超过40ms即可产生花屏,对用户体验造成影响,而现网大部分的网管系统配置告警、预警阀值不足触发如此细微的问题,故通过海量的IPTV用户真实体验进行聚类端到端故障、隐患势在必行。
1.2 研究方案
本研究以机顶盒软探针上报数据、直播频道拉流数据、IPTV网络和业务拨测数据为基础,关联综合资源管理系统、业务平台媒体资源表等生成网络、地理、平台、终端厂家等4个维度的资源树和相关标签信息,按机顶盒劣化数据、直播频道劣化数据输出各层级设备和链路故障告警数据,采用如下几项技术解决上述问题:
(1)采用“实时流处理+人工智能聚类算法(K- means)”,确保数据处理实时性、高效性的同时提高聚类的准确性,降低算力消耗,目前全量数据实时告警聚类时间粒度为5分钟;
处理流程:STB数据入库处理,将数据划分K个对象,选定簇心,将STB数据按簇心通过欧式距离归类,找出质差分割点;不断有新数据入库,循环迭代;结合新旧对象数据,重复划分簇群,定位每个时间粒度(5分钟、1小时等)不在变化的稳定簇群。
(2)采用“一次聚类+硬探针关联”双重验证,通过不断总结优化噪声数据标签,自动进行多维度的聚类,不断总结梳理数据过滤规则,同时关联硬探针进行辅助确定验证、分段关联,提高告警的准确性,目前聚类告警准确度达到95%以上,给IPTV业务,甚至整个互联网网络的维护带来全新运维模式,图1为一次聚类和二次验证流程说明;
(3)总结梳理告警体系:通过不断的测试验证和模拟故障数据进行触发,最后总结出一套告警体系,包括告警指标、阀值、聚类比例等;告警汇聚逻辑从下层节点逐步上升到上层节点,在故障排查时能从上层节点回溯到下层节点及用户,关联出受故障影响用户群明细数据。
2 故障监控告警手段实验
2.1 数据样本
采集约500W机顶盒用户数据,平均每小时有播放操作的流用户数约26%,即130W+,每个机顶盒软探针每5分钟上报一次数据,即每个小时平台可以收到1560W+机顶盒数据,机顶盒每次上报的数据内容包括每5分钟内用户播放过的每个节目的100+的指标数据,数据量非常庞大。本次实验,我们抽取了IPTV业务繁忙的阶段,已采集的机顶盒数据中随机一天20:00-20:59一个小时内,约200万机顶盒户2400万份(每5分钟一份数据)的机顶盒上报数据作为实验数据样本。
2.2 数据清洗
本次实验内容为告警聚类,是基于机顶盒视频播放出现异常的基础上聚类的,我们需要先对数据样本进行清洗,剔除无播放记录和视频播放正常的用户,数据清洗后,剩余约35万份机顶盒上报数据。
2.3 数据转换
对机顶盒用户来说,最常见和最直观的故障是播放视频出现了卡顿/花屏现象,所以出现卡顿/花屏的时长直接决定了机顶盒用户的实际感知体验,而造成卡顿/花屏的原因是多样的。我们先将重要故障指标转换为数值Q1~Qn(约30个),将故障时长按实际故障时间长1~59秒转换变量为T1~T59,>=60秒的转换为60,共60个变量。
转换后的变量数据,需要打上故障类型标签,标签内容包括故障原因、故障现象、故障严重等级等,变量标签是根据实际的业务情况、用户发展及越来越高的互联网电视体验感知要求而变化的,但是在通过实际用户数据聚合变量标签前,我们可以根据初期分析的经验值,先为每个变量打上标签,如:
(1)RTP网络丢包、網络延迟过大、TCP重传率过高等标识为运营商网络故障;
(2)WIFI信号强度过低、PING家庭网关时延等标识为家庭网络问题;
(3)HTTP请求无响应、HTTP响应时延过大等标识为CDN平台故障;
(4)CPU/内存占用、终端请求分片间隔时间偏大等标识为终端故障;
(5)PAT表格错误、PID丢失错误、视频空包等表示为节目源故障。
再将故障类型也转换为变量,以便下一步进行数据处理,故障类型和变量详见表1:
2.4 数据处理
机顶盒上报的每个故障指标都是在监测软件监测到机顶盒播放视频有卡顿、花屏等现象的时候上报的,通过在用户播放视频产生故障时同步分析出来的指标,可以预判该故障时间段内获取的指标肯定有部分指标超过故障告警门限,再同比全量机顶盒每个指标通过K-means聚合计算出来的常规值,与视频播放异常时每个指标的值进行对比,得出单个机顶盒单次视频播放异常时与指标常规值偏离度超过N%(经验值)的指标(一个或多个)定义为该故障记录数据的异常指标。
通过对异常指标、故障类型、用户行为数据和反馈数据的关联,后台形成告警原因支持库,在每个异常指标产生的时候,自动计算和匹配故障原因数据,并将异常指标匹配上故障类型时长变量和故障原因信息。
然后将每个机顶盒的异常指标及其关联信息数据通过欧式距离,计算出每个机顶盒故障数据点的距离,通过故障数据点和中心数据点之间的距离长短,得出聚类中心点和簇群,找出质差簇群,通过质差簇群的机顶盒信息进行分类,汇聚上联质差节点。
具体处理流程包括:
(1)系统会实时对机顶盒上报数据进行清洗和聚类,每5分钟判断一次聚类中心点和汇聚质差节点;
(2)每5秒聚类一次机顶盒数据,第6-10秒的新数据会在前5秒的聚类中心重新计算后作为数据前10秒的数据样本和前5秒的数据合并计算,得出新的聚类中心点,以此类推,循环计算;
(3)每完成5分钟聚类中心点计算,与机顶盒上联信息关联匹配一次,得出质差上联节点;
(4)第二个5分钟质差上联节点与第一个5分钟质差上联节点比对,判断质差告警是否连续;
(5)根据告警连续门限确认需要循环比对质差上联节点的次数,达到门限则产生聚类告警,未达到门限则在下一个5分钟计算周期循环计算。
3 结 论
通过本次聚类告警算法实践,对35万的机顶盒质差数据按k-means算法聚类后,发现每个5分钟的5个聚类中心点偏差不超过3%,可以在每次聚类时都指定固定的5个聚类中心,减少循环计算量,提高告警判断的准确性并细化告警原因。
现有告警分析技术,主要采用固定指标门限、固定故障类型、固定故障节点,部分有故障隐患但是达不到固定告警条件的数据可能会被遗漏,同时也无法进一步判断故障原因。IPTV电视质量告警的聚类算法研究与实践通过K-means聚类质差机顶盒汇聚上联质差节点的方式与实际故障现象贴近,准确率85%以上。图2为机顶盒数据聚类后的效果展示。
IPTV电视质量告警的聚类算法研究与实践可以有效提升故障监控告警数据的有效性和及时性,在IPTV批量用户故障投诉前通知运维人员处理故障,降低IPTV用户投诉率,提高IPTV用户感知。
参考文献:
[1] 房培光,林晓琳.IPTV技术的优势与应用 [J].信息与电脑(理论版),2017(12):158-159+162.
[2] 史林林.论IPTV技术及应用 [J].电子技术与软件工程,2016(7):28.
[3] Anand Rajaraman,Jeffrey David Ullman.大数据——互联网大规模数据挖掘与分布式处理 [M].王斌,译.北京:人民邮电出版社,2012.
作者简介:李维(1982-),男,汉族,湖南益阳人,中级工程师,工学硕士,研究方向:计算机应用技术;乔雪(1983-),女,汉族,广东肇庆人,工学硕士,研究方向:通信与信息系统;徐木生(1980-),男,汉族,广东梅州人,工学硕士,研究方向:通信与信息系统。