互联网质量主动监测系统的设计与实现

2013-10-26 01:52中国移动通信集团江苏有限公司南京分公司
江苏通信 2013年3期
关键词:端口宽带性能

中国移动通信集团江苏有限公司南京分公司 周 隽

当前服务质量优化工作,往往依赖于用户投诉或故障触发,业务相关的薄弱环节难发现、难预知。因此,迫切需要建立一套从“服务性能监视”到“服务瓶颈发现”到“主动干预调整”的依赖流程驱动的自激励模式,使得事后维护向事前维护转变,补救性维护向预防性维护转变。

1 需求分析

重点满足互联网运维中如下几个方面的需求:

1)建立全面、科学的宽带运营维护评估体系,实现服务质量可视化;

2)提供基于拓扑管理的设备和链路管理手段,实现对网元运行状态和故障的实时监控;

3)建立预判告警手段,实现对潜在故障点和薄弱环节的前发现、提前改进,并能通过邮件、短信等方式进行告警通知。

4)支持全面应用环节监控管理,提供DNS(域名系统)用户掉线、认证性能等宽带业务及应用相关性能数据,并进行统计分析;

5)采用客户端排障与网络故障排查相结合的方式,提供直观快速的故障排查手段,建立用户维度上网接入设备的级联模型,实现故障点的快速定位;

6)系统自动对用户账号与IP地址动态匹配关联,实现从用户维度对用户行为及网服务质量的监控管理。

2 系统结构与功能设计

2.1 系统结构

系统采用指标集中监测、资源级联发现及主动仿真测试相结合的方式,将用户感知与网络质量数据从用户维度加以关联分析和展现。系统结构如图1所示。

2.2 系统功能模块

系统功能包括数据采集处理、接入质量分析、传输质量分析、用户感知分析、宽带认证分析、流量分析、DNS性能分析、综合告警管理、智能排障处理、统一资源管理、实时监控、系统管理等功能模块,见图2。

2.2.1 数据采集处理

数据采集是所有服务质量监控与网络管理的前提。数据采集主要包括数据的收集、数据整理和数据预处理(如过滤、对照、丰富等)。为了保证数据采集的完整性,系统提供对数据采集结果的浏览和手动启动采集的能力,即通过定制采集的周期和时间,实现对日常数据的自动采集,当由于异常情况引起采集失败的时候,通过启动手动数据采集进行数据补采。同时,对采集到的性能数据进行高效的数据聚合、统计等处理工作,并灵活定义告警门限,及时生成告警信息;对采集到的用户流量数据通过与RADUIS数据的比对处理,形成用户账号与IP流量对象的逻辑关联。

2.2.2 接入质量分析

系统定期自动获取本地网异常掉线用户的相关信息,提供接入质量相关的掉线汇总统计、掉线类型统计、用户掉线排行、BAS掉线排行。

2.2.3 传输质量测试分析

对用户来说,链路质量的好坏直接关系到整个网络数据传输的质量,同时也会直接影响为客户提供服务的质量。系统提供了完善传输性能测试工具,并通过图表的方式,对所关注的各链路性能进行分析。系统可灵活定制测试任务计划,对各考核路径的丢包率、延时指标进行统计。

2.2.4 用户感知分析

鉴于互联网业务日趋多样、用户行为复杂等特点,用传统的网络质量评估方式很难有效反映客户感知。系统通过仿真探针与客户端方式实现网页访问、在线视频、网络游戏等主流业务端到端的服务质量评估,从而指导维护优化工作,改善网络客户感知,降低网络客户投诉。

2.2.5 宽带认证分析

系统实时采集RADIUS(远程用户拨号认证系统)计费和认证消息数据,提供在线用户分析、RADIUS性能分析、掉线原因分析、多端口用户分析、用户认证记录查询等功能。

2.2.6 流量与性能分析

系统对路由器、BAS、OLT、ONU的端口流量及性能指标进行周期性采集分析,提供全环节的监控保障。同时,通过自动采集配置带宽,实现端口占比及突变预警。

2.2.7 DNS性能分析

系统实时采集用户的DNS报文分析,提供指定DNS服务器性能分析。

提供指定周期内,不同DNS服务器、各时段分布的压力分析。统计数据项包括:请求总包数、回包数、成功解析包数、平均响应时长、响应成功率、解析成功率。

提供指定周期内,不同DNS服务器解析失败原因分类分析,提供失败数、失败率统计。

2.2.8 综合告警台

综合预警台通过主动检测关键服务指标、集中展现最新“预警信息”。运维人员可根据预警级别进行确认和优化处理。

告警信息包括:BAS在线人数告警、接口流量告警、RADIUS告警、DNS服务告警、链路质量告警、设备故障告警等。

提供依据事件分类配置不同报警规则的设置页面,报警信息将按照事件分类与通知规则的对应关系通过短信、E-mail两种方式及时通知到管理员。

2.2.9 智能排障处理

通过自动建立“用户上网设备级联模型”,从“宽带账号”维度整合设备告警、流量拥塞、认证失败、异常掉线、网络性能,方便运维人员快速定位故障。代维及客服人员可以Web终端方式登录,通过简单操作实现报障提前诊断与预处理,简化后续流程。

2.2.10 统一资源管理

鉴于传统资源台账人工维护的工作量压力与准确性差异,资源管理重点实现PON(无源光网络)资源的自动登记管理,根本解决手工维护信息问题。系统功能包括:设备信息管理、链路维护管理、链路群维护管理、区域信息管理、设备级联关系查询、设备资源占用率统计等功能。

2.2.11 系统管理

系统管理提供用户权限管理、日志管理、参数管理等功能。

3 系统关键功能实现及主要技术

3.1 互联网质量数据获取

系统中各种基础数据的获取,主要通过协议适配器、测试管理工具、宽带客户端、应用接口这4种方式进行采集。

1)协议适配器:由分布式数据采集网关(GW)和适配器模块组成,支持数据的分布式采集、前置预处理、归一化处理功能。提供基于通用设施(如线程池、数据库连接池,任务队列、消息缓存和过滤机制等)的各种协议采集,如SNMP(简单网络管理协议)、NetFlow(一种数据交换方式)/NetStream(提供报文统计功能)、RADUIS、NAT(网络地址转换)、DNS、Syslog(系统操作日志)等,同时协议适配器可基于新的数据采集要求进行灵活的协议扩充。

2)测试管理框架:实现基于分布式测试服务器的主动测试管理,完成测试任务的统一下发,测试结果数据的集中处理。主要功能包括统一任务管理器、服务通信模块、多线程探测探针。探测探针可集中于核心服务器,也可根据测试需要灵活部署在网络出口、接入层等网络位置,实现对用户端、网内核心节点、网外目标网站的双向测试。

3)宽带客户端:宽带拨号客户端软件在提供PPPoE(以太网上的点对点协议)拨号功能的同时,实现用户自助的故障诊断功能。同时,客户端内置了应用性能监视引擎,可对关键网络业务进行服务感知测试,并将测试结果上传给服务器,供服务器质量分析和排障使用。服务感知测试内容包括:网络端到端性能、电子信函、文件传输、Web网页传输等。

4)应用接口:系统一方面可以通过SOAP(简单对象访问协议)、API(应用程序接口)、文件等接口方式实与第三方EMS(网元管理系统)和NMS(网络管理系统)的数据获取,如:客户业务资料库、客户业务受理单等。同时系统也可以为其他管理系统提供不同层次开放标准的接口,最大限度地充分利用本系统的管理数据。互联网质量数据获取见图3。

3.2 数据处理

完成在基础数据抽象和聚合处理,形成基础的数据源。主要包括数据处理引擎和专题分析插件两部分。

1)数据处理引擎:对采集到的数据进行抽象和对象化处理,并根据数据进行高效的数据聚合、对比关联等处理,为保证数据处理效率,该部分工作在内存中处理完成。系统采用内存数据库和高效缓冲池等技术,实现大数据量的分析处理。

2)专题分析插件:主要基于专题数据源的数据处理,如实现多层次数据收敛,以及基于历史数据和阀值控制的自动触发等。包括接入质量分析、宽带认证性能分析、网络传输质量分析、用户感知性能、用户流量分析、端口流量分析、DNS专题分析、NAT专题分析等插件。

3.3 用户维度的数据集中展现

PON设备的MIB(管理信息库)消息中可提供ONU端口和MAC(媒体接入控制)的对应关系,而系统同时监听用户上网的RADIUS报文消息,系统通过MIB消息和RADIUS报文的动态匹配,可获取用户上网级联设备信息。该方式优点是信息采集并发获取,信息获取效率高。

主要应用于用户报障的快速处理,运维人员可通过输入账号进行相关快捷查询。系统可集中显示用户上网相关节设备状态,展现用户最后认证失败原因、最后下线原因、级联设备及端口信息、用户上网记录、用户客户端测试结果、用户历史故障等信息,根据系统给出的相关信息,方便维护人员快速定位故障并响应处理。故障级联见图4。

4 系统特色

1)从用户的角度提升服务:通过对异常掉线、用户端口性能、宽带认证性能、网络传输状态、用户感知性能等指标的统计分析,可以建立对应的质量指标考核体系和优化办法,从而实现对宽带服务质量的闭环管理;

2)从经营的高度管理用户:系统可以提供对每个用户的网内网外流量统计分析,进而实现每个用户流量成本的计算,为用户评估和差异管理提供决策依据;

3)从端口的粒度细化运维:通过对ONU端口与用户账号的动态关联处理,可实现从用户角度对每个指标的查询统计,对用户投诉与故障便于分析管理。

5 结束语

系统的应用重点对互联网运维中如下几个方面工作产生了较好的提升作用:

1)薄弱环节提前发现,建立提前预警以及集中整改机制,有效降低万投比(每月每万收费用户中的投诉数量);

2)提升接入层资源的精细化管理,提高设备利用率,为新增采购提供指导;

3)驻地网装机质量第一时间自动分析,可在业务正式开通前完成不达标整改。

猜你喜欢
端口宽带性能
我国行政村、脱贫村通宽带率达100%
一种端口故障的解决方案
装宽带的人
硬件解耦三端口变换器的软开关分析与仿真
多按键情况下,单片机端口不足的解决方法
提供将近80 Gbps的带宽性能 DisplayPort 2.0正式发布
射频宽带放大器设计
一种新颖的宽带大功率分配器
Al-Se双元置换的基于LGPS的thio-LISICON的制备与性能表征
强韧化PBT/PC共混物的制备与性能