黎 宇,杨世标(中国联通广东分公司广东广州 510627)
随着互联网用户数量的增加和用户接入速率的持续提升,电信运营商IP 互联网承载的数据流量逐年增加,部分省级分公司的出口总带宽已达数10 Tbit/s且仍不断增长。以传统分光方式开展的质量分析已面临越来越严峻的成本投入压力,业界急需一套灵活性好、性价比高和可扩展性强的质量分析系统代替传统分光深度包检测(DPI)。本系统采用EDPI 数据采集分析模式,根据分析需求定制,在城域网出口设备处灵活进行流量选择性策略镜像,获取用户出网流量数据,提取IP 地址、统一资源定位符(URL)、抖动、时延等数据信息,运用AI 神经网络算法对用户维度、设备维度和资源维度质量数据进行层层关联分析,评价网络质量并结合DNS、RADIUS 等数据进行网内质差定位,实现固网专线、宽带业务质量劣化的主动响应,大幅提升运维效率、客服支撑效率和客户感知。
随着信息技术发展及网络演进,客户对于固网线路的要求不再仅仅局限于业务的通断,而是开始从时延、抖动、丢包等性能类指标出发关注业务的感知度。
长期以来,传统运营商的支撑响应大多源于客户报障后的被动响应,响应过程人工环节繁多,多单位流转耗时长,再加上对质量类指标关注缺失,越来越难以满足客户需求。
传统网络质量分析往往采用定向分光或探针探测方式获取源数据。定向分光方式成本高、灵活性差,单位分光成本高达3 万元/GB;探针探测方式因无法实时模拟端到端的探测路径,导致质量分析不够精确。此外,过于固化的质量分析模型也制约了系统本身的分析准确性和可迭代性。
为了满足客户需求,打破传统质量分析模式的限制,一方面通过研究EDPI技术在现网质量分析中的落地应用场景和与现网数据的整合,另一方面通过利用AI 算法的引入及全流程贯通自动化处理的方式,搭建全新的基于AI 算法的互联网大数据端到端感知分析处置系统,打造一个性价比更高、分析更精确灵活、体验更好的互联网质量分析处置系统。
EDPI 灵活包检测技术是从数据的有效和有用角度来看待固网动辄数TB量级的互联网出口带宽,只取其中对数据经营和挖掘有用的部分数据进行采集和分析的一种质量分析技术。本系统选取用户Web 访问场景(占比最大),采集了用户上行端口(80、8080、443 等)数据,通过深度报文检测,解析出用户IP、访问的URL连接、连接源信息和User Agent等数据信息,并通过包内TCP 等协议特征计算TCP 握手时延、首包时延、丢包率,并结合包数据计算用户端到端的业务使用指标。
与DPI 技术相比较,EDPI 可大大降低数据采集成本,如表1所示。
表1 DPI和EDPI对比表
系统模块主要由数据采集模块、数据处理模块、AI分析模块和展示模块组成,如图1所示。
图1 系统架构图
2.2.1 数据采集
数据采集是收集互联网业务端到端感知监测分析系统的源数据,采集的数据源主要有以下几个分类。
a)RADIUS。用户上下线日志,即用户IP,登录时间,宽带接入服务器(BARS)信息,公私网对应关系,用于匹配的EDPI数据。
b)号线数据。账号与光网络ONU 单元、光线路OLT终端对应关系。
c)DNS。域名解析记录,用于核对应用资源。
d)NetFlow。重点内容资源业务流量矩阵分析,针对大型独立内容提供商(CP)、电信接入资源的服务提供商(SP)、内容分发网络(CDN)运营商,根据其域名DNS解析结果在电信运营商网内(省/城域网)、网外(国内各运营商,国际主要国家/运营商)落点,分析电信运营商城域网至对应内容资源落点之间流量矩阵。
e)重点IDC 间流量矩阵。IDC 流量流向模型,根据客户IP 地址段/AS 和EDPI 数据实现基于IDC 的质量分析。
f)EDPI。用户上网指标数据、URL等信息。
2.2.2 数据预处理
a)数据清洗。抛弃不能识别的流量包、没有正确匹配的会话流、没有按正确格式记录的日志。
b)数据脱敏。使用哈希算法对用户名进行加密。
c)数据标记。根据域名、URL 等分析出对应的应用,以及通过IP、端口号等分析出对应用户的过程。
d)数据归并。抛弃重复数据的过程,也指对一些可以相加的数据,比如流量、访问量等进行相加统计的过程。
2.2.3 AI分析
通过AI 算法建模,不断进行样本训练,学习质差特征,最终模型化输出质差结果。
2.2.3.1 专家系统
a)设备指标建模。指对用户接入等网络设备的各项指标(访问量、时延、丢包、速率)等进行建模,形成分析网络设备质量的分析流程。
b)用户应用指标建模。指对网站、域名、URL 等应用资源的各项指标(访问量、时延、丢包、速率)等进行建模,形成分析用户应用资源质量的分析流程。
c)多维度统计分析。指可以通过用户、网络设备、应用资源3个维度进行质量分析,同时还通过在线时间、落点、Top100 热点应用等传统统计方式辅助质量分析。
2.2.3.2 机器学习
a)分类。使用过往投诉用户和正常用户的特征进行有监督的训练,然后对每日的用户特征进行分类预测,从而分析出哪些用户是质差用户。
b)聚类。可以通过对全部用户特征进行无监督分析,找出异常值或离群值,从而将这些特征对应的用户标记为疑似质差用户。
c)关联分析。对用户经常访问的应用以及访问一些常用应用的行为和用户是否质差进行关联分析,通过这种关联找到可能出现质差的用户访问,同时对质差用户、质差设备、质差应用进行关联,分析质差的根本原因。
2.2.4 分维度展示
a)用户维度。从用户角度分析结果,不仅仅是按照用户IP 地址得到分析结果,而是结合EDPI 数据、号线和RADIUS 数据,将用户源IP 地址自动关联到专线和宽带注册用户(见图2)。
图2 质差用户列表
b)设备维度。从网元设备角度进行设备质量分析,通过设备质差用户数比例和设备质量进行多向分析,定位设备质量情况,实现设备维度的质差发现(见图3)。
图3 设备质差分析列表
c)资源维度。按照用户访问的目标网站进行访问分析和质量分析,将NetFlow访问流向与EDPI数据、DNS 数据结合,并将原始数据中的目的IP 地址等内容转化为域名和网站数据,集中展现对应资源的被访情况。
关于自动处理功能是人工智能的一个敏感问题,互联网业务端到端感知分析系统实现的是系统自动故障定位和自动派发处理工单的流程,如图4所示,即结合人工处理的机制实现自主分析和自动判断。
图4 自动派单流程图
按照上述多种维度分析,互联网业务端到端感知监测分析系统的自动派单功能可以分为如下几类。
a)外线工位处理工单。通过系统的用户维度分析,可以自动定位用户终端设备故障或问题,并自动给相关维护单位下发工单,对该问题进行及时处理。
b)专业维护工单。通过系统针对网内设备维度分析,可以自动定位出网内设备故障或问题,并自动给相关维护单位下发工单,对该问题进行及时处理。
c)资源侧的维护工单。通过系统的资源维度分析,可以自动定位出各网站存在的问题和隐患,并通过资源侧联动群,推送异常报障信息。
端到端感知监测分析系统实现了上述精确分析和自动派单处理功能后,可以提前发现并处理互联网业务中大部分故障隐患,使得用户故障投诉率大大降低。
运用EDPI 及AI 深度学习算法实现互联网业务端到端感知监测的数据分析,可降低数据采集获取成本,并提升运维、客服人员支撑效率。