王莹 王顺新 谈龙兵
关键词:云平台、流量分析、自动化测试、业务保障、可视化
一、引言
近年我国工业互联网平台发展迅速,为加快企业数字化转型提供了有力支撑。工信部将进一步加快企业数字化智能化转型,鼓励大企业建设跨行业跨领域和特定行业区域工业互联网平台,同时推动发布中小企业数字化转型指南等引导性政策文件,支持中小企业上云用云[1]。
较以往业务本地化,企业业务上云后,在网络及业务性能监控方面将面临一系列新问题:
①故障排查处理流程长,处理时效差:故障排查处理,涉及云外运营商网络、云内网络及软硬件厂商、云业务编排等多个环节使得故障排查流程变长,故障定界定位时效差。
②缺乏租户级监控:上云后的“虚”环境使得用户运维人员无法再对除业务之外的软硬件等进行监控,宿主机、网络设备真实的负荷、告警以及可能潜在的安全漏洞等可能导致业务中断的情况。
③缺乏实时性监控及评估:例行的周报、月报等性能、运行报告难以提前发现隐患,缺乏整体性、实时性以及可视化的监控手段。
业务上云后面临的问题对云端业务保障手段提出了新要求,即“云业务除了传统的监控/ 保障方式(如SNMP、Zabbix 系统监控,架构自带的高可用)外,还有哪些方式可以完善云业务的保障体系,保障云业务的持续高可用?
二、保障思路
基于不同云架构平台网络及业务保障场景,融合网络流量分析及探针自动化测试两个手段,采用流量分析实现租户及业务关联识别并进行流量建模,利用植入宿主机的软探针进行自动化测试并收集测试数据,结合租户业务特征及探针测试结果呈现云平台业务全景监控,通过不间断采集资源及配置信息。如算力(CPU、内存)、存储、负载等信息,按照订购信息进行租户与业务关联,配合租户所属SLA 等级实现模块化监控及告警,实现主动+ 被动手段有效结合,达到保障云平台网络及业务稳健及高可用目的。
三、实现方法
结合本省云平台网络拓扑及云上业务特征,分别制定云内外网络保障和云内业务保障两个子方案,相关测试及采集数据汇总于省内云业务监控及保障平台进行综合可视化呈现,对网络+ 业务的综合性监控及告警,呈现云平台网络及业务性能监控一体化视图。
(一)云内外网络监控保障
结合云平台网络拓扑分别于用户侧、接入PE、省网PE、云平台入口、云主机等5 个关键节点做为监测点部署主动监控探针,通过专用的数据回传通道将分段测试数据回传至云业务监控及保障平台,平台对5 个关键点的测试结果进行分段处理及汇总,得到网络质量全景化视图。
云外网络监控及保障手段:从用户接入至云平台入口之间的专用或公用网络,在用户侧部署便携式探针,基于城域网落地PE 及专网入口设备部署机架式高性能探针用于分段测试。
云内网络监控及保障手段:对于虚拟化环境,采用虚拟化探针的方式,将探针部署于宿主机以及租户虚机等位置进行业务测试及监控,测试宿主机或VPC 至云平台网关的underlay 网络质量,实现云业务端到端的故障定界。
1. 监测点探针主要功能及测试内容
监測点1:便携式探针,置于用户办公室模拟同一网络环境,支持Ping、Traceroute、TCP/UDP 测试等基础连通性测试、业务仿真测试等。实现对落地PE、网络PE、云入口、云主机4 个监测点不间断Ping 测试以及结合业务类型对云端业务进行测试。
监测点2、3、4:机架式高性能探针,部署于落地PE、网PE、云入口测试传输通道质量,支持万兆网络,支持高并发具备应用压力测试、应用层业务性能分析等多项高级功能。
监测点5:软探针,以软件包形式部署于宿主机或作为一个VNF 功能部署于租户虚机内,支持操作系统环境及性能参数采集。实现对云内管理网络以及租户的VPC 虚机、私有网络自动化测试以及实时采集宿主机或虚机的相关性能信息,如主机CPU、内存利用率、磁盘存储性能、进程类占用、网络资源占用等性能指标。
2. 测试原理
Ping 测试:网络可达性测试,用于测试IP 网络的连通性。发送端周期发送ICMP Echo 消息给接收端,发送端根据收到Reply 消息数量以及接收Echo Reply 与发送Echo 的时间差计算丢包率、时延、抖动等指标。
TraceRoute 测试:实现对源和目标的数据报传送中路径的探测,返回至目的节点中间的路由信息和默认每跳3 次的Ping 测试结果,通过对两次测试结果进行路径比较,将路径变化情况进行量化,可直观检测路由路径的变化。
DNS 测试:DNS 测试通过发送Query 消息向指定的域名服务器请求解析某域名,计算域名解析的时间和解析成功率[2]。
TCP 测试:TCP 测试用于测试IP 网络的数据包传输质量,是端到端测试,使用两台探针各自统计收发双方根据收到TCP 数据包个数与时间计算TCP 握手时延、TCP 握手成功率等指标。
HTTP 测试:向Web 服务器发起HTTP 请求, 对WEB 服务器返回内容进行解析并下载相应的页面元素,获取每个页面元素的DNS 解析时延、TCP 连接时延、下载时延、吞吐率,经过综合感知评分后得到用户访问整体页面的综合质量。
综合质量:综合感知评估体系基于DNS 解析时延(权重20%)、TCP 连接时延( 权重20%)、下载时延(权重30%)和吞吐率(权重30%)四个指标,每个指标根据测试结果划分0-50、50-80、80-100 三个线性得分区间,每项指标的区间得分乘以指标权重,再求和之后得到的分数即为综合质量。
(二)云内业务监控保障
对业务监测的前提是要识别业务,在宿主机或vSwich 上部署流量采集设备进行流量采集和流量分析,通过解析流量中的五元组信息或应用特征字段实现租户流量识别、业务识别以及业务关键KPI 指标统计。
有两个虚拟化场景下的云架构资源池,一号资源池是基于VMware 的虚拟化方案,二号资源池是基于华为的虚拟化方案。需要考虑在虚拟环境下的流量采集问题,譬如流量的获取方式、环境中的流量模型、采集点的规模和可管理性、采集机部署后对现网环境的影响、流量分析数据回传等多个问题。
目前在虚拟环境下,虚拟流量采集可行的方案有:
① VM 内部署虚拟探针模式;
②在宿主机Hypervisor 上安装采集探针;
③ vSwitch 镜像+ 虚机虚拟探针模式(虚拟化);
④ vSwitch 镜像引出模式。
因此,需要结合不同平台下的实际环境采用不同的方案[3]。
1. 一号资源池(华为云环境)的流量采集方案
根据实际情况评估,采用在宿主机Hypervisor(如Openstack Hypervisor)上安装采集探针方式部署。
采用宿主机管理端口做探针管理地址,配置采集探针使用抓包的方式对业务流量端口进行抓包,部署NPM流量分析模块到公共管理域虚机上,分配管理地址做平台的登录维护地址,探针向平台进行注册后,由平台下发流量采集任务。
2. 二号资源池(VMware 云环境)的流量采集方案
根据实际情况评估,采用vSwitch 镜像+ 虚机虚拟探针模式(虚拟化)+vSwitch 镜像引出模式部署。
VMware 分配2 台虚机部署探针和平台,配置OVS镜像到探针所在虚机,先进行探针所在宿主机流量镜像,完成本机镜像流量测试后,再配置远程OVS 镜像到探针所在虚机进行,OVS 镜像引出方式实现流量采集。
四、实现效果
(一)租户资源容量可视化
通过对租户的宿主机、虚机的资源信息及运行状态采集汇聚,租户可以查看已订购资源的负载统计,如CPU、内存利用率、磁盘分区利用率、网卡流量利用率等信息以及综合健康度信息,便于租户实时了解资源利用情况,通过邮件或短信方式主动提醒租户资源超限情况,为租户弹性化的业务编排和资源订购提供数据依据。
(二)租户业务质量可视化
通过部署流量采集与流量分析模块,基于业务特征库识别租户业务类型,根据订购关系识别租户流量中关键的业务指标并进行可视化呈现,比如TCP 建链时延和成功率、DNS 解析成功率、HTTP 业务响应时延和成功率等,支持下钻至IP/ 主机维度,当业务流量或质量异常或下降时,快速定位故障主机。
实现对用户的秒级粒度的会话数和会话包数进行采集,汇聚分钟或小时粒度的会话数和报文数建立会话流量监控模型,支持告警及可视化呈现。例如:统计某个采样周期内,平均会话数较最近连续7 个周期的均值偏差,设定偏差阈值产生告警,通知云平台监控部门预先进行定界和定位并积极协同相关业务部门或者租户开展进一步排查与修复,达到先于租户发现问题并修复问题,保障租户业务连续性,提升租户对云平台服务满意度。
(三)云端网络质量可视化
基于云内以及云外探针不间断对云业务网络分段自动化测试,结合网络拓扑,统计云主机至用户侧落地PE、云主机至城域网、云主机至云平台出口的时延、丢包、抖动等网络性能指标并可视化呈现。
通过统计并监控每段网络的时延和丢包指标波动,重点监控租户端到端网络时延和丢包率与近7 个周期均值的偏离情况,产生指标偏离告警时,通过分段的探针拨测指标来辅助定界并协调相关部门开展排查。
(四)支持定制化SLA 測试及可视化
为满足租户上云后业务对服务质量的基本需求,对客户签约的SLA 服务级别进行测试验证:比如通过FTP测试或HTTP 下载测试展现租户的签约带宽保障;通过持续高频的Ping 测试呈现租户签约的链路质量服务等级保障;或基于租户不同业务需求进行一些定制化测试等,并对测试结果进行可视化呈现,提升租户对云平台信任度。
(五)性能与感知相关性可视化
业务关键性能指标的高低变化可较为直观的反映业务感知的优劣,通过将网络性能指标与业务关键性能指标进行关联,构建网络性能与业务质量相关性模型,根据不同业务类型与网络性能指标的相关性,将网络性能对业务感知的影响进行量化,以业务健康度的方式呈现于租户视图和专题视图,租户可以直观的一览资源占用以及业务感知评分情况,为租户提供更多增值服务,有利于提升云平台品牌价值和市场竞争力。
四、结束语
基于云业务流量分析以及自动化测试的业务可靠性保障方案是将网络流量分析工具和基于网络多层级探针自动化测试手段二者进行有效融合形成的一种保障方案,也是对当前云端业务保障方案的一次探索和创新。该方案较好地填补了当前在云端业务单一依靠云内设备自身日志和告警进行监控的盲区,结合多探针分段定位、云内性能主动采集、业务流量实时分析、辅以实时的大数据处理手段并进行可视化呈现,手段上实现主动+ 被动、场景上实现云内+ 云外、质量上实现网络+ 业务的有效融合,形成了完整可靠的整体云平台监控与保障体系,提升移动云平台品牌价值与市场竞争力。