中国移动通信集团内蒙古有限公司 焦 芳 张朝熙
随着全球互联网的迅速发展,互联网已经遍布世界,互联网数据中心存在的意义已经由之前的只对大型主机进行维护和管理,演变成全方位智能化的管理方式。国内互联网数据中心的规模以及质量都是其他ICP无法超越的,被称为现代社会的“数字大厦”。但伴随着发展存在的问题也是客观存在的,国内互联网数据中心尚处于发展进步阶段,并未真正成熟起来,数据中心缺乏对网络业务质量和IDC故障定界等监测手段,无法评估IDC资源引入、资源调度情况,无法为托管客户提供全面的SLA质量分析报告等问题,因此应当对客观问题进行客观对待,认真寻求当前数据中心所存在问题的解决策略。
为解决这些问题,通过建设自动拨测系统,实现对内蒙移动数据中心(IDC)的链路质量、ICP内容平台调度及业务质量的监测和管理。
在内蒙移动云计算数据中心建设一套独立的自动拨测系统,在IDC网络各层级部署监控探针进行主动拨测和爬虫测试,实现IDC内容资源管理、网络业务质量监控、构建IDC评估与监测管理体系、网络业务质量告警、SLA质量报告生成等功能。
通过上层网络与IDC核心路由器链接,实现对业务链路端到端的路径监测和分析。
在IDC核心路由器侧部署硬件测试探针,通过链路方式接到两台路由器上,实现从出口向IDC内部的网元和服务器发起链路测试和业务测试。
在IDC区核心出口侧部署爬虫探针,通过链路与路由器旁挂方式组网,实现对热门网站、热门视频等进行爬测,以及IDC的ICP资源的资源引入率统计和调度策略分析等功能。
在IDC区核心交换机侧部署硬件测试探针,通过链路方式连接到核心交换机上,实现从汇聚层从IDC内部的网元和服务器发起链路测试和业务测试,可以与接入层探针和IDC核心层探针配合进行故障分段定位。
在接入层交换机上部署便携式探针,实现从接入层向IDC内部的网元和服务器发起链路测试和业务测试,可以与接入层探针和IDC核心层探针配合进行故障分段定位。
在私有云虚拟化接入交换机上部署硬件探针,通过链接到虚拟化交换机,实现用于从私有云出口向私有云内部的虚拟化服务器发起网络和业务测试。
系统可对数据中心引入资源的主站进行1-4级域名进行爬虫分析,可给出网站域名、元素的分布位置,运营商,缓存类型(Cache或CDN),以及访问性能等指标,对视频网站所有频道以及频道下的视频文件进行自动爬虫分析,并给出此视频文件的分布位置,运营商,缓存类型(Cache或CDN),支持视频、音频类网站进行识别分析。
通过模拟用户的播放行为,获得视频所有分片的实际URL、分片大小、清晰度,实际播放页地址、分享地址。同时,能够支持将价值的内容属性采集下来,比如视频或音频的名称、频道、集数等。系统分析资源归属时,可以明确主流运营商的一些分布情况,可以区分出资源属于省内IDC、省内cache、省内CDN、省外、网外等。主流运营商包括:中国移动、中国电信、中国联通等,系统支持基于表格、地图的资源分布监控报表和视图。实时监控资源归属变化,分析入网和出网数量。
数据中心资源全景化分析基于资源评估探测功能和基础资源信息库构建IDC内容资源视图。提供本省IDC资源信息分析,对IDC引入资源的热点匹配度、引入深度和资源质量进行分析。全景化分析视图呈现如图1所示。
图1 全景化分析示意图
系统能够分析IDC内容资源的分布情况,并通过视图呈现。同时系统可以钻取同一个资源站点的不同归属地,并进行重点标注,然后支持批量导出。
系统能够通过不同资源视图的对比分析,输出建议本省IDC引入资源清单、网内外质差资源缓存加速清单。
系统能够记录一段时间内IDC资源视图变化情况,并根据IDC网内资源占比、本省资源占比指标变化超出门限值,以邮件、短信等自动化方式告知内容优化人员。
通过部署在核心层、汇聚层和业务接入层探针进行不同层级网络的质量拨测,并对拨测数据进行分析,主要功能包括Ping测试、传输层TCP测试、传输层UDP测试、TWAMP测试、网络带宽测试。
通过部署在核心层、汇聚层和业务接入层探针进行不同层级网络的业务质量拨测,用于分析在网络不同层面的应用业务感知,业务类型包括:WEB网页和互联网视频等应用等,主要功能包括:
(1)Web质量监测
系统可以对Web页面加载过程中的多个指标进行统计,包括DNS解析时间,服务器响应时间,页面下载速度,首页面时长等。通过这些指标,可以分析ICP客户的Web业务在不同区域和不同时间的性能变化情况。
(2)互联网视频质量监测
系统为提供互联网视频内容服务的ICP客户提供了从网络各个节点评估视频业务质量的手段,可以对视频的缓冲,下载速度,卡顿等指标做出测量和分析。
视频能否快速加载,与视频调度策略及调度服务器性能有直接关系。系统可对视频调度信息进行详细统计,包括调度服务器URL、调度主机IP、调度主机地址、调度下载速率,调度下载时间等信息。
实现的测试功能和采集指标的基础通过一套业务质量评估模型对各种业务维度进行用户感知评估的量化(QoE),各种业务类型的用户感知(QoE)评分,得出综合用户感受值,直观反应网络的用户体验质量;同时该体系可根据网络发展和用户需求,灵活调整各种指标权重,也可根据各种权威标准进行配置;系统可支持配置多套感知评估模板。
系统支持灵活配置告警参数,当指标达到某个设定的阀值时,产生告警。并可以通过邮件、短信等发送告警。告警功能可以对测试的单一指标进行告警、也可以基于多指标的组合产生告警。可以对链路进行告警,也可以对节点进行告警。可以对网元进行监测告警、也可以对IDC的服务器设备进行告警。系统可以对网络测试指标进行告警,也可以对引入的ICP内容资源平台的业务质量进行告警。
系统可以对监测数据进行分类或综合的分析。可以形成IDC网络链路质量分析报表、服务器端口连通性分析报表和内容资源系统的业务质量分析报表。系统分析报表支持自动生成,报表数据自动定时更新。同时可形成每个ICP的SLA可视化报表。可通过界面定制化设计,支持大屏运维显示。
系统还可以基于每种测试类型、每个测试自定义制定周期性统计报表、不同粒度的趋势报表、排名报表等;报表基于源/目节点的聚合或独立显示,可自定义或系统内置的小时、日、周、月、年区间查询,提供查询粒度及各项指丰富的筛选条件,可根据需要选择曲线、柱状、饼状、表格等显示方式,所有常见的筛选条件可保存为模板,以方便重复查询。支持查询每次测试结果和某个时间的所有测试结果。支持基于对节点和链路的各项测试数值进行排序、对比,支持输出EXCL、HTML等报表和图片。
通过对数据中心建设独立的网络质量自动拨测系统,改变了移动运营商数据中心的业务保障流程,填补了移动运营商在此方而的空白。各运营商建设自动程度高、管理完善的业务自动拨测系统,可以将现有繁琐、低效的人工操作改变为智能的自动化操作,提高通信网络的运行维护水平,提高发现问题和处理问题的能力,有效改善移动运营商的工作效率及服务质量,同时也可为移动运营商赢得社会效益和经济效益。