孙文华
摘 要:随着计算机网络应用的不断发展,业务量、用户规模不断扩大,带宽需求急剧增加,且时常会出现一些网络异常流量、非关键业务流量占用正常业务带宽的情况。为更好地分析或监控网络带宽的使用,直观、精准地掌握网络和信息系统的运维安全状况、性能指标、定位故障点及安全威胁源,就需要在实践中探索基于网络数据包嗅探技术,实现网络数据分析和系统安全状况监测。文章主要介绍了该平台建设的设计原理、实现功能,旨在通过该平台建设的实践,提供网络及应用分析、监测的一种实现思路。
关键词:网络管理;数据采集;流量分析;精细管理;Socket
随着计算机网络应用的不断发展,业务量、用户规模不断扩大,带宽需求急剧增加,且时常会出现一些网络异常流量、非关键业务流量占用正常业务带宽以及偶尔出现一些莫名网络间隙阻塞和业务故障,导致关键业务运行服务质量下降。本文通过对网络流量分析平台建设的探索,试图摸索,加强业务管理,实现网络精细化管理的新视角和新途径。
1 运维中的新挑战
近年来,随着计算机网络应用不断发展,各业务系统发展朝着集约化、高效化的方向发展,伴随着各应用系统的不断扩展和完善,对各应用系统支持要求也越来越高,各应用系统规模越来越大,架构也越来越复杂,业务量、用户规模不断扩大,带宽需求急剧增加,各应用系统的后期维护管理显得越来越重要。传统的网络和系统运维管理,主要从各自的专业和视角,分析各自的客观原因,必然存在以下现象:(1)量化困难:网络接入线路多,缺乏实时有效手段来监测线路带宽使用率的变化,无法为带宽扩容提供精准参照。(2)视角孤立:问题分析从各自专业出发,难以统一观点,诸多分歧造成分析有效性下降。(3)数据粗放:缺乏精细化的网络服务质量评估数据,异常问题被掩盖,质量提升难以体现。(4)排障缓慢:故障分析、定位大量消耗时间和人力资源,故障诊断价值随时间推移大打折扣。
2 基于网络流量监控分析平台的设计
通过实践,基于网络数据包嗅探技术,研发了协议解码技术,充分利用可靠的网络数据源,在网络的关键节点实时采集网络数据,呈现各项监控指标,建立自主可控的流量监控分析平台,从而实现流量识别、带宽占用、TCP连接等性能、负载量的全面可视化。
3 网络流量监控分析平台的构成和原理
操作系统Red Hat Enterprise Linux 7.0/suse linux enterprise 11.0/CentOS 7.0、数据库mongoDb、开发语言C及Javascript等。
网络数据采集卡(Intel千兆网卡),运用内存零拷贝技术,改写网卡原有驱动程序的中断处理机制,以提高网卡高性能的数据处理能力。
在需要监控分析的交换机做端口镜像,将网络流量引流至网络流量监控分析平台进行处理。
利用网络数据包嗅探技术,对业务的原始网络数据包进行实时捕获、存储。可结合业务系统的开发规范,反向解码应用协议上层封装的业务内容。
对解码后内容进行数据挖掘分析,通过Web实时展现业务系统的各项监控指标,从而快速定位网络或业务的可能故障,帮助快速定位或解决运维问题。
4 网络监控分析平台实现的功能简介
4.1 实时流量
平台可实时监控统计网络按IP流量分布、應用流量分布。能帮助用户快速找出何时出现网络异常。所有统计信息都会以数据包数和字节数、带宽大小和数据包大小来显示。
4.2 应用流量排名
平台能自动发现已知端口的应用,如HTTP,FTP,DNS等,通过Socket来定义使用。通过识别发现对分布的应用流量进行排名,可及时统计当前网络中哪些应用流量的网络带宽占比,对其是合法的流量还是非法的流量进行快速鉴别。
4.3 主机流量排名
平台能对网络主机的流量进行实时的和历史的统计分析,并提供排名功能,及时发现主机产生的网络流量情况,特别是对产生网络蠕虫和攻击流量的主机能快速识别。
4.4 应用访问情况
平台能对应用的各类KPI指标进行分析,为运维人员提供直观的可视效果,从而降低运维难度。
4.5 会话查找
平台能够查找指定时间范围的所有应用的通信流量信息,定义条件包括IP地址、TCP/UDP端口、IP地址组和地址段、端口组或范围,以及多种条件的组合。
4.6 网络性能
平台可实时查看监控网络的性能情况。此功能可以实时查看和统计监控流量中TCP重传、TCP Syn请求、TCP零窗口,TCP Fin、TCP新建连接数、TCP并发连接数,网络时延等。
4.7 DSCP性能分析
平台可自动识别网络流量的DSCP的值以及其流量占用带宽大小,对网络流量的QOS配置进行验证及策略调优提供参照。
5 网络监控分析平台的实现价值
5.1 故障分析
因本监控分析平台是基于交换机镜像数据输出实时存储的分析系统,是实时存储监控点的网络全流量,对应用实现秒级精度的实时监控。当出现异常事件时,可快速检测和定位业务性能、可用性问题,解决间歇性网络故障,并可快速回溯故障现场的数据,对原始网络数据长期记录,方便历史回溯分析。
5.2 性能监控
实时监控网络的性能状态,当网络出现异常时,及时发现异常变化,对重要的业务,可实现自定义应用监控,可查看交易在各环节的处理及网络时延,实时监控交易高峰时专线带宽的使用率,方便扩容,保护投资。
5.3 主动运维
基于用户端与服务器端的真实访问数据,实时监控应用的交互状态,对网络底层的数据进行分析,客观反映网络最真实情况。通过对网络数据的进一步挖掘,还可以实现智能化分析,自动并实时展现业务代码级监控数据。
5.4 部署灵活
本平台实现简单,可通过网络,同时嗅探多个交换机镜像口,对网络设备无依赖、兼容性强,部署、使用灵活。