高校全网流量与核心业务性能分析实践

2022-08-29 11:44顾纯顾建荣
电脑知识与技术 2022年20期

顾纯 顾建荣

摘要:随着信息化技术的高速发展和广泛应用,高校的信息化环境正在发生巨变,运维管理需要从一个全面的角度对网络故障或应用问题进行快速定位和及时解决。全网流量与核心业务性能分析平台面向业务的视角,全面监控分析每个组成的应用和运行质量,并快速定位影响业务系统运行质量的关键因素。文章根据上海工程技术大学实际全网流量与核心业务性能分析平台及Web VPN的使用情况展开研究,详细阐述了业务性能需求分析和业务可视化管理的实现方法,希望能为信息化相关人士提供一些参考。

关键词:全网流量监测;业务性能分析;VPN系统

中图分类号:TP393        文献标识码:A

文章编号:1009-3044(2022)20-0031-03

随着云计算、大数据、移动应用等技术的高速发展,信息化系统将会变得越来越重要。因此保障基础网络和业务系统的稳定、持续、高效和安全,就成为高校信息化管理运维工作最核心的问题。面对网络的数据量、数据种类、数据速率以及数据复杂性不断增加,这给运维工作带来了极大挑战。传统的应用或网络性能管理工具只能孤立地监控业务系统中应用、主机、网络设备自身的性能指标,而对于用户访问体验、业务整体运行情况、故障快速定位等方面缺少有效的手段进行监控。本文根据上海工程技术大学实际的全网流量WEB VPN系统的使用情况展开研究,详细论述了业务性能分析和业务可视化管理的实现方法。

1 高校核心业务系统运维的挑战

1.1 全网流量不可视、业务异常不能及时发现

学校数据中心拥有着众多业务系统以及各种各样的硬件系统。但对网络中的流量状况,如重要业务数据的传输路径是怎样的、哪些流量是合规的、哪些是不合規的、各类访问规则是否生效、突发流量的源头在哪、网络和应用系统的性能能否支撑业务的正常运行、系统对高性能的要求是否达标这些却不可视。

同时,在进行基础网络运维工作时不能在第一时间完全感知校园网络中存在的问题。很多网络异常问题并不是由网络运维管理人员主动发现的,而是使用人员在使用的过程中发现网络不通畅、业务访问不了,再报修到信息化办公室时,最后由网络运维管理人员再进行问题排查、问题解决。此时,问题已经产生,并且对网络和业务系统的运行产生了一定的影响。

1.2 缺乏业务视角的监控手段

随着虚拟化技术不断使用,支撑业务系统的应用程序和网络结构也越来越复杂,管理人员急需对业务系统的整体架构有所了解,避免影响故障排查的解决进度。通过虚拟化平台的监控和网管软件、流量业务分析软件等系统的功能监控,可以做到对业务系统在一定程度上的运维保障。但是监控的内容之间互相没有关联,数据上还是相互独立的。如果从业务的角度进行统一角度的监控,就不会忽略排查业务系统异常时的任何细节。因此,改变“孤岛式”的监控手段,是高校全面分析业务异常和定位异常根源的有效手段。

1.3 缺乏对业务故障验证、取证和界定的方式

网络慢慢整合了大量业务,那么这些业务运行情况怎么样,带宽规划、服务器性能或虚拟机性能分配够不够优化,并没有详细的数据依据,导致很难判断[1]。

一旦出现系统故障、安全事件,现有系统日志和安全设备也只能记录事件发生时的状况,缺少必要的分析数据,很难进行事件的追踪、还原、取证和责任界定,比如到底是系统的问题还是网络的问题。导致责任不清,更重要的是不知道后续如何改进。

2 高校全网流量与核心业务性能需求分析

高校全网流量与核心业务性能分析平台可以由网络回溯分析和业务性能管理两部分组成[2]。网络回溯分析的核心作用是实时采集、存储并分析网络关键链路的数据包,将其中应用质量分析和应用性能警报上报到分析中心进行关联分析,也就是我们常说的网络探针。业务性能管理则收集回溯系统上报的应用性能指标参数和应用性能警报信息,以面向业务的视角全面监控分析每个组成的应用和运行质量,并快速定位影响业务系统运行质量的关键因素。同时还提供对业务的原始通讯数据长期保存和回溯分析能力,提供有效的分析手段和依据。

系统将部署在核心交换机和汇聚交换机上,将相应的网络流量做端口镜像后传给网络回溯及流量分析系统探针[3]。业务性能管理平台部署在网络管理区,与探针进行实时通信。通过图1可以看到核心交换机到防火墙的上行接口流量大约300M,峰值流量为1.33Gbps。

基于这种网络探针的流量采集方法能够监听并采集通过核心的所有通信,并通过统计分析得到流量信息,同时增加几个汇聚交换机的采集点可以获得相应网段的流量数据。进一步增强故障分析能力,帮助快速定位故障点。我们将选取有代表性的业务,进行详细的业务性能分析与可视化展示。

3 Web VPN系统的性能分析

2022年3月,学校的教职工开始居家办公和远程教学。为了保障学校各业务的安全开展,上海工程技术大学开启了VPN远程办公模式[4],模式的改变也给校外的管理运维人员带来极大的挑战:

1) 随着远程办公人数的突发式增长,对VPN设备并发连接数和VPN加解密吞吐量的要求有了极大的提高。为了确保办公效率不受访问质量的影响,运维人员需要实时关注用户VPN访问的各项网络指标,一旦发现异常及时处置。

2) VPN的全面开放可能会引发一些安全问题,比如:教职工使用自有终端传输数据过程中携带病毒或木马;非法访问导致数据泄露等。运维人员需要能够及时发现来自VPN内部的安全攻击或一些异常的数据传输,如果安全事件一旦发生也可及时回溯及取证。

3) VPN远程办公很可能成为一种常态化的办公方式,通过一些宏观指标的可视化分析(总带宽、使用人数等) ,对高校未来网络规划提供决策依据。

3.1 VPN系统梳理

上海工程技术大学Web VPN系统采用旁路部署方式,放置于数据中心内网DMZ区,校园网出口防火墙上对外开放443端口,让系统可接收并响应外网访问请求,同时与校园内网服务资源IP通信。用户首先通过外网地址443端口访问Web VPN系统,然后输入统一身份认证账号密码完成CAS认证,认证通过后可以直接在页面跳转访问各个核心业务系统[5]。

3.2 流量与业务性能分析的实现方法

学校流量统计如图1所示,学校每天VPN系统的访问人数约为6000人次;访问峰值并发为9:00—10:00之间,峰值下行比特率为128Mbps;峰值并发访问人数为71人。

在VPN系统访问峰值时间段内用户访问三次握手的平均时间基本上不超过20ms、丢包率不超过1%,说明用户访问体验良好。

根据上海工程技术大学实际情况,对Web VPN和各个业务节点的网络访问性能设置阈值,一旦超过阈值则触发告警信息,通过邮件等方式提醒运维人员及时关注并处理。

WEB VPN监控节点包括VPN系统本身、CAS系统,用户通过VPN访问部分核心业务系统,监控指标和阈值[6]设定如表1所示。

2022年5月17日早上8:10分收到Web VPN系统的监控告警信息,提示移动校务平台访问应用超时和新建会话数过高[7]。通过全流量回溯定位告警时间段展开分析,如图2所示,发现服务器在8:00—8:20会话量突发性增长,且应用响应时间最高达到150ms。同时间段校务平台三次握手平均时间平稳,最高比特率为200Mbps都在正常范围内,基本排除网络问题导致访问卡慢。

如图3所示,继续分析发现当天上午8:00—8:16校务管理平台服务器的443和80业务端口会话总数分别高达74292和10230,短时间内创建了大量会话。初步怀疑本次故障是由于客户端大量新建会话导致。

进一步解包分析可以看出流量中存在大量重传数据包现象[8]:服务器端向客户端发了RST包,說明会话已经关闭,但是客户端一直重传,每个TCP会话都会重传十几次,从而引起通讯无响应的告警信息。经分析为大量客户端新建会话数突增,达到校务管理平台服务器支持最大会话量后,客户端仍一直尝试重传,导致用户访问业务卡慢。

通过与业务部门的进一步沟通最终确认本次业务系统卡顿现象与2022年5月17日早上学生预约校车有关,当大量学生同时访问移动校务平台时,单节点的前端服务器性能不足。后续我们根据峰值时的并发访问量,重新规划了校务平台的前端架构,增加了2个节点的前端服务器,通过nginx反向代理实现负载均衡。

通过网络回溯,遵循一定的规则还可以有效地发现网络中的部分安全隐患:

1) 查看单位时间段内整体流量的单播与广播主播比。一般情况单播流量占比大于90%。

2) 查看单位时间段内整体流量的TCP参数统计情况。在理想情况下TCP同步包与TCP同步确认包应为1:1。如果比例差距过大则需要把异常比例源找出。

3) 平均包长:正常使用应用的平均包长为500~700字节,如果有长时间过小或者过大的现象则需要对相应应用进行细致观察。

4) 未知TCP应用和未知UDP应用:大于1024端口并且RFC没有定义的端口号。一般情况下网内的P2P流量和用户自定义应用会统计到这类应用中。

通过监控可以发现Web VPN流量中存在大量没有负荷的数据包,这些数据包的产生由于Web VPN的对外访问地址被一些的境外IP地址扫描,一天高达3万次。下挖数据包分析,可以看到境外IP在试探Web VPN开放了哪些端口,这些IP地址发送了一个SYN包后便无下一步动作,仅仅是单纯的端口扫描。我们通过添加IP黑名单的方式对其进行拦截。

3.3 业务系统性能可视化管理

文章通过对Web VPN流量进行实时采集,针对全校师生的访问情况制作了大屏展示[9],投放于机房监控室,如图4所示,进行业务可视化管理。具体分三个维度展示:

1) Web VPN的实时访问网络质量:包括两个部分,实际访问流量和用户访问响应时间。

2) Web VPN的实时使用情况:包括实时会话数和当天累计访问人数[10]。

3) 用户访问行为:包括用户实时访问的业务类型和用户实时流量的Top Ten。

通过对这三个维度实时数据的展示(也可以按照日、月、年等跨度出报表) ,可以直观地了解该业务系统的具体使用情况,帮助人们更好地对业务系统及远程访问网络进行改进及合理规划。

4 总结

通过全网流量与核心业务及自动化性能分析能力,智能发现校园网及数据中心内部关键业务系统的网络、主机、应用性能下降,快速分析影响性能的原因并对问题发生点进行深度分析,从而有效防止业务整体性能水平降低,使运维人员更加高效地应对网络运维需求。

参考文献:

[1] 安航,李启东,王超超.高校校园网络流量分析及流控策略[J].网络安全技术与应用,2017(6):108-109.

[2] 覃青.科来 做网络价值的“远见者”[J].产城,2019(7):40-41.

[3] 牛丽君,郭宇明,朱晓梅.网络管理中流量采集技术的应用[J].计算机与信息技术,2006(11): 53-55.

[4] 黄超,王勇.VPN技术在校园网络安全体系中的应用研究[J].网络安全技术与应用,2016(8): 77, 79.

[5] 刁喆,孙鼎,袁艺.基于WebVPN系统的数字资源获取安全机制研究[J].信息安全研究,2021,7(8):783-788.

[6] 王晓妮,赵卫.大数据时代高校OA系统安全问题及防御策略研究[J].信息技术与信息化,2018(6):129-131.

[7] 谭彬,梁业裕,李伟渊.基于流量的攻击溯源分析和防护方法研究[J].电信工程技术与标准化,2019,32(12):57-64.

[8] 朱京毅,罗汉斌.基于动态行为与网络流量分析技术的威胁检测研究[J].电信工程技术与标准化,2020,33(12):25-29.

[9] 王振辉.数据可视化技术在高校学生管理中的应用研究[J].电脑知识与技术,2021,17(34):32-33.

[10] 赖清楠,郭强,钱杰.基于流量的高校VPN用户访问行为分析[J].中国教育网络,2018(11):64-67.

【通联编辑:代影】