文/崔锴
(南京大学信息化建设管理服务中心 江苏省南京市 210093)
随着学校的学术科研能力的大幅度提升,及“双一流”高校对学科建设的需求,各学科对学术资源的访问及国际学术交流的日益频繁,各学科出现数据库资源访问问题。为了能够更好的为师生提供教学与科研服务,通过数据分析、筛选、去重后,由图书馆的180个国内外数据库访问记录中选取 TOP20 的境外域名作为此次优化的方向。我们针对此需求进行多次测试,逐步优化并解决了现有的数据库资源访问问题。
针对我校在校师生访问量较大的国际期刊、数据库等,通过出口智能优化选路的方式达到最佳的访问体验。计划通过利用流量分析设备、多链路智能选路设备的配合完成智能选路方案的可行性调研。除优化访问外,智能选路方案还能提供智能监控、主动告警、故障定位、数据对比及平台可视化数据展示的功能。
在项目建设完毕后,希望通过这一整体解决方案,在降低运维故障率的同时,能够协助网络运维工作中减轻运维压力、提高运维效率,更加自动化、智能化、可视化的完成网络运维工作。
基于以上目标,我们选择了业内较为知名的网络厂商如:北京派网、深信服科技、华为、未来网络、网瑞达科技等,针对项目需求分别进行了可行性交流、产品功能评估、制定实施方案。
厂商产品型号 设备可行性分析调研。
派网 Panabit-NPM:支持强大的应用识别能力并可对在网流量进行灵活调度。
深信服 AD:支持多链路智能选路流量分担、链路监控、DNS代理。
华为 USG 防火墙:设备基于应用的智能选路功能能力不足。
未来网络探针盒:支持有线无线、支持主动探测,具有告警功能。
图1:Pannabit-NPM引流测试图
图2:深信服AD与探针配合测试智能选路功能图
网瑞达探针盒:不支持无线网络访问方式,无法模拟无线用户的访问情况。
派网 Panalog:支持基于应用、协议的流量分析以及可视化的报表展示功能。
在进行多次沟通调研意见后,我们最终确定了满足项目需求的产品:
(1)基于出口流量调度并具有自动选路功能的厂商产品:北京派网(Panabit-NPM)、深信服科技(深信服 AD);
(2)基于主动探针模式并具有监控告警的功能的厂商产品:未来网络(探针盒);
(3)基于出口流量分析并具有日志统计、数据对比的厂商产品:北京派网(Panalog)作为实现目标功能的子系统模块。
考虑到目前校园网使用的整体情况,本着尽量不影响校园网现网环境、不影响用户体验、尽量减少出口原有线路及配置改动的原则进行项目规划和制定相应的测试方案。
图3:我校数据库出口优化项目拓扑图
图4:TOP20数据库访问情况总览
图5:智能选路效果显著的13个资源站点
针对境外数据库优化访问的目标,项目组计划通过两个阶段完成整体项目方案的实施规划。
第一阶段:
在测试环境中完成项目囊括的各子系统的功能测试,主要内容包括:
(1)派网 Panabit-NPM 完成应用识别,域名选路、流量牵引的功能。
(2)深信服AD完成智能选路并统计相关流量和路由连接情况的记录的工作。
(3)探针设备模拟用户在各时间段内对境外数据库进行的实时访问,将记录并分析访问结果后再与AD选路结果进行人工比对,从而验证智能选路的正确性。
图6:智能选路效果数值(柱形图)
图7:人工优化结果
(4)派网 Panalog 日志系统对途径的流量进行分类统计,以及流量可视化功能的展现。
第二阶段:
通过一阶段的测试情况,在完成预期的计划目标后,将各子系统与现网环境相连完成设备方案部署,并进行智能优化选路,主要内容包括:
(1)通过对途径测试设备的流量进行数据分析、筛选、去重后,从图书馆覆盖的180个国内外数据库访问记录中选取TO20的境外域名作为此次优化的方向。
(2)将筛选出的TOP20域名通过流量负载均衡设备完成引流动作至AD设备。
(3)智能选路设备根据内置地址库、智能 RTT 值的配合进行智能选路并记录相关数据。
(4)探针设备针对多线路出口进行模拟用户对以下域名进行访问对比测试,分析访问结果、若出现访问问题,可以定位问题发生点并给出解决方案。
实施计划:
第一阶段:在测试环境中完成项目囊括的各子系统的功能测试。
具体计划如下:
(1)派网 Panabit-NPM完成应用识别,域名选路、流量牵引的功能,同时Panalog日志系统对途径的流量进行分类统计,以及流量可视化功能的展现。如图1所示。
(2)深信服AD完成智能选路并统计相关流量和路由连接情况的记录的工作。
(3)探针设备模拟用户在各时间段内对境外数据库进行的实时访问,将记录并分析访问结果后再与AD选路结果进行人工比对,从而验证AD智能选路的正确性。如图2所示。
第二阶段:完成TOP 20的数据库自动智能选路模式功能测试,并对结果进行验证。
具体计划如下:
(1)我校出口共有五条线路:电信、联通、移动、教育网、教育网(国际保障),接在出口的交换机上。
(2)下联华为防火墙(主主)——上网行为管理(主备)——Panabit(AC 主机和核心之间)——核心交换机。AC备机网口默认断电,所有上网流量均从AC主机和核心之间的线路转发。
(3)Panabit 设备部署在上网行为管理(AC)主机和核心交换机之间,上下各做 4 组万兆桥,通过路由策略将访问指定数据库域名的流量指向 AD。深信服AD的WAN口连接五条外网线路到出口交换机,LAN口直连 Panibit设备,用于接收访问指定数据库的流量。访问数据库的流量从Panabit走到AD,经选路策略选路后转换为AD上外网线路的IP上网。其余不在 Panabit路由策略中的流量正常走AC到华为防火墙出去上网。当AC发生主备切换时,所有流量切换到备机和核心之间,Panabit 路由和AD选路策略失效,所有流量正常由AC和华为防火墙转发,不影响现有业务。
割接影响及恢复措施:
(1)割接前对设备进行配置,待割接后上架运行,割接网络中断时间大约 2-3 分钟。
(2)割接后,如果出现外网数据库访问有问题时,如加载过慢,网页打不开等现象时,通过修改 Panabit 设备中的流量指向策略,恢复原路由走向。
(1)学校提供各运营商的出口备用 IP 地址,防止因用户恶意下载导致 IP 地址被封。
(2)Panabit 需提供溯源功能,便于学校将出现安全问题时,提供溯源证据。
部署了两个设备:
(1)将 Panabit 置入现网中,设备在出口防火墙与流量控制设备中桥接模式串入现网,以获取真实的用户访问流量信息。
(2)将深信服设备旁挂至学校出口,目前实现了 电信、联通、移动、教育网四个运营商的出口环境,与学校现有的出口环境分离。
(3)将需要测试优化的域名在 Panabit 策略路由 策略中进行引流,通过千兆的线路引流至深信服,通过深信服进行动态选路。探针设备线路上线:
图8:选取的TOP20域名的原始数据记录值(未进行智能优化的访问数据)
图9:TOP20域名的智能选路前后对比数据访问情况(每天)
(1)目前深信服设备共六个电口,四个运营商线路共占用四个电口,一个与 Panabit互联的口,一个管理口。探针目前因为 Panabit 流量分析设备甩到深信服的流量需要占用端口,所有目前没有多余的端口来支持,此次将探针线路和Panabit引流线路接入二层交换机,再用一根网线接入深信服设备,以达到探针和Panabit 引流线路同时接入。
(2)利用真实用户流量测试网络性能,以及探针设备会主动发请求测试数据,来测试网络性能,以上两种方式两个维度的数据来保障测试数据的准确性。
(3)在设备自动选路的同时,人工定期监测网络运行的质量数据,根据测试数据人工进行优化出口调整,目前支持 IP 地址和泛域名(例如:*.nature.com)的方式进行手动的策略调度。
现场测试:
(1)现场连接 NJU 无线网络,模拟真实用户访问,使用电脑测试 Top20 域名访问的网络延时数据。
(2)测试手动引流 Ip 地址功能测试,发现该引流方式在深信服设备教育网出口策略存在环路,因为前期想要归属我校的教育网地址作为出口地址NAT访问,该地址在总部进行了国际带宽的保障,并且学校已经将此地址报备给了数据库厂商。调整了教育网的出口互联地址,教育网地区网络中心配合将该地址直接指向测试设备,环路问题解决。我校数据库出口优化项目拓扑图如图3所示。
本次项目我们在充分调研后根据校园网出口情况完成了项目分段实施,具体如下:
第一阶段:通过设备选型,功能测试及样本选择,完成测试环境的搭建,功能实现,以此来确认项目可行性。
第二阶段:将数据库智能选路、优化置入校园网现网环境中,通过数据分析、筛选、去重后,由图书馆的180个国内外数据库访问记录中选取 TOP20 的境外域名作为此次优化的方向。如图4所示。
根据智能优化选路 的访问情况,我们通过流量分析设备取得13个资源站点的服务与应用延时平均值数据,并与未进行智能优化选路的数据进行对比,优化效果最高提升了60.85%。如图5、图6所示。
服务延时:访问客户端与被测域名响应时间。
应用延时:访问客户端与被测服务数据响应时间。
此次上线的 Top20 域名中,我们发现存在7个智能选路效果不佳的域名,针对这些域名进行人工复核验证,我们通过探针设备模拟用户行为在内网环境中进行多出口的网络数据测试,并进行数据分析得出智能选路并非是最优效果,我们针对这7个域名手动设置了最优访问线路,得出如图7所示数据:
如图8、图9。
出口选路优化:
选路策略与现网出口环境融合,在满足校园网出口访问策略及安全访问策略等条件下,达到针对需求访问资源的优化访问及保障,提升用户体验,保障学术访问质量。
访问质量检测及优化:
针对出口的访问情况进行智能化的预警监控,针对超过阈值的信息及被动故障进行人工判定,并提出解决方案,定期提供数据化的对比展示,定期提供数据化的运维数据报表。
访问资源优化工作如:
(1)重点安保时期,保障学术访问质量。
(2)重点学术需求时期,例如 海外学术视频会议保障,大流量科研数据传输保障。
(3)对用户提出学术科研保障需求,进行技术支持。
后续数据支持:
(1)现网 Panabit 流量分析设备日志记录数据 180个数据库网站中,以流量排名并去重后得出选取Top20(名单附录)。
(2)利用 Panabit 的流量分析内容,进行服务延时和应用延时等数据进行收集并进行对比分析。目前已经开始记录每日测试数据平均值。
(3)利用深信服自动选路,来判断资源访问优先级。
(4)利用自动测试探针进行自动化的测试任务,采集周期性数据。目前五个探针,分别代表了教育网出口、联通出口、移动出口、电信出口以及自动选路策略的探针,每三个小时测试一次 Top20 测试列表中的境外数据库网站的网络往返延时数据以及 Http 的网络测试数据等。
综上所述,目前通过智能选路及人工优化的方式,可最大程度的保障境外数据库的访问效果,较之前静态路由调度的方式,更加灵活、高效,提升了学术访问体验。通过对境外数据库应用访问数据进行监控,根据探针数据采集、出口设备运行的情况,设置合理阈值,能够在故障发生时完成主动告警并进行人工干预。