网络出口设备紧急更换记

2018-12-24 03:25:16
网络安全和信息化 2018年12期
关键词:流表联通防火墙

7月26日学校的办公区网络总是断,将出口设备NPE60重启30分钟左右就死了,console口无法登录,前一天已经出现死机现象,重启后还能运行一段时间,现在重启后最多只能运行30分钟。

判断是设备有问题了,出口一直不断受到攻击,但感觉这次较重。厂家远程分析要换CPU,且这种产品早已停产。因在假期无法走手续必须另想办法,如果更换出口设备得要先有预算才能采购,手续就得走好长时间,网络出口中断一天就影响很大了,中断两天以上无法想象,只能用其他设备先代替。网络拓朴如图1所示。

因位置关系,准备借用移动学生宿舍的RSR7716。办公出口是“2+1”条线路,一条是电信600M,一条是联通300M,另一条是虚拟电信隧道的教育网。把接口、路由配置好,映射复制过来,限速配置好,办公网基本可以使用了,但出现一些问题。

图1 网络拓朴图

问题一:学生宿舍用户无法访问学校的主页及其他网站

因移动RSR7716默认路由是走办公出口的,策略路由是走学生的三家运营商出口,电信、联通RSR7716默认路由是移动RSR7716,用户登录后根据SAM分组,不同的分组用户从不同出口按不同限速出去。从核心交换机18014上面到三 台RSR7716是负载均衡随机的,在三台RSR7716是 根据用户分组,大的分办公、电信、联通、移动分组,电信、联通、移动再分成8M、12M、20M、30M、50M 等小分组。

以学生用户登录后无法打开学校主页,路由跟踪学校主页,路由不到,不停在核心18014与RSR7716之间,但只有学生的电信、联通用户。这样,移动用户可正常打开。笔者分析是在ACL的DX、LT上面出问题了,于是在 DX、LT的 ACL上面加上禁止对主页内网的访问,禁止每个分组访问映射的内网地址,因地址较多就按地址段做的,deny ip usergroup unicom4m 172.16.0.0 0.0.255.255,如图 2。加上禁止访问内网地址段后,就可以打开学校主页了,加上其他网站的禁止,这些网站也可打开。

这种配置复杂,后期优化时简化了,将 DX、LT、YD 的 ACL的最前面加上了deny ip 172.16.0.0 0.1 5.2 5 5.2 5 5 1 7 2.1 6.0.0 0.15.255.255”,如图 3。

问题二:新出口运行2天后学生移动RSR7716也死掉了

在办公出口临时迁移学到学生移动的RSR7716上面没到两天,就有人反应网络有中断且慢,马上到机房查看。三台RSR7716早做了一些保护措施,如CPU资源保护、ACL等,且电信、联通RSR7716正常。通过检查RSR7716发现下面一些问题并整改:

图2 联通ACL上面禁止各用户组访问映射的内网地址

图3 电信ACL的部分内容

1.移动RSR7716上面不停显示有Telnet登录的,基本没法查看,重启后仍旧如此。正好借的一台绿盟防火墙到位(学校办公区有防火墙,但只有2个光口,如果加出口前得光电转换进再电光转换出),立即加到移动RSR7716前面,即办公的电信、联通线路上2进2出,先通过借用的防火墙再进RSR7716,在借用防火墙开基本DDoS防护。其实原来在电信、联通线路进出NPE60的前面有个流量清冼设备,禁止一些Telnet 出口IP地址,但太多了,手工添加不过来。这次用借用防火墙直接禁止任何Telnet访问,再上移动RSR7716,基本可以查看,没哪些不停的Telnet访问了。

2.通过检查RSR7716运行情况,通过“show ip fpm statistics”、“show ip fpm counters”命令查看路由器的流表使用情况,发现流表用满了,且是有一个学生的地址大量使用445端口的,所以决定对流表加以控制。RSR7716在默认情况下,是先建立会话流表再去匹配置 ACL,即使在接口配置deny ip any any的ACL,这个时候一个数据包来到接口后,还会先建立一条会话,再去匹配ACL被丢弃。

那么这种特性就会有一个问题,如果遇到大量的伪源IP攻击,或者是端口扫描时,虽然有ACL拒绝了这种报文的转发,但是还是会把流表给占满,而导致正常的数据无法建流而被丢弃。而IP Session Filter的原理就是,在建立流表前去匹配调用的ACL,如果被ACL拒绝就不会再去建流了。通过ACL 199过滤常见病毒端口如445、139等流量,配置如下:

ip fpm flow maxentries 2097052 \设置流表总数

ip fpm session filter 199 \流表过滤ACL 199,过滤常见病毒端口流量

ip fpm session filter 124 session-num 2000 \学生宿舍用户流会话数2000

ip fpm session filter 125 session-num 20000 \办公教学区流会话数20000

同时也在电信、联通学生RSR7716上面加上流表过滤ip fpm session filter 199,但ACL 199上面未禁止这么多端口。

3.同时立即在学生核心交换机18014加上对445、138、139等端口禁止,按锐捷一本通的防火墙ACL做的,把这个ACL做到到学生宿舍各楼的接口上(以前学生宿舍各楼接口没做,办公区的各楼做了但没做这么行),且做了进、出2次过滤。在18014上面部分楼的无线网接口也加上端口过滤,因无线网是独立运维的,还有两台无线汇聚因无密码未添加。一卡网也因是独立运维的,也未添加。

4.同时在SAM里找到哪个大量使用445端口的学生IP地址,踢下线并放到黑名单中,暂时不让其上网。

5.网络入口过滤,因为很多的DoS/DDoS攻击都是采用假冒的源IP地址,网络入口过滤的目的就是防御这种攻击,或者限制其范围和降低攻击的机会。它通过在数据包进入网络时,检查其所声称的源IP地址是否满足路由通告的网络前缀,如果不是,将其过滤掉。在网络入口处的路由器上实施这种过滤机制,对于阻止不符合进入规则的假冒IP攻击非常有效。不过对来自合法IP地址前缀的假冒攻击则没有作用。

根据网络入口过滤,在办公的电信、联通出口上加ip ingress-filter log,过 滤假冒IP攻击,通过查看,一会儿就发现有过滤出来了,其中办公电信接口上面有较多过滤。

6.在RSR7716前面的借用防火墙上面做一个规则禁止任何地址访问办公区电信、联通NAT地址池的IP。

7.黑洞路由,在设备配置NAT后,可能存在外网IP对这个地址池或端口映射的公网地址发起连接,这些连接会大量占用设备的CPU资源。因此需要配置黑洞路由,对由外网主动发起对地址池和端口映射的公网地址连接数据(不包含端口映射)进行丢弃。

通过检查发现办公区的NAT地址池IP没做黑洞路由,马上配置上去,其实在第6条的借用防火墙已经做了相应规则,但这里还是加上了,保险些。

经过以上安全加固后,移动的RSR7716又正常运行了。

问题三:RSR7716安全加固后学校包括主页在内的映射又打不开了

移动RSR7716安全加固后,内网访问外网正常了,在校内打开学校主页正常,但校外无法打开,分析只是因为移动RSR7716上面做了流表过滤,借用防火墙加了禁止NAT地址池IP的访问,查看移动RSR7716,在流表过滤的ACL199里,增加学校主页公网IP映射允许,包括公网地址及端口,用17CE测试可以打开了,于是增加了120行允许,将学校的映射都放通了。这样带来的一个困难,做一个公网映射,以前只做映射就行了,现在还得要另一个流表ACL里放通公网IP及端口,以前做一次,现在得做两次,否则这个映射打不开,这样有些复杂。

问题四:有人反应外网打开学校主页以及一些对外服务慢

对外服务是这样一个流程:服务器-机柜交换机过滤-汇聚交换机过滤-WAF防火墙过滤-办公核心交换机过滤-上网行为1过滤-防火墙-入侵检测-学生核心交换机过滤-上网行为2-RSR7716出口过滤-借用防火墙过滤-流量清冼-外网访问。过滤的地方很多,慢慢查。

1.把在最外面的流量清冼将规则动作又都改成观察,发现规则动作是限速确定影响下载,因为这台设备没有配套管理软件,不好观察日志,先改成观察并等以后再调。

2.在借用防火墙上面增加规则,将几个主要映射的IP及端口全放通且排在前面。

3.三台RSR7716优化:

(1)将问题一的每个映射的禁止简化改为“deny ip 172.16.0.0 0.15.255.255 172.16.0.0 0.15.255.255”,并加到三个DX、LT、YD的ACL上面,且在电信、联通学生RSR7716上面也对应加上。

(2)优化流表过滤的ACL 199,删除几个不需要,增加更多的禁止,内网IP、设备IP等禁止到电信RSR7716、联通RSR7716互联IP以及虚拟隧道IP上去。

(3)优化了NAT出口的ACL,因为学生宿舍区有办公用户,办公区可以用学生帐号,增加学生帐号用户分组的禁止。

(4)把三台RSR7716上面联通用户分组简化成LT-X(原来是 unicomX),简单易记。

(5)通过查看流量清冼设备发现流量带宽白天跑到400多兆,由于是假期上班人很少,因为一直有部分学生使用教师帐号的问题,于是决定把无线网地址段的限速调低,又建立一个ACL把无线网地址段放入,在电信、联通出口上分别做限速2M,最大可跑4M。普通用户段限速10M,通过上网行为监测发现最高的能跑到20多兆,这样的话等开学后上网人数增加,出口肯定带不动的,等开学后再降低。

(6)通过17CE测网站打开速度,发现网站打开速度比优化前快了一点,IP地址比域名的要快些,因为是管网络的,更多的优化在网络方面。虽然也管部分安全设备,但还有几个安全设备、网站服务器等因放假没法调,需要开学后再协调。

(7)准备以后将流表会话数管理细化下,对服务器流表会话数的放大,但因为一些服务器在办公区,不在服务器区,细化的话至少要做几十行。

总结

7月底网络出口设备NPE60突然有问题,造成断网,而那几天正是病毒高发期,当时和过后都认为这次出口设备坏是有受到攻击的因素。

因为机房里有别人的路由器RSR7716且有空白板可用,于是紧急更换到RSR7716上,因网络结构变化一些策略、规则需相应调整和优化,同时一定要把安全做好并做全,否则问题会很多,安全第一。这需要一个过程,需要发现问题,找到原因再解决问题,这是一个不断优化改进的过程,网络优化还将继续下去。

猜你喜欢
流表联通防火墙
风起轩辕——联通五千年民族血脉
当代陕西(2020年20期)2020-11-27 01:43:38
基于时序与集合的SDN流表更新策略
一张图读懂联通两年混改
构建防控金融风险“防火墙”
当代陕西(2019年15期)2019-09-02 01:52:08
微信搭台“联通” 代表履职“移动”
人大建设(2019年11期)2019-05-21 02:54:50
基于缓存策略的OpenFlow流表存储优化方案研究
电子测试(2018年21期)2018-11-08 03:09:34
简析yangUI流表控制
软件定义网络中一种两步式多级流表构建算法
5G:电信联通的生死攸关之时
下一代防火墙要做的十件事
自动化博览(2014年6期)2014-02-28 22:32:13