7月26日学校的办公区网络总是断,将出口设备NPE60重启30分钟左右就死了,console口无法登录,前一天已经出现死机现象,重启后还能运行一段时间,现在重启后最多只能运行30分钟。
判断是设备有问题了,出口一直不断受到攻击,但感觉这次较重。厂家远程分析要换CPU,且这种产品早已停产。因在假期无法走手续必须另想办法,如果更换出口设备得要先有预算才能采购,手续就得走好长时间,网络出口中断一天就影响很大了,中断两天以上无法想象,只能用其他设备先代替。网络拓朴如图1所示。
因位置关系,准备借用移动学生宿舍的RSR7716。办公出口是“2+1”条线路,一条是电信600M,一条是联通300M,另一条是虚拟电信隧道的教育网。把接口、路由配置好,映射复制过来,限速配置好,办公网基本可以使用了,但出现一些问题。
图1 网络拓朴图
因移动RSR7716默认路由是走办公出口的,策略路由是走学生的三家运营商出口,电信、联通RSR7716默认路由是移动RSR7716,用户登录后根据SAM分组,不同的分组用户从不同出口按不同限速出去。从核心交换机18014上面到三 台RSR7716是负载均衡随机的,在三台RSR7716是 根据用户分组,大的分办公、电信、联通、移动分组,电信、联通、移动再分成8M、12M、20M、30M、50M 等小分组。
以学生用户登录后无法打开学校主页,路由跟踪学校主页,路由不到,不停在核心18014与RSR7716之间,但只有学生的电信、联通用户。这样,移动用户可正常打开。笔者分析是在ACL的DX、LT上面出问题了,于是在 DX、LT的 ACL上面加上禁止对主页内网的访问,禁止每个分组访问映射的内网地址,因地址较多就按地址段做的,deny ip usergroup unicom4m 172.16.0.0 0.0.255.255,如图 2。加上禁止访问内网地址段后,就可以打开学校主页了,加上其他网站的禁止,这些网站也可打开。
这种配置复杂,后期优化时简化了,将 DX、LT、YD 的 ACL的最前面加上了deny ip 172.16.0.0 0.1 5.2 5 5.2 5 5 1 7 2.1 6.0.0 0.15.255.255”,如图 3。
在办公出口临时迁移学到学生移动的RSR7716上面没到两天,就有人反应网络有中断且慢,马上到机房查看。三台RSR7716早做了一些保护措施,如CPU资源保护、ACL等,且电信、联通RSR7716正常。通过检查RSR7716发现下面一些问题并整改:
图2 联通ACL上面禁止各用户组访问映射的内网地址
图3 电信ACL的部分内容
1.移动RSR7716上面不停显示有Telnet登录的,基本没法查看,重启后仍旧如此。正好借的一台绿盟防火墙到位(学校办公区有防火墙,但只有2个光口,如果加出口前得光电转换进再电光转换出),立即加到移动RSR7716前面,即办公的电信、联通线路上2进2出,先通过借用的防火墙再进RSR7716,在借用防火墙开基本DDoS防护。其实原来在电信、联通线路进出NPE60的前面有个流量清冼设备,禁止一些Telnet 出口IP地址,但太多了,手工添加不过来。这次用借用防火墙直接禁止任何Telnet访问,再上移动RSR7716,基本可以查看,没哪些不停的Telnet访问了。
2.通过检查RSR7716运行情况,通过“show ip fpm statistics”、“show ip fpm counters”命令查看路由器的流表使用情况,发现流表用满了,且是有一个学生的地址大量使用445端口的,所以决定对流表加以控制。RSR7716在默认情况下,是先建立会话流表再去匹配置 ACL,即使在接口配置deny ip any any的ACL,这个时候一个数据包来到接口后,还会先建立一条会话,再去匹配ACL被丢弃。
那么这种特性就会有一个问题,如果遇到大量的伪源IP攻击,或者是端口扫描时,虽然有ACL拒绝了这种报文的转发,但是还是会把流表给占满,而导致正常的数据无法建流而被丢弃。而IP Session Filter的原理就是,在建立流表前去匹配调用的ACL,如果被ACL拒绝就不会再去建流了。通过ACL 199过滤常见病毒端口如445、139等流量,配置如下:
ip fpm flow maxentries 2097052 \设置流表总数
ip fpm session filter 199 \流表过滤ACL 199,过滤常见病毒端口流量
ip fpm session filter 124 session-num 2000 \学生宿舍用户流会话数2000
ip fpm session filter 125 session-num 20000 \办公教学区流会话数20000
同时也在电信、联通学生RSR7716上面加上流表过滤ip fpm session filter 199,但ACL 199上面未禁止这么多端口。
3.同时立即在学生核心交换机18014加上对445、138、139等端口禁止,按锐捷一本通的防火墙ACL做的,把这个ACL做到到学生宿舍各楼的接口上(以前学生宿舍各楼接口没做,办公区的各楼做了但没做这么行),且做了进、出2次过滤。在18014上面部分楼的无线网接口也加上端口过滤,因无线网是独立运维的,还有两台无线汇聚因无密码未添加。一卡网也因是独立运维的,也未添加。
4.同时在SAM里找到哪个大量使用445端口的学生IP地址,踢下线并放到黑名单中,暂时不让其上网。
5.网络入口过滤,因为很多的DoS/DDoS攻击都是采用假冒的源IP地址,网络入口过滤的目的就是防御这种攻击,或者限制其范围和降低攻击的机会。它通过在数据包进入网络时,检查其所声称的源IP地址是否满足路由通告的网络前缀,如果不是,将其过滤掉。在网络入口处的路由器上实施这种过滤机制,对于阻止不符合进入规则的假冒IP攻击非常有效。不过对来自合法IP地址前缀的假冒攻击则没有作用。
根据网络入口过滤,在办公的电信、联通出口上加ip ingress-filter log,过 滤假冒IP攻击,通过查看,一会儿就发现有过滤出来了,其中办公电信接口上面有较多过滤。
6.在RSR7716前面的借用防火墙上面做一个规则禁止任何地址访问办公区电信、联通NAT地址池的IP。
7.黑洞路由,在设备配置NAT后,可能存在外网IP对这个地址池或端口映射的公网地址发起连接,这些连接会大量占用设备的CPU资源。因此需要配置黑洞路由,对由外网主动发起对地址池和端口映射的公网地址连接数据(不包含端口映射)进行丢弃。
通过检查发现办公区的NAT地址池IP没做黑洞路由,马上配置上去,其实在第6条的借用防火墙已经做了相应规则,但这里还是加上了,保险些。
经过以上安全加固后,移动的RSR7716又正常运行了。
移动RSR7716安全加固后,内网访问外网正常了,在校内打开学校主页正常,但校外无法打开,分析只是因为移动RSR7716上面做了流表过滤,借用防火墙加了禁止NAT地址池IP的访问,查看移动RSR7716,在流表过滤的ACL199里,增加学校主页公网IP映射允许,包括公网地址及端口,用17CE测试可以打开了,于是增加了120行允许,将学校的映射都放通了。这样带来的一个困难,做一个公网映射,以前只做映射就行了,现在还得要另一个流表ACL里放通公网IP及端口,以前做一次,现在得做两次,否则这个映射打不开,这样有些复杂。
对外服务是这样一个流程:服务器-机柜交换机过滤-汇聚交换机过滤-WAF防火墙过滤-办公核心交换机过滤-上网行为1过滤-防火墙-入侵检测-学生核心交换机过滤-上网行为2-RSR7716出口过滤-借用防火墙过滤-流量清冼-外网访问。过滤的地方很多,慢慢查。
1.把在最外面的流量清冼将规则动作又都改成观察,发现规则动作是限速确定影响下载,因为这台设备没有配套管理软件,不好观察日志,先改成观察并等以后再调。
2.在借用防火墙上面增加规则,将几个主要映射的IP及端口全放通且排在前面。
3.三台RSR7716优化:
(1)将问题一的每个映射的禁止简化改为“deny ip 172.16.0.0 0.15.255.255 172.16.0.0 0.15.255.255”,并加到三个DX、LT、YD的ACL上面,且在电信、联通学生RSR7716上面也对应加上。
(2)优化流表过滤的ACL 199,删除几个不需要,增加更多的禁止,内网IP、设备IP等禁止到电信RSR7716、联通RSR7716互联IP以及虚拟隧道IP上去。
(3)优化了NAT出口的ACL,因为学生宿舍区有办公用户,办公区可以用学生帐号,增加学生帐号用户分组的禁止。
(4)把三台RSR7716上面联通用户分组简化成LT-X(原来是 unicomX),简单易记。
(5)通过查看流量清冼设备发现流量带宽白天跑到400多兆,由于是假期上班人很少,因为一直有部分学生使用教师帐号的问题,于是决定把无线网地址段的限速调低,又建立一个ACL把无线网地址段放入,在电信、联通出口上分别做限速2M,最大可跑4M。普通用户段限速10M,通过上网行为监测发现最高的能跑到20多兆,这样的话等开学后上网人数增加,出口肯定带不动的,等开学后再降低。
(6)通过17CE测网站打开速度,发现网站打开速度比优化前快了一点,IP地址比域名的要快些,因为是管网络的,更多的优化在网络方面。虽然也管部分安全设备,但还有几个安全设备、网站服务器等因放假没法调,需要开学后再协调。
(7)准备以后将流表会话数管理细化下,对服务器流表会话数的放大,但因为一些服务器在办公区,不在服务器区,细化的话至少要做几十行。
7月底网络出口设备NPE60突然有问题,造成断网,而那几天正是病毒高发期,当时和过后都认为这次出口设备坏是有受到攻击的因素。
因为机房里有别人的路由器RSR7716且有空白板可用,于是紧急更换到RSR7716上,因网络结构变化一些策略、规则需相应调整和优化,同时一定要把安全做好并做全,否则问题会很多,安全第一。这需要一个过程,需要发现问题,找到原因再解决问题,这是一个不断优化改进的过程,网络优化还将继续下去。