■ 山东 赵秀芹 何钰 李瑞祥
编者按:保障局域网的畅通,是大楼内部各个单位和部门信息系统正常运行的基本要求,要实现这一点,需要实现对局域网运行状态的实时监控。利用综合网管平台可以很好地实现实时告警,保障局域网安全稳定运行。
笔者所在的办公大楼是一幢21层的高层建筑(地上19层,地下2层),大楼里面有众多的单位和部门。大楼的局域网在建楼时已经通过综合布线系统部署完成,采用了典型的星型结构。办公网核心交换机设在五楼中心机房,该交换机向上连接BRAS设备,向下分别通过多模的光纤收发器连接到各个楼层的交换机,大楼的综合布线系统是 3层 1汇聚,即 1、2、3楼各办公室的网线统一汇聚至2层竖井的综合布线柜,以此类推,在 5、8、11、14、17楼竖井进行汇聚,笔者在各相应的综合布线柜处部署了可网管的交换机,实现了相应楼层各个办公点的网络覆盖。
保障局域网的畅通,是大楼内部各个单位和部门信息系统正常运行的基本要求,那么要实现这一点,就需要实现对局域网运行状态的实时监控,发现问题及时处理,同时对于核心交换机及各接入层交换机的日志信息要实时记录,定期巡检,发现可疑告警信息也要及时处理,做到防微杜渐。为此笔者将办公大楼的各台交换机纳入UNIO综合网管平台,实现了网络中断的实时告警,将各交换机产生的日志信息统一输出到日志服务器,安排专人每天对日志信息进行筛查,发现可疑的告警信息就通知大楼的网络维护人员进行处理,通过以上方式有效保障办公大楼局域网的正常运行。
图1 办公局域网的网络拓扑图
公司有一套基于SNMP的综合网管系统,凡是支持SNMP协议的网络设备均可纳入这套网管系统中,因此我们第一步就要将大楼办公网全部纳入到网管系统中,由于局域网组网是严格按照星型组网来构建的,所以网络层次非常清楚,分为核心层、汇聚层和接入层,其中BRAS为核心层,骨干交换机为汇聚层,位于各个坚井的交换机为接入层,网络拓扑如图1所示。
(1)添加网元
首先要用网管服务器上测试一下到交换机的连通状态,通过ping命令进行查看,ping通的可以直接在网管服务器中进行添加,登录网管服务器在“资源”菜单下“资源列表”中点击“添加网元”,如图2所示。
填写完之后先测试,测试失败的有可能是交换机没有开启SNMP协议,需要Telnet登录交换机开启SNMP协议,具体命令如下(以H3C S5130S-52S-EI交换机为例):
snmp-agent community read Sdgdjnfgs
//配置团体名为Sdgdjnfgs。
snmp-agent sys-info version v2c
//配置交换机的SNMP版本为v2c。
设置完之后就能正常添加了。将大楼办公局域网中的所有交换机都添加完毕后,就纳入正常监控范围了。当出现网络中断或宽带越界等故障时,这些监控信息都会显示在机房监控大屏上,24小时值班人员就可以及时发现并通知相应的维护人员。
图2 添加网元
为了便于查看设备信息,我们把大楼交换机的IP地址在资源列表中集中到了一个目录下,同时为了保证设备告警的准确性,我们还需要在交换机上做进一步地配置,比如时区设置,NTP(时间同步)设置等,下面分别说明一下。
(1)时区设置
同样作为局域网规范管理的一部分,我们统一将网内所有设备的时区设置为东八时区(即北京时间),以办公网骨干交换机为例,设置命令如下:
c l o c k t i m e z o n e beijing add 08:00:00
查看命令如下:
[bangongwang_SW]dis clock
15:19:58.398 beijing Mon 01/14/2019
Time Zone : beijing add 08:00:00
(2) NTP(时间同步)设置
我们要对设备产生的日志信息进行分析,那么首先应该保证设备的时间是正确的,这里我们把办公网骨干交换机作为客户端时间同步到BRAS 10.*.*.1上,之后再把办公网交换机作为服务器,让各竖井交换机时间同步到办公网交换机,做NTP之前要在办公网交换机上ping下BRAS的IP地址,能ping通之后再进行时间同步,具体操作如下:
[bangongwang_SW]ntpservice unicast-peer 10.*.*.1
操作完之后再通过display ntp status命令进行查看一下ntp是否同步成功,如出现以下提示,说明同步成功了。
display ntp status
C l o c k s t a t u s:synchronized
Clock stratum: 7
S y s t e m p e e r:10.*.*.1
Local mode: sym_active
Reference clock ID:10.*.*.1
Leap indicator: 00
C l o c k j i t t e r:0.000961 s
Stability: 0.000 pps
Clock precision: 2^-19
Root delay: 71.38062 ms
Root dispersion:351.94397 ms
Reference time:dfe2831d.b91ac943 Fri,Jan 11 2019 10:51:09.723
S y s t e m p o l l interval: 64 s
再通过display clock命令检验一下时间:
display clock
10:53:09.426 beijing Fri 01/11/2019
Time Zone : beijing add 08:00:00
各个竖井里面的接入层交换机跟随骨干层交换机进行时间同步的设置(以烽火S2100ME交换机为例)
interface vlan 266
sntp client
sntp peer ip-address 10.*.*.45
sntp time-offset plus 0
exit
查看时间同步是否生效用如下命令:
S2100ME#show clock
clock : 2019-01-14 15:38:00
Time Zone:beijing+08:00
System running time: 925 hours,34 minutes,8 seconds
(3)允许Telnet远程登录
为局域网的交换机开启Telnet远程访问功能,并设置远程登录的用户名和密码。
system-view
//进入系统视图
telnet server enable//enable选项开启Telnet服务
user-interface vty 0 14
//配置VTY用户界面的终端属性
protocol inbound teln et
//配置VTY用户界面支持Telnet协议,
user privilege level 15
//设置用户级别。15为管理级,为最高权限。
user-interface vty 0 14
//进入VTY 用户界面视图。
authentication-mode aaa,
//设置用户验证方式为AAA验证。
aaa
//进入AAA视图
l o c a l-u s e r a d m i n password A****@1*3
//定义登录账号和密码
local-user admin service-type telnet
//配置本地用户的接入类型为Telnet
(4)开启SSH登录方式
由于Telnet是一种相对不安全的远程连接方式,所以我们在前期完成了基本的网络规范化配置以后就要交换机上启用SSH登录方式,该方式可以实现数据的加密,在数据传输时要比Telnet安全的多,那么接下来我们介绍下SSH的配置方法。其实SSH服务的开启和Telnet比较相似。
aaa
//进入AAA视图
local-user jngd service-type ssh
//配置本地用户的接入类型为SSH
stelnet server enable//开启ssh服务ssh user jngd
//定义SSH用户名
s s h u s e r j n g d authentication-type password
//定义SSH登录认证方式为密码认证
s s h u s e r j n g d service-type stelnet
//关联SSH登录用户名
完成上面的操作后,记得将Telnet服务关闭,这样就实现了对设备只能使用SSH登录效果。
(5)添加日志至日志服务器并进行分析
①将交换机产生的日志信息输出至日志服务器
为了提高工作效率,减轻原有日志服务器的压力,我们又重新搭建了一台日志服务器,用于添加办公网内的所有交换机日志。在添加syslog之前先用ping命令测试一下到日志服务器的链路是否相通,确保日志能顺利传送到日志服务器。
同时还需在日志服务器上再ping一下这台交换机,确保均可以访问到对方,在这个基础上就可以进行将交换机上产生的日志信息输出到日志服务器的操作了。
添加syslog具体操作步骤如下:
system-view
System View: return to User View with Ctrl+Z.
[bangongwang_SW]infocenter enable
Information center is enabled.
[bangongwang_SW]infocenter loghost 10.*.*.26 facility local4
[bangongwang_SW]infocenter timestamp log date
[bangongwang_SW]quit
T h e c u r r e n t configuration will be written to the device.Are you sure? [Y/N]:y
Please input the file name(*.cfg)[flash:/startup.cfg]
(T o l e a v e t h e e x i s t i n g f i l e n a m e unchanged, press the enter key):
flash:/startup.cfg exists, overwrite? [Y/N]:n
存盘之后要查看一下有没有定义成功:
display currentconfiguration
info-center loghost 10.*.*.26 facility local4
②日志告警的查看
在添加完日志信息后,我们就可以通过诸如“Navicat Premium”这样的客户端软件登录日志服务器上面的MYSQL数据库,通过SQL脚本查看相关告警日志了,可以按照主机名和指定日期进行查询,相关脚本如下:
SELECT
*
FROM
SystemEvents
WHERE
FromHost LIKE '2F_shujing'
AND
DeviceReportedTime LIKE '%2019-01-23%'
查询出相关日志告警之后,可以导出Excel表格筛选查看,这样比较方便查找自己需要的告警信息。
点击菜单栏右侧的“导出”按钮,选择“导出Excel表格”即可,如图3所示。导出表格后,会发现有很多日志信息,可以通过“删除重复项”、“关键字筛选”等操作查找出自己需要的日志告警,并进行分析定位,直到排除故障,达到防患于未然。
如果是华为的交换机,当看到一条告警信息时,我们可以通过华为的HedEx Lite文档系统进行查看, 可以通过下面的实际告警信息查询具体故障:
错误告警信息如下:
图3 导出日志信息
图4 在华为的HedEx系统中查询故间原因
OID 1.3.6.1.4.1.2011.5.2 5.1 2 3.2.6 A R P detects IP conflict. (IP address=10.66.66.149,Local interface=Gigabi tEthernet0/0/28, Local MAC=1234-3214-1234,Local vlan=266, Local CE vlan=0, Receive in terface=GigabitEthe rnet0/0/28, Receive MAC=4c09-b4f1-a140,Receive vlan=266, Receive CE vlan=0, IP conflict type=Remote IP conflict).
要对这个告警信息进行分析,我们其中的OID值记录下来,然后打开HedEx Lite文档系统,在首页的“实用工具”下有个“告警查询”,点击进去之后,选好版本型号,在“关键字”一栏把刚才复制的OID值粘贴进去,点击“查询”就可以看到告警的相关描述,如图4所示。
网络中出现冲突的IP地址,如果不及时消除,会造成网络的路由震荡、用户业务或者流量中断等故障。需要尽快查找出冲突的设备或者是用户,及时修改IP地址。
如果是华为早期发货的光模块,对系统没有影响。
如果不是,则光模块功能可能会异常。如果是华为早期发货的光模块,则可以使用命令transceiver phony-alarm-disable关闭非华为定制光模块告警功能。如果不是华为发货或定制光模块,建议更换华为定制光模块。
随着办公大楼局域网规模的不断扩大,必须引入网管机制,形成对网络的实时监控机制,并及时与产生的告警信息进行处理,才能保障办公局域网的正常有序运行。