张伟峰 潘洁 孙亮亮 樊冬
摘要为了保证台站观测数据的连续可靠,提高台站运行率,中心站承担的辖区站点仪器和网络运维工作显得尤为重要。本文通过在日常运维过程中遇到对台站网络故障一案例的分析及处置,阐述仪器运维过程中如何查找故障的基本工作思路和操作方法,为中心站负责仪器运维的同事提供一定的经验。
关键词地震监测中心;仪器运维;网络故障;案例分析
中图分类号: P315.78文献标识码: A文章编号:2096-7780(2023)06-0285-04
doi:10.19987/j.dzkxjz.2022-149
A case analysis of network faults in the operation and maintenance of seismic instruments
Zhang Weifeng,Pan Jie,Sun Liangliang,Fan Dong
(Bengbu Earthquake Monitoring Center Station of Anhui Earthquake Agency, Anhui Bengbu 233000, China)
AbstractIn order to ensure the continuous and reliable observation data of seismic stations,improve the operationrate of seismic stations,it is very important for the earthquake monitoring center station to take charge of the operationand maintenanceof theinstrumentsandnetworkinitsarea. Inthispaper,thestationusesVPNlinktoconfigureparameter router,which can not communicate with the provincial agency for data transmission fault case analysis anddisposal. The basic working idea of finding this kind of fault is expounded. Combining with experience in actual work, some points for attention in instrument operation and maintenance at the center station are also put forward.
Keywords earthquakemonitoringcenterstation; instrumentoperationandmaintenance; networkfaults; case analysis
引言
安徽省地震局在地震監测中心站改革过程中,每个中心站专门设置一个运维科室,负责辖区内站点各测项仪器和网络运维工作。台站仪器包含了四大学科,种类与型号繁多,特别是台站仪器数字化、网络化后,在实际操作中遇到出现的问题千变万化,影响的因素亦繁多,如仪器故障、网络故障、环境干扰等等,这就要求运维人员不仅要有扎实的仪器维修技术基础,还需熟悉计算机与网络方面知识,不能单纯依赖理论,更需要在运维实践中不断总结经验。本文通过介绍蚌埠市地震监测中心因网络故障造成站点前兆观测数据无法正常采集入库案例分析,探究台站仪器运维过程中查找和解决问题的基本方法[1]。
1 蚌埠市地震监测中心仪器故障简述
蚌埠市地震监测中心(以下简称市监测中心)位于蚌埠市老虎山公园内,台站背景噪声低、干扰小,是蚌埠市地震局建设并管理的市级区域台站,2011建成投入观测,有 SZW-Ⅱ水温仪,SWY-1A 型水位仪,RPT 气象三要素仪,数字化测震等观测仪器,观测数据质量较好[2-3]。图1是市监测中心台站地震监测系统构成拓扑图。台站使用中国电信50 M光纤宽带网络,通过 VPN 链路配置参数路由器,实现与省局台网中心的数据传输通讯,数据服务器在省局监测台网中心机房,系统运行至今网络情况总体稳定。
2022年3月27日突然出现台站 SZW-Ⅱ水温仪和 RPT 气象三要素仪观测数据无法正常自动采集入库,手动采集也无法完成的故障现象。SWY-1A 型水位仪正常自动采集入库,数字化测震波形亦正常传输数据到省局测震台网中心,市监测中心安装的区域测震小台网亦能查看波形和数据分析。这很大程度影响到台站水温、气象三要素的正常观测。
蚌埠中心站运维室技术人员闻知后,主动承担了市监测中心仪器故障的维修工作,经初步检查,确认站点各测项仪器参数配置无误,便开始后续故障排查。
2 故障原因排查
台站仪器出现故障,需及时查明原因,才能有效地解决问题,本次故障排查我们采取分步骤方式。首先排查网络,其次排查仪器本身故障,最后再查找其他原因。分析判断造成故障原因与影响因素,最后排除故障,解决问题,使台站仪器采集数据入库恢复正常。
2.1 站点内部网络排查
市监测中心使用中国电信50 M 带宽光纤专网,由路由器配置 VPN 链路与省局台网中心网络连通。操作步骤如下:ping 命令从省局到站点仪器和路由均能连通,延迟在15 ms左右,检查丢包率,测试结果为零;同理,使用 ping 命令,反向从台站到省局网络或其他站点,亦连通,时延符合要求。考虑到台站使用的路由和交换设备在网运行10余年了,存在有设备老化可能,为进一步查找原因,我们更换全新路由和交换机设备,更换质量较好超6类网线等,完成一系列操作后,采集数据入库故障仍未排除;随后,再检查是否因仪器配置 IP 地址被封禁原因造成,更换多个 IP 地址,甚至把正常采集数据水位仪地址分配给两台仪器不能正常采集数据的其中一台,故障现象仍存在。排查结果:判定台站仪器故障不是因台站内部网络问题或网络设备老化等因素原因。
2.2 观测仪器故障排查
无法正常采集数据的 SZW-Ⅱ水温仪,RPT 气象三要素仪和正常采集数据的 SWY-1A 型水位仪是由国家自然灾害防治研究院研发生产的,虽然出厂期不同,但仪器指标参数相同、性能稳定,运行至今很少出现故障。网络排查中亦确认仪器网络端口正常,重点排查仪器内部系统软件问题。两台仪器故障类型相同,先对 SZW-Ⅱ水温仪进行排查,联系厂家更换仪器系统主板,更新最新系统软件,仍未解决问题;随后配置一台全新水温仪进行对比测试,发现全新仪器在同一网络环境下存在同样问题。为进一步确认是否因仪器故障造成,再把两台 SZW-Ⅱ水温仪送到中心站,使用中心站网络环境和服务器进行数据通讯,两台仪器数据采集均正常,确认台站观测仪器没问题。
3 查看路由网络配置及故障排除
为进一步验证台站采集数据故障是否出在网络环境上,采取临时分配独立 IP 地址方式,使用省局的 VPN 链路流动台4G 无线路由器代替原来光纤网络,进行采集数据试验,结果原认为有故障的两台仪器均正常采集数据,最终,基本可以判定台站故障出在站点内部网络环境下的路由配置或者运营商机房的路由配置。
一般应用软件,当客户端和服务器端在建立 TCP/IP 连接时,需根据实际传输的报文大小来协商 TCP 窗口大小 MSS。TCP 连接成功后会再经过两次滑动窗口的协商,一次仪器与服务器,一次仪器与网关,在两次协商中选择一个较小值作为窗口发送数据。MSS 值计算方法[4]:MSS=MTU?IP?TCP,也就是说 MSS 值其实是 TCP 所承载净载荷的数据长度。
市监测中心目前使用的路由为 H3C MSR810系列,中心站运维室技术人员经咨询该路由厂商售后技术支持工程师得知,MSR810系列路由原来为 V5版本,系统自动升级后为V7版本,接口缺省的 MTU 是1500字节,但一般要求加密报文头+链路层开销+IP 头(20—60字节)+TCP 报文(20字节)应小于1500字节,即 TCP 分片配置在1024字节较适合。一般缺省情况下,TCP 报文没有修改分片字节。所以,导致台站仪器无法正常采集数据原因是站内路由系统自动更新后,配置的 TCP MSS 值不匹配所引起。
路由原来 TCP MSS 协商配置缺省值为1280字节,如下:
interface LoopBack0
ip address XX.XX.XX.XX 255.255.255.255
#
interface Vlan-interface1
ip address 192.168.0.1255.255.254.0
tcpmss 1280
解决方法:在路由器0端口和1端口,增加一条 TCP MSS 值协商配置命令,把 TCP 分片配置修正为1024,具体配置如下:
#
Interface GigabitEthernet0/0
tort link-mode router
ip address xx. xx. xx. xx(运营商给的固定 IP)255.255.255.0
tcpmss 1024
Qosoqpql 1
Nat outbound 3001
Ipsec apply policy ahdzj
#
Interface GigabitEthernet0/1
tort link-mode router
ip address xx.xx.xx.xx(路由器网关)255.255.255.0 tcpmss 1024
在省局信息中心网络室技术人员帮助下,对市监测中心网络路由增加 TCP MSS 值协商配置修改命令,完成路由配置参数修改后,台站仪器采集数据入库恢復正常,排除了故障。故障原因就是更改路由配置前有的仪器能正常采集数据,而出现故障的仪器实际传输的报文大小只能是1024字节,所以,在不能改变仪器参数配置的情况下,就应修改市监测中心网络环境下路由器的配置参数。经验告诉我们,在台站仪器运维中若再遇到类似问题,特别是在更新路由系统升级后出现故障,应该重点排查路由 TCP 分片的配置参数,检查数据传输通信时所能承载的最大数据长度与仪器配置是否相符。
4 结束语
当今,地震台或子台、一般站是一个多学科的数字化观测系统,各站点的仪器型号、类型较多,遇到的问题就会各不一样[5-6],遇到问题要及时和厂家取得联系,多沟通,多向经验丰富的同事和专家请教。在台站出现该类网络故障的排查中,首先,需要认真确认仪器内部各项指标参数配置是否正确;其次,排查网络和路由网络配置是否存在问题;最后,排查仪器软硬件是否存在故障。若有条件的话,中心站应配备必要的备机备件。另外,中心站负责仪器运维的同志还需注意以下几点:
(1)随着辖区台站仪器逐年进入更新换代时期,尽快建立中心站运维室台站运维工作流程,规范故障排除操作步骤,提高运维工作效率是中心站运维当务之急。针对辖区台站各学科观测仪器情况,建立相应的故障排查和处理工作流程和维修检修程序,规范各站点运维具体操作步骤;逐步逐级的排查,查找仪器故障,分析故障原因。
(2)中心站负责仪器运维同志要有一专多能的技能,在日常工作中应经常参加相关技能培训,学习新知识,敢于动手实践,不断积累运维经验。根据各中心站的实际情况,定期开展对辖区内站点仪器运维巡检,积累经验[7]。
(3)每一次故障排除,问题解决之后,应学会撰写维修心得,要经常与其他运维同志开展经验交流,为做好中心站仪器运维工作夯实技术技能基础。
参考文献
[1]毛华峰,张义德,林国元,等.数字地震仪观测系统常见故障及排除[J].防灾科技学院学报,2005,7(1):51-55
Mao H F,Zhang Y D,Lin G Y,et al. Common troubles of digital seismograph observation system and their removals[J]. Jounal of Institute of Disaster Prevention,2005,7(1):51-55
[2]石小磊,李良辉.蚌埠地震监测中心井水位、水温干扰度评估[J].国际地震动态,2017(9):18-22
Shi X L,Li L H. Assessment of disturbance of water level and temperature of Bengbu monitoring center well[J]. Recent Developments in World Seismology,2017(9):18-22
[3]石小磊,李良辉,王俊,等.蚌埠监测中心井水位长时间持续升高成因分析[J].地震科学进展,2021,51(10):472-476
Shi X L,Li L H,Wang J,et al. Analysis on the causes of the long-term continuous increase of the water level in the well of Bengbu monitoring center[J]. Progress in Earthquake Sciences,2021,51(10):472-476
[4]张艺. TCP/IP 协议简述及应用[D].苏州:苏州科技学院,2016:357-359
Zhang Y. The application of TCP/IP protocol in network[D]. Suzhou:Suzhou University of Science and Technology,2016:357-359
[5]程樹岐,王帅合,王西宝,等.地震台站数字化观测系统的运行与维护[J].防灾科技学院学报,2011,13(4):44-47
Cheng SQ,Wang SH,Wang XB,et al. Operation and maintenance of digital observation system of seismic station[J]. Jounal of Institute of Disaster Prevention,2011,13(4):44-47
[6]肖孟仁,项月文,陈浩,等.江西测震台网运行故障统计分析[J].地震科学进展,2020,50(6):1-7
Xiao M R,Xiang Y W,Chen H,et al. Statistical analysis of operation failure of Jiangxi seismic network[J]. Progress in Earthquake Sciences,2020,50(6):1-7
[7]李小晗.山东省地震台站管理与地震仪器运维保障工作的思考[J].地球,2019(9):103
Li X H. Consideration on the management of seismic stations and the operation and maintenance of seismic instruments in Shandong Province[J]. The Earth,2019(9):103