地震台站计算机常见故障分析与处置*

2022-09-29 02:27全建军郑永通陈俊峰王绍然赖见深郑志泓陈美梅林慧卿
地震科学进展 2022年9期
关键词:死机台站计算机系统

全建军 郑永通 陈俊峰 王绍然 赖见深 郑志泓 陈美梅 林慧卿

1) 福建省地震局永安地震台,福建永安 366000

2) 福建省地震局龙岩地震台,福建龙岩 364000

3) 福建省地震局漳州地震台,福建漳州 363100

引言

计算机具有高效性、准确性、时效性、先进性等技术特点,在应用领域深受各行业包括地震部门的青睐。目前,地震台站监测与数据处理是以计算机为依托的工作平台,借助于网络环境,实现台站观测人员对台站所有观测仪器数据采集、数据入库、数据处理、数据分析和仪器运行状态进行管理。尤其是地震前兆台站计算机的硬件与操作系统及专业应用软件,在长期台站观测运行中容易出现一些故障,造成台站计算机工作平台运行不正常,如:台站计算机系统遭遇木马或病毒攻击,导致计算机无法运行或死机,影响到观测资料的及时处理;或因台站意外断电或掉电,造成计算机数据存储受到影响。在日常运维中,台站计算机平台如何采取合理的运维方式,选择正确、及时、高效的故障排除办法,达到在计算机运行平台管控维护下,更好、更多方位做好台站监测工作,是当前台站计算机维护人员最渴望解决的关键问题。

1 台站计算机常见故障及处置

福建永安地震台网络平台上现有9 台计算机,近几年故障频次较少,运行率达99.5%以上。永安地震台内网计算机与福建省地震台网中心相关服务器直接相连,承担永安台观测数据采集、报送和数据共享、实时传输、地震会商、日常业务办公等业务。

台站计算机平台由软硬件系统构成:硬件部分包括主板(CPU、主板、内存储器、多功能卡板)和外设(I/O 设备、外存储器);软件部分包括操作系统与专业应用软件。一旦台站计算机系统出现问题会是各式各样的[1]。在台站前兆数据计算机处理日常工作中,常遇到 “系统死机” “自动关机” “蓝屏” 等现象。显然,这对台站人员判断故障类型与处置方式有较高的要求,一定要具备丰富的计算机方面知识和分析判断处置能力。因此,台站计算机系统常见故障的排除和维护经验十分重要。一旦台站计算机出现问题,根据不同故障现象快速准确判断计算机系统故障所在,尽快检修排除故障,降低台站计算机系统因故障造成的台站监测工作的影像,使之降低到最小程度。

1.1 台站供电突发停电

在日常监测工作中,台站计算机系统设备因台站突发断电,导致计算机系统 “停止运行”,此时,计算机内部电源电压会出现突变,这会对计算机器件或部件造成伤害,如:CPU、硬盘、稳压源电路电容、二极管器件等。处置办法:台站计算机系统平台配置在线UPS 电源系统,一旦出现电源故障,可应急处置。台站计算机系统电源应选配Intel 公司ATX2.01 以上版本电源模块,这可最大限度减小外界电源电压波动对计算机的影响。

当台站出现瞬间断电,若计算机系统磁盘正在执行读写命令,极易导致数据磁道损坏发生;若正在进行文档编辑,则会导致编辑数据丢失。处置办法:计算机在进行Word 编辑时,应先勾选Word 自动存储 √ 选项。其次,对磁盘执行读写突遇停电情况,应重启运行模式,严格执行磁盘自检步骤操作,检查磁道是否受损,若发现磁盘磁道受损,可通过Victoria、Pqmagic 等常用软件对受损磁道修复或将受损磁道屏蔽[2](图1)。也可使用Victoria 命令修复硬盘,具体步骤:①一般情况下,请从 “测试” 右下角的 “忽略” “重新映射” 和 “恢复” 选项中选择 “重新映射” 。ERASE 主要是擦除扫描的坏磁道,可以修复一些CRC 错误,也就是我们常说的逻辑错误,或不是问题很严重的磁道坏块。REMAP 可重新定义坏块LBA地址,将原有地址写入硬盘G-List,硬盘在生产时应有充足的预留容量。这种功能可保留容量中好地址替换坏磁块。② 如果硬盘上有大量色块,可先使用ERASE 功能擦除整个磁盘,看能否减少坏磁道,然后,使用REMAP 功能。在超时栏中填写适当的超时值,默认值1000 ms,建成250 ms 磁道,多次扫描修改成150 ms,大多数色块扫描在G 表中。

图1 台站计算机系统使用工具软件对磁盘坏磁道进行修复界面Fig.1 Using software to repair bad sectors of the disk

如条件允许的话,可给每一台计算机配置一台UPS(1 kV)电源,以保障计算机电源稳定可靠,提供台站计算机在线UPS 电源是十分必要的。

1.2 计算机自动关机

台站计算机在日常工作中,时常会发生瞬间操作系统停止或系统重启现象。计算机主板对CPU 处理器有实时温度监控功能,如计算机运行时间过长,主板CPU 会升温异常,因此,计算机主板BIOS 应设置合理阈值,使CPU 主板自动对内部电源模块提供散热隔热功能或自动关机功能,避免内部器件过热受损。另外,计算机操作系统电源管理软件或部分软件遭病毒感染,也会出现上述故障。处置办法:首先排查CPU 温度监控及散热功能有无异常,其次,进入主机内部排查风扇叶片有无异常,最后进入BIOS 选项查看风扇转速与CPU 工作温度变化有无关联。若风扇故障,应及时对风扇进行消尘操作或更换散热风扇。若检测判断为非硬件问题,可通过Windows 系统盘对计算机操作系统的电源管理软件进行重装,或彻底进行杀毒操作。

在上述因素排除后,其他故障可能因电源模块性能变差或已部分受损。处置办法:应及时更换计算机电源模块,强制带病的电源模块停止工作,避免台站计算机硬件造成不可逆的损失。

1.3 系统死机

在台站计算机日常监测工作中,经常会遇到计算机桌面无端锁住,点击鼠标左右上下均无反应,甚至热启动也无法正常运行,同时还会遇到计算机显示终端出现蓝屏情况(图2)。分析原因:可能Windows操作系统自带程序出错或其他软件的兼容性出错;也有可能是工作人员在使用台站计算机时,短时间内开启多进程、多程序,造成计算机系统出现阻塞,导致计算机系统死机或出现蓝屏。

图2 台站计算机显示终端出现蓝屏故障Fig.2 A blue screen failure occurred on the computer

处置办法:台站计算机系统出现死机情况,可通过小键盘区Numlock 键操作辨认,再查看Numlock键指示灯是否发生改变,若有变化,则是死机假象,可进行ALT+CTRL+DEL 3 个键同时按下操作,重启系统,查看屏幕显示任务列表的程序状态,若无法响应程序项选定,点击使其程序结束运行;若出现计算机系统死机,只能关闭电源,冷启动解决问题。针对常出现蓝屏故障,可按ESC 键操作,若没效果,可执行ALT+CTRL+DEL 热重启操作,或按动主机上的复位按钮。至于软件的兼容性问题,也可通过卸载 “问题” 程序或软件和升级主板BIOS 及有关驱动程序排除故障。

1.4 病毒发作

台站计算机长时间在网运行时,时常会出现指令响应滞后,主机死机,硬盘指示灯异常闪烁,蓝屏频繁和许多非正常系统告警等现象(图3)。计算机病毒其实是一类恶意的攻击计算机的程序代码,病毒利用自身代码重复频繁复制,潜入计算机系统内私下运行,导致计算机系统空间资源被占用,情况危急时造成计算机软、硬件系统的崩溃,如Petya,硬盘炸弹等病毒。

图3 计算机系统出现中毒显屏上弹出很多无用窗口Fig.3 Windows pop up after computer poisoning

处置办法:判断计算机系统已中毒,应在计算机操作系统下重启DOS 环境,运行杀毒程序(DOS版),进行杀毒解决;完毕后,重启返回Windows 操作系统下,运行桌面杀毒程序(Windows 版本)进行二次杀毒处置。若台站计算机系统受病毒感染面广、影响较大,甚至造成部分文件损坏时,需在病毒初发有些影响时,及时备份关键文件,并存储到系统盘外的其他介质(USB 盘、硬盘)上;将数据文件属性设置为只读模式。

台站工作人员应经常进行计算机桌面杀毒软件病毒库升级,杜绝使用盗版应用软件,严禁打开来路不明的电子邮件等。

1.5 系统故障

台站计算机系统出现无法进入操作系统故障问题时,应在完成系统自检时,系统运行应停止;显屏上出现 “The disk is error” 等告警界面,造成此现象很复杂,最有可能是操作系统文件出现改动、损毁,也有可能是运行指令出现异常,造成计算机硬盘故障。

处置办法:首先,将台站计算机操作系统运行进入系统安全模式,即主机运行选择F8 键,再按下启动目录中第3 个选项:Safe model。系统运行安全模式,利用设备管理器及文件目录查看软件进行故障排查,若发现系统文件有 “!” 号,应仔细查看,选择删除或停止运行;将驱动程序重新安装,若再次出现系统文件出错,可采取安装软件文件加以覆盖。若计算机无法进入安全模式运行,则用带启动程序光盘运行至DOS 系统,在DOS 系统环境下运行查杀病毒软件,再通过Dir 命令查看系统盘中有无缺失文件,必要时专业应用系统软盘实施Sys C:,修复缺失系统基础文件。如果在C 盘根目录下未发现系统文件,则需对计算机系统软件重新安装。

1.6 其他故障

目前,我国大多数基准台承担着国家大震速报任务。在大震速报操作时,需使用专业软件将分析结果压缩后,发送到省地震台数据服务器。在日常工作中,若发现专业软件运行无法正常连接到省地震台网中心指定地址。应及时查看本机的防火墙设置,必要时关闭防火墙,可解决此类故障;若关闭防火墙后,依旧无法连接到目标地址,可将计算机脱离路由器,直接接入行业网。

一些台站使用一台计算机作为地震到来的报警器,当多个台站信号振幅均超过阀值时,警报器开始地震语音报警或声光警示,提醒台站人员需注意。此类告警装置一般是基于Java 软件设计的,初始安装处于正常运行状态,一旦出现故障或Java 在浏览器中运行时,出现浏览器自身的缺省JVM,而不同浏览器对JDK 的支持程度高低不同以及在Netscape 或IE 浏览器中运行Java 发生故障时,可通过JDK 提供的工具AppletViewer 或Sun 公司的HotJava 浏览器来支持,即测试Applet,判断台站计算机系统故障与浏览器是否有关。假如Applet 在AppletViewer 或HotJava运行没问题,那么故障出现就是浏览器不完整,或兼容JDK 性能差所致。解决方法:安装HotJava 浏览器或安装Sun 公司的Java Plugin;倘若Applet 在Applet-Viewer 中或HotJava 浏览器运行发生故障,应按照错误提示查看Applet 程序。一般情况下,按上述操作故障会得到排除,若仍未解决,则需检查台站外线网络通信链路是否异常。

2 台站计算机的日常维护

台站使用计算机是做好台站地震监测、数据处理的重要平台。维护好台站计算机及系统十分重要,判断计算机系统故障所在,及时处置计算机及系统,是台站日常维护工作的一项重要内容[3]。台站计算机系统日常维护包含以下几个方面:

(1)计算机清尘工作,主机内配的驱热散热装置,在计算机工作一段时间后,会出现大量灰尘,需定期对灰层进行清理,保证计算机稳定运行,通风散热通畅。

(2)强化对计算机环境的维护清洁,计算机易受环境因素的影响,尤其是环境温度,计算机内部各类芯片运行稳定性一定程度上对温度要求十分苛刻,由于温度变化易产生静电,调节合适温度能有效降低静电影响。

(3)合理掌握计算机运行时长,超负荷运行计算机会降低使用性能及寿命,台站计算机运行务必遵守相关规范性操作要求,如遇特殊雷电、暴雨天气及时切断电源,保证计算机的安全,免遭雷电影响。

3 结论

随着现代科学技术水平的不断进步,计算机已在全国地震台站广泛使用。地震仪器的数字化、网络化都离不开计算机的应用,而计算机应用也会带来很多问题,所以,台站人员不能单纯依靠计算机公司技术人员来解决台站计算机出现的故障,应逐步熟悉掌握计算机系统的基本功能和性能,分析判断计算机及系统的常见几类故障现象,尤其是在使用专业软件与工具时,准确分析判断计算机系统出现的故障,并具有及时处置排除的能力十分重要。

通常,从在开始工作中遇到计算机发生故障时的无从下手,到后来的逐步熟悉了解。因此,在新时期下现代化地震台站发展中,努力提高台站人员计算机常见故障处置能力与计算机系统日常维护管理水平是当前台站的一项重要工作任务,我们任重而道远。

猜你喜欢
死机台站计算机系统
提醒
中国科学院野外台站档案工作回顾
地震台站基础信息完善及应用分析
一种适用于高铁沿线的多台站快速地震预警方法
铁路无线电干扰监测和台站数据管理系统应用研究
关于不法分子冒充《小型微型计算机系统》名义诈骗的严正声明
IBM推出可与人类“辩论”的计算机系统
计算机系统集成实施与项目管理途径分析
脸死机了
正确书写计算机系统内部使用的二进制倍数词头符号