朱 妍,罗天昊,李维刚
(1.辽宁师范大学 计算机与信息技术学院,辽宁大连 116081;2.辽宁石油化工大学 能源化工系,辽宁抚顺 113001; 3.中国石油集团公司抚顺石化公司 炼油与化工项目部,辽宁抚顺 113008)
目前,工业企业特别是化工流程行业,DCS得到广泛应用,并在工业以太网中大量使用服务器、交换机、网卡、光纤等通信设备,使DCS的构建规模和复杂性日益增加,从而对保证系统运行的各方面性能带来了相当难度。服务器,是网络中的关键设备,如何恰当地配置,是值得注意的。
从广义上讲,服务器是指网络中能为其他机器提供某些服务的计算机系统;从狭义上讲,服务器是专指某些高性能计算机,它在网络操作系统的控制下,可与任何外部设备相连,并且在稳定性、安全性、工作性能等方面要求更高。它是网络上一种为客户端计算机提供各种服务的高性能计算机。
权威统计,控制信息的高端工业级服务器,作为网络上的节点,存储和处理着网络上80%的数据和信息,既为网络上的客户机提供信息共享,又为网络用户提供集中计算、信息显示及数据管理等服务功能,因此对服务器依赖程度越来越高。一旦突然停机或意外的网络中断,就会带来控制系统的严重后果。
服务器安全涉及多方面,包括硬件、系统、网络、数据、安全运行等。必须采用专用网络安全芯片、系统内核加固、硬件容错等先进技术,且必须具备如下的特点:
a)高性能。服务器的高性能主要体现在高速的运算处理能力、强大的外部数据吞吐能力,使服务器能够在单位时间内处理相当数量的请求并保证每个服务的响应时间。
b)可靠性。长时间的稳定可靠运行,服务器故障率很低,具有安全保障能力,是普通的PC机所做不到的。
c)可扩展性。服务器能够随着用户数量的增加不断提升性能,具有可管理等方面的突出优势。
可见,服务器必须可靠高效,具有承担保障服务质量能力。
某炼油项目8 Mt/a常减压装置,其DCS是采用德国西门子公司的PCS7系统实现的。它采用先进的分布式客户机/服务器架构,并基于该公司标准的Simatic软件和硬件,支持总线冗余(包括系统总线和现场总线)和组件冗余(包括控制器、Profibus等接口模块),支持在线组态修改和故障诊断,是新一代全集成自动化控制系统。
此生产装置DCS的上位机采用了冗余的操作站服务器和客户端的结构,即配置了1对互为冗余的547B型工业级服务器,1台工程师站,1台归档服务器,5台客户端操作站,5对冗余的AS控制器和若干 I/O卡件,整套系统实际提供 I/O点数1 430点。DCS所配置的工程师站,是用于对DCS进行组态调试和系统下装,并以实时数据库的形式来处理信息;DCS正常投运后,生产操作人员可以通过冗余的服务器从操作员站对生产工艺过程进行操作和监视,并监视服务器和控制器之间的数据通道的通信质量。
该工业级服务器采用双机热备和负载均衡技术。同一时间内当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会迅速地自动启动并运行,从而保证整个网络系统的正常运行。整个控制系统可分为三个层次:各操作员站通过工业级交换机与工程师站和服务器构成上层标准的工业以太网;工程师站和服务器又通过Scalance系列的模块化工业级交换机与各分散的AS控制器连接成环形的工业以太网,且上述两层都是1Gbit/s速率的工业以太网络;而底层的各AS控制器与现场的I/O(输入/输出)卡站(ET200M)相连接,并采用冗余的 Profibus-DP现场总线来进行下行通信,通信速率为12 Mbit/s。
该DCS的客户机/服务器(Client/Server)即C/S结构特点:客户机不断向服务器发出服务请求,服务器根据服务请求类别来完成相应的作业并将处理结果按轻重缓急回送客户端。具体讲就是该架构是把DCS中应用程序中的执行内容划分成两部分:客户机应用程序和服务器数据库程序。当客户端需要对AS控制站中的数据进行任何操作时,客户程序就自动地寻找服务器程序,并向其发出服务请求,而服务器程序则根据预定的规则做出应答,相应地从存储空间中取得数据,运算并送回结果。这样,现场控制站CPU运行数据的负荷比较轻,而与数据存取有关的多数界面操作部分,则由服务器中数据库管理系统承担。其优点:充分发挥工业以太网中客户端、服务器和现场控制站自身独特的处理优势;极大地减少主干网络上的信息流量,避免信道拥挤和堵塞;有效地发挥了工业服务器软硬件性能可靠、执行效率高,数据库管理集中、安全、方便的长处。
该蒸馏装置于2009年10月初开始试生产。DCS刚投用,于2009年10月9日凌晨,中央控制室有4个操作员站的工艺画面均读不到生产数据,无法进行生产工艺指挥和操作。计算机维护人员迅速将1号服务器断电再重新启动,逐步恢复了操作站的操作功能。在处理过程中,现场操作人员临时启用了现场操作员站进行操作,生产未造成影响。10日凌晨,同样的故障再次出现,因处理及时,未对生产造成影响。11日,工程师全面检查DCS,拷贝出工业服务器上方显示器中的诊断信息,内容如下:
a)窗口上的部分报警信息显示了1号服务器与所有AS控制站CPU的通信发生中断。
b)窗口上报警信息显示了1号服务器与2号服务器的冗余功能处于中断状态。
c)从Windows的事件记录器中发现,1号服务器的网卡CP1613在同一时间内出现了故障报警信息。
综合系统和网络设置,并参照报警信息分析如下:
a)出现问题与现象是与OS操作站连接的网络服务器故障,原因是服务器内部网卡CP1613的故障,造成操作站与服务器连接失败。而网卡CP1613的功能是负责建立1号服务器与所有AS控制站中CPU的通信联系,而生产的过程就是所有的操作站要时刻与1号服务器保持通信,交换信息。当网卡CP1613出现故障时,1号服务器与所有AS控制站中CPU的通信发生了中断,数据无法上传,其结果与1号服务器相连接的操作站也就无法读取动态的数据,更无法指导和进行生产操作。
b)工业服务器与AS控制站发生通信故障一般是由硬件问题而引起,对正常运行的计算机系统而言,出现这样的现象是非常特殊的。经过检查发现所有操作站均连接在1号服务器上,而不是各为一半分担在2台互为冗余的1号和2号服务器上,组态上也未做合理的物理分配,且在冗余服务器系统的配置表中,冗余切换的选项功能也未使用。冗余服务器应当具备:当冗余1号和2号服务器与所有控制站之间发生通信故障时,所有操作站应当自动切换到另一个同步运行的服务器上,而发生故障时,计算机DCS实际上并未发生切换动作。
c)经过现场分析查证,是因为在计算机系统调试过程中,组态人员需要经常下装和更新AS控制站CPU中的内容,这样经常造成服务器与AS控制站CPU通信的中断,从而使每次组态工作都产生OS操作站与1号和2号服务器之间的相互切换。组态人员为了避免频繁切换的麻烦,当时取消了对该项功能的设置;而投用试生产时因遗忘与疏忽,使控制室所有4台OS操作站即客户机没有与服务器建立有效的冗余连接功能,另外服务器的负荷分配也存在问题,所以当1号服务器与所有AS控制站CPU的通信发生中断时,冗余功能失效,无法自动切换到2号服务器上,因而生产操作人员也就无法读取数据和进行操作了。
d)当现场维护人员强制停止1号服务器的运行后,就相当于强制将所有的OS操作站切换到2号服务器上,而2号服务器的工作是正常同步的,所以所有OS操作站可立即恢复正常操作,但是由于组态的遗漏,实际服务器运行只能完成人工干预操作。
a)更换了1号服务器的CP1613网卡,对服务器冗余切换功能选项重新进行组态,并经过两天的运行观察,没有发生类似故障。
b)为了提高系统的可靠性,对1号和2号服务器的冗余设置进行了优化,如果再出现类似网卡故障的情况时,这两台服务器之间会自动进行切换。
c)为了分散故障危险性,维护人员将这4台操作员站的默认连接进行了对半分配。即其中2台以缺省方式连接至1号服务器上,另外2台以缺省方式连接至2号服务器上。这样,如果1号服务器发生故障,不论这两台服务器是否发生切换,至少能保证有2台操作站可以操作。
d)在现场,DCS工程师对计算机系统的设置进行了全面的检查,包括服务器的冗余选项、时间同步设置、多项目结构等,未发现其他配置上的遗漏。之后,DCS工程师与工艺技术人员共同做了实验,模拟出故障时的状态,验证了上述推断的正确。
e)在优化了系统的设置后,再次进行了生产在线试验。这次,当1号服务器故障时,操作站能自动切换到2号服务器上,未发生影响操作的情况。
a)要养成良好的程序化软硬件组态工作习惯,以免工作忙乱时出现差错,特别是重大失误。
b)要重视系统的冗余架构,对于CPU卡、服务器、交换机、网卡、网线等冗余设备的参数设置一定要优化,包括在今后系统调试、运行、维护过程中,要保证参数设置统一,克服随意性。
c)DCS制造工厂的验收测试内容还要细致和深入,测试方案不能粗放,验收测试的记录要详实,报告中要能查阅到当时的测试细节,包括测试方案、内容和步骤,同时要完善验收测试表格及记录。
d)工厂验收的测试要按技术规范对所有电子部件卡板进行考机试验,增加抽查比例,尽量将这些分离的控制单元连接起来,并在大系统运行下考证大量交换数据负荷的运行对系统架构的影响,特别是通信部件的功能效果情况,这样便于及早发现问题。
e)做好系统的安全保障。建议将原来的Administrator用户名改为其他,并且设置复杂密码,经常检查计算机上是否有新的用户名,一旦发现莫名其妙多出来的用户,及时删除并更改管理员密码。另外,服务器上只安装必须的软件,尽可能减少其他软件的安装。
f)做好DCS服务器备份策略。由于DCS服务器担负着系统的重要功能,如果服务器系统一旦瘫痪,工艺人员就不能对装置进行监控和操作,更重要的是程序与系统组态文件等重要文件和数据将丢失。即使按常规重装的方法恢复系统,不但步骤复杂,而且还会出错、将前功尽弃;且再次重装,不但花费大量时间,而且影响整个装置的生产。因而对系统做出有效的备份和快速恢复措施是非常重要的。
g)重视服务器存储系统。硬盘作为服务器数据存储的主要设备,是一种技术含量高、制造精密的设备,服务器硬盘的发展目前已达到10 kr/s或15 kr/s,在运行当中,一点细小的故障都有可能造成硬盘物理损坏,所以工业使用的服务器必须都采用Raid磁盘阵列存储,以加强服务器硬盘的容错功能。
h)定期进行备份。对于一些非常重要的数据,要做好相对完善的备份方案,按计算机公司推荐的标准进行操作,切勿盲目操作。如果发现服务器数据丢失,千万不要再盲目操作,造成数据恢复机率的降低。应该通过正规渠道来寻找数据恢复的技术支持,听取专业建议或请专业技术人员检查,同时不要再往丢失数据的分区或硬盘里写入数据,以减少二次破坏。
[1] 钟小平,张金石.网络服务器配置与应用[M].3版.北京:人民邮电出版社,2007:123-136.
[2] 聂元铭,林建华.自主可控安全服务器探讨[J].信息网络安全,2010,(5):23-24.
[3] 闫志强.西门子PROFIBUS工业通信指南[M].北京:人民邮电出版社,2007.
[4] 梅海青.两种数据冗余方案的浅析[J].可编程控制器与工厂自动化(PLC FA),2010,(7):115-117.
[5] 王大忠.探讨Web服务器高效运行的方法[J].电脑编程技巧与维护,2010,(14):58-60.
[6] 彭亚峰.DCS系统在生产应用中的故障分析[J].内蒙古石油化工,2009,(6):44.
[7] 盂和平,宦晓峰.DCS服务器备份和恢复在热轧板厂的应用[J].梅山科技,2006,(1):19-20.
[8] 富 强,尔联沼,关云洁.集散型控制系统网卡通信研究[J].自动化仪表,2003,24(3):59-61.
[9] 吴子龙,刘 茜,轩 东.以太网用于工业控制的主要难点和问题[J].数字石油和化工,2006,(11):17-18.
[10] 陈 磊,冯冬芹,金建祥,等.以太网在工业应用中的实时能力分析[J].化工自动化及仪表,2003,30(1):44-47.