摘 要:大型数据中心投产后,运维人员需要有一个模拟环境来解决一系列冷源群控系统的问题,如研究节能控制策略为降低PUE贡献价值;调测优化后的自控程序以提高新程序执行的可靠性;升级更友好的运维人机界面以提升运维效率;提供自控系统操作和学习的途径以提升一线运维人员的操作能力等。将以国内某数据中心冷源群控仿真系统为例来阐述此类系统的功能、构成、特点及应用实践,以期为运维管理者提供对应的解决方案。
关键词:运维;数据中心;冷源集群控制;仿真系统
中图分类号:TP391.9 文献标识码:A文章编号:2096-4706(2021)22-0020-04
Abstract: After the large data center is put into operation, the operation and maintenance personnel need a simulation environment to solve a series of problems of cold source cluster control system, such as studying the energy-saving control strategy to contribute value to reducing PUE; adjust and measure the optimized automatic control program to improve the reliability of the implementation of the new program; upgrade more friendly operation and maintenance man-machine interface to improve operation and maintenance efficiency; provide automatic control system operation and learning ways to improve the operation ability of front-line operation and maintenance personnel, etc. Taking the cold source cluster control simulation system of a domestic data center as an example, this paper expounds the function, composition, characteristics and application practice of this kind of system, in order to provide corresponding solutions for operation and maintenance managers.
Keywords: operation and maintenance; data center; cold source cluster control; simulation system
0 引 言
大型數据中心的制冷需求庞大,冷源系统会按照N+X或2N的架构进行设计,单栋楼冷冻站内设置多台冷水机组已是标准配置,跨楼栋各冷冻站联动供冷也已在超大型数据中心中有所应用,与此对应的冷源集群控制(以下简称冷源群控)系统的架构一般会考虑冗余或容错[1]其控制逻辑越发复杂。系统投产后,根据实际自控运行工况和运维人员使用情况的反馈,我们会发现自控程序、人机互动界面等均会产生改进需求,同时还会发现一些程序BUG需要修复。此时如要对原冷源群控系统进行升级,首先需要申请合适的停机窗口期,其次需要在变更阶段进行大量的测试验证工作,这对需要满足容错的A级数据中心[2]来说压力巨大。如何能够缩短停机窗口期、减少变更工作从而有效降低系统变更的风险是我们需要重点考虑的问题。笔者将以国内某数据中心冷源群控仿真系统的搭建为例,来探讨此类问题的解决方案。
1 冷源群控仿真系统的功能
1.1 冷源系统设备状态的模拟
冷源系统的主要设备一般分为冷水机组、冷冻水泵、冷却水泵、冷却塔、各类电动阀和传感器,需要通过仿真硬件组成模拟屏代替这些真实设备,实现所有控制和反馈信号的模拟,并可采用仿真软件根据需求设置这些信号,从而仿真设备的运行状态。
1.2 控制系统界面和自控程序的模拟
控制系统的仿真需要无差别显示投产自控系统的软件控制界面,流畅运行已投用的自控程序。在仿真系统内完成自控界面调优和程序优化调测后可反向无障碍替换至已投产系统。
1.3 训练和教学
可将仿真系统用于冷源自控系统运维教学与操作训练,提升运维人员的操作技能。
2 冷源群控仿真系统的构成
系统由现场层、控制层和管理层三部分组成。现场层实现冷源系统设备的模拟,可以接受控制系统发出的控制信号,并根据仿真逻辑反馈系统运行信息;控制层采用与投产冷源自控系统完全一致的自控设备并配置相关接口转换部件和网络通信设备;管理层设置两台工作站,其中一台工作站模拟控制系统的服务器和工程师站,可以完成系统编程、上位机监控等功能,另一台工作站部署现场层仿真系统的上位软件,进行仿真逻辑配置,并对仿真系统中的各参量进行设置,仿真系统架构图如图1所示。
2.1 硬件构成
2.1.1 管理层
管理层工作站分别命名为中央控制站和仿真操作站,均配置六核处理器和独立显卡以保证系统经过多次开发和升级后仍能运行及显示流畅。在中央控制站中使用VMware虚拟机技术,虚拟出冷源群控的主、备服务器,配合双屏显示可仿真已投产系统的双机热备功能。为满足多虚拟机同时运行,内存需扩容至64 GB。
2.1.2 控制层
控制层采用与本数据中心一致的PLC控制系統,除具有传统的逻辑控制功能外,还具有数字运算、数据传送和处理的能力[3],模块化产品可根据各种过程处理设备对于控制和数据管理的需要进行组合。该系统主要由机架、电源模块、CPU模块、IO模块和现场接线端子等组成。通过对应板卡实现模拟量信号、开关量信号的数据采集和对受控设备的远程控制。
模拟量采集信号(AI信号)采用16路高电平模拟输入模块,可配置16个电压或电流点,本项目中所有AI信号均为4~20 mA的直流信号。
模拟量控制信号(AO信号)采用16路模拟输出模块,提供16个隔离的0~20 mA输出,可以应对每个输出缩放到此量程内的直流信号。
开关量采集信号(DI信号)采用直流电压类型的32路数字输入模块,它们分离成2组,每组16个通道,每通道都有一对用于接口连接的螺旋端子。在公共端子和任一输入端子之间施加10 VDC~32 VDC电压,则输入开启,同时点亮模块对应的通道上绿色指示灯。
开关量控制信号(DO信号)采用直流电压数字输出模块,其提供的32个输出同样分离成2组,每组16个通道。输出通道需由外部供电,每一组均有一对螺旋端子,用于+V和COM连接。输出为高侧开关(电源)类型。
2.1.3 现场层
现场层采用模拟工艺屏方式,可以实时修改并显示控制系统中的温度、压力、流量、压差、电流百分比、频率等参数。同时将数据传给PLC控制系统,采用4~20 mA标准信号。
模拟屏能仿真所需控制信号,包括启停控制、开度控制和变频控制,可实时修改并显示设备故障、运行、手自动等反馈信号。同时将上述设备状态实时传输给控制层。通讯采用RS485和TCP/IP接口,支持ModbusRTU、ModbusTCP标准通信协议。
模拟量信号使用显示仪表和信号生成仪表定制开发,显示仪表可以接收4~20 mA模拟量输入信号并显示数据,信号生成仪表可以生成4~20mA信号,并在数码管上显示实际所需数据。
2.2 软件构成
软件系统主要由控制系统程序设计软件、上位机控制应用软件、仿真系统软件和考核信息管理软件等四部分构成。
2.2.1 控制系统编程软件
控制系统采用定制组态程序软件编写PLC控制逻辑,该软件基于Windows系统易于操作,可提供模块化设计,通过以太网或RS232端口连接控制器进行组态的下载、上传和在线监视,其规格可以满足多种过程设备的控制和数据管理需求,从而实现在线组态下载、故障监视和问题排查功能。
通过上述编程软件,根据实际冷源控制逻辑,完成冷源自控系统仿真控制程序的编写和调试,实现系统手动、半自动和全自动运行。
仿真冷源自控逻辑主要实现以下控制目标,须保证与已用程序完全一致:
(1)冷冻水供水温度和压力控制;
(2)冷水机组加减载:通过供回水的温度和回水流量计算现场冷量需求并控制冷水机组投入使用的台数;
(3)冷却水供应温度控制:利用冷却塔风机的开关确保冷却水供应温度达到设定值,保证冷机正常运行;
(4)自然冷却的冷却水供水温度控制:通过冷却塔风机的开关和投入自然冷却的板换使用数量,保证其供水温度达到设定值,并最大限度使用自然冷却的冷却水;
(5)蓄冷罐系统的投用和退出,保证事故情况下末端能够连续制冷;
(6)设备发生故障后及时启动备用设备或者系统,保证冷源正常供冷;
(7)冷冻水旁通阀控制:通过供水压差控制旁通阀,确保系统供回水压差在正常范围内;
(8)冷却水旁通阀控制:保证冷却水供回水温度不低于冷机系统的最低使用要求。
2.2.2 上位机监控软件
仿真系统的上位机软件采用与生产系统一致的冷源群控冗余软件,具备双机热备功能。上位机的人机接口组态与驱动协议均与现场情况一致,监测主要应用对象涉及冷水机组、冷冻水泵、冷却水泵、冷却塔、蓄冷罐、水温、压力、压差、流速等。
使用人员可通过上位机软件观察和操作冷源自控系统。实时数据库提供了大量的设备数据记录和历史数据,为测试后的总结分析提供海量数据支持。利用软件自带的报警管理功能,可获得报警事件并能对其进行处理,可协同考核软件实现培训考试功能。
2.2.3 仿真系统软件平台
仿真系统软件选用较新的、面向对象的C#编程语言,使用WPF框架,具备完善错误的机制、 异常处理的机制[4]。它使程序员们能够更迅速地创建各类基于微软.NET平台的应用,仿真系统软件平台如图2所示。
该软件主要包括图形展示、模拟引擎和通讯管理三模组:图形展示模组是现场层模拟对象的标准操作界面,主要进行对实际冷源控制系统的工艺流程展示、数值显示和装置状态管理;模拟引擎主要实现工艺数据和硬件的绑定以及仿真逻辑算法的实现,引擎可以收到由控制器发出的控制信息,并把这些信息展现在软件和工艺屏上,然后通过仿真逻辑算法把相应的对象数据反馈给控制器,以此达到了模拟实际冷源系统的功能;而通讯管理模块则主要实现与硬件的通讯,可以完成对模拟量采集模块、模拟量信号发生模块、开关量采集模块和开关量输出模块相互之间的通讯管理工作,模块采用多线程的方式,通过信号量互锁,实现数据的高速采集,保证数据的一致性。
2.2.4 模拟操作考核软件平台
模拟操作考核软件实现对培训人员的理论考核和操作考核,系统的模块设计遵循高内聚低耦合的原则,分为五个模块:数据库模块、账号模块、题库模块、考试模块、用户接口模块,如图3所示。数据库模块用于完成对数据库中用户账户密码、考核试题内容、历史考核数据、用户信息等关键数据的增删改查,完成数据的持久化保存;账号模块实现用户账户的需求,区分账户类型,限定管理员账户和考生账号所拥有的权限范围,确保账号安全;题库模块借助数据库模块从数据库中加载并实例化试题数据;考试模块通过访问数据库模块和题库模块,获得试卷信息和具体的试题内容并进行显示;用户接口模块即软件的图形界面,整理并呈现存储在数据库的相关用户数据,通过合理的交互行为实现参与考试、考试发布、成绩浏览等相关功能。
3 冷源群控仿真系统的特点
仿真系统硬软件与实际冷源系统的工作流程及其控制系统的配置高度耦合,在仿真系统上对实际冷源系统的控制算法、自控流程进行优化设计,经过离线验证后可以直接应用到投产冷源系统中,具有很高的实用性。
使用工艺屏代替实际设备,将开关量、模拟量等系统参量进行显示,工艺流程清晰,数据直观。关键冷源设备的主要状态均可通过工艺屏模拟,无须操作实际使用设备,对生产系统无影响。通信协议采用标准Modbus协议,方便系统的增容和扩展。
4 应用实践
仿真平台建成后,我们导入已投产的控制程序,采用头脑风暴方式构想各种极端运行工况,用以测试冷源集群控制系统的稳定性,测试出几处常规工况下不易发觉的程序缺陷。
在对数据中心冷源集群控制系统进行2.0版本升级的过程中,我们通过仿真系统进行所有新增功能、优化逻辑以及修复缺陷的测试工作。测试通过后将程序下载至生产系统,大大降低系统升级后的运行风险。
针对版本升级后的新功能我们利用仿真系统进行了多次实际操作培训和考核,为一线运维员工快速掌握新功能提供了实践场所。仿真模拟系统培训周期短,成本低,形式一对多,更能贴近实际生产环境[5]。
5 结 论
经过一年的运行实践证明:该系统对大型数据中心冷源系统自控程序的优化、节能策略的实现提供强有力的支撑作用。模拟测试平台的投产,极大地方便了员工的培训、演练等实际应用需求。同时在园区大部分楼已经正式投产的情况下,模拟测试平台可以用于程序修改后的线下测试工作,为园区生产系统的安全稳定运行提供了极大的保障,具有较高的推广价值。
参考文獻:
[1] 余辉雄.面向大数据分析下配网主动式运维分析 [J].通信电源技术,2019,36(12):119-120.
[2] 李栋.大数据分析在网络监控中的实现与应用 [J].通信管理与技术,2020(4):44-46.
[3] 任帅.动环集中运维管理平台应用探析 [J].通信电源技术,2020,37(3):64-67.
[4] 张帆.数据分析在科学统筹通信运营商动力运维成本中的应用研究 [J].信息与电脑(理论版),2018(17):153-154+157.
[5] 孔令诚.接入网机房动环监控自动派单的分析与实现 [J].中国新通信,2018,20(2):87-88.
作者简介:马一清(1981—),男,汉族,江苏南京人,工程师,本科,研究方向:建筑智能化、自控。