黄伟雄
(广州地铁集团有限公司,广东广州 510330)
目前,国家电网公司在其总部、各省市分公司的改组优化中都已构筑起了由数据中心、企业门户、应用集成、数据交换等一体化的企业级信息集成平台。从电力信息化处理系统本身出发来看,电力数据中心是一个非常重要的组成部分,其运行效率的高低和运行结果的好坏对整个电力系统的运行效率产生直接影响。促进电力数据中心的建立和不断完善,不仅能有效促进已有电力系统在生产调度、资源分配、系统运行和维护方面的改变,更能实现管理的升级。
21 世纪以来,我国数据大集中的信息化建设规模在不断扩大,其普及程度也越来越高,对于所有的社会行业来说,建设和完善数据中心是目前社会最主要的研究点和关注点,不仅数据的集中和统一,不仅能实现对电力企业的管理,并在最大程度上促进电力市场环境之下从发电、输电到供电再到检修等多层次多方面的基本管理与安全生产。与此同时,不仅数据中心的建立和完善,也能有效促进各项基础数据的综合利用水平与数据共享率的提升,帮助管理层及决策层深入分析企业的各项数据并及时处理,为企业的应用提供最基本的保障和较为可靠的服务,帮助企业提高电力系统整体的管理能力和水平。
相比于传统的数据中心,基于云计算平台的电力数据中心是以云计算平台为基础搭建起来的新型数据中心,其中采用的都是全新的、蕴含较多科学技术的智能挖掘分析和虚拟化技术以及大数据的处理系统。但是,在开始设计新的运维体系之前,必须对基于云计算的电力数据中心需要面向怎样的运维对象进行明确及其需要满足的相关要求。
(1)基础设施。网络、存储、电力、环境调节、服务器、安全等设备共同组成了数据中心的硬件资源,其能为系统的计算、储存、通信提供硬件实施平台。要想确保系统运行安全、稳定,就必须对这些设备进行合理的维护和使用。
(2)数据与系统。操作系统、数据库、中间件、应用程序、虚拟机等都是其中包括的软件资源,而业务数据、系统运行产生的数据、日志、配置文件等都属于数据的范畴。因为这些都属于系统组成中的重要部件,属于电力数据中心重要的逻辑载体,能促进系统内各项功能性需求的很好实现,因此,运维方式的合理程度能很好地保障系统整体功能的实效性与灵活性。
(3)管理工具。报表平台、工作流管理平台以及基础设施设备的监控软件等都属于管理工具,它们能很好地帮助管理主体对数据中心内部各运行主体和对象的有效管控,促进管理程度向可视化发展的同时,提高数据中心的实用性和可靠性。
(4)环境设施。即电力、网络、环境等各项确保数据中心管理设备运转正常的资源。环境设施出现故障或问题,很可能使系统停运甚至崩溃,而某些依托于此项设施也会随即停止运转。
(5)工作人员。包含管理、技术、运维、厂商等所有与数据中心运行有关的人员。他们是管理对象,也是管理主体,对人员进行合理的安排和管理,能为系统提供最大程度的稳定服务,促进系统的正常运行。
图1 是云平台基础上电力数据中心运维体系的组成框架。
图1 云平台基础上电力数据中心运维体系的框架
按照相关标准和要求,平台基础上的电力数据中心首先需要具备较高的可用性,实现对设备故障的提前预测和及时预警,并能在故障情况下实现数据的实时转移和设备替换;其次需要具备一定的可扩展性及可移植性;最后需要管理多种基础设施和设备,帮助网络设备有效提升其自身的稳定性和安全性。对分布式存储系统而言,也需要满足同样的需求。
在建设电力数据中心的过程中,甚至建设工程开始之前,就需要完成硬件设施设备的虚拟化。当然,建立健全硬件设施设备的运维对象与运维信息,并以深度学习算法为基础,可以在最大程度上实现系统对硬件设备、数据中心自检测、监控等各项数据功能的自动采集,同时对设备的状态和各项数据信息进行自动分析,从而对设备的运行效率和运行状态进行有效判断。
加强对资源的调节和有效监控,不仅能减少软件崩溃的概率,还能为系统提供更可靠的服务。一般而言,建立软件运维对象并不断促进软件的升级和模块化,将运维对象的接口接入到模块之中,是数据中心最基础的作用,且也能实现对软件输出结果的有效和实时监控,然后再以国家标准和设计要求为基础分析得到的结果,也能有效判断输出结果的最终状态和准确性。除此之外,还需要对软件本身的运行状态与性能进行一定程度的分析,并不断监控。只有通过采集处理器和系统内存各自的占用率并进行系统分析,才能以此对软件运行的可靠程度进行准确判断。
电力数据中心具有纷繁复杂、种类多样的信息数据,而每一种数据对象的存储格式又存在一定的差异,所以,针对不同的数据资源,数据监测的标准、要求也有不同的地方。如果电力数据中心的运维需要按照相关的标准和要求执行时,企业的管理层就需要将各种数据资源当成管理对象来进行适当的管理和对待,并以不同的数据要求和实际情况为基础,借助阈值、校验等方式对数据的可靠性进行判断。如果出现数据错误,需要对相应的设备进行控制并完成数据的重新上传,而且企业需要对每一份数据进行备份,以应对遭遇突发状况时系统内数据的快速恢复,如果出现某些数据丢失的情况,便可以及时从备份数据中寻找并补充。
从某种程度上来说,电力数据中心的运维体系不仅能实现所有配置信息的有效融合,还能将其集合成一个完整的配置资源池,其能对新加入进来的设备进行自动检测与分析,并在判断设备类型的基础上对设备进行合理选择,调动或调整某些配置程序,从而实现对设备的最大利用和重新自动配置。积极对各种配置相适应的模型进行建立和不断完善,并进行统一管理和实时更新,借助设备种类将其索引至不同配置程序的存储地址。当然,也可以通过上层的管理平台实现配置信息的收发,有条件的情况下还可以帮助完成配置的储存和更改。
综上所述,通过研究分析电力数据中心的自动运维体系,借助深度学习的算法对各项数据资源、各类软硬件设备进行实时的监控,并帮助数据中心内部的管控平台处理、下发各项管理指令给数据,与此同时,将运维对象在横纵方向上进行相互连接,能实现数据中心的数据共享和资源动态分配。这样不仅能实现自动管理资源的目标,也能在很大程度上满足电力数据中心高效运维的目的和需求。