关于存储智能化运维研究及应用

2017-05-08 15:04黄鑫谢铭张永华
科技创新与应用 2017年12期

黄鑫+谢铭+张永华

摘 要:随着广西电网有限责任公司(以下简称公司)资产规模的扩大,公司对存储管理提出了更高的要求。公司明确提出要“按照‘统一管理、统一规划、统一标准、统一建设四个统一的要求,建立健全信息化三大标准体系,重点推进核心业务系统和企业级数据中心建设”。同时公司数据中心的日益完善与拓展,多品牌多系列的存储设备增加了管理的复杂性和运维风险,现有存储管理模式将难以满足公司业务增长和一体化系统项目建设需求。为了提高企业级数据中心的管理水平,完善数据存储的管理模式,运用专业化、一体化、标准化、信息化的技术手段,实现集约、规范、高效的存储管理模式,使得存储运维管理实现自动化、智能化運维势在必行。

关键词:存储智能化;软件定义存储;自动化配置

通过企业管理信息系统存储智能化运维研究,提出一套高效、稳定、可靠的存储智能化运维方案及应用手段,以解决存储运维工作耗时高、效率低、配置不规范不正确等问题,为存储管理工作提供有效的支撑。

本项目达到的目标如下:(1)统一管理异构物理存储,降低操作和管理的复杂度和风险性。(2)按服务级别要求分配存储资源,不浪费及错配资源。(3)建立一站式服务门户,有利于统一控制、添加和调配资源。(4)统一监控存储资源的事件,方便及时发现问题。(5)简化交付和使用,缩减资源分配耗时,提升工作效率。

1 系统管理现状及问题

近年来,广西电网有限责任公司数据中心已陆续上线了多品牌多系列的企业级存储系统,为公司的多个关键业务提供了底层数据存储支撑,包括高端的EMC Symmetrix VMAX、HDS HUSVM、DMX-950,中端存储VNX-5500、CX500、CX4-480等。同时,通过部署EMC VPLEX存储虚拟化引擎,实现了存储系统的高可用性,可屏蔽单个存储设备的失效或故障。

设备品牌类型的数量也与日俱增,存储系统管理的复杂性已呈现指数级增长的趋势,存储管理人员的工作压力已接近饱和,而且人手工记录、协调、配置等操作较为容易因为数量和工作负荷出现失误,有可能对系统数据尤其是关键系统数据的安全造成影响。

主要体现的问题集中在以下:(1)存储服务等级及支撑架构与业务需求不匹配。(2)对于存储需求提出/资源采购/服务开通/运维管理缺乏规范化的流程管理。(3)没有系统、统一的存储能力(性能、容量、扩展性)规划。(4)提供的报表/报告内容过度技术化,对于业务层面的关联影响分析不足。(5)没有完整涵盖企业应用的生命周期(开发、测试、生产)。(6)存储扩容或改造需求频繁,支持响应困难。(7)使用手工方式或Excel文件记录基础架构的配置信息,非常难以维护。(8)无法快速准确的定位故障。(9)工具操作繁琐,难以单一视图实现易用的IT基础架构整体运维管理。(10)缺乏具有执行力的管理流程。(11)对于存储资源扩容或新增需求的响应周期过长。(12)存储资源分配不灵活。

因此,通过对存储智能化运维的研究和应用,逐步建立一套专业化的存储服务管理体现势在必行。

2 存储智能化运维系统逻辑架构

存储智能化运维系统的目标是建立完善的存储服务管理体系,更好的支撑业务运行。

通过基于软件的存储智能化运维系统将网络中各种不同类型的物理和虚拟存储设备集合起来协同工作,对外提供数据存储和业务访问功能,并根据业务系统的存储需要,实现存储资源池的分级设计,提供相应类型的存储服务。不同类型的存储设备集合协同工作的前提是实现对集团存储的统一管理,通过存储智能化运维技术实现异构存储的统一管理。

在存储智能化运维系统完成实施后,需要实现统一的多数据中心环境下的针对具体应用存储的配置管理和监控功能,由于目标设备的不确定性,整个存储监控管理系统采用插件式的开发架构,后期可以根据具体的目标设备开发对应的监控与配置管理程序,实现存储管理引擎的可扩展性。

3 存储智能化运维系统物理架构

存储智能化运维系统的物理架构图如图2:

存储智能化运维系统在整体属于数据中心内运维管理平台,部署于中心运维管理系统相关的基础架构资源上。

3.1 硬件部署要求(见表1)

3.2 软件部署要求(见表2)

存储服务管理平台存储空间评估算法:

以性能数据量为基准,算法公式

文件系统存储空间=性能数据量*1.2

数据库存储空间=性能数据量*3

(原始数据文件+中间格式转换文件+数据库存储)

总存储空间=文件系统存储空间+数据库存储空间

3.3 客户端部署要求

IE (6.0 or above)

Flash IE plugin 10 or above

显示器分辨率: 1024 * 768 above

3.4 网络平台及防火墙策略要求

有独立的固定IP地址并能够通过网络访问所有数据中心“SAN管理域”中定义的服务器和存储管理网络的权限。

4 系统关键技术特点

存储智能化运维系统作为数据中心的核心内容,应该从整体上把握,以满足不断增长的应用与性能需求。数据中心存储架构的建设应该本着这样的思路:统一规划、分步实施,坚持开放和标准化的原则,保证整个系统的可靠性和可用性。数据中心管理者希望能够通过建设存储资源池,有效提高IT资源的利用率,提高满足业务需求的IT能力的交付速度,提高数据中心各层面的标准化水平和自动化操作水平,从而降低数据中心的总体拥有成本,良好的存储智能化运维系统规划应能够在保持数据中心整体架构相对稳定的前提下在相对长的时间内满足各业务对IT资源的需求,又能够合理控制资源池建设投资,提高资源利用水平。

4.1 可用性

一个可运营的存储智能化运维系统首先需要有较高的可用性。全业务统一接入存储智能化运维系统在建设上参考SDP架构设计,综合考虑存储智能化运维系统的核心功能,进行总体规划、设计和实施,系统可有效避免单点故障的发生,保证用户业务访问成功率。

4.2 可靠性

存储智能化运维系统支持高可靠性和稳定性。具备数据备份能力、保护能力、容错能力、故障分析、恢复能力和系统监控等能力。在整个存储智能化运维系统设计和实现中,所有在线提供业务的网元均采用1+1或N+1的高可靠性设计。任何一台服务器出现故障,数据的存储均有冗余而不会出现数据丢失;这些冗余和备份设计对于用户业务访问都是透明,任何硬件或软件故障不会影响用户的体验。

4.3 可扩展性

存储智能化运维系统具备良好的可扩展能力。包括:

功能可扩展:增加新的功能只需要扩展少量网元,避免对平台进行大规模的修改,具有良好的功能可扩展性。

容量可扩展:能够根据用户访问量的增加,平滑扩展平台的容量。容量的扩展不影响现有的系统架构和业务开展。

业务可扩展:根据业务的需求支持新的运营模式、计费模式等,能够根据用户需求增加新的增值业务。平台以开放的业务开发接口和工具,对任何SP、CP开放,业务扩展不受限制。

4.4 可管理性

存储智能化运维系统具备良好的可管理性,包括:

存储智能化运维系统中的核心功能都提供良好的管理界面。

存储智能化运维系统对内部的设备具有良好的可管理性,支持具有角色分级权限的管理功能。

4.5 可维护性

存储智能化运维系统易于维护,提供统一的维护界面并能够通过该界面对远程设備进行管理和维护:包括实时监控、远程重启等。平台易于分析和测试、易于发现和定位故障,并通过良好的系统设计保证故障的隔离。

4.6 开放性

存储智能化运维系统遵循当前主流品牌和存储技术的规范,总体技术体系的延续性和开放性,为存储智能化运维系统在全网业务顺利开展提供技术开放性保障。

提供完全开放的可编程API(例如REST API),通过该API可以实现存储云平台的全部功能。

4.7 兼容性

存储智能化运维系统充分考虑与其他系统对接的兼容性。采用模块化的系统架构,通过相关接口标准及规范,分步骤逐步与全网已有平台进行内容、业务层面的对接。

4.8 灵活性

平台具有灵活的部署能力,可以根据用户量、网络结构、运营模式的不同,选择从集中式部署,向二级架构、三级架构的演进式部署。

5 功能目标规划

5.1 资产管理

(1)存储设备资产管控。(2)交换机设备资产管控。(3)主机资产管控。(4)主机-交换机-存储 3级设备关联。(5)ITIL设备上线、下线流程。

5.2 配置管理

(1)存储配置管理。(2)交换机配置管理。(3)主机配置管理。(4)逻辑设备配置管理。(5)物理设备配置管理。(6)设备管理信息。

5.3 存储管控层

(1)存储智能运维系统的LUN容量监控管理。(2)资源池容量监控管理。(3)存储容量监控管理。(4)主机容量监控管理。(5)容量趋势预测。

5.4 性能管理

(1)存储物理、逻辑组件性能监控。(2)交换机物理、逻辑组件性能监控。(3)性能木桶效应判定。(4)性能优化建议。

5.5 事件管理

(1)SNMP Trap 事件实时报警。(2)邮件、短信报警机制。(3)自定义报警条件。(4)阶梯报警。

5.6 自动化实现

(1)存储自动化操作。(2)交换机自动化操作。(3)组合自动化操作(可回滚)。

6 非功能目标规划

6.1 便于扩展

该平台的设计采用平台与底层硬件设备分离,平台内部采用控制与设备接入分离的方式,使未来扩展很容易实现。平台只负责管理和调度,工作负荷很低。在需要扩容时,只需要增加物理设备或者扩展设备接入服务,通过简单配置就可以完成系统扩容。

6.2 系统技术架构开放、标准

系统各层次均使用开放、标准的技术架构,均有丰富的标准接口与第三方系统进行对接,如REST API。

6.3 性能上稳定、可靠、高效

整个平台采用多节点集群式架构,各个节点之间可以进行故障切换和负载均衡。此外整个平台部署在虚拟化环境下,可以利用虚拟化平台自身的高可用技术,进一步加固平台的可靠性,能够保证大量用户请求的并发处理,同时保证7*24*365不间断高效运转。

7 系统效能

7.1 统一管理

存储智能运维系统帮助建立应用与基础架构的关联(统一管理),根据采集到的信息自动生成拓扑。

(1)以应用为主线,端到端展现关联关系。(2)自动更新数据。(3)不同类型设备自动更新图标。(4)单一界面展示所有设备。(5)二级拓扑展示更多细节。(6)数据钻取展现设备内部部件级信息。(7)实时更新。(8)自动更新图标。

收益:(1)图形化界面,核心信息一目了然。(2)简化管理,改善运营效率,减少培训工作。(3)适合日常使用习惯的单一界面。

7.2 合理规划、智能预警

存储智能运维系统将存储资源进行池化和自动化,消除了传统的烟筒式架构,可以实现不同业务系统之间的存储资源的共享、按需的存储资源供给和资源的回收再利用。

(1)直观的容量信息。(2)图形化的方式展示设备容量使用信息。(3)容量现状直观展现。(4)基于历史数据的性能分析与预测。

收益:(1)容量直观的现状分析,优化现存资源,简化整合,简化计划。(2)容量趋势分析,预防容量短缺的发生。(3)提高管理精确度,加快存储资源部署和分配。

7.3 深入分析存储性能

存储智能运维系统可以实现存储资源的可视性,通过该功能可以了解所存储的性能和可用性对应用的影响情况,通过的应用到存储端到端管理(应用到服务器到存储)来保证存储所提供的服务质量。

(1)将性能信息与配置信息相关联。(2)集中展现性能信息。(3)深入的部件级性能数据采集。(4)快速发现性能瓶颈。(5)支持阀值和基线管理。

收益:(1)准确识别性能问题根源和性能瓶颈。(2)获取改善建议,提高IT服务水平。

7.4 全面监控 简单主动

创新的告警拓扑:(1)将告警信息与配置信息相关联。(2)自定义展现的告警种类和级别。(3)快速定位故障部件。(4)与数据中心级的管理工具的集成。

收益:(1)统一监控,改善运营效率,确保数据和应用的可用性。(2)改善告警信息实时性和告警处理效率。(3)结合拓扑展现,快速定位故障。

7.5 快速资源交付

通過存储智能运维系统的建设,为业务部门提供了一个存储云服务门户,通过该门户,业务部门可以根据自己业务需求,应用架构需求,自助式的选择自己需要的不同层次、不同类型的存储云服务,并快速的、安全的、自动化的获得,每个用户的存储资源在逻辑上进行分离,并有充分的安全保证。在该平台中,可以为不同的租户,针对不同级别的存储服务,设定限额,同时可以通过标准的审批流程,来保证整个自服务过程的可控性。

稳定的自动化业务:(1)自动化业务操作。(2)事务性自动化服务。(3)简单、快速。

收益:(1)快速实现存储资源供应,极大提高效率。(2)避免人工操作失误,保障数据完整性。

7.6 存储资源分级

存储资源分级建设的核心思想是根据业务发展需求提前规划,采购并部署所需资源和能力,并通过各种存储智能运维系统技术实现资源和能力的池化,再在实际业务需求到来时将池化的资源按需分配给业务使用,因此,存储智能运维系统规划既应考虑如何合理的满足业务的需求,也应考虑如何合理进行后台资源池建设。

7.7 自动化

随着整个行业稳步向按需型、基于云的基础架构挺进,企业就需要提供能够更快访问不断扩大的存储池的技术,因此压力也不断加大。对IT存储管理者来说,自动化将成为存亡的关键。

数据存储的市场复杂性失控,简洁性和可视化将变得尤为重要,可以说,未来数据中心将由更简单的快捷键的操作组成。存储流程不仅必须自动化,还有增加感知的能力,并且能够将数据放置和迁移与数据源、类型、用户或企业用户群以及业务流程管理连接在一起。一切都是自动处理的,包括自动化到云中。

通过自动化的流程,可以降低设备成本和人员成本,大大降低预算。

8 结束语

存储智能化运维系统的应用使得广西电网有限责任公司存储系统的运维管理发生了革命性的突破。它将现有的异构物理存储转变为简单的、可扩展的开放式虚拟存储平台,实现了存储系统的统一管理、合理规划、智能预警、性能分析、主动监控、快速交付、资源分级和流程自动化,为存储管理工作提供有效的支撑,满足更多电网未来存储设备管理的需要。

参考文献

[1]萨曼达(Somasundaram G.),希瓦史塔瓦(Shrivastava A.).信息存储与管理:数字信息的存储、管理和保护[M].第2版.马衡,赵甲译.北京:人民邮电出版社,2013.

[2]王丛,Kim Wang.软件定义存储ViPR[J].电脑与电信,2013(9):11-12.

[3]叶毓睿,雷迎春,李炫辉,等.软件定义存储:原理、实践与生态[M].出版社:机械工业出版社.