张晶华,曹建梅,刘晓曦,乔 磊,苏 丹,杨祥来,陈伟杰,温 斌
(国网技术学院,山东 济南 250002)
当前,网络云存储服务在互联网上方兴未艾,它为用户提供了灵活存取数据、分享数据的服务,节省了用户本地磁盘空间,具有高可用性、高扩展性、高可靠性等特点[1],同时保证了数据的安全性、私密性、完整性。云存储的概念由云计算衍生和发展而来,它是指通过分布式文件系统、集群应用或网格统计等功能,将网络中各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供存储数据和访问业务功能[2]。各大企业都在研究新一代基于云计算的软件系统,开发自有云,实现企业数据存储和交互解决云方案。电力云存储系统即是电力公司具有自主知识产权的面向企业一体化数据存储、管理和分享的私有云解决方案。
电力云存储系统能够让用户在任何时间、在配备终端的内网地点,通过网络连接存储,获取企业资料、便捷高效完成大量数据的交互。电力云存储服务系统使用户资料无需随身携带,令数据交互既轻松易行又安全稳定。
某电力技术学院(以下简称“学院”)顺应“大、云、物、移、智”技术应用趋势,开展了基于Xenserver的云终端系统试点应用[3],应用点数300点,分为3种模式:实训室培训教学中采用了共享桌面模式、图书借阅中采用了池模式、办公管理上采用专有桌面模式。其中,专有桌面模式应用电力云存储系统技术(简称为“云硬盘”技术)实现了学院济南、泰安两地三校区办公数据灵活存取,无需依赖于存储介质携带,读写、存取不受地区限制。本文分析了该单位电力云存储系统应用过程中的问题及解决方案。
云计算系统需要底层海量文件的存储支持,一般采用大型的分布式文件系统实现,云存储系统位于云计算的底层,这就是云存储的模型。云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。云存储系统采用分布式存储技术为用户提供数据存储和交互服务,主要由应用服务层和云存储系统层两部分构成。
1)应用服务层[4],管理用户信息,向个人用户提供云存储服务门户。应用服务客户端(本文称之为“云硬盘”)可以管理超大容量存储空间,并为每个用户分配定量空间。用户可以通过标准的公用接口来登录云硬盘系统,享受云存储服务。
2)云存储系统层[4],为应用服务器集群提供存储资源,存储用户的实际数据,企业云存储系统实际提供者。主要由元数据主控节点和存储服务节点构成,采用分布式云存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,是高度容错的网络文件系统。云存储系统架构如图1所示。
图1 云存储系统架构图
基于该技术架构该学院设计实施了云存储系统,该系统使用5台x86服务器。其中2台作为应用服务器,管理用户账户信息,实现与云终端桌面系统接口贯通;向用户提供云存储客户端访问服务,实现文件上传下载及数据资源管理服务;面向管理员提供后台资源监控及资源调配服务。3台作为数据存储服务器,为应用服务器集群提供存储资源,存储用户数据,是云存储系统数据资源提供者。系统支持B/S与C/S两种访问方式,在云端为用户提供了动态的文件存储和文件交互平台,用户可通过内网网络随时从该平台获取数据。
对学院用户来讲,电力云存储系统只是一个办公桌上的小终端(瘦客户端)或是云桌面内显示的云硬盘图标。从技术角度分析,电力云存储不是指某一个具体的设备或客户端程序,而是指由许许多多个存储设备和服务器所构成的集合体。因此,使用者使用云存储服务,并不是仅仅使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。
电力云存储系统客户端,以Windows系统盘符方式出现,命名方式以用户登录名命名,盘符为Z盘,学院将该系统盘简称为“云硬盘”,这种方式将用户文件存储在云端,不占用用户本地磁空间,完全不需改变操作习惯,操作便捷。此外,用户还可通过PC机登录电力云存储系统Web页面读取存储文件,文件读取方式灵活多样。
该系统面向学院两地三校区用户,提供了灵活存取文件的私有云解决方案,适用于学院办公数据的读写、存储、共享、备份等场景。系统自上线运行以来,用户点数超过202点,涉及全院各个专业培训部及部分管理部门。用户无需携带移动存储介质拷贝文件,可在有内网终端的任何地点任何时间连接该系统,完成文件处理。该系统打破了地域限制,提高了文件处理效率,尤其是对往返于学院不同校区或者同校区不同办公地点的教师及管理人员读写文件提供了便利。
系统空间利用率达64%,文件类型主要是doc、xls、wps、pdf、rar。 系统管理员可通过后台管理用户账户信息、调配用户数据资源空间、设置目录容量、启停应用服务,管理服务器地址,分析操作日志与登录情况,对垃圾数据进行回收处理,监控系统空间利用情况及系统状态,并根据服务器状态作出相应处理。图2为系统后台监控存储空间利用情况及用户分布情况图。
图2 云存储系统后台空间利用率监控
随着计算机技术的进步与发展,系统之间的集成关系越来越紧密,系统出现问题的可能性也随之增加。云存储作为云终端系统的一部分,在该学院的推广使用过程中出现了异常的状况,经过技术人员对问题现象的分析研究,制定了相应的解决方案,从而使系统恢复正常。下文简析该系统两类问题及解决方案。
3.1.1 问题现象
部分用户云硬盘中的文件打开内容为空白,但文件占据空间大小可见。通过用户情况对比分析得知,未注销重启过云终端桌面系统的用户云硬盘使用正常,文件打开正常,而注销过云终端桌面系统重新登录的用户,则出现上述云硬盘内文件打开异常问题。
问题检查过程:1)初步排查。对系统进行初步检查后发现服务log日志有异常,已达上限(41 GB)。2)深入分析。在详细分析系统运行情况之后发现3台存储服务器与云硬盘管理服务器时钟不同步,时钟存在误差,超过系统阀值,导致存储服务器节点离线。
根据排查结果分析得知,云硬盘客户端出现文件打开异常的原因是3台存储服务器与管理服务器内部时钟未同步,管理服务器强制时钟误差超过系统阀值的存储服务器节点离线,导致存储服务器不能提供正常服务。
3.1.2 解决方案
1)配置存储节点时钟(ntp)服务,避免时钟不同步导致的存储节点离线问题。
2)优化元数据和存储缓存参数(配置增加),并重启存储服务,提高云硬盘性能。
3)对服务Log日志进行优化输出,避免磁盘空间占用过多。
为了规避此类问题复现,完善现有云硬盘系统管理情况,基于云硬盘使用现状,技术团队召开问题分析会议,将该故障登记在册,完善日常巡检制度,加强巡检力度,延续经验,并留操作手册进行分享参考,方便技术人员及时发现系统异常,以便更好、更快地解决问题。
3.2.1 问题现象
该系统从上线之初的十几位用户,逐渐增长至上百位用户,用户数量增加的同时,用户文件所占用的空间也在以GB级增加,文件格式从最初的以文本文件为主扩展到表格文件及音视频文件,用户目录层级越来越复杂,用户读取文件的操作越来越频繁,这对系统读写性能及稳定性提出了更高的要求。此时系统出现了文件存取异常,给用户的日常办公造成了影响,问题表现如表1。
表1 文件存取异常表
3.2.2 解决方案
通过分析得知,由于磁盘损坏及元数据服务器服务异常原因造成文件存取异常。解决方案为重新部署了云硬盘系统,采用以下4种机制优化架构:1)负载均衡机制[5],将数据在存储服务器之间迁移,直到数据分布较为均衡停止。2)数据冗余机制[6],将冗余数据同时存放到不同的存储服务器上来对数据进行保护。3)自动恢复机制,自动探测集群存储系统内各类可能出现的故障,如磁盘损坏、系统宕机、网络中断等。一旦发现了软硬件故障就会立刻启动相应的故障处理恢复流程对数据进行相应的恢复保护,确保数据的完整性,并且整个恢复过程完全不影响业务连续运行。4)支持大目录机制,提供几乎无限的单目录文件数量支持、高效的文件检索效率支持。部署成功后,对元数据网络速率、存储节点网络速率及硬盘读写速率,进行了测试,都达到了使用要求。
采用以上解决方案优化之后,学院云存储系统的稳定性及访问速率都有了大幅提升,用户存取文件更加快速安全。速率提升对比如表2所示。
表2 云硬盘升级前后数据传输速率对比
本文分析了电力云存储技术,介绍了该技术在某单位的应用现状,研究了应用过程中出现的问题,并提出解决方案。该技术在给某单位用户带来“云端”体验,提高了办公效率。在推广应用中也通过问题探究及解决,推进了该技术的进步发展。从目前的应用情况分析,更加灵活的文件存取方式、目录优化方式及共享文件权限分配方式将是下一步研究的方向。