工业大数据光磁电一体化智能存储技术

2022-07-08 07:20陈颖李奇颖赵阳陈洁王祥
电子技术与软件工程 2022年2期
关键词:存储资源磁电存储技术

陈颖 李奇颖 赵阳 陈洁 王祥

(1.北京易华录信息技术股份有限公司 北京市 100043 2.国电龙源电气有限公司 北京市 100039)

1 前言

在5G时代到来后,数据爆发式增长,从PB到ZB的裂变,人类社会已步入海量数据新时代,全球的数据量以超过50%的平均年增速增长,IDC咨询公司在数字宇宙研究报告中预测全球的数据总量到2020年将超过40ZB。

在数据成为关键生产要素和重要的战略资源的数字经济时代,传统的磁存储解决方案已经无法适应海量数据长效存储、数据价值挖掘、数据安全性、绿色化发展等需求。首先,磁存储运行环境建设和运行成本、能耗成本、设备更换成本和数据迁移成本等总体拥有成本(Total Cost of Ownership, TCO)高昂。这直接导致数据不能长期保存且很多数据不能保存,数据蕴藏的价值无法传承下来,数据共享、盘活、开发利用率太低。其次,数据安全性和可靠性低。磁性介质易受病毒攻击篡改,可靠性不高,数据迁移时存在损坏风险,同时,我国在传统的存储技术方面没有话语权,纵观全球存储市场,磁盘、磁带存储的设备、介质、技术被希捷、西部数据、东芝、日立等西方发达国家垄断,国内厂商几乎没有任何话语权,尤其是在美国严重打压华为的形式下,数据安全保障的重要性和急迫性凸显。最后,2020年3月的中共中央政治局常务委员会议中首次将数据中心纳入到新型基础设施建设范围中,但目前的数据中心能耗过大,绿色数据中心建设已经成为了社会各界共同关注的焦点问题。

在工业领域,工业大数据是制造业数字化、网络化、智能化发展的基础性战略资源,是提升企业生产力、竞争力和创新力的关键要素,对于支撑智能制造和工业转型升级方面有着举足轻重的作用。目前各国都在如火如荼发展工业互联网,作为工业全要素、全产业链、全价值链连接的枢纽,工业互联网平台通过工业互联网网络全面采集产品设计、生产工艺、设备运行、运营管理等海量工业数据资源,很多工业现场采集到的数据由于存储成本过高且数据量过大导致无法有效存储。另一方面,工业数据通常具有数据生命周期特征,初始访问频度很高的热数据,经过一段时间就会变为冷数据,累积的冷数据一般占据总数据量的80%以上,冷数据并非失去价值,冷数据占据了存储设备的绝大部分空间,用热数据的存储方式保存冷数据必将消耗大量资源。

随着5G、VR等技术的应用,视频、图片、音频等非结构化数据越来越多,目前的关系型数据库对非结构化数据的支持较差。在信息安全级别要求较高的金融、电力等行业,数据的丢失将带来不可估量的损失,数据灾备显得尤为重要。因此,如何降低工业大数据的存储成本、提高N次挖掘利用率、保障数据安全性也是当前工业大数据存储领域亟待解决的问题。为激发工业数据资源要素潜力,工业和信息化部2020年5月出台了《关于工业大数据发展的指导意见》,支持企业建设工业大数据中心,引导工业企业开展数据资源编目工作,实现工业大数据大范围、深层次、高质量集成汇聚,实现多源异构数据的融合和存储。目前,企业级数据中心、行业级数据中心缺乏对存储的数据计算处理,淡化了数据中心的平台作用,同时,工业大数据中心能耗问题一直是学术界和企业广泛关注和研究的热点,为了进一步降低数据中心能耗,冷数据存储正成为时下的“热”点问题。

相比磁盘、磁带存储,蓝光存储技术对运行环境要求不高,在常温条件即可运行,无需空凋制冷恒温恒湿环境,不需要高标准的机房环境,环境建设和运行成本低,能耗低,防电磁干扰强,在长期存储周期内无需倒换介质,避免了介质倒换的成本和风险,具有低功耗、低成本、耐用性强、安全可靠等优点,并且新一代蓝光存储技术采用蓝色激光进行读写操作,在存储密度、读写速度、容量等方面都有突破性进展。光磁关键指标对比如表1所示。

表1:光磁关键指标对比

如何安全、可靠、低成本的长期存储海量数据已成为新数据时代工业、金融等很多领域面临的难题。本文结合光、磁(包括电)存储的不同特点,把光存储的长寿命、低功耗、高存储密度、高数据安全性优势与磁存储的高性能相结合,提出一种工业大数据光磁电一体化智能存储技术,可以低成本实现工业大数据的灾备、归档以及海量非结构化数据云存储,助力企业级、行业级绿色数据中心的建设。

2 光磁电一体化智能存储技术架构

2.1 蓝光存储技术

本文所采用的蓝光存储技术创单张光盘存储容量世界纪录,以波长为405nm的蓝色激光读写,采用无机相变材料作为物理记录层,用材料的晶态/非晶态记录数据0/1,采用码间干扰消除技术,轨道密度225nm/轨道,线密度47.9nm/bit,从物理介质层面保障数据的安全存储,单个光盘容量可达500GB,读取速度可达375MB/s。为了对比区别,也给出了500GB容量与100GB容量、300GB容量的轨道布局。

蓝光光驱采用耐腐蚀性的铝合金光学基台,以玻璃镜片代替传统的树脂镜片,传动部分采用耐磨的树脂材料,驱动器具备故障自诊断功能。每个光盘匣由12张光盘组成,每个光盘匣容量可达6TB,每个蓝光存储单元包含76个光盘匣,每个光盘库可包含7个存储单元,单光盘库可包含532张光盘,容量可达3.19PB,单光盘库工作功耗约160W,待机功耗仅为7W,能耗是同等存储力磁存储机柜的22.6%,默认提供3副本功能,支持RAID0/5/6,可以提供高达19N数据可靠性保证,数据寿命可达100年以上。在不中断业务的情况下,可在现有节点或增加新节点实来现存储空间的大规模在线扩展,分布式的光盘库通过集群可实现EB级海量数据存储,把文件以对象方式进行切片存储,向单台光盘库刻录数据的速率可达375MB/s以上的高吞吐量。采用扁平结构,无单节点瓶颈,任何类型节点都可平滑扩容,提供高并发访问能力,以支撑更多数量用户访问。

2.2 技术架构

该基于蓝光存储技术的工业大数据光磁电一体化智能存储技术以光盘库技术为核心,利用了社会生活中普适的“二八定律”,20%的温热数据采用电存储和磁存储的方式,80%的冷数据采用蓝光存储的方式,通过合理利用存储资源、分级存储、冷热转换提供安全可靠高效的存储方式,有效解决了全部采用电磁存储成本高、能耗大、安全性差的问题,技术架构如图1所示,主要由蓝光存储层、热磁存储层、调度管理层、访问接口层组成。

图1:工业大数据光磁电一体化智能存储技术架构

蓝光存储层用于海量冷数据的长期可靠存储,主要由蓝光光盘库和管理服务器DAM组成,管理系统自主研发自主可控,管理系统具有刻录、查询、备份和恢复等功能。光盘库与管理服务器DAM通过SAS接口一对一连接,光盘库的所有操作指令都通过管理服务器DAM来发出。光盘库是对象存储方式,因此管理服务器DAM存放着光盘库对象存储数据的索引信息。光盘库存储资源的使用由上层数据调度管理软件进行统一分配。

热磁存储层用来存储热数据的磁盘(包括闪盘)存储。在分布式系统架构下,热磁存储通常是存储节点服务器本地的磁盘,在要求热磁存储容量较大或集中存储环境下,也可以采用外置的磁盘阵列。热磁存储主要面向对前端应用的即时响应,需要较高的I/O性能,因此通常采用高转速SAS磁盘或闪盘。热磁存储容量没有统一规格,需要根据实际应用需求进行配置,一般可用容量至少为所需存储的热磁数据量的2倍。各热磁节点配置的存储容量应该相同,节点服务器配置和磁盘或闪盘配置的类型、规格也应该相同,以保证性能的均衡。

调度管理层是在分布式文件系统之上建立的对象数据分级存储管理机制,包括整合存储资源、用户数据分片处理、数据保护策略设定、数据纠删码生成或多副本分布存储管理、热磁读写缓存区创建/监测/撤销、数据生命周期管理、光盘库存储资源划分和使用、数据冷热区转存等。同时,在本层还会在节点间进行读写负载均衡调度以及节点或存储资源失效后的业务调度与数据重建恢复等,以便始终提供高性能、高可用的存储服务。

访问接口层提供S3、Glacier、NFS、CIFS等存储服务协议,是业务应用系统和光磁电一体化智能存储系统联接的接口,提供面向对象存储的RESTful API和专用的SDK,支持Java、C++、GO等。业务应用系统通过存储网关可直接调用S3、Swift或Glacier API进行读写访问,通过Swift 接口提供对象存储,将数据首先写入上层的磁存储层,然后按照数据生命周期管理策略把冷数据迁移到下层的蓝光存储层,通过Glacier接口提供归档存储,将数据直接归档到蓝光存储层中,如图2所示。针对既有的业务应用系统,该光磁电一体化存储技术也提供NFS/CIFS的访问方式,在业务适配方面具有良好的灵活性。

图2:数据访问接口

2.2.1 拓扑结构设计

该存储技术架构在具体实现上采用一个主管理节点多代理节点的拓扑架构,主管理节点负责管理数据库,单进程扫描数据库并生成任务,然后把生产的相关任务放入Rabbit MQ 队列。代理节点向下对接磁存储资源池和蓝光存储资源池,从Rabbit MQ队列上获取任务,根据任务内容对磁存储资源池和蓝光存储资源池进行操作,代理节点单进程执行任务,每次必须执行完成当前任务之后才去Rabbit MQ 队列尝试获取新任务消息。

2.2.2 数据库设计

通过部署在存储网关上的磁存储数据库和蓝光存储数据库对不同介质中的数据进行管理,读取蓝光存储层中的数据时,访问的数据会暂存在热磁存储的读缓存区,然后根据数据生命周期管理规则判断是否需要从缓存区删除,使用归档存储的应用数据不再以磁存储作为缓存,不使用数据生命周期管理策略,不使用热磁空间中转或缓存。

针对光磁电不同的存储介质,对磁存储资源池和蓝光存储资源池分别搭建管理数据库,用于对资源池内的数据进行管理,磁存储资源池基于Openstack Swift对象存储开源架构进行数据库设计,对象存储层次结构分为account/container/object,在每个account下通过用户名对用户的磁存储资源池数据库进行划分和管理,用户可通过增加container用于存储数据对象(object)。基于Swift的一致性哈希算法,为确保数据的寻址和管理,数据对象(object)的管理表中已具备相关内容。

蓝光存储资源池数据库同样基于account/container/object的逻辑架构进行设计,由于蓝光存储与磁盘存储在数据管理上存在逻辑和技术上的区别,磁存储基于Openstack Swift架构的一致性哈希算法将数据对象(object)与磁盘虚拟存储空间进行关联,蓝光存储是将数据对象(object)存储在光盘中,光盘匣是蓝光光盘库的基本存储单元,机械臂将光盘匣(magazine)放入光驱进行数据刻录、读取,因此,蓝光存储在数据对象(object)描述上不同于磁盘存储,蓝光存储数据库中应该描述数据对象(object)与光盘匣(magazine)之间的关系。蓝光存储数据库设计架构如图3所示。

图3:蓝光存储数据库设计架构

如2.2中所述,每台蓝光光盘库都有各自的管理服务器DAM,因此,数据对象(object)所在的蓝光光盘库可以通过管理服务器DAM的编号和IP地址定位到,然后通过蓝光光盘库各自的光盘匣(magazine)位置编排模式定位数据对象(object)存储的具体光盘匣,最后通过数据对象在光盘匣存储中的名称实现蓝光存储资源池中数据对象(object)的寻址,3组蓝光存储单元的企业级蓝光光盘库中光盘匣的定位编号示意图如图4所示。

图4:企业级蓝光光盘库中光盘匣的定位编号示意图

磁存储资源池和蓝光存储资源池之间会产生冷数据归档存储业务,当代理节点执行了冷数据归档任务之后,为了明确原来磁存储资源池存储该冷数据的空间被删除了还是被回收了,在磁存储数据表和蓝光存储数据表中增加“status”项以明确数据对象(object)的具体存储位置。如表2所示。

表2:数据表中status值

2.2.3 冷热数据转换

为实现海量数据低成本存储的目的,将“冷数据”从磁存储资源池存入蓝光存储资源池中。

主管理节点接收到用户请求或通过设定的自定义条件进行智能判断,形成对于某一个数据对象的冷数据归档或冷数据调用操作命令,然后将该操作命令发送到命令队列中,由空闲的代理节点接受任务。当命令为冷数据归档时,调用Swift协议调取磁存储资源池的数据,通过HTTP Restful API 接口向管理服务器DAM进行请求,由管理服务器DAM执行数据录入蓝光存储资源池的操作。当接收到冷数据调用请求时,或者调用Glacier 协议调取蓝光存储资源池的数据,采用Glacier提供的Glacier API 接口向管理服务器DAM进行请求,由管理服务器DAM处理后直接由业务系统调用,或通过Swift提供的HTTP Restful API接口向管理服务器DAM进行请求,由管理服务器DAM执行数据录入热存储资源池的操作。

为尽可能减少机械臂和光驱的使用频度以延长工作寿命,在执行归档操作中,将从同一个顺序查询空闲的光盘匣,在保证当前使用的光盘匣存储空间不足以存储当前归档冷数据时再申请使用下一个空光盘匣,同时,自定义设定归档数据容量和归档执行周期,并进行智能判断,从而有效避免因个别闲歇性的小存储量归档任务造成光驱的频繁使用和大批小存储量的“冷数据”不能归档。归档任务结束之后,释放管理服务器DAM资源并更改表2 中status值。

3 TCO对比结果

总拥有成本TCO包括建设成本、维护成本、运营成本、数据迁移成本、介质保管成本。

按照100PB数据分别存储10年、100年计算,蓝光存储3.6TB光盘匣、硬盘存储8TBHDD与磁带存储LTO7(6TB)的按年累计的单GB数据量的总体拥有成本TCO对比,从第一年开始蓝光存储的TCO就要低于硬盘存储和磁带存储,在第1年,蓝光存储的TCO分别是硬盘存储和磁带存储的0.777和0.999倍。在第10年,蓝光存储的TCO分别是硬盘存储和磁带存储的0.451和0.462倍。随着存储年限的增长,蓝光存储低TCO优势愈加明显。

按照100PB数据存储20年计算,蓝光存储与腾讯云存储的按年累计的单GB数据量的TCO对比,在初始运行的前6年,蓝光存储的TCO高于云存储的TCO,由于云存储每年的持续投入非常高,云存储TCO在第7年超过蓝光存储TCO,并且持续走高,在第20年蓝光存储的TCO仅是腾讯云存储TCO的1/4。

4 电力行业应用

电力企业大数据来源于电力生产和电能使用的发、输、变、配、用、调各个环节,包含了资产数据、电网运行和设备监测数据、电力营销数据、电力企业管理数据等。随着电力信息化的深入发展以及智能电网的普及,关系型数据、文本型数据、实时数据和非结构化的图像、声音、视频数据等各种类型的电力企业业务数据呈海量增长,这些数据大多分散保存在本地系统中,存在数据信息孤岛,难以共享,不易被检索分析,安全维护性差,浪费系统资源,运维费用高等诸多问题。

智能生产控制和智能管理是智慧电厂建设的两个工作重心,基于光磁电一体化智能存储技术实现对电力生产系统与管理系统数据进行长期安全归档与备份,拓扑结构如图5所示。

图5:基于光磁电一体化智能存储技术的数据归档与备份拓扑结构

同时,基于该光磁电一体化智能存储技术的智慧电厂智能管理平台(Intelligent Management System, IMS)技术架构如图6所示。

图6:基于光磁电一体化智能存储技术的智慧电厂IMS平台技术架构

该IMS平台对实施工程现场与车间进行实时监控,提升了电厂在安全、运行、经营、营销等方面的智能管控和智能决策水平,实现了主动安全管控、设备故障预警、售电辅助决策,实现高效一体化管理,提升了市场的竞争力和适应性。如图7所示。

图7:IMS平台部分成效——智慧燃料

随着电力系统数据日益庞大,数据中心成为了电力系统信息化的核心。下一步将研究基于光磁电一体化智能存储技术的电力行业绿色数据中心的建设。

5 结论

新技术、新应用驱动了以数据作为最重要的资源的新数据时代的到来,存储作为新数据的载体,也变得更加重要。本文提出一种工业大数据光磁电一体化智能存储技术,单张蓝光光盘容量突破500GB,创世界单张光盘存储容量记录,在2020年单张蓝光光盘容量将突破1T,该技术综合了蓝光存储、磁盘存储和固态盘存储的优点,可提供低成本、低能耗、高安全、高性能、高可靠、长寿命的EB级高低频冷温热数据一体化智能存储管理服务,提供全量数据分层存储,满足不同数据类型、不同生命周期、不同业务类型的全场景存储需求,可实现对有价值的数据应收尽收、应存尽存,解决数据爆发增长与数据有效存储和利用之间的矛盾,解决了海量数据长效存储中存在的难题,降低了海量数据存储能耗和成本,提高了数据存储安全性和可靠性。该技术已经在档案和金融行业广泛应用,海量温、冷数据长期高效存储技术2016年被工信部列入绿色数据中心先进适用技术目录(第一批),光磁电一体化大数据云储存管理平台2018年被工信部列入大数据产业发展试点示范项目名单,将该技术应用于工业大数据将助力企业级和行业级绿色数据中心建设,实现工业大数据大范围、深层次、高质量集成汇聚,实现多源异构数据的融合和存储。

猜你喜欢
存储资源磁电存储技术
一种基于区块链的存储资源可信分配方法
山东华特磁电科技股份有限公司
东阳市天力磁电有限公司
山东华特磁电科技股份有限公司
东阳市天力磁电有限公司
关于计算机网络存储技术分析
基于FAT文件系统的数据存储技术的研究
数据存储技术的应用
基于FPGA的并行测试高速存储技术
用SSD提升私有云存储性能