随着大数据时代的到来,各领域的数据呈现出爆炸式增长态势,数据资源得到了各行各业的广泛关注.如何挖掘大数据价值,进而充分发挥大数据效益?大数据的4V特征使得数据获取、数据存储、数据搜索、数据共享、数据分析、数据可视化等各个环节对存储系统构建带来了新的技术挑战.同时,伴随着人工智能的崛起,智能存储与智能分析逐渐成为发挥大数据效益的有效技术途径.
基于上述背景,为促进存储领域技术交流,《计算机研究与发展》推出了本期“大数据时代的存储系统与智能存储技术”专题.本专题收录了9篇论文,分别展示了大数据存储和智能存储等存储领域研究热点的研究现状和最新研究成果,希望能为从事相关工作的读者提供借鉴和帮助.
徐光伟等作者的论文“基于多级网络编码的多副本云数据存储”针对纠删码容错在数据恢复时产生的计算和通信开销问题,研究提出了一种基于多级网络编码的多副本生成和损坏数据恢复算法,利用多级编码矩阵的数据编码信息和云存储中保存的数据块进行数据恢复,避免从云存储中远程下载数据,有效减少数据恢复时的通信开销,提高数据可用性.
李乾等作者的论文“基于蚁群优化算法的纠删码存储系统数据更新方案”针对纠删码的更新效率问题,研究提出了基于蚁群优化算法的多数据节点更新方案,采用两阶段数据更新方式以优化多数据节点更新过程,有效进行数据增量收集和校验增量分发,从而降低更新延迟.
林霄等作者的论文“面向跨数据中心网络的节点约束存储转发调度方法”针对跨数据中心间大数据传输难题,量化分析存储节点数量对调度问题性能与复杂度的影响,进一步研究提出了节点约束SnF调度方法,将部分数据途经节点纳入调度决策,降低调度问题求解难度,引入拓扑抽象压缩被选节点间链路状态,缩小调度问题规模,提高算法求解效率.
刘渝等作者的论文“基于语义相似性的跨模态图文内容筛选存储机制研究”针对云端数据呈现出大规模多模态混合并存的特性,在传统存储系统之上研究提出了一种跨模态图文数据内容筛选存储机制,用于提供大规模在线相似性内容筛选服务,从存储系统层面缓解数据分析时必须从存储中读出所有数据的读带宽压力,有效降低读取延迟.
韩书楷等作者的论文“基于持久化内存的索引设计重新思考与优化”针对非易失性内存的特性,深入分析已有的持久化索引工作,对混合索引工作进行了优化,研究提出了一种基于混合内存的异步缓存方法,有效降低访问延迟.
闫玮等作者的论文“基于持久性内存的单向移动B+树”深入研究了持久性内存的索引更新问题,通过分析B+树节点利用率、不同更新模式下持久化开销以及更新操作之间的关系,提出了一种基于节点内数据真实分布的数据单向移动算法,通过原地删除的方式,减少删除带来的持久化开销;利用删除操作在节点内留下的空位,减少后续插入操作造成的数据移动,减少数据持久化开销,有效提高单一负载与混合负载性能.
陈茂棠等作者的论文“一种基于RDMA 多播机制的分布式持久性内存文件系统”针对现有的基于RDMA 的分布式系统的性能问题,研究设计了一种基于RDMA 多播机制的分布式持久性内存文件系统.利用低延迟多播通信机制、多模式多播远程过程调用机制和轻量级一致性保障机制等降低传输延迟,保证了数据的可靠性和一致性.
汪庆等作者的论文“一种多核友好的持久性内存键值系统”针对持久性内存具有容量大和非易失的特点,深入分析在多核服务器架构下设计持久性内存键值系统面临的并发控制带来的CPU 缓存抖动、对持久性内存有限写带宽的消耗和竞争以及持久性内存高延迟带来的线程冲突加剧等诸多挑战,研究设计了一种多核友好的持久性内存键值系统.通过设计高效并发控制方法和减少对持久性内存的写操作,充分提高多核并发性能.
屠要峰等作者的论文“基于持久性内存和SSD 的后端存储MixStore”充分利用持久性内存的技术优势,研究提出了一种基于持久性内存和SSD的后端存储MixStore,通过易失区段标记和待删除列表技术实现了适用于持久性内存的并发跳表,通过结合元数据管理机制的数据对象存储优化设计,把非对齐的小数据对象存放在PMEM 中,把对齐的大块数据对象存储在SSD上,充分发挥了PMEM 的字节寻址、持久性特性和SSD的大容量低成本优势.
本专题所录用的9篇论文中,2篇论文重点关注纠删码存储的性能优化,2篇论文重点关注云存储的访问效率,2篇论文重点关注持久存储的数据结构优化,3篇论文重点关注持久性内存存储系统的设计与性能优化.既有关注前沿热点,又有关注实用系统.由于稿源丰富和专题篇幅有限等原因,本专题无法全面覆盖存储领域各方面的最新研究进展,不当之处请同行学者批评指正!感谢各位作者、审稿专家和编辑部的全力支持和辛勤付出!
舒继武(清华大学)
王意洁(国防科技大学)
吴晨涛(上海交通大学)2020年元月