“大数据管理技术与系统实现”专辑导读

2016-03-07 22:54:46
关键词:数据库系统数据管理内存

“大数据管理技术与系统实现”专辑导读

2015年3月5日第十二届全国人民代表大会第三次会议开幕会,国务院总理李克强在政府工作报告中提出“互联网+”行动计划,提出:“推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场.”此后,11月,党的十八届五中全会将“大数据”上升为国家战略.

随着“互联网+”的发展和普及,在互联网企业向零售、订票、电信、交通运输物流、金融等传统领域延伸的同时,传统领域也藉由互联网实现反向O2O(线下到线上).在这一过程中,海量、分布、多元、异构的数据的生成、收集、传输、管理、交换、展示、分析,成为商业界、工业界和学术界共同关注的热点.在数据的整个生命周期内,数据管理是承接数据资源获取和综合利用的关键,也是保障所有大数据应用正常运行、持续发展的基础.

数据库和数据管理技术经过三四十年的发展,已经成为现代信息系统的重要支柱.数据库系统是各行业信息基础设施的重要组成部分,在银行存贷、电信和能源记账、商业买卖等等日常生活行为的背后,扮演着不可或缺的角色.传统数据管理系统依赖于高端主机和小型机,采用集中式架构,通过“向上扩展”的方式进行系统升级应对应用扩展服务的需求.然而,随着应用的互联网化,浏览器和移动终端数量呈爆炸式增长,“抢票”、“秒杀”等销售方式的普及,数据库系统面临着前所未有的挑战:从用户规模看,这样的应用是“互联网级”的;从应用特征看,它们是核心或关键任务应用;从负载特征看,它们所面临的是“现象级”(Pheno menal)的,即极为显著的.

另一方面,多核CPU、通用图形处理器、大容量内存、固态存储、新型存储介质、高速网络等硬件,以及集群构建技术的快速发展,为数据管理提供了新的平台选择,也为数据管理技术提供了新的优化选项.配以大容量内存、高速网络的集群,由于具有良好的平行扩展能力,尤其适宜于具有可伸缩性要求的数据管理环境.

2003年开始,谷歌公司陆续发表了介绍Google File System、MapReduce、BigTable等系统的论文,促进了以Hadoop生态圈为代表的开源大数据处理系统的出现和快速发展.基于H adoop的H Base、Hive、Pig,以及Cassandra、SparkSQL等开源系统,能够充分利用集群硬件平台,实现了具有良好平行扩展能力的高性能数据管理,常被称为N oSQL系统.但这些系统在事务的功能和性能方面较为薄弱,无法满足核心或关键任务应用的事务处理的需要.而以VoltDB、微软Hekaton等系统为代表的系统则致力于利用海量内存,避免了不必要的缓存和并发控制代价,提供高性能、高通量的事务处理能力,常被称为New SQL系统.Oracle、微软、SAP、EMC等传统数据库系统软件和解决方案厂商通过自主研发或收购的方式,发布了一批具有良好扩展能力的新型数据库管理系统,以满足高性能事务型和分析型处理的需要.在应用需求发展、硬件平台发展、系统架构和实现技术发展这三重力量的推动下,在学术界和工业界,在技术初创企业和传统系统软件巨头,在系统和解决方案提供商和应用企业,新型大数据管理系统都已成为研发和应用的热点.

华东师范大学数据科学与工程研究院自2013年9月成立以来,一直致力于建设国际性的大数据相关研究的协作创新平台和研发基地.研究院秉承和践行协同创新理念,立足中国市场的大数据应用需求,依托华东师范大学,通过学术伙伴、企业赞助和访问学者等机制积聚各类创新要素,全面提升研发能力和应用推广能力,发展有中国特色的大数据技术和系统.

华东师范大学与西北工业大学、中国人民大学、交通银行共同承担了国家863课题“基于内存计算的数据管理系统研究与开发”;与西北工业大学和东北大学共同承担了国家自然科学基金重点项目“集群环境下基于内存的高性能数据管理与分析”;与中国人民大学和中科院计算所共同承担了国家自然科学基金重点项目“大数据管理系统评测基准的理论与方法”;参与了武汉大学牵头承担的国家自然科学基金重点项目“支持技术创新的海量数据管理基础理论与关键技术”.在这些科研项目的支持下,经过多年研发,形成了一批研究结果.为了更好地总结成果,同时促进国内相关研发人员的交流,特此组织《华东师范大学学报(自然科学版)》“大数据管理技术与系统实现”专辑.专辑采用邀稿和征稿相结合的方式组织稿件.所有收到的稿件通过通讯评审,最终确定录用稿件18篇,分为事务与可用性、存储与索引、查询处理、数据分析、系统工具等5个专栏.

事务与可用性是分布式数据管理系统实现中的难点问题.该专栏共有4篇论文.论文《高可用数据库系统中的分布式一致性协议》系统梳理了新型数据管理系统中常用的分布式一致性协议,并分析了协议在实现和使用过程中的局限性.论文《面向高通量事务处理的事务编译技术》和《内存数据库事务提交的关键技术与挑战》介绍了事务编译和事务提交这两个影响事务处理性能的关键技术的发展和最新研究进展.论文《分布式内存数据库系统的容错管理》则介绍了新型内存数据库系统的容错方法.

存储与索引是数据管理系统的基础,在集群和分布式环境下遇到了新的技术挑战.该专栏共有2篇论文.论文《基于LSM Tree的分布式索引实现》介绍了一种以LSM Tree结构组织和存储的数据的分布式索引技术.论文《基于数据关联的分布式对象代理数据库划分方法》介绍了一种利用聚簇进行数据库划分以提高分布式对象代理数据库查询处理性能的技术.

查询处理专栏共有4篇论文,专注于分布式查询优化和分布式连接操作的实现.论文《面向分布式数据库的相关子查询优化策略》介绍了一种分布式数据库中相关子查询优化这一难点问题的解决技术.而后,论文《OceanBase中基于布隆过滤器的连接算法》、《分布式系统中Semi-Join算法的实现》和《分布式可扩展数据流连接算法》则分别介绍了3种连接操作的实现技术.

数据分析专栏共有4篇论文.论文《不对称内存计算平台OLAP查询处理技术研究》系统介绍了中国人民大学在不对称内存计算平台上的OLAP查询处理技术上的研究进展.论文《一种基于关系数据库管理系统的图计算平台》和《Graph H P:一个图迭代处理的混合平台》则分别介绍了两个面向图数据处理的系统.论文《基于Map/Reduce的分布式数据排序算法分析》介绍了基于Map/Reduce编程模型的数据排序算法.

系统工具对数据管理系统的开发、部署和使用至关重要.该专栏共有4篇论文.论文《非阻塞事务型实时数据注入技术研究与实现》介绍了新型数据管理系统应用中所遇到的实时数据注入这一具有挑战性的问题的解决技术.论文《面向OceanBase的存储过程设计与实现》介绍了开源OceanBase系统上的存储过程实现技术.论文《DBug Helper:分布式系统Debug协助工具》介绍了一个辅助分布式数据库开发的调试工具的设计与实现.论文《可扩展数据管理系统中的网络请求服务机制》则系统梳理了支持分布式数据库系统中各类数据传输的网络传输方法和实现技术.

专家和学者分别从各自的角度,对各自正在研发的新型大数据管理系统的系统架构、实现技术、应用整合和运维工具等核心技术和最新研究进展进行了介绍;对新型大数据管理系统研发的难点与挑战以及技术发展趋势进行了分析与展望.

在专辑出版之际,谨在此衷心感谢在短时间内提供高质量稿件的作者以及参与稿件评审的各位专家学者,并对学报编辑部的信任表示感谢.特别感谢《华东师范大学学报(自然科学版)》的李艺老师等,正是他们的及时帮助和严格把关才使得本专辑得以高质量顺利完成.希望本专辑能为我国从事相关领域研究开发和应用的科研人员,及时了解大数据管理系统这一快速发展的研究方向的最新进展提供一个窗口.

猜你喜欢
数据库系统数据管理内存
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
“春夏秋冬”的内存
当代陕西(2019年13期)2019-08-20 03:54:22
数据库系统shell脚本应用
电子测试(2018年14期)2018-09-26 06:04:24
微细铣削工艺数据库系统设计与开发
实时数据库系统数据安全采集方案
电信科学(2016年10期)2016-11-23 05:12:00
核反应堆材料数据库系统及其应用
基于内存的地理信息访问技术