数据管理技术发展研究与思考

2020-12-09 06:52刘静涛高飞刘超
网络安全技术与应用 2020年12期
关键词:数据仓库数据管理数据中心

◆刘静涛 高飞 刘超

(1.91977部队北京 100036;2.91001部队北京 100036)

随着信息技术的持续发展和数据爆炸性增长,人类正步入大数据时代。回顾历史,人类在计算机诞生后,数据管理技术短短数十年时间发生了天翻地覆的巨大变化,数据管理经历了文件系统、数据库系统、数据仓库、现代意义的数据中心及大数据等阶段。

1 数据管理技术发展阶段

1.1 文件系统阶段

文件系统起止在20世纪50年代后期至60年代中后期。主要特点是数据以文件形式储存,操作系统对其进行统一管理。用户通过操作系统提供的友好界面来使用文件。文件的物理结构、逻辑结构脱钩,程序与数据是彼此分离的,两者具备一定的独立性。它们分别存放在外存储器上,相关应用程序可共享一组数据资源,以文件为单位的数据共享方式。此时主要特征表现有:(1)数据可长期存储。由于存储设备采用大容量的磁盘,计算机可以用来处理大量数据并进行存储;(2)数据管理功能比较简单。文件逻辑结构、物理结构彼此脱钩,程序和数据同样分离;(3)共享数据能力不高。如果需用到相同数据,须建立不同的文件,数据无法为对方提供共享,产生大量的数据冗余。(4)不具备结构独立性。数据的结构如果产生变化,需同步修改应用程序以及文件的结构定义。

1.2 数据库系统阶段

数据库系统起止阶段是在20世纪60年代至80年代中期。此时计算机已经普遍运用在数据的管理领域,用户对数据的管理技术设定了更高的标准。对于企业和部门,利用数据为中心组织数据,同时减少数据的同于,提升数据的共享水平,并提高程序与数据的独立性。若数据的逻辑结构一方改变,不涉及物理结构,且不影响应用程序,减少研制应用程序与维护的费用。主要特点表现在:(1)会采用部分数据模型。这些模型不仅需要表达数据本身特点,还要描述数据间相关联系。(2)数据少量冗余。易修改和扩充。针对不同的应用程序处理要求、从数据库中筛选出所需数据,减少数据的重复存储,目的在于增加新的数据结构,提升数据的一致性。(3)程序与数据具备较高独立性。(4)采用良好的数据接口,便于管理者开发和使用数据库。(5)对数据进行统一管理,提供数据的安全性、完整性以及并发控制功能。

1.3 数据仓库阶段

数据仓库起止阶段在20世纪80年代中期至20世纪90年代。随着数据库系统的建立,各企业逐步产生和积累了大量历史数据,如何高效对这些历史数据进行存储和组织管理,以便进一步的分析和处理,成为计算机领域新的需求。主要特征表现在:(1)数据仓库是面向主题的。主题是指用户使用数据仓库进行决策时所关心的重点方面;(2)数据仓库是集成的。数据仓库是在对原有分散的数据库数据进行抽取、清理的基础上,经过系统加工、汇总和整理而成;(3)数据仓库是历史数据的积累。数据仓库以只读的方式保存历史数据。

1.4 现代意义的数据中心及大数据阶段

现代意义的数据中心及大数据阶段是自20世纪90年代以来。经过多年信息化建设,各类的业务系统独立或混合部署在不同的服务器上,使用不同的计算、存储资源,硬件、系统和平台种类繁多,缺乏统一规划和管理,管理复杂度高,系统资源利用率低。随着互联网的广泛应用,如何从海量、多源、异构的互联网数据中充分发掘数据价值成为迫切需要解决的问题,数据中心和大数据正是在此背景下技术发展的成果。

(1)数据中心主要特征:1)统一架构下的基础环境;2)离散资源聚集形成共享资源池;3)系统资源灵活扩展和动态分配,利用率高;4)简化管理维护;

(2)大数据主要特征:1)海量的数据规模;2)快速的数据流转;3)多样的数据类型;4)价值密度低。

2 图书馆与数据中心异同点分析

长久以来,记载着信息和知识的书籍起到了文化传承、文明积淀、知识传播的作用。但在信息时代,纸质的印刷品已不再是信息的唯一载体,利用计算机技术,图书馆也由传统形式逐步发展出数字图书馆、网络图书馆和云图书馆等多种形式。信息领域的数据管理方式也经历了数据文件系统、数据库管理系统、数据仓库、数据中心的发展历程,反映出数据由简单的查询优化处理到联机事务处理(OLTP)、联机分析处理(OLAP)、数据挖掘(LOAM),直到大数据分析的演变。尽管两者都在发展变化,但物理空间的“书籍”及“图书馆”与赛博空间的“数据”及“数据中心”之间在功能定位和发展思路上有一定的相似之处,同时也存在一些不同点。。

2.1 图书馆/图书馆学基本特征

图书馆/图书馆学基本特征主要有:一是集中性统一性,相对于散落在个人手里和散布在各处的图书文献,图书馆实现了集中存放和标准一致的管理,不但藏书种类全、体量大,而且大型图书馆还藏有原稿、孤本等历史珍品;二是开放性公共性,私人或小团体拥有的图书,由于自身的封闭性,其受众面是有限的,而图书馆具有公共、开放的属性,受众面更广泛;三是中介性服务性,与个人或部门藏书的原因和目的不同,图书馆不是为了自己出书和用书而藏书,而是为了更好地服务于社会大众,图书馆定位于出版社与读者之间的中间环节,起到书籍及知识积累与传播的促进作用;四是专职性权威性,图书馆配有专职的工作人员,依托馆内设施和专业人员的运维管理,不仅图书来源有正规渠道,且有能力区分或鉴定书籍文献的版本、出处、真迹或赝品等,从而保证了藏书的质量和读者服务水平。

2.2 档案馆/档案学基本特征

档案馆/档案学基本特征主要有:一是以个体为对象进行档案分类编目,“个体”可以是个人、组织或国家,也可以是装备或系统,如人事档案、单位档案、党史档案、国家民族档案,或者楼宇、设施、装备档案等;二是档案文献的客观性,强调档案内容的真实性、准确性和完整性,档案应符合历史事实,档案馆有责任鉴定文献来源的权威性;三是以时间顺序来积累和组织档案文献,一般以该个体发生事件的年代及时间为索引,这同信息系统中的数据仓库、数据集市等概念类似;四是档案调用范围受控性,一些档案馆的档案分为公开档案和受控档案,由于组织的政治、经济、军事秘密,或个人隐私等原因,受控档案只有特定的人员能够调用,部分受控档案过了脱密期后可转为公开档案。

2.3 数据中心与传统数据管理办法异同

表1 图书馆和数据中心比较表

?

?

2.4 图书馆/档案馆的借鉴意义

图书馆/档案馆建设思路对于数据中心建设的借鉴意义主要是:一是要突出数据中心建设的集中统一性和公共开放性(对应公共图书馆),需在各层面建设跨部门、跨地域、跨平台共享共用的数据中心,以解决目前各部门自建自用、分散多头、重复低效和不一致难共享的局面。二是加强数据中心的网络化、服务化和专业化(对应公共图书馆和档案馆),以数据中心和网络为中心拓宽数据来源和服务对象,以及解耦各部门的紧耦合关系;以规范的元数据和统一的数据目录提升信息共享、数据服务的标准化和便利化,以专职机构、专家队伍和专用平台工具为依托,确保数据自身的质量和数据系统的稳定可靠运行。三是利用数据仓库、数据挖掘等大数据分析技术(对应档案馆),对纵向的历史数据、横向的多源数据进行关联分析,洞悉规律和发现知识,实现数据的增值服务。四是加强数据安全、云安全和安全服务建设(对应档案馆),实行全网统一的数据资源按需按权受控访问。

3 大数据建设管理思考

随着信息技术的飞速发展,我们已进入大数据时代。建好数据、管好数据已不仅是在技术层面的迭代更新、滚动发展,而是需要在基础设施、数据资源、应用创新、配套措施等方面共同发力,实现各要素齐头并进、协同发展。

我们通过研究认为,在国家大数据建设总体布局下,可按照“四个统一、两个抓手、一个闭环”的总体思路开展大数据体系建设。其中,“四个统一”是通过统一开展数据中心体系、规章制度体系、安全防护体系和人才力量体系等大数据保障体系建设,确保数据中心有统筹,规章制度能落实,安全防护强一致,人才力量有保证。“两个抓手”是通过一手抓专业领域大数据建设,一手抓业务综合大数据建设,形成业务大数据和业务综合大数据统分结合、齐抓共管、上下联动、并行发展的局面。“一个闭环”是建立大数据“建管用”有机衔接、以用促建的模式,构建用结合、迭代完善的数据生态环境。

图1 大数据体系建设框架

4 结束语

数据管理技术历经文件系统、数据库系统、数据仓库、现代意义的数据中心及大数据等阶段,呈现出分散到集中、数字化到知识化、信息化到智能化等特征。大数据建设是体系化工程,应从基础设施、数据资源、应用创新、配套措施等方面统筹设计和协同推进。后续我们会持续跟踪数据管理技术发展最新进展,深入开展相关研究。

猜你喜欢
数据仓库数据管理数据中心
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
航发叶片工艺文件数据管理技术研究
浅析数据中心空调节能发展趋势
基于数据仓库的数据倾斜解决方案研究
关于建立“格萨尔文献数据中心”的初步构想
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
2017第十届中国数据中心大会榜单
探析电力系统调度中数据仓库技术的应用