数据库在大数据中的应用

2018-10-26 10:59王娅
科技资讯 2018年15期
关键词:数据

王娅

摘 要:自从大数据这个词出现以后,人们对它的研究也越来越多。大数据类型多样,占据的空间也非常大,以前传统关系型数据模型已经不能满足它的需求。如今要处理海量且多种类型的数据,就需要借助新的非关系型数据库模型。本文主要介绍关系型数据库和非关系型数据库在大数据中的应用。

关键词:数据 关系型数据库 非关系型数据库

中图分类号:TP311.13 文献标识码:A 文章编号:1672-3791(2018)05(c)-0015-02

1 大数据

自2008年,Nature首次推出Big Data专刊以来,“大数据”这个词就以高频率方式呈现在各大新闻媒体中,而且越演越烈。人们也越来越重视对其的探讨和研究。

什么是大数据?现在不少人认同,大数据是海量且多种类型的数据,它具有4V特性:即规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value)。规模性指数据量巨大,量级达到TB级及PB级;多样性指数据类型繁多,包括结构化数据和非结构化数据;高速性指数据创建、处理和分析的速度持续在加快;价值性指在大数据中有巨大的潜在的价值,但有价值的数据所占的比例非常低。

大数据主要来自互联网领域和物联网领域以及一些专业领域。其包含的数据从传统的单一的文本数据发展成为图片、视频、音频等结合的多媒体数据,所占的存储空间也比原来大得多。以前传统关系型数据模型已经不能满足大数据的需要。要处理海量且多种类型的数据,不仅仅要运用传统的关系型数据库模型,还需要运用非关系型数据库模型。

2 关系型数据模型和非关系型数据模型

大数据可以分为结构化、非结构化、半结构化数据三类,大数据服务需要能够同时支持这三类数据。结构化数据是指能够用二维关系表达的数据,它有固定的格式和属性,对相同的屬性的数据或记录可以进行相应的增加和删除等操作,对不同的属性的数据往往不能操作。半结构化数据是指XML、网页这类具有一定结构的数据。非结构化数据是相对于结构化数据而言的,通过外在形式来松散表达数据意义的数据,它的字段不固定,具有格式各异的特征[4]。

不同的数据结构类型,使用的数据库也不尽相同,主要包含以下几种。

2.1 分布式结构化数据表Bigtable

Bigtable是Google开发的基于GFS和Chubby的分布式存储系统。它存储海量结构化和半结构化数据。它包含几个基本目标:广泛的适用性、很强的可扩展性、高可用性和简单性,是一个分布式多维映射表,表中的数据通过一个行关键字、一个列关键字以及一个时间戳进行索引,且所有保存其中的数据都看做字符串类型。它的存储逻辑可以表示为:其数据的存储格式,如下图1所示。

2.2 关系数据库服务RDS

由于传统的关系型数据库扩展性差,所以RDS采用集群的方式将MySQL数据库移植到云中,在一定的范围内解决了关系数据库的可扩展性问题。它采用了Share-Nothing架构。采用这种架构,就需要管理总数据库的开发人员将总的数据表划分成若干个小表,然后分别存储在每个不同的数据库服务器上。由于每台服务器都是独立的,所以这种逻辑结构就保证了数据库的可扩展性,解决了传统数据库扩展性差的问题。

2.3 微软云关系数据库SQL Azure

SQL Azure是微软的云中关系型数据库,是基于SQL Server技术构建的,主要为用户提供数据应用。它包含三个部分:SQL Azure数据库——为用户提供云端DBMS、SQL Azure报表服务——用数据库提供报表服务和SQL Azure数据同步——允许同步本地SQL Server数据库和SQL Azure数据库中的数据。

2.4 MongoDB数据库

MongoDB数据库是一个开放源码的文档型NoSQL数据库,可应用于对高并发访问、高网络吞吐的计算场合。该数据库是一种面向集合的存储方式,采用键/值,即存储任何类型的二进制数据。

MongoDB存储的方式有两种,一种是系统主动分片存储,另一种是用户自定义分片存储。分片存储的原理是将一个二进制文件分割成多个数据段,每个段以一条记录的方式记录在MongoDB数据库中。为实现负载均衡,MongoDB提供一种机制使得同一个文件的多个分块分布地存储于分片服务器中,每个分片服务管理所有数据。

2.5 Dynamo

Dynamo是一种键值存储模型,数据以键值对的形式储存,键是唯一的。在Dynamo中,数据被分割存储在不同的服务器集群中,并复制为多个副本。其可扩展性和持久性依赖于分割和复制以及对象版本管理两个关键机制。

它的分割机制基于一致性哈希技术。该技术将数据分配的位置看成一个环。使用该技术,数据键值将随机分配到环中的某一个节点,该节点称为协调节点。Dynamo系统中每条数据项存储在协调节点和N﹣1个后继节点上 ,其中N是实例化的配置参数。

3 结语

无论是关系型还是非关系型数据库,都有其自身的优缺点。人们在应用数据开发时,可根据需要来选择不同的数据库进行操作。

关系型数据库所用的结构化数据结构并没有完全消失,仍然有其利用价值,特别是对于 给客户展示相关效果时,价值更加突出。半结构化数据结构在加大广告宣传的情况下,其利用价值会特别显著。非结构化的数据常用于信息搜索。半结构化数据结构和非结构化数据结构最突出的缺点是操作比较复杂。非结构化的数据如今是常态,在物联网中提取的数据往往没有规律或没有太大的规律和结构,结构化数据库很显然不能满足其需要。我们更需要的是可以任意增加任何结构的数据,它们之间可以没有任何结构关系,只要我们需要,就可以添加进数据库保存起来,并对其进行相关的操作。关系型数据库对于高速、同时处理能力较差,不易于扩展,表的链接实效性变差。非关系型字段不固定,按需提取,没有表的链接功能,约束性很小,不能实现条件查询,只适应于简单数据的应用,复杂数据仍然需要依靠SQL数据库完成。

对于结构化数据而言,其本身采用E-R数据模型,半结构化数据也已经有通过XML进行建模的方案,同时对于这两类数据的检索、分析技术也相对成熟。

如果能够从数据中抽取属性,将非结构化数据表示成结构化形式,将有助于实现非结构化数据的有效识别和分析,这样才能更好的为人们服务。

参考文献

[1] 韩晶.大数据服务若干关键技术研究[D].北京邮电大学,2013.

[2] 刘鹏.云计算[M].2版.北京:电子工业出版社,2011.

[3] 张艳霞,丰继林,郝伟,等.基于NoSQL的文件型大数据存储技术研究[J].制造业自动化,2014.6.

[4] 李学龙,龚海刚.大数据系统综述.中国科学:信息科学. 2015.1:1-44.

猜你喜欢
数据
智能大棚温湿度监测系统的设计开发
论数据权的划分标准和分类
以未来决定现在
医院统计报表数据在医院管理服务中的常见问题研究
竞技分析及其发展趋势研究
公路工程试验检测存在的问题及措施
一种借助数据处理构建的智能食堂管理系统
浅谈计量自动化系统实现预购电管理应用