李可汀(山西农业大学,山西晋中 030801)
云环境下数据模型和索引技术分析
李可汀
(山西农业大学,山西晋中 030801)
科学技术的不断发展使得数据量也开始得到了很大程度的增加,这就为数据的检索带来了困难,数据模型以及索引技术的应用能够为数据的处理提供帮助,因此必须针对上述技术进行探讨与分析。文章主要论述的正是有关云环境下数据模型和索引技术的问题。首先,文章对云计算进行了简要的概述,继而在此基础上分别针对数据模型及索引技术进行了阐述,希望能够为数据处理效率的提高提供基础。
云环境 数据模型 索引技术
信息技术的发展与社会各行各业的发展是相辅相成的,前者在进步的过程中能够为后者提供技术基础,而后者的发展又会对前者提出更高的要求。随着经济全球化的到来,人与人之间的交流开始变得日益频繁,同时每天产生以及需要处理的信息量也开始变得越来越大,想要使大量的数据能够被有效处理,就必须要对相应的技术进行研究。数据模型与索引技术是基于对海量数据进行处理的两种方法,对其进行分析能够为数据的处理以及云计算提供帮助。
对云计算的了解能够为具体数据模型的建立以及索引技术的应用提供基础。以下文章主要从云计算的概念与特点两个角度出发对其进行了概括性的阐述。
1.1 云计算概念
云计算主要是在待处理的数据量逐渐增多的基础上发展起来的,在现代社会,数据量的提高在各个领域均有所体现,其中以网络搜索体现的最为明显,这在为数据处理带来困难的同时,也激发了相应领域对于新技术的研究。云计算最初由谷歌公司所提出,在最初的阶段,社会对于云计算并没有准确的定义,但其本质为计算模式这一点却得到了社会的公认。用户在对云计算进行应用的过程中要被收取一定的费用,具体资费标准根据用户使用量的大小存在差别,这一收费方式具有公平性,因此得到了大多数人的认可。总的来说,云计算中的“云”主要指的是一系列的服务器集群,而云计算则是通过对服务器集群的应用去实现对数据的处理的一种方法。云计算的提出为数据处理问题的有效解决提供了基础,它的出现是互联网领域的一大进步。
1.2 云计算的特点
总的来说,云计算具有可靠性高,可以按需服务,同时在此基础上,还形成了如下特点:首先,云计算能够实现弹性计算。在社会环境不断发展变化的今天,信息与数据量也会在短时间内呈现出不同的特点,单一的计算方式无法满足人们对于数据计算的需求,必须实现弹性计算,才能使云计算跟进时代发展的步伐。弹性计算同时也是云计算实实在在具备的一个特点,实践证明,云计算可以在仅仅几分钟内便实现对突然增加的数据量的处理,这极大程度的满足了人们的需要。其次,云计算中的数据存储位置缺乏安全性。客户对于云计算的应用需要通过云计算公司来完车,因此,云计算工作必定具有客户的诸多数据信息,通常情况下,根据公司要求,客户的数据是需要被保密的,但尽管如此,潜在的危险却依然存在,主要体现在数据的存储位置不安全方面,这就为别有用心得人对数据的窃取提供了机会,因此,在云计算的应用过程中,客户必须要认识到这一点危险。最后,云计算数据能够实现远程复制。用户对于数据的使用并不是集中在某一阶段,而使随时都有可能,因此在对数据进行存储的过程中,一定要保证其长期性,针对用户的这一点需求,远程复制的功能开始被挖掘,并被具体应用在了云计算过程当中。实现了对存储地区的跨越,为用户对数据的使用带来了便利。
当前的数据模型已经无法适应时代的发展,同时也无法适应客户的需求,因此,必须要针对数据模型进行优化与完善。具体完善过程需要在现有数据模型的基础上完成,并通过分布式数据库的方式对数据进行管理。
2.1 分布式数据库
传统的关系数据库在过去很长一段时间里为数据处理问题的解决创造了很大的价值,但社会的发展要求数据库不能以此为终点,必须做出改革才能保证自身的长远进步。总的来说,传统数据库的缺点主要体现在以下方面:(1)扩展困难是关系数据库的一个明显缺点,这一数据库在实现多种数据结构建模方面的价值不可否定,但这同时也造成了数据扩展的困难。(2)读写速度慢也是关系数据库的一个弱点,数据量的不断增加是导致其读写速度出现问题的一个主要原因,由此引发的死机问题也必须得到重视。(3)应用成本高也影响着其应用的广泛性。
分布式数据库主要包括文档数据库、列族数据库、Key-value数据库以及图数据模型等。文章主要以文档数据库为例对进行了阐述。相对于传统的关系数据库而言,文档数据库在灵活性方面得到了很大程度的提高,对于较难存储的非结构化数据可以轻松实现存储过程。从其结构上分析。文档数据模型主要为一个key对应一个value,需要注意的是,文档数据库中的value主要为有语义的格式文档。除此之外,分布式数据库还能实现对value创建二级索引,这在关系数据库下是办不到的。
2.2 分布式文件系统
图1 GFS的分布式文件系统
在云环境下,为是实现数据的存储,分布式文件系统是必须应
············
用的一项技术,目前我国所应用的分布式文件系统主要包括谷歌的GFS以及在此基础上产生的HDFS。GFS的分布式文件系统如图1所示。
通过系统分布图可以看出,GFS主要包括主服务器、多个块服务器以及多个客户端组成,主服务器的数量只有一个,其主要功能是对整个文件系统进行整体上的管理。块服务器存在多个,其主要功能是实现较为具体的存储工作。与块服务器相同,客户端的数量也有很多,其主要功能是为了给应用程序提供专用访问接口,
2.3 数据分区技术
数据分区技术主要指的是对整个数据空间划分为多个小区,以实现对每一部分分别存储的一种数据存储技术,其功能的实现需要按照数据的分布特征来完成。Key-value数据模型作为分布式文件系统中的一部分,其主要采用的数据分区技术为分布式哈希表。这一分区技术具有简单方便的特点。
哈希表的本质为一种数据结构,还具有良好的健壮性以及可扩展性。这样的特点与功能很好的解决了传统的关系数据库扩展性差的缺点,除此之外,分布式哈希表还能够以较低的系统开销获得较大的系统规模,这极大程度的提高了系统运行的可靠性,对于数据的存储具有重要价值。
在数据查询过程中,索引的存在能够有效的提高查询效率,在云环境下,为使数据的查询效率能够得到进一步的提高,必须要在传统的索引技术的基础上对其进行优化,以下文章首先介绍了传统的索引技术及其优缺点,继而在此基础上针对云环境下的索引技术进行了分析。
3.1 传统索引技术
索引技术的应用能够为数据的搜索以及访问提供基础,在最早的文献系统中,索引技术便一直存在,从整体上讲,这一技术对于文献查询速度的提高具有重要价值,为工作效率的提高带来了保证。计算机技术的出现于发展使得索引技术开始不再局限于传统的文献范围内,而是扩展到了数据库领域,总的来说,传统过的索引技术主要包括以下优点:
首先,索引的存在极大程度的提高了数据的查询速度,同时也就使查询效率得到了提高。其次,表与表之间的连接得到强化,使得文章开始形成了一个整体结构,对于读者对于文章的全面了解具有重要意义。最后,索引的应用还能够使查询性能得到提高。索引的优点是确实存在的,但其缺点也不容忽视,主要体现在以下几点:(1)索引的建立与应用对于时间的要求较高,因此,想要保证索引技术能够得到有效的优化,花费大量的时间是必然的。(2)索引的存在会占据数据的空间。(3)数据库中的数据如果发生了改变,那么索引也必须要改变,这会为其应用过程带来麻烦。
3.2 云环境下的索引技术
云环境下的索引技术需要满足以下要求:首先,必须要满足能够支持多种查询的要求。其次,要具有易于维护的特点。就目前的情况看,基于云环境的索引技术往往只能够支持简单的字母搜索,而无法支持复杂的搜索过程,这一点必须要加以改善。需要注意的是,云环境下的索引技术针对单维度数据与多维度数据需要有所不同。对于前者来说,分布式B-tree的数据结构具有扩展度高以及成本低的优点,但在应用中,同时也会造成很大程度的内部消耗,并且由于其要求将所有节点均建成一棵分布式B-tree,因此想要对其进行处理必须付出很大的代价。针对后者来说,可以采用KD树的方式建立本地索引,这一索引建立方式能够极大程度的减少对数据的处理成本,但在维护过程中却需要更大量的开销,除此之外,这一索引建立技术也没有充分考虑到节点失效的问题,这就为其具体应用过程带来了困难。在云环境下,上述技术还必须得到进一步的提高与优化,才能更加适应时代的发展。
[1]孙春菊.云环境下数据模型和索引技术研究[J].南京邮电大学,2013(5)13-15.
[2]申德荣,于戈,王习特,聂铁铮,寇月.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013(8)81-84.
李可汀(1994—),男,汉族,山西太原人,本科,山西农业大学环境科学专业。