大数据分析与高速数据更新

2017-06-05 16:42李卓然
电子技术与软件工程 2017年7期
关键词:高速大数据分析系统

李卓然

摘 要 随着经济的发展和社会的进步,计算机技术逐渐丰富人们的生活,大数据分析技术作为近幾年兴起的一项高科技,能够智能存储丰富的数据资源,数据的产生以及更新的速度逐渐加快,数据的种类也相对繁多。通过对大数据进行分析,能够发掘其中存在的政治、经济以及文化资源和社会价值,对于企业来说,能够存储于客户之间的大量的信息,从而提升经济价值,加速社会生活的运转,从而促进时代的进步。本文主要研究大数据系统中的主要分支,并分析其具体的应用。

【关键词】大数据分析 系统 高速 数据更新

大数据概念的逐渐兴起,带动了各大行业的发展和更新,那么大数据的具体概念究竟是什么,书中的解释是一般的软件难以概括和捕捉和分析的较大容量的数据,更大的意义是在于能够通过交换、整合海量的数据,发掘新的知识,从而创造更大的价值。大数据系统中包含仓储数据系统、图形处理系统、日志数据处理系统以及MapReduce数据系统等等。本文通过分析其中主要的几个数据处理系统中的差异和共性,分析大数据分析中的主要应用。

1 大数据分析系统中的Velocity

1.1 事物的处理系统

事物处理系统是传统的商业数据库中主要的应用软件之一,必须要支持大量的并存用户,由于每一位用户操作时所读取的数据只占其中的一小部分,并且会随机的分布在每一个数据系统中。例如在银行的存款中,每天都有成千上万的客户利用自动取款机或是人工服务进行交易,每一位客户对自己的银行账号进行操作,对于银行的整个数据系统中是极为微小的一部分,,是随机分布在各个银行的数据之内的。因此在大数据的时代,随着科学技术的不断普及,事物处理的规模和程度也就不断地加大。

在事物处理的系统当中,velocity是数据系统设计中的主要核心,引导每一位客户对其自身的业务进行准确的操作,同时需要尽可能的支持更多的并发业务,在实际的系统中,TPC-C与TPC-E是测试事物处理效率的主要依据。许多数据分析企业简化了数据分析的步骤,这样虽然能够从一定程度上减少分析的成本,提升的分析的性能,但是为了能够实现更多的分析应用,促进大数据系统的高效运行,需要程序员逐一解决实际的分析问题,将研究的重点放到ACID上。

1.2 数据流的系统

向较与事物处理系统,数据流系统的主要任务是分析流过系统中的主要数据,在每一条流过的数据中,计算出事先定义好的查询运算,例如差异监测、统计运算、复杂事件处理等等,系统中的运算需要连续不断的进行,由于不需要对数据进行大面积的存储,因此流过的数据也就是无限量的。我国数据流系统最早出现于20世纪末,最开始被应用于电信流量监控以及交通情况分析等等。同时与实务处理系统相似的是,数据流系统的核心任务也是velocity,其更加注重的是对于数据系统的吞吐量控制,单位时间内流过的数据量能够方便系统的储存,另一方面能够实现更多的恶吞吐率。

1.3 大数据分析系统

大数据的分析是确保数据价值的主要途径,通过对海量的数据进行分析,能够基本的总结出数据中蕴藏的规律,从而能够更好地理解现实,对未来的事件进行预测。大数据系分析系统与事件处理系统与数据流系统存在一定的差异,与事件处理系统相比,大数据分析系统只为极少数的客户进行服务,例如公司的数据分析师、决策人员以及对数据进行分析的管理人员,并发的用户量小于数据的处理系统,但是对于系统进行的数据处理工作并不少于事件处理系统;向较于数据流系统大数据分析系统能够处理系统中所存储的数据,而不是处理流动中的数据,虽然数据不一定 能够全部放入内存,但是大部分系统需要利用外部处理器进行处理。

在大数据的时代之下,velocity的作用越来越突出,数据通过不断产生、流通并加载到数据系统中,从静态的角度分析和优化数据分析系统存在一定的问题,首先是无法反应并及时更新数据,难以适应众多的在线应用需求;其次,静止的状态可能会受到数据更新的干扰,数据分析的性能无法得到最大程度的发挥。因此程序员在设计大数据分析系统的过程中,不仅要注重数据操作的本身,还应该理清整个数据分析的生命周期,从而使其设计理念充分发挥在系统应用中。

2 在数据系统仓储中高速数据的更新

2.1 传统的数据更新对数据分析操作的影响

分析数据系统中的查询工作,在硬盘上进行数据的顺序阅读,一般情况下,常规的数据顺序读性可能会达到100MBps,相对于传统的数据更新对数据页面进行数据的录入和插入以及修改等操作,数据的访问也比较符合前段系统的数据特征,基本上也是随机进行的。同时由于技术水平的限制,大多数硬盘只能支持每秒一百次的随机访问,系统运行的效率大打折扣。再加上随机访问可能会干扰良好的数据信号,在操作的过程中,需要不断更换硬盘的磁头才能进行后续的工作,因此也在一定程度上降低了数据分析的可能性。

2.2 在线高速数据更新的设计目标

在进行设计的过程中,需要准备固态硬盘、硬盘以及内存三种设备,主要的数据内容依然存放于硬盘中,并在系统中增加少许的固态硬盘,用来暂时存储临时更新的数据,利用这样的形式,能够有效的降低系统更新对数据查询的影响,由于固态硬盘的容量也比较小,因此其成本也相对较低。系统中的每一条数据都需要包含其主键、操作流程以及更新后的数值。因此需要在内存缓冲之前及时进行更新数据,当缓冲完成之后,将数据的更新记录录入在固态的硬盘中,在读入的数据系统中记录插入和修改的操作,从而产生最新的数据信息。

为了完成上述的操作,需要保证几个设计的前提:

(1)对查询的结果影响小,这是主要的设计目标,在具体的算法设计中,利用固态硬盘的特征,减少线上更新对数据查询操作的影响;

(2)内存的占用较少,内存的大小可能会影响运算的性能,首先内存能够用于数据的缓存,减少不必要的操作,其次,以排序作为基础的算法,对于内存的大小不同,算法的性能可能会出现很大的变化,因此当数据能够完整的纳入内存之中时,利用计算方法只需要读取以此数据,就能够计算出具体的内存容量,从而减少对于内存的占用,提升数据内存的可靠性能;

(3)高效的迁移和操作,从时间方面来看,以前積累的大量数据记录,每一页的主数据中可能会存在一些新的更新记录,而不是随机的抽取,在空间的数据方面,数据的迁移能够随时空间的转移进行更新,因此只需要使用少量的硬盘空间,就能存储大量的更新数据。

2.3 MaSM算法

在数据更新系统和固态硬盘中加入两层数据结构,归纳并操作时,需要将数据更新的记录按照主键的顺序进行排列组合,并简化外部内存的排列程序,当缓冲完成之后,算法对缓冲区域中的数据更新记录进行修改,从而将排序之后的数据更新记录记载在固态的硬盘中,编写一个新的文件,之后便不再系修改。对于主键范围之内的数据查询工作,需要创建一个table range scan造作的运算部件,将数据更新记录的数值范围精确到固定的区域之内,使程序员能够及时并便捷的找到数据更新的差异和规律,从而对整个大数据分析提供有一个准确的把握。

3 高性能日志处理系统:LogKV

3.1 LogKV系统结构分析

键值系统能够灵敏地表现多种类型日记的信息和记录,并能够提供可靠的数据存储资源,系统由一个调节的管理支点和多个工作的节点通过数据中心的网络系统连接在一起,每一个工作的系统都由两个子系统构成,IngestKV是键值存储的子系统,使日志能够顺利的缓冲和收集,并实现系统的设计理念和设计目标。

3.2 从日志的数据源到系统的映射

需要管理员尽可能的平衡各个节点之间的日志数据流量,优化获取日志的方法,首先,日志的数据源能够运行LogKV的代理程序,进行直接收集日志资源,由网络信号进行数据的发送和传播;其次,日志的数据源能够通过配置远程的端口和服务器,将日志的数据直接发送到实际的运行系统中,从而促进整个系统的高效运行;最后,日志的数据源能够将数据写入到本地的文件中,并通过文件传输的协议,产品能够数据源中获取到数据文件。

4 总结

综上所述可知,随着经济的发展和社会的进步,科学技术水平也得到大幅的提升,为了能够跟进时代的步伐,体验科技的成果,采用大数据分析以及高速更新数据更新的技术,不仅能够提升人们的生活质量,加快社会进步的脚步,同时也能够促进我国的科技软实力,从而在激烈的国际竞争中找到一席之地。因此程序员在进行数据分析的过程中,需要充分了解设计的内涵,确立在线高速数据更新的设计目标,从而方便大数据的存储和运行。

参考文献

[1]陈世敏.大数据分析与高速数据更新[J]. 计算机研究与发展,2015(02):333-342.

[2]刘中亚.正视大数据——浅析基于大数据分析的高速公路运营管理[J].中国公路,2014(23):108-111.

[3]杜玉辉,蒋姣丽.大数据背景:高速公路收费系统数据的现状、分析与展望[J]. 电脑知识与技术,2012(15):3752-3754.

作者单位

西安文理学院 陕西省西安市 710065

猜你喜欢
高速大数据分析系统
Smartflower POP 一体式光伏系统
WJ-700无人机系统
基于PowerPC+FPGA显示系统
连通与提升系统的最后一块拼图 Audiolab 傲立 M-DAC mini
传媒变局中的人口电视栏目困境与创新