信息分析视角下的大数据分析平台构架研究

2019-12-04 14:34朱华巍徐岚中国电子科技集团公司第二十八研究所
数码世界 2019年11期
关键词:储存分布式计算机

朱华巍 徐岚 中国电子科技集团公司第二十八研究所

引言

大数据分析是目前十分热门的技术,为了保证大数据分析平台的性能,就需要选择合适的架构。因此,需要对大数据分析平台架构的特点进行了解,研究不同方面的需要。

1 大数据分析概述

大数据的数据机构复杂,并且数据量很大、数据价值密度很低,同时大数据的产生速度很快,这些特点导致大数据分析存在一定的难度。

1.1 大数据分析内涵

大数据分析是对数据进行分析的科学和技术,大数据分析的中心思想在于通过有效的措施来对大量数据的信息和价值进行挖掘。因此,大数据的核心在于能够对快速增长、类型众多、内容真实度很高的数据进行分析,并且从其中挖掘信息。目前大数据的分析有两个方面的内容,包括机器学习和文本分析,在大数据分析的过程中,会对数据进行采集和储存工作,同时也会删除没有价值的信息。根据大数据的分析模型,可以建立专门的大数据分析平台,满足人们对数据的分析需求。

1.2 大数据分析的应用

人类进入信息化社会以后,数据密集型科学开始快速的发展,所以大数据分析已经和很多与数据相关的技术有着紧密的联系,必须云计算技术和情报分析。

云计算技术是一种计算机的共享模式,基于互联网,让用户能够使用云端计算机,享受云端计算机的优越性能。具有快捷方便、随时随地的特点。很多大数据计算都会借助云端计算机来完成,作为大数据分析的载体,可以对数据进行分析、筛选和储存。

情报分析也可以成为情报研究,根据用户的需求来对大量的信息进行缝隙,从而形成更高级的信息。目前情报分析以软件技术和信息技术作为支撑,对社会信息进行选择和评价,然后根据特定的模型进行加工,最后形成有价值的产品。这些数据产品能够给企业的决策者提供一定的支持,帮助企业提升他们的竞争力。

2 大数据分析研究现状

2.1 大数据分析服务

随着数据科学的快速发展,大数据分析成为了一项关键的技术,由于社会对于大数据分析的需求,大数据分析服务业行业也有了很多商机。通过分析服务能够满足商业领域中的需要,很多企业也通过大数据分析服务来提升他们的商业水平,所以目前信息分析或者大数据分析服务已经有了完整的服务内容。

2.2 大数据分析使用的方法

大数据分析当中最关键的就是进行大数据分析方法的研究,使用合理的分析方法才能够保证分析结果的有效,并且保证分析结果的精度。大数据对不同类型数据处理方法也有很大不同,所以也需要针对数据的类型寻找针对性的算法。目前很多大数据的关注重点在于社会媒体的大数据,以及针对大数据的分析结果进行可视化,或者对数据进行自动化集成。对社会媒体的分析有一些专门的挖掘方法,有些专家也研究了全新的社会媒体分析方法,从而深入到媒体网站上进行细节的数据讨论,提升网站的决策水平。根据大数据的分析构成,大数据也和传感技术、复杂结构处理技术、大数据平台规范、虚拟化接入当不同的技术有着非常重要的联系。但是目前,大数据分析依然不能完全满足人们的要求,还需要继续加强投入和研究。

2.3 大数据分析驱动社会的发展

随着信息化社会的发展,大数据分析已经成为驱动社会发展的重要动力,让很多学者和专家提高了对大数据研究的重视程度。学者为此对大数据的处理和进行了总结,研制了大数据的工具,一些专家也专门提出了能够对数据模型进行修正和扩展的工具。目前,大数据驱动已经在很多的领域得到了应用,比如生物领域和医药学领域,依靠大数据驱动,可以让药物的定制性提升,使药物的开发更加合理。

3 大数据平台架构类型

3.1 Spark

Spark是Apache 的开源项目,该平台由加州大学伯克利分校开发,是一个分布式的计算机系统。Spark 在Hadoop 的基础上进行了架构上的改良,尤其是储存方式上有很大的不同。Spark 使用内存来进行数据的储存,而Hadoop 用硬盘来进行数据储存。这就让Spark 的运算速度比Hadoop 快很多,达到了Hadoop 的一百倍左右,但是内存长期储存数据可能会出现数据丢失的问题,这也导致Spark 缺少长期保存数据的能力。

3.2 Hadoop

Hadoop 是一种分布式系统,由雅虎工程师在2005 年合作开发,之后Hadoop 被贡献给Apache 基金会,作为Apache 基金会的开源项目。Hadoop 中使用了MapReduce 分布式框架,在GFS 协议的基础上开发了HDFS 分布式文件系统。谷歌目前在内部使用的分布式计算机和Hadoop 原理相同,但是Hadoop 并没有达到谷歌内部计算机的速度。目前,由于Hadoop 的开源特性,使得它成为了一种通用的分布式计算机标准,包括雅虎、亚马逊、百度、阿里的平台都是用的Hadoop 搭建。

3.3 Strom

Storm 是推特推行的一种计算机系统,也是Apache 基金会孵化的项目。在Hadoop 的基础上,Storm 有更强的实时运算特性,让Storm 能够对大数据流进行实时处理。Storm 并不进行数据收集和储存工作,只是通过网络来接收数据,并且进行实时计算,将计算结果反馈。

3.4 Samza

Samza 是LinkedIn 的开源技术,目前也成为了Apache 的顶级项目。Samza 也是一个分布式的框架,能够进行数据的实施实时处理,并不进行数据的收集和储存工作。和Storm 不同,Samza 所使用的分布式消息系统是LinkedIn 的Kafka。Samza 十分适合用于进行数据流的处理,在数据跟踪、日志服务上有极好的表现,可以进行信息的快速处理,并且容错性很强。

4 大数据平台的应用

4.1 优化机器和设备的性能

通过大数据分析,电脑能够对机器设备进更加智能的控制。比如自动驾驶的轿车,通过对大数据分析可以对车辆的控制做好优化工作。结合GPS 系统、传感器、相机,车辆将会更好地进行数据的处理工作,并且不需要人来干预。在电网中的智能电网技术,也依赖于大数据分析,能够对电网进行优化,保证电网能够稳定的运行。

4.2 社会计算和信息分析

社会计算包括生产、社交、娱乐当方面的应用,也包括社会科学、社会网络分析、计算机社会科学等等,利用这些科学理论进行分析,能够了解社会信息。利用大数据平台,进行分布式计算、应用数据库等等,通过对移动端产生的数据进行分析,来了解社会信息。

4.3 信息资源报账系统

通过大数据平台,可以构建系统化、综合化的信息资源保障系统和管理体系,比如根据某一个主题或者某一个产业来建设信息资源保障。目前,医学的信息资源保障系统就已经建立,帮助医生、医学研究人员进行信息分析。针对情报机构而言,信息资源难保障体系能够让信息得到充分的集成,推动不同种类的信息得到整合。

4.4 利用数据平台进行集成化分析

由于数据是广泛存在的,如果数据散布在不同的数据管理系统中,就很难进行数据的集成。通过大数据分析平台,能够将信息进行集中化,并且将信息作为一个完整的事件看待,从而进行是事前、事中、事后的分析。

5 结束语

大数据分析技术对于很多方面都有应用,通过对数据的分析,能够提升行业的水平和提升企业的竞争力。为此,在大数据分析平台的建设上需要从实际需求出发,加强大数据平台集成度和通用性,选择合适的架构,保证平台的性能。

猜你喜欢
储存分布式计算机
冬季养羊这样储存草料
浅析分布式发电对电力系统的影响
基于计算机自然语言处理的机器翻译技术应用与简介
计算机多媒体技术应用初探
中国古代的“计算机”
危险物品储存和运输安全
基于预处理MUSIC算法的分布式阵列DOA估计
松鼠怎样储存食物
计算机网络安全
分布式并联逆变器解耦电流下垂控制技术