耿晓斐
摘要:随着以AI、大数据、云计算技术的深度融合,以深度学习为代表的研究为数据更好的利用提供技术支持。为深入理解大数据技术的内涵,从大数据的定义、4V特征、体系架构等方面进行阐述。介绍了大数据的基本概念、特征,总结了云计算、系统层、算法层、应用层的核心技术及关键策略。
关键词:大数据;4V定义;体系结构;
一、大数据定义
大数据这一概念目前没有统一的定义。现在业界一般认可国际数据公司(IDC)用四个维度的特征来定义大数据,即数据集的规模(Volume)、数据流动的速度(Velocity)、数据类型的多少(Variety)和数据价值的大小(Value)。具体来说,大数据具有以下4个基本特征:
一是数据体量巨大,从 TB 级别,跃升到 PB 级别。
二是数据类型多样。现在的数据类型不仅是结构化数据,还有以半结构化、非结构化数据为主体的,如是图片、视频、音频等多类型的数据,个性化数据占绝对多数。据统计,2012 年互联网中非结构化数据量已达到75%以上。
三是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
四是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。这一点也是和传统的数据挖掘技术有着本质的不同。业界将这其归纳为 “4V”——Volume,Variety,Value,Velocity。
二、大数据平台体系结构
从信息化角度来看,大数据系统一般由构架层、系统层、算法层、应用层四块组成。
1.构架层
大数据与云计算融合是技术发展的趋势,云计算解决大型数据中心的资源利用率提升和自动化运维管理,它管理的对象中显然包括需要使用大量计算资源的“大数据”系统。因此从层次上讲,云计算技术为大数据技术提供基础资源,云计算是基础设施能力(IaaS),大数据是云计算的一种服务能力(PaaS)。大数据集群是由多种角色组成的庞大的应用部署群,一般会分为部署节点、管理节点、计算节点、流计算节点、数据复制节点等,这些节点中只有计算节点因为承载了HDFS的海量数据持久化建议物理机部署外,其它节点都可以进行虚拟化部署,从而使大数据集群可以部署在云数据中心中统一管理,最终实现大数据服务的资源共享、统一管理、按需分配、动态调度。因此实际部署时,针对节点规模大的集群,可采用半虚半实的方式部署。大数据集群节点中的管理节点、流计算节点对IO的需求量不大,可以使用虛拟机方式进行部署,而计算节点对IO需求大,保留物理部署模式。同时在虚拟机中部署临时的大数据集群,在大数据业务波峰时,通过临时集群来弹性增加处理能力,分担共享大数据集群的数据处理压力。
2.系统层
Alluxio一个开源的基于内存的分布式存储系统,现在成为开源社区中成长最快的大数据开源项目之一,已成为一个大数据存储和共享平台工业标准,并成为全球发展最快的大数据开源软件系统。Alluxio的目的就是想要让计算层和存储层可以再次轻装上阵,让它们独立的优化和发展自己,而不用担心破坏两者之间的依赖。具体说来,Alluxio提供一层文件系统的抽象给计算层。这层抽象之上的计算只需要和Alluxio交互来访问数据;而这层抽象之下可以同时对接多个不同的持久化存储(比如一个S3加上一个HDFS部署),而这层抽象本身又是由部署在靠近计算的内存级Alluxio存储系统来实现。
它适用以下场景:
1.计算层需要反复访问远程(比如在云端,或跨机房)的数据;
2.计算层需要同时访问多个独立的持久化数据源(比如同时访问S3和HDFS中的数据);
3.多个独立的大数据应用(比如不同的Spark Job)需要高速有效的共享数据;
4.当计算层有着较为严重的内存资源、以及JVM GC压力,或者较高的任务失败率时,Alluxio作为输入输出数据的Off heap存储可以极大缓解这一压力,并使计算消耗的时间和资源更可控可预测。
3.算法层
数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的计算过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术。机器学习是数据挖掘中的一种重要工具,然而机器学习的门槛较高,数据分析人员不仅需要了解各个算法的优缺点,而且需要了解每个算法的超参数调优技巧,一个数据分析流程一般包括数据清洗、特征提取、算法选择以及模型评估等,所以被戏称机器学习为“炼丹术”。使用某种学习机制,通过AI的方式自己来调整超参数,找出最优解的思想自然产生,AutoML、AutoKeras都是此类方法的代表,使用此类方法能让用户轻松地训练高性能的深度网络,而用户无需具备任何机器学习或AI的知识就可以得到想要的数据。这种方式是今后的发展的方向,值的去进一步研究。
4.应用层
企业大数据应用体系其实就是在生产业务系统之外构建统一的企业级数据库。企业级数据库的建设,从技术架构上经历了从数据仓储体系到MPP数据库体系,再到现在应用较广的Hadoop架构体系。除了技术体系架构外,企业级数据库的建设还包含数据模型的建立、数据管理体系建设、数据应用体系建设,而企业级数据库的实际应用效果更多的则是依赖于企业自身数据专家库的建立以及专业机构的推动。
三、小结
本文结合大数据的产生背景、需求和系统结构,梳理了大数据的基本概念及4V特征,总结归纳了大数据技术的架构体系,分析了每层的核心技术。目前大数据技术的研究还有许多深层次的问题亟待解决,如大数据4V特征中起关键作用的是什么,如何对网络数据进行实时同步,如何对数据进行结构化处理等等,需要我们用更加敏锐的洞察力来分析和研究。
参考文献:
[1]中国信息通信研究院 大数据白皮书 2018.4
[2]《深入理解大数据》 黄宜华、苗凯翔 机械工业出版社
[3]The Google File System Sanjay Ghemawat,Howard Gobioff,and Shun-Tak Leung
[4]BARWICK H.The "four Vs" of big data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].
[5]Hadoop [EB/OL].[2012-10-02].
(作者单位:河南省开封市烟草公司信息中心)