韩浦霞
(天津商务职业学院,天津 300350)
顾名思义,大数据技术的根本是对大量信息的处理。企业往往会将多种数据集中起来进行分析处理,数量级一般在PB规模左右。数据量级不仅指数据体量,也包括数据源个数和数据的种类。大数据特性往往从数据量、速度、类型、价值密度四个方面进行概括。
对于当前各领域的数据集合,TB、PB的数量级单位已经不能满足,目前已经开始使用EB和ZB进行衡量。例如百度搜索2020年第26周的日均IP访问量为5833.93万,其VP的日均访问量为25653.98万。
一般指处理速度与产生速度。大数据往往和人工智能、物联网等行业结合应用,对数据的实时响应要求高。大数据的处理效率又称为“1秒定律”,即可以秒级时间内获取分析结果。
全球IT技术的不断发展催生出各种交互产业,各种类型的数据随之产生,区别于传统IT时期的结构化数据,现在整个大数据产业中充满了半结构化和非结构化的数据。
庞大的数据量,必定存在大量的非有效信息,因此数据的价值密度是比较低的。例如,城联网系统中的监控系统,每日的视频存储量惊人,但实际的有效信息仅为其中的数百兆。
大数据技术使得人们的思维方式发生了颠覆性改变,科研人员不在局限于小数据量级的精确性指标,更多的开始追求大数据量级下的普遍性规律。对于较复杂的事件,通过归纳与演绎的方式进行建模与推演,获得大概率的事件结果。
大数据技术包括数据采集、预处理、存储、可视化等。数据采集是众多流程环节中的第一步,重要程度不言而喻。大数据的采集一般是通过RFID、互联网交互、传感器等获取海量的数据,大数据采集方法与传统数据采集差异较大。
大数据采集面临的首要压力即为数据的并发性,同一时刻可能会产生数以亿计的数据信息,因此需要在采集端部署多个数据库进行采集,并且还需考虑各个数据库之间的负载均衡。基于以上特性,大数据采集方式主要分两种:MapReduce分布式并行处理模式和基于内存的流处理模式。
MapReduce分布式并行处理模式的基本思想就是分而治之。假如我们想知道一幅扑克的黑桃数量,分布式模式是将所有扑克分发给所有玩家,让每个玩家统计各自的黑桃数量,然后汇总数据,得出最终的结论。显然,该模式通过拆分的思想,可以迅速得到结果。MapReduce模型处理流程首先是针对数据集,将不具有依赖关系的数据进行并行处理,然后利用Map函数与Reduce函数实现高层的并行抽象模型。最后将分而治之的思想再提升至架构层面,统一架构方式为研发人员隐藏了大部分系统层面的处理细节。下图1为MapReduce模式的原理图。
图1 基于MapReduce的并行计算模型
基于内存的流处理模式与批处理模式是截然不同的,它不需要针对整个数据集进行操作,而是对随时输入系统的数据进行计算。因此流处理模式的数据集是无止境的,除非明确停止计算。流处理模式单位时间内有且只可处理一条或很少量的数据,数据流经过此处就会被筛选过滤,获取有价值的数据,然后将其丢弃。伴随着近几年大数据技术迅猛发展,人们开始更多的关注数据处理的时效性,处理模式开始慢慢向流处理模式转变,例如阿里等电商的“双十一”,会要求以秒为计量单位的输出结果。
随着数据量的不断增大,每秒产生的数据中绝大部分可能是无效信息,包括噪声数据、冲突数据和残缺数据等,如果不加区分而将这类数据也进行分析计算的话,势必会影响最终结果的准确性,因此为保证数据结果具有有效价值,需对收集到的数据集进行预处理。
大数据预处理包括数据的清洗、集成、转换、削减。这些处理环节可以有效检测出噪声数据、无效数据等,是大数据分析结果质量的保证。
数据清洗是针对残缺数据、噪声数据和不一致数据的处理。针对残缺数据常用的处理方法有以下几种:丢弃该遗漏属性值数据;利用默认值填补遗漏属性值;利用数据均值填补遗漏属性值;利用回归分析填补遗漏属性值;利用同类别数据集属性值填补该遗漏属性值。噪声数据一般是数据集出现随机属性值,常用的降噪方式有:对噪声点数据的周边数据进行平滑;通过聚类分析方法定位噪声点;寻找数据集的拟合函数进行回归。不一致数据处理往往是数据记录错误问题或者属性取名规范问题,可以通过人工进行修改。
数据集成是将对各数据源的数据进行合并统一形成新的数据集,提升数据的完整性与可用性。目前数据集成面临三个问题:集成模式的问题;数据冗余问题;数据值存在检测冲突。
数据转换是将数据进行转换或归并,形成适合数据处理的模式。常见的数据转换处理方法包括:平滑处理;泛化处理;合计操作;归一化处理与重构属性。转换后的数据有效的保证了数据的统一性。
数据削减是指在保证数据集完整性的前提下对数据集的精简,进而提升数据分析的效率。常用削减方法有维度削减、数据立方合计、数据块削减、数据压缩、离散化等。
面对海量的数据资源,大数据存储就成了十分关键的问题。目前大数据领域主流方式为分布式架构,在分布式存储中,将大数据存储任务切分为小块,分配到集群中各机器去获取支持。常用的大数据存储技术包括:分布式文件系统HDFS和分布式存储系统HBase。
HDFS是分布式文件系统,分布于集群机器上,利用副本文件进行容错,确保可靠性。HDFS的设计原则是十分明确的,一般适用于存储非常大的文件,采用流式模式进行访问。
HDFS系统的主要组件有:NameNode、Block和Rack。其中NameNode是系统的主站,它对系统里的文件与目录文件系统树以及元数据进行管理,执行文件系统的操作。DataNode作为系统的从机,所有机器均会分布于各自的集群中,然后进行存储,并且根据客户端的读写请求,提供相应的服务。主节点NameNode会管理多个工作节点DataNode。
HDFS的写过程流程如下:主节点确认客户端请求信息,并记录文件名称和存储该文件的工作节点集合。然后将这些信息存放在文件分配表中。如下图2为客户端向主节点发送test.log文件写请求的响应流程图。
图2 HDFS写过程流程图
对于分布式文件系统而言,最重要的就是数据的一致性,当HDFS系统中,所有需要保存数据的工作节点均拥有副本文件,才会认为该文件的写操作完成。那么数据一致性就会确保客户端无论从任何工作节点进行读取,所得到的数据是一致的。
HDFS的读过程流程如下图3所示。其中数据块信息包括文件副本工作节点的IP地址、工作节点在本地硬盘查找数据块所需要的数据块ID。
图3 HDFS读过程流程图
HDFS是目前被认为Hadoop系统兼容最好的文件系统,基于该系统的开源性,目前已经被广泛商用。
HBase是面向列的非关系型分布式存储系统,可进行实时读写,并随机对大规模数据集进行访问,具有高可靠性与高伸缩性。
HBase具有以下特性:强读写一致性;自动的故障转移;HDFS集成;丰富的“简洁,高效”API;具有块缓存、布隆过滤器,可高效的列查询优化;提供了内置的web界面来操作,还可以监控JMX指标。
常见的HBase应用分三类:存储业务数据、存储日志数据和存储业务附件。其中存储业务数据包括用户的操作信息、设备访问信息等。存储日志数据包括登录日志、邮件发送记录、访问日志等。存储业务附件包括所包含的图像、视频和文档等附件信息。
HBase系统主要包括4个关键节点:Zookeeper、HDFS、RegionServer和Master。Zookeeper主要进行配置维护、分布式同步、组服务等,它的主要功能就是向用户提供简易、安全、高可用的封装系统。HDFS是HBase运行过程中的底层文件系统。RegionServer负责响应用户读写请求。Master是主服务器的实现,它负责实时监视RegionServer实例,也可作为元数据更改的接口,可以控制该节点的故障转移和Region切分。下图4为HBase系统架构图。
图4 HBase架构体系关系图
HBase应用于大数据高并发情况和数据的随机读写,例如淘宝指数就是利用该系统查询历史的交易记录。
在一定时间内,人类或者机器是无法通过常规数据软件对大规模数据进行获取、存储、管理以及处理的,需要专业的数据操作系统对其进行操作。大数据处理系统分为:批处理模式和流式处理模式。当前主流的批处理系统是分布式计算架构Hadoop,该系统可对完整的大数据集合进行分析,但无法获得实时数据,数据的迟滞高。流处理大数据系统代表:Spark Streaming、Storm,可对实时数据实现高效分析处理。
Hadoop包括分布式文件系统HDFS、任务调配YARN、大数据并行运算框架MapReduce。HDFS存储性与百度云、阿里云文件存储系统类似,同时它还涉及分布式计算等。HDFS作为分布式文件系统,实现数据的存储。YARN是该架构的资源管理器,为上层应用提供统一的资源管理与调度。MapReduce是针对大数据实现并行计算的编程模型,通过指定某映射函数,将一组键值对映射为新的键值对,然后指定并发函数,确保所有映射的键值对共享相同的键组。
Spark Streaming框架具有实时计算、高吞吐量和容错机制的特性,可多元获取数据,接受HDFS等数据源的数据,经过处理后存储到相应系统。该框架的运行原理是:按照某一时间间隔,将实时数据进行划分,然后分批交由Spark engine引擎进行处理,获得结果。每批数据都将在spark内核对应一个弹性分布式数据集RDD,所有批次的RDD即构成离散流Dstream。
Storm是分布式实时处理数据框架,具备不易丢失数据、低延迟、易扩展和高可用等特性,具备简单的编程模型,易于开发。Storm框架属于主从架构模式,Nimbus作为主节点进行资源的分配,ZooKeeper作为中间过度单元存放调度消息,supervisor作为从节点接收任务,产生对worker进程的响应。
随着我国大数据相关政策的普及,越来越多的行业开始考虑结合大数据技术实现本行业的创新与升级。目前我国大数据技术应用度较高的行业包括:电信、金融、政务、交通与医疗。
电信行业毋庸置疑是我国最大的数据信息源,中国联通利用大数据分析技术,对全国的移动用户进行画像,为客户的特性化服务以及整个市场运营提供了支持。金融行业比较典型的应用实例就是阿里小贷业务,是阿里巴巴、淘宝网以及支付宝三个平台合作提供交易数据,然后对平台提供用户近100天的数据进行分析,实时准确的把握用户的资金情况。政务领域继我国提出“大数据成为提升政府治理能力的新途径”论点后,开启政务治理新模式。例如身份证系统、网上办事窗口等,实实在在做到了便民服务。交通领域的数据资源丰富度高,实时性强。例如各交通运行的监控数据,高速公路、干线公路等的气象监测数据,城市公共交通、出租车等的定位数据,以及交通道路的费用数据。医疗领域依靠各个医疗机构每年都会产生PB数量级的数据信息,包括各种门诊就诊数据、住院数据、用药数据、手术数据、医保数据等,因此医疗数据在种类以及体量方面均满足大数据的要求。
2020年初国内爆发的新冠肺炎,大数据技术在疫情阻击战中得到了充分的应用,依据各省市的疫情情况,通过“大数据+网格化”方式进行判断分析,逐步指导各地因时因地有序复工复产。专家们依托大数据平台对感染患者分布、接触者追踪以及疫苗研发等进行实时有效的分析。研发人员广泛收集地图信息、遥感数据、卫健委发布的疫情数据、舆情数据、网页抓取的数据、共享单车轨迹等数据,绘制疫情地图,为全国各地的人们提供了实时准确的疫情信息。
依托于大数据的背景,人们可以分析出数据背后的意义,获得更深层次的理解,服务于人类,形成新的技术变革之力。数据作为世界各国未来竞争的资源,其价值度不亚于石油、贵金属。大数据行业也必将成为未来国家之间竞争的领域之一。未来几年将会是我国大数据行业发展的重要时期,结合各行业的发展规律与特征,充分利用大数据技术有利于行业整体的品质提升与转型。