朱滢颖
(广西南宁市第三中(五象校区),南宁 530221)
现在的社会是一个高速发展、正在走向全面数据化的社会,科技发达,人们的交流方式多样化,生活也越来越方便,随着社会的发展,出现了数据庞大且分散的问题,为了解决这样的问题,大数据出现了。大数据就是这个高科技时代的产物。大数据在社会分析、科学发现、商业决策中的作用越来越大。大数据已经成为各类大会的重要议题,管理人士都希望利用大数据技术进行行业预测。
人们对大数据有着各种各样的理解,理解当中存在很多误解,比如:大数据更多的运用于存储方面,大数据即为数据量十分庞大;大公司或者大企业才有能力使用大数据技术;拥有了大数据便可看到想要的趋势或结果;大数据的数据量大,可以将个人隐私深藏保护起来。[3]其实,大数据包括收集、存储和分析,它需要通过技术的支持就可进行,即便是小公司,只要有了相关的技术支持,如爬虫技术、云计算、No-SQL技术,便可使用大数据技术。大数据通过对大量数据的解析才能分析出数据中隐藏的规律,在细密的分析、挖掘下,个人隐私更容易遭到暴露。
大数据(big data)也称海量资料,指的是所需要处理的资料量十分庞大,一时无法通过现有的主流、常规的软件工具在一定的时间内进行获取、整理、处理,再整理得到结论,引导使用者可以做出较为正确决策的资料。[4]正如大数据所具四个特征(4个V)。
(1)Volume(数据量大),存储单位从过去的GB到TB,直至PB、EB。1GB(Gigabyte吉字节)=2^10MB=1024MB=2^30B;1TB(Trillionbyte太字节)=2^10GB=1024GB=2^40B;1PB(Petabyte 拍字节)=2^10TB=1024TB=2^50B;1EB(Exabyte艾字节)=2^10PB=1024PB=2^60B;1ZB(Zettabyte泽字节)=2^10EB=1024EB=2^70B。
我们平常中就产生了不少的数据,如淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。
(2)Variety(数据类型多),大数据形式的多样性由广泛的数据来源决定,但这种类型的多样性也让数据被分为结构化数据、非结构化数据以及半结构化数据。
(3)Value(商业价值巨大),这是大数据的核心特征,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析出有价值的数据。但若只是将一个文件不断地复制,这样的文件量再多也是没有价值的。
(4)Velocity(处理速度快),这是大数据与传统数据挖掘的最显著区别,与传统的广播、报纸等数据载体相比,大数据借着互联网、云计算等方式实现,因此数据的交换、传播速度远比传统方式快的多。数据的增长速度和处理速度是大数据高速性的重要体现。
大数据依赖于获取数据技术和分析数据技术。大数据通过获取数据,才可得到大量信息,进而分析数据。获取数据的主要方式(渠道):
(1)面向有着足够人数使用的服务器或系统的日志进行信息采集。
(2)利用网络获取数据技术,如爬虫技术,可对整个网页页面的信息进行收集,例百度贴吧当中,楼主、贴主发送贴子的时间、内容截取下来储存分析;数据库采集也是一种方式,比如大公司的数据库、大众常用的中国知网、万方、维普的数据库。
分析数据技术是大数据的核心技术,并且分析技术是多种多样的,如:数据仓库、数据库、数据挖掘技术、社交网络分析技术、信息检索技术、自然语言处理技术、云计算、No-SQL技术。
现在使用较为普遍的是由Apache基金会研究开发的分布式系统基础架构Hadoop,而Hadoop的框架最核心的设计就是为海量数据提供储存的HDFS和为海量数据提供计算的谷歌大法宝MapReduce。
2.3.1 存储原理
HDFS(Hadoop Distributed File System),其设计之处就是为了提高超大文件的存取和读取速度,它的读取方式是把超大文件分割成多个block(数据库中的最小存储和处理单位)在多个dataNode(存储节点,一般有多台机器)备份并存储的,小文件并不会因其容量小而得以提高访问和读取速度,反之可能会降低。[1]并且HDFS还具有高吞吐量访问、高容错性、容量扩充的好处。HDFS由Namenode和Datanode组成。Namenode是管理文件的命名空间,并且能够记录节点的信息,但它不能进行永久保存。Datanode是文件系统的工作节点,负责存储和检索数据块。在HDFS中,Namenode相当于一个管理者Datanode依靠Namenode进行节点内文件的重建。因此,Namenode相当重要,一旦失去Namenode,HDFS就无法正常运行。为了尽量避免因运行Namenode的机器挂掉而导致系统中文件丢失,Hadoop提供了两种容错机制,第一种是将本地硬盘中的重要文件备份,也就是Hadoop通过配置让Namenode将它持久化的文件写录到不同的文件系统中;第二种是运行一个辅助的Namenode,即第二Namenode,它能保存合并后的命名空间即namespace image(namenode管理文件资源)的一个备份。
2.3.2 处理原理
MapReduce是一种编程模型,用于大规模数据集(>1TB)的并行运算。Map(映射)和Reduce(归纳)是其主要思想。[2](脚标百度引用)Mapreduce是大数据当中不可缺失的组成成分,为大数据提供分析和计算处理技术。Mapreduce在运行中主要分为五个阶段:input阶段,Hadoop将Mapreduce的输入数据划分成等长的小数据块,即输入分片,Hadoop为每个分片构建一个map任务;Map阶段,运行过程中对某种输入格式的一条记录解析成一条或多条记录;shuffle阶段,对中间数据的控制,作为reduce的输入;Reduce阶段,对相同key的数据进行合并;output阶段,按照格式输出到指定目录。
以汽车行业为例子,汽车本身就是智能化的,各种智能传感器,信息收集器都能提供大量的数据来源,比如汽车的使用周期,汽车行驶的公里数,汽车的型号;其次汽车维修中心的数据收集能力强,包含汽车零部件的使用年限、汽车维修保养的频率等信息都会成为庞大的数据被采集、挖掘而后产生新的商业价值。
车企和车商可以利用汽车的大数据这一有效资源,打造一个以汽车周边为主的生态商业圈,包括汽车的保险,汽车的内部装饰,汽车检修服务,洗车服务等方面。这一商业生态网络利用大数据技术,在获得诸多数据资料的同时,进行解析,让商家得到能够了解客户需求的信息,便于商家对销售产品作出相应调整,以及推出新的商业方案,获得更大收益。
图1 大数据的运行
第一步,将由用户所使用的pc端、andorid端、ios端、Web,以及服务器日志、数据库得到的数据资源上传至Nginx服务器。第二步,基础框架Hadoop提供存储技术(HDFS)和数据分析处理技术(Mapreduce),把数据分块存储后,用Mapreduce进行第一轮分流处理,并放入第一个数据库中,再用Mapreduce做二次处理,处理后的数据放入第二个数据库。第三步,经数据的转换,使通过大数据收集、处理后的信息在发掘出其更大的价值之后,得以更加直观地以文字的形式展现出来。
大数据是庞大的信息资料,依靠Hadoop中的HDFS的文件分割储存和Mapreduce的分流式处理对数据采集、解析,得到信息中蕴含的更大价值,这为人们作出决断提供了可参考的信息,因此大数据受到高层管理人士和科学研究分析领域人士的重视。大数据加快社会的进步与发展,各行各业与大数据相结合后发现了新的机遇,不仅是便利了人们的生活,更是推动了科技的进步。通过大数据,人们获得了大量数据背后所隐藏的规律,这样更能让人们做出更贴合事物客观发展规律的决定。
[1] 翟永东.Hadoop分布式文件系统(HDFS)可靠性的研究与优化[D].华中科技大学,2011.
[2] 李建江,崔健,王聃等.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642.
[3] 戴明锋,刘展.大数据理解误区解读[J].中国卫生信息管理杂志,2015,12(1):61-63.
[4] https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356 941?fr=aladdin.