大数据技术及应用浅析

2017-10-21 11:04周彬
东方教育 2017年16期
关键词:数据量结构化分布式

周彬

摘要:随着互联网技术的发展,人类社会逐渐步入数据技术时代。数据成了构成信息化社会的基本元素,由原来的数据积累变成一项优质的社会资源,大数据作为继云计算、物联网之后IT行业又一颠覆性的技术。本文结合大数据的特点,介绍大数据的主要技术,对大数据在人类社会的生产和生活方面产生的影响和创造的机遇进行展望。

关键词:大数据;大数据技术大数据发展

一、大数据的源起

随着计算机技术在人类社会的融合,使我们的生活、工作和学习都产生了巨大的、海量的数据。例如一些医疗服务类网站,将医生信息、门诊信息等现实事物数字化,形成了大量网络数据。互联网社交、搜索和电商也在不断产生大量数据。大量移动电子终端设备的出现(物联、车联、GPS等),更加快了互联网数据制造的速度。从数字上说,到2012年,互联网数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。据估计,到2020年,全球数据量将达到2015年的44倍,增长速度超过摩尔定律。而这样的增长速度和规模已经超出了日常软件在可容忍期限内获取、管理和加工数据的能力。

其实早在1980年著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为 “第三次浪潮的华彩乐章”。但大数据被重视应用则是到了2011年由麦肯锡公司发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。

二、大数据的主要技术

大数据技术的意义不在于庞大的数据集合,而是从各种类型的数据中快速获得有价值信息的技术。但是要处理的数据量实在是太大、增长太快了,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。在这种情况下,技术人员纷纷研发和采用了一批新技术,主要包括分布式緩存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。主要包括:大数据采集、大数据预处理、大数据存储、大数据分析及挖掘等。

数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。

大数据预处理主要完成对已接收数据的辨析、抽取、清洗等操作。(1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。(2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。

大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

三、大数据的意义和应用

提到意义和价值,首先就要将大数据联系到企业组织与管理方面,对大数据的合理解析可以帮助他们降本增效、做出更明智的市场决策,可以利用大数据进行精准营销与投资规划等等。在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。

参考文献:

[1]《大数据时代》维克托.迈尔.舍恩伯格浙江人民出版社 2012

[2]《大数据》涂子沛著,广西师范大学出版社,2012.7

[3]《大数据思维与决策》【美】伊恩.艾瑞斯,人民邮电出版社,2014.9

[4]《大数据的力量》郭昕/孟晔机械工业出版社,2013.8endprint

猜你喜欢
数据量结构化分布式
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
居民分布式储能系统对电网削峰填谷效果分析
深度学习的单元结构化教学实践与思考
高刷新率不容易显示器需求与接口标准带宽
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
基于Paxos的分布式一致性算法的实现与优化
AMAC
电力营销数据分析中的数据集成技术研究
固定资产管理系统对物流管理的促进和发展