□ 胡 辉
(一)大数据的概念。“大数据(mega data)”即是指海量的数据。人们对什么是大数据并没有统一的定义,大数据即意味着极度的复杂,目前人们对于大数据的定义主要有以下三种说法:一是任何超过一台计算机能够处理的庞大数据即为大数据;二是一个个大而复杂、难以用现有数据库系统处理的数据;三是大数据即是具备各种复杂数据类型的海量的数据。无论大数据的定义如何,公认的大数据应该具有如下3V特征:
1.Volume。即数据体量巨大,对大数据而言,GB、TB(1TP=1024GB)已不足以表示数据量,现在某些企业级的数据量已经进入PB(1PB=1024TB),甚至是EB(1EB=1024PB,据统计,到目前为止,人类印刷品的数据量约为200PB)级了。
2.Variety。即数据类型多样,大数据中不仅仅有结构化的数据如传统数据库文件、文本文件,还有大量非结构化的数据,如音频、视频等文件。
3.Velocity。即处理速度快,一方面数据量本身在不断增长,另一方面访问和使用数据的用户也在不断增加,要求数据信息处理的反应时间也要尽可能缩短。
(二)大数据的来源。大数据的来源是多方面的,就技术和社会层面而言,主要由三个方面构成:
1.来自交易平台。从电子商务到电子政务的发展,从ERP(企业资源技术系统)到OLTP(在线交易处理系统),无论是传统的结构化数据或是非结构化数据正以前所未有的速度迅速增长。
2.来自交互平台。这一方面的数据来源于各种论坛、社交网站,如 YouTube、Facebook、微信、QQ 等的文本、照片、视频,人们每时每刻不断用各种方式不断表达自我、分享喜悦。
3.来自处理平台。各种平台都需要数据管理系统,常见的方式是使用各种管理工具处理来自各客户端的各种数据。
(一)数据挖掘技术概述。数据挖掘是一门涉及统计、信息处理、数据库技术等方面知识的综合技术,它并不是这几年才出现的技术,而是在计算机性能提高,网络带宽增大,应用需求迫切的情况下迅速发展并进入公共视线的。数据挖掘通常与计算机科学关系较为密切,现在提到更多的是大数据挖掘,是已有的海量数据中的知识发现,通常应用于统计、在线分析、情报检索、机器学习、专家系统和模式识别等多个方面。
(二)数据挖掘在各行业中的应用。数据挖掘技术如今已经在各行各业中得到广泛应用,如在冶金产品质量控制中用于质量精准控制;在电子商务的应用中从网页的设计、客户关系管理、网络营销三个角度预测并优化;在商业数据分析中按企业既定业务目标,对大量数据进行深沉次分析,支持商业决策活动;在金融领域、在资本市场,通过大数据挖掘,给交易者提高准确及时的预测,为内部风险控制和监管提供更加准确和透明的风险信息;在科研如基因序列分析的关键技术研究中,使研究人员更易从浩瀚的生物序列中发现知识和解释生命的奥秘;在软件工程中,从软件的开发和管理工程出现的海量数据中快速找出影响软件开发的大问题,缩短开发周期,减少BUG;在客户关系管理中,通过数据挖掘可以及时准确地了解客户的偏好和需求,向客户提供个性化服务,与客户建立长久、稳定、良好的沟通关系,建立一种良好的新型客户管理机制。
(一)分布式数据库概述。分布式数据库(DDBS)的设计思路是将原来集中的数据库数据,通过计算机和高速网络分散到多个存储元,通过全局性调度管理数据库集管理,形成逻辑上统一,实际上分散的数据库形式。通过这种形式,可以提高数据库的存储容量和高并发性,提高访问效率和访问量,分布式数据库的体系结构图如图1所示。
图1 分布式数据库体系结构图
随着大数据时代的到来,传统的关系型数据库也逐步从集中存储转变到分布式存储,从集中式运算转变到分布式计算。数据库相关应用也逐步在使用D非关系型数据库,如NoSQL文档型数据库。分布式数据库技术也得到了快速的发展,传统的关系型数据库开始从集中式模型向分布式架构发展,基于关系型的分布式数据库在保留了传统数据库的数据模型和基本特征下,从集中式存储走向分布式存储,从集中式计算走向分布式计算。
(二)分布式数据库技术的特点。由于存储和处理大数据的需要,数据库需要具有物理分散布置、局部场地自治和场地间协调的特点,分布式数据库不仅具备这些特点,还具备灵活的体系结构、分布式管理机构;较好的经济性能;较高的系统可靠性高、可用性、可扩展性好;但是由于分布式数据库需要较多的异步操作和网络操作,必然会增大系统开销,特别在网络通讯和协调计算方面尤为突出,另外由于数据来源不一致,可能会导致复杂的数据结构和大量的预处理操作,而且由于数据不单单在本地处理,可能还存在较为明显的数据安全问题。
(一)云计算概述。云计算是客户/服务器(B/S)模式的一种转变,“云”一般用来比喻网络即网络上的虚拟化资源,云计算是一种通过网络,按流量付费使用数字资源的一种模式,它具有分布式、虚拟化、并行计算、网络存储等特征,是计算机和网络高度融合的产物。云计算的概念最早出现在1980年,2006年时又由Google首席执行官埃里克·施密特(Eric Schmidt)正式提出,经过了电厂模式、效用计算、网格计算和云计算四个阶段才发展成熟,现在随着网络带宽增大,网络数据爆炸式增长,网络大数据处理技术升级,云计算正逐步被普及和应用。
(二)云计算技术大数据背景下的应用。云计算和大数据是两个不同的事物,简单来说,云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。从技术上看,云计算和大数据密不可分,就是事物都具有两面性一样,大数据意味着不可能使用一台计算机进行处理,而大数据的存储、处理都需要云计算的分布式环境、分布式数据库、虚拟化等技术的支持,在大数据背景下,云计算已发展了很多具体应用,如云物联,云游戏、移动云服务、云存储等。
大数据因为种种原因引起人们的广泛关注,各大公司和开发者们投身于新技术的研发,大数据以Hadoop以及“NO SQL”为主的Mongo和Cassandra等数据库技术在不断展现,目前市场上超过25万个开源技术已经出现,大数据的应用会越来越广、越来越精确,本文仅就大数据背景下的主要信息处理技术作粗浅分析,希望能为大数据的引用起到有益引导。
[1]严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013,4:168 ~171
[2]《中国电子科学研究院学报》编辑部.大数据时代[J].中国电子科学研究院学报,2013,1:27~31
[3]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机技术与发展,2013,1:146 ~149
[4]杨泽民.数据挖掘中关联规则算法的研究[J].软件,2013,34(11):71 ~72
[5]韩少锋,陈立潮.数据挖掘技术及应用综述[J].机械管理开发,2006,2
[6]钟瑛,张恒山.大数据的缘起、冲击及其应对[J].现代传播(中国传媒大学学报),2013,7