王青江?刘哲?郑林琳?刘雨濛
【摘要】:文章以大数据与云计算分析的结合这一热点问题为研究背景,分析了大数据背景下数据存储特点和面临的相关问题,进而介绍了大数据分析以及面临的挑战。在此基础上对基于云计算的大数据分析关键技术以及目前的解决方案进行了探讨。
【关键词】:大数据;云计算;大数据分析
随着通信行业竞争的不断加剧,运营商如何有效地利用庞大的信令数据进一步实现深度运营和精确营销已经成为当务之急,急需一种可控投入就可满足可控信令数据存储,并能高效地对其分析、挖掘信令数据价值的数据平台。BigData”大数据”是继云计算、物联网之后IT产业又一次颠覆性的技术变革,对国家治理模式,对企业决策、组织和业务流程,对个人生活方式都将产生巨大的影响。在研究领域,麦肯锡认为,数据已成为流入全球经济每一个领域的洪流。大数据完全能够成为企业的新型资产,形成竞争力的重要基础,并发挥重要的经济作用。IDC认为,大数据处理将在2012年成为一项必备能力。Gartner认为,2015年超过85%的财富500强企业将在大数据竞争中失去优势。2012年3月,奥巴马政府发布了“大数据发展计划”,并将其定义为“未来的新石油”。这一系列事件使得大数据成为又一个炙手可热的名词。电信运营商引入大数据技术,通过可控的成本实现海量数据存储分层的同时,通过缩短数据处理路径和提供超大数据处理带宽,有效减少数据分析响应时间,提升信令分析的业务价值,增强运营商核心竞争力
云计算是网格计算、并行计算、分布式计算的发展。云计算把大量的存储和计算资源,通过网络连接起来进行统一的管理和调度,構成一个资源池随时向用户提供按需服务。利用“云”,用户可以通过网络方便的获取强大的计算能力、存储能力以及基础设施服务等。云计算作为一种数据密集型的新型超级计算,其技术实质是存储、计算、服务器、应用软件等IT软硬件资源的虚拟化。云计算在数据存储、数据管理和虚拟化等方面具有自身独特的技术。
云计算技术的基础是信息存储的安全可靠性和读写的高效性。云计算采用分布式存储技术把海量的数据存储在服务器集群中,同时为一份数据存储多份备份,采用冗余存储的方式和数据加密技术来保证数据的安全可靠性,Google非开源的GFS和Hadoop团队开发的GFS的开源实现HDFS是云计算系统中广泛使用的数据存储系统。
云计算为大数据处理提供了一个很好的平台。大数据离不开云计算,云计算是大数据处理方式的最佳选择。云计算能为大数据提供了强大的存储和计算能力,能够更加迅速地处理大数据的丰富信息,并更方便地提供服务。云计算强调的是计算,而大数据则是计算的对象。前者强调的是计算能力,后者看重的存储能力。大数据需要处理大数据的能力,而这种能力其实就是强大的云计算能力;而来自大数据的业务需求,也为云计算的实施找到更多更好的实际应用。
在大数据背景下,首先需要考虑的就是数据的存储问题,传统的以关系数据库为基础的存储技术和方法已无法满足数据大量以及多样化的存储需求。对于存储大数据来说,分布式文件系统是一个可能的解决方案。在数据分析的背景下,分布式模型的优势一方面在于有效利用各集群节点的计算,另一方面,它提供了对任何数据进行测量的可能。
大数据的一个主要问题是其规模的巨大。世界上的数据正越来越快的速度增长。云计算提供了一个解决方案,以此来满足可量测性的需求,这个系统主要是将得到的数据传送到云后开始处理。使用标准的互联网连接将数据上传到云,是这个过程中的一个重要瓶颈。新技术需要研究和开发,以提高数据传送到云的运动效率。大数据存储的一个重要问题是存储的类型。使用云方法时,传统的数据库不适合发挥云的可量测性的优势。目前存在的系统虽然可以处理可量测性,但是它以牺牲关系模型提供的许多功能为代价,新的系统需要仔细考虑这些功能的需要,同时提供一个可测量的数据库模型。
大数据改变了数据存储的系统架构,促使这种转变有两个主要因素:一是基于需要高度的可量测性;二是灵活有效地处理大数据的需要。对于存储来说,分布式系统,如谷歌文件系统,被设计成可靠的和有效的集群存储。在这个系统中,数据通过群集节点被存储为64M的文件布局。两个额外的副本被存储用来提供备份。在GFS的顶端,Map/Reduce用于节点之间的数据处理,这更有效地推动该处数据的计算。Map/Reduce通过向数据所在的群节点发送指令,来充分利用文件系统的分布式体系结构。目前关于由谷歌处理大型数据集发展而来的Map/Reduce范式已经有了大量的研究,这主要是归因于两方面:处理功能简单和操作(复制、存储等)无挑战。应用最普遍的当属Hadoop,Map/Reduce工具和Hadoop分布式文件系统是其两个最核心的部件。然而,Map/Reduce范式从根本上是反对这个构架的,无论在指数还是图式上。基于这些问题的解决,促使建立在Hadoop核心部件上的几个系统有了较快发展。
参考文献:
[1]李欲晓.云计算大数据时代个人隐私保护刻不容缓[J].理论导报,2013,(7).
[2]张蕾.基于云计算的大数据处理技术[J].信息系统工程,2014,(4).
[3]韩晶.大数据服务若干关键技术研究[D].北京邮电大学,2013.
[4]李韧.基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D].重庆大学,2013.
[5]成静静,喻朝新.基于云计算的大数据统一分析平台研究与设计[J].广东通信技术,2013,(1).
[6]迪莉娅.基于云计算的电子政务大数据管理研究[J].信息管理与信息学,2013,12:50-51.
[7]吴雪琴,基于云计算的大数据信息检索技术研究[J].电脑知
识与技术,2014,10(10):38-41.
[8]冯海超.透视美国大数据爆发全景[J].互联网周刊,2013(1):38-41.