余涛
摘 要:大数据本身并不是一种新技术,也不是一种新的产品,而是这个时代出现的一种现象,是近年来研究的新技术热点。以互联网企业为主的信息通信企业是大数据应用的领先企业,它们具有较好的信息化能力并拥有数据优势,进而可以从技术能力、组织架构、业务应用等多个层面共同发展大数据。
关键词:大数据;信息通信;应用现状;协调发展
1、定义
大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示、数据可视化和数据应用等环节,其中数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据质量产生影响作用。通常,一个好的大数据产品要有大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释。
2、大数据的技术
技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术和存储技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
2.1云技术
大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架技术来实现,所以云计算充当了信息革命时期的发动机的角色。简单来说,云计算就是给数百甚至数万的电脑分配工作,而大数据在这个过程中充当电的角色。Facebook、Amazon、Google等一批互联网企业引领下,做成公用事业提供给用户。如今,在这种发展情况下,一种行之有效的模式出现了:云计算提供基礎架构平台,大数据应用运行在这个平台上。但是云计算的计算能力再强大,如果没有大数据的信息积淀,这种模式也无法运作起来。业内形容两者的关系也终究只是镜花水月。但是大数据的信息积淀再丰富,如果没有云计算的处理能力,这种模式也找不到用武之地。分布式处理需要用比如虚拟化技术,那么大数据到底需要哪些云计算技术呢?这里暂且列举一些,实时流数据处理、智能分析技术等。
2.2分布式处理技术
分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机,用通信协调地完成信息处理任务。这就是分布式处在控制系统的统一管理控制下,网络连接起来,处理系统的定义。以此例进行说明,Yahoo的Hadoop模式能够对大量数据MapReduce进行处理的技术,它是一个实现了Hadoop进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的方式。其包含的一种云计算的核心计算模式,是一种分布式运算技术。它的特性,第一,它是可靠的,因为它假设计算元素和存储会失败,也不会影响其计算结果。其次,确保能够针对失败的节点重新分布处理。维护多个工作数据副本,是高效的。PB 能够处理还是可伸缩的,Hadoop 通过并行处理加快处理速度。因为它以并行的方式工作,依赖于社区服务器,因此它的成本比较低,任何人都可以使用Hadoop 级数据。此外,Hadoop +HBase(文件系统,数据存储技术相关)=HDFS的构成,Hadoop你也可以这么理解数据库=数据处理+Map+Reduce
2.3存储技术
大数据存储的目的是支持大数据分析。这两者的关系是:大数据可以抽象的分为大数据存储和大数据分析,大数据存储致力于研发还是两种截然不同的计算机技术领域:到目前为止,撑大数据分析。EB甚至PB可以扩展至大数据分析。关注在最短时间内处理大量不同类级别的数据存储平台型的数据集。集成电路的复杂性就增加一倍。提到存储,有一个著名的摩尔定律相信大家都听过:成本的不断下降也造就了大数据的可存个月就下降一半。比如,还在不断扩展的Google万块硬盘,而且100万台服务器和其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上,升级其计算能力和存储能力,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。该服务旨在让开发人员能 Internet是一种面向Amazon S3举例,Amazon以Amazon S3更轻松的进行网络规模计算。在服务界面上,用户可通过它随 Web 提供一个简明的此服务让所有开发人员都能访问同上的任何位置存储和检索的任意大小的数据。Web是在用它来运行其全球的Amazon 一个具备高扩展性、可靠性、安全性和快速价廉的基础设施,S3再看看网站网络的可用性,并能够承受两个设施中的数据同时丢失。99.99% S3云的存储对象已达到万亿级别,而且性能表现相当良好。S3很成功也确实卓有成效,S3目前全球的对象执行请求也达到百万的峰值数量。AWS同时云已经拥万亿跨地域存储对象,运行自己的全部或者部分日常业务。AWS范围内已经有数以十万计的企业在通过这些企业用户的身影。Amazon多个国家,几乎世界上的每个角落都有遍布。
3、大数据处理技术的展望
3.1对于企业
对于企业的大数据,外部数据的重要性日益提高。这里尤其有两个明显的现象:最终形成“数据供应链”单一企业的内部数据与整个互联网数据比较起来在互联互通的互联网时代,超过内部数据。能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司只是沧海一粟:会有明显的综合竞争优势。成功转向了软件和服务,而这次将远离服务与PC举例,上一个十年,他们抛弃了IBM的执行总裁罗睿兰认为,IBM更多地专注于因大数据分析软件而带来的全新业务增长点。
3.2 对于个人
可由本人授权提供第三与个人相关联的各种有价值数据信息被有效采集后,个人的大数据方可进行处理和使用,并获得第三方提供的数据服务。每个用户可以在互联网上注册个人的数据中心,未来,用户可确以存储个人的大数据信息。并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数定哪些个人数据可被采集,比如,牙齿监控数据,心率数据,体温数据,视力数据,记忆能力,地理位置信息,社购物数据等等。用户可以将其中的牙齿监测数据授权给饮食数据,会关系数据,运动数据,牙科诊所使用,由他们监控和使用这些数据,进而为用户制定有效的牙齿防治和维护计划由他们监测自己的身体运动机能,也可以将个人的运动数据授权提供给某运动健身机构,还可以将个人的消费数据授权给金融理财机构,并有针对地制定和调整个人的运动计划。他们帮你制定合理的理财计划并对收益进行预测。比如罪案预防监控中心可以实时的监控本地授权,即可提供给国家相关部门进行实时监控的每个人的情绪和心理状态,以预防自杀和犯罪的发生。
随着互联网及计算机技术的飞速发展,各类应用层出不穷,引发了数据规模的爆发式增长,数据分析和数据渗透到了当前的各行各业中,大数据时代已经来临,相信在不远的将来,大数据必将给我们的生活带来深刻的变革。