肖钰麟 田新
摘要:大数据时代,通过分析获得大数据的衍生价值和潜在价值,对企业在各个领域获取竞争优势、引领行业发展十分重要。大数据的异构性、规模性、及时性、复杂性以及隐私问题成为数据创造价值进展过程中的阻力。文章讨论了物联网数据的问题和挑战,提供了物联网数据处理的计算基础架构,重点关注大规模数据处理面临的挑战。通过讨论新兴计算技术,为改善大规模数据管理提供帮助。
关键词:大数据;云计算;可扩展性;异构计算;海量数据处理技术
网络技术已经渗透到人们社会生活的方方面面,甚至是不可或缺。移动手机和其他移动通信设备,如笔记本电脑、平板电脑、电子书阅读器如Kindle*HNook、GPS车载信息系统等,几乎所有的社交媒体都在广泛使用网络,移动互联的便利越来越多地被用户接受。未来“物联网”生态系统将主宰世界,每一个有形实体都有一个身份,和用户对话交互,通过触摸掌上电脑PDA或单击鼠标键你就可以控制所有的物品。
每一件日常用品都可以通过互联网寻址和控制。人们获取信息和交流的方式发生根本性的改变。可以预计,在不久的将来,几乎所有物品和每个人都能够实现实时无线互联。在未来,移动手机将作为中心或远程控制器,联系人们周围的一切,这是所谓的物联网。
物联网的概念于1999年提出,物联网是一个动态、具有配置功能的全球网络基础设施,基于国际标准、能够共同操作的通信协议,是将所有物品通过各种信息传感设备,如射频识别装置、红外感应器、3s技术(即遥感技术+地理信息系统+全球定位系统)、激光扫描器等各类装置与互联网结合起来,实现数据采集、融合、处理,并通过操作终端,实现智能化识别和管理u。。在此定义的“物品”具有物理身份和虚拟身份2个身份,物理属性和虚拟身份使用智能接口无缝地集成到信息网络,这是未来互联网的一个集成部分。据研究估计,到2020年,连接物品对象的数量将达到500亿。物联网承诺人类生活在一个智能的、高度网络化的世界,在这个世界里,它允许广泛地与环境交互。无论你去哪里,都可以运用对象超链接。手机终端是验证这些连接的,并保持连接的关键设备。对象超链接又称硬链接,是一个新词,通常指互联网延伸到现实世界中的对象和地点。
对象超链接通过URLs(地址)对现实世界的对象进行标记,有形的物体或位置就成为元对象,目标是实现网络到现实世界的扩展。大多数物体的某些特性被标记集成或附加到对象。这些标记可以使用不同种类的无线近场通信进行分析,例如使用RFID标签或蓝牙设备,其他视觉标记可以使用相机扫描进行分析,例如标准的一维条形码或现代流行二维条码。这些对象标签可以被无线移动设备读取,对象和位置相关的信息就会被检索并显示。使用RFID标签,每一个实际物体在模拟计算机世界里可能有一个唯一的识别号码,像一个IP地址一样。
1.物联网数据处理
在大数据时代,通过分析获得大数据的衍生价值和潜在价值,对企业在各个领域获取竞争优势、引领行业发展十分重要。物联网的兴起,导致产品的数量数据和产品类型数据以前所未有的速度增长。大数据的异构性、规模性、及时性、复杂性以及隐私问题成为数据创造价值进展过程中的阻力。在物联网中,传感器、执行器、RFID标签是物理对象的表现,从公路到心脏起搏器,它们通过供应链被放置在不同种类产品中,通过有线和无线网络连接,对库存商品监控、住院病人管理、停车场和互联网汽车上使用一系列的传感器进行管理,方便了各种不同数据的采集。
专业人士积极利用大数据可挖掘出有价值的信息,这要求计算机具备巨大的存储和计算资源,加上先进的软件系统,能保证分析各种图形的运算、生成和显示。物联网导致产品的数量和类型方面的数据以前所未有的速度激增。公司运用这些数据进行分析,进而改进业务流程,预测趋势和损失。这些数据也可以为产品开发、客户支持、生产经营和团队营销提供决策信息,利用这些信息来改善产品的性能、增加收入、降低成本等。
2.物联网数据的特征
(1)物联网生成大量的数据信息。物联网信息生成的速度远远超过了传统系统,并且产生各种不同的类型的监测信息。新兴数据形式的多样性表明现实社会存在许多有趣的企业。例如,国外的Twitter、Facebook和国内的微博、微信等社交媒体已经成为大数据的主要来源之一。2015年8月,美国的Facebook首次突破在一天内达到10亿人在线,而国内腾讯QQ目前历史最高实时在线人数已达2.28亿。由于传感器与世界互动,“物联网”产生的数据量是相当可观的,数字处理需求成为可行。
(2)物联网数据的多样性。与传统的事务处理不同,“物联网”爆炸式数据量来自传感器,数据可以不断采集,且速度快。“物联网”数据的多样性取决于传感器的类型和不断扩大的数据源。处理大量复杂数据和信息的方式也多种多样,这取决于数据背后的语义模型。因此,数据收集形式也不同,因为有结构化的数据、非结构化的数据、半结构化的数据以及混合型数据。数据的多样性对数据存储和数据库设计催生新的需求,比如要求数据库动态适应数据格式等。
(3)物联网数据的真实性。数据的真实性可以确保使用的数据是可信的、真实的和受保护的,以免受未经授权的访问和修改,保证数据在整个生命周期的安全性。从可信任的来源收集数据,在可信任的计算设施上处理数据,在可信任的存储设施上存储数据。随着时间的推移,“物联网”数据的真实性也可以改善传感器和其他数据的质量。例如,使用RFID生成比10年前更可靠的信息。数据生成量大,加上越来越快的生成速度以及日益增加的数据样式,大量的原始数据需要分析处理来创造新的价值。
3.物联网数据处理的变化与挑战
通过物联网传感器产生的数据以指数级速度增加。数据的异构性、规模性、及时性、复杂性和数据隐私问题阻碍了数据从采集到创造价值各个进展的所有阶段。加上数据正日益变得更加多样化、复杂化和去结构化,对数据的迅速处理己势在必行。满足这样的需求对传统数据库构成了巨大的挑战。它需要巩固电子基础设施平台,以确保研究连续性和跨学科协作、提供持续的服务,与之适应的治理模式,还有升级所需的架构满足这些需求。这种大数据根本上的需求需要大规模分布式架构和大规模并行处理管理和分析数据。endprint
巨大的物联网数据被3个主要数据库管理:收集数据库、查询数据库和管理数据库。所有这些主要的挑战是数据通信。通信成本远远高于处理成本,通信成本最小化,同时满足额外的存储和数据需求。网络带宽和延迟是网络2个主要的性能,网络性能将影响客户端和数据服务器间的通信。
4.大数据管理相关技术
相关研究人员在大规模数据管理方面已作了大量的工作。冈萨雷斯提出RFID-Cuboids模型,存储大规模RFID数据。也有许多作者提出一对一的模型和多对多模型存储的WSN(无线传感器网络)数据。为管理从不同设备提取的异构数据,杨斌提出了基于SOA(面向服务的体系结构)的物联网数据管理解决方案,但是,SOA架构应用程序的效率可能会降低。此外,上述解决方案的主要缺点是,它们只对特定的数据格式,缺乏系统性。针对大规模物联网数据处理的挑战,杨斌工作组集中关注其系统性方面,提出基于SOA物联网数据的框架来支持大规模物联网数据管理。但是丁治明解决方案的核心是RDBMS(关系数据库管理系统),尽管联合运算避免所有的数据存储在一个表中,但不支持并发控制,因为RDBMS采用了加锁机制。
Tingli Li提出了基于NoSQL的物联网存储管理架构,被称为IOTMDB,满足了物联网数据存储的需求。IOTMDB不仅关注如何合理和有效地存储大量的物联网数据,而且还关注到数据共享和协作。结合RNS物联网公共服务平台和基于本体的数据抽象,能够轻松地搜索和定位数据,最终实现不同的物联网应用程序之间的数据共享。物联网数据存储策略包括预处理机制和数据分布策略,以满足通用需求、特定需求和统一数据表达的需求。这些策略有利于提高数据聚集和存储的有效性。
目前占主导地位的大数据技术商业化代表是Apache的Hadoop和NoSOL。NoSQL数据库(Not Only SOL意为“不仅仅是SQL”)通常被认为是一项全新的非关系型的数据库,可以为大数据建立快速、可扩展的存储库,具有实时事件检测过程;也可以被看作是数据分析功能的促成技术,如上下文搜索应用程序。因为NoSQL模型具有灵活性,该模型可以根据数据的范围和格式,自动识别查询的维度,而不是由开发人员预先确定。这对数据科学家和业务数据分析师来讲尤其重要,他们通常在数据分析的初期使用这种敏捷的方法进行推测,以免使用的常规的方法信息被掩盖或受限制。
Hadoop是数据密集型的分布式应用程序软件框架,根据大量公开发表的学术论文,由谷歌公司研究并行处理领域的科研人员开发。Hadoop有2个主要组件:一个是Hadoop文件系统(HDFS)。一个高度可扩展的、便携式文件系统来存储数据;另外一个是Map-Reduce(映射一归约)模式。使用并行编程模型来处理数据。使用Map-Reduce模式框架允许分析数据分布式和高度可扩展性,并且Hadoop生态系统包括一系列工具来简化分析或管理更大规模的数据。这些工具创建Map-Reduce模式程序然后在HDFs系统中执行。分析工具主要包括:(1)Apache Hive接口工具。Apache Hive是数据仓库工具,提供一个简单的类似SQL的接口,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduee任务进行运行。(2)Apache Pig高级过程语言。该语言适用于Hadoop和MapReduee平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似SQL的查询,Pig可以简化Hadoop的使用。(3)Apache Mahout数据挖掘。通过灵活的机器学习来构建智能应用程序,进行数据分析。
Hadoop是专为大规模数据设计开发的软件,面向批处理,一个简单的查询可能仅需要几分钟就可返回结果。在典型的面向大数据分析环境中,数据专家使用这一系列工具,首先会选择通过一些小的数据集,把它以某种方式进行转换,然后与数据仓库中关系数据进行组合,进行数据分析。大数据分析通常具有探索性和迭代性特征,与传统信息管理案例相比可能需要更多的自由。
Hadoop提供了使用Map-Reduce模式框架这种基本功能分析数据,以及其他一系列的分析工具,同时,在每个分析过程中Hadoop还需要一个预备步骤。另外,Hadoop低成本的数据存储模型有助于提供一个数据池,这些数据池的每一项价值对组织来讲可能是有限的,但对于任何给定的业务问题可能每一项都是不可或缺的环节。数据可能被选中、转换和加强,然后转移到另外一个相关设备,与企业传统数据进行组合,执行更多的互动分析。Hadoop面向批处理,为了支持实时交互,要求其他技术也要同时具备。当前,这一领域最常见的技术是复杂事件处理(CEP)、内存分布式数据网格、内存数据库和传统的关系数据库。NoSQL数据库等相关技术也支持这些新技术,要么用于Hadoop集群的顶层使用,要么在特定的数据存储层使用。
5.结论
在海量数据的推动下,人们正进入一个研究异构计算驱动的新纪元。大数据的异构性、规模性、及时性、复杂性以及隐私问题成为数据创造价值进展过程中的阻力。设计一个可扩展的系统,在灵活并行性、灵活分区和灵活可扩展性方面进行开创性研究,以实现对现实世界数据集的分析、处理和挖掘,这种大规模的数据技术时代将创造出很多令人激动的研究机会和挑战。endprint