米林
什么是大数据
大数据(Big Data),也叫巨量资料。由于它所涉及的资料量规模巨大,因此无法通过目前的主流软件工具,在合理时间内进行撷取、管理和处理,并整理成更加有助于企业经营决策的资讯。“大数据”是业内的热门词汇,描述了企业大量积累、存储和挖掘大文件(400GB到TB级)的现象。随着信息质量、种类和丰富性达到新的水平,“大数据”的发展日臻成熟。
大数据的特点
对于大数据,现在比较流行的是用4个“V”来总结其4个层面的含义:容量巨大(Volume),数据已从TB级别跃升至PB级别;数据类型多(Variety),从普通的文字、视频、图片到逐渐增多的地理位置信息等,类型纷繁,已无规律可循;价值密度低(Value),以视频为例,在连续不间断监控过程中,可能有用的数据也许只有一两秒;处理速度快(Velocity),实时分析对某些应用才更有意义,而不是批量式分析,即时处理已经成为一种趋势。
大数据管理技术
人们对大数据的关注度在不断升温,而大数据管理的技术也层出不穷。在众多技术中,有6种数据管理技术普遍被关注,即分布式存储与计算、内存数据库技术、列式数据库技术、云数据库、NoSQL、移动数据库技术。其中分布式存储与计算受关注度最高。分布式存储与计算架构可以让大量数据以一种可靠、高效、可伸缩的方式进行处理。因为以并行的方式工作,所以数据处理速度相对较快且成本较低,Hadoop和NoSQL都属于分布式存储技术的范畴。
内存数据库技术可以作为单独的数据库使用,还能为应用程序提供即时的響应和高吞吐量,SAP的HANA是该技术的典型代表。
列式数据库的特点是可以更好地应对海量关系数据中列的查询,占用更少的存储空间,这也是构建数据仓库的理想架构之一。
云数据库可以不受任何部署环境的优势,随意进行拓展,进而为客户提供适宜其需求的虚拟容量,并实现自助式资源调配和自助式使用计量。目前微软的SQL Server可以提供类似的服务。
甲骨文在2011年推出了Oracle NoSQL数据库。NoSQL数据库适合于庞大的数据量、极端的查询量和模式演化。企业可以通过NoSQL得到高可扩展性、高可用性、低成本、可预见的弹性和架构灵活性的优势。
移动数据库技术是移动计算的产物。随着智能移动终端的普及,人们对移动数据实时处理和管理要求的不断提高,移动数据库具有平台的移动性、频繁断接性、网络条件的多样性、网络通讯的非对称性、系统的高伸缩性和低可靠性以及电源能力的有限性等。
大数据的应用实例
实例1:《纸牌屋》
《纸牌屋》是全球最大的流媒体运营商Netflix首次自行制作,并且完全依靠网络发行的电视剧,它的热播使Netflix订户数超越了传统的HBO电视网。
《纸牌屋》的走红是必然的,它是大数据分析在具体行业成功应用的经典案例。美国新闻网站Salon.com曾这样描述:用户只要登录Netflix,其每一次点击、播放、暂停甚至看了几分钟就关闭视频,都会被作为数据进入后台分析。这样一来,Netflix就能精确定位观众的偏好,比如“最爱Kevin Spacey”,或者“最爱政治剧”。Netflix在拍摄前事先分析了订阅用户们的观影数据和操作习惯,保证其首部原创剧集可以精确命中最大量的潜在观众。Netflix在决定投资翻拍《纸牌屋》前做了两件与大数据分析紧密相关的事:挑选演员、决定播放形式。
追踪和分析订阅用户数据并不简单,基于基础数据派生的扩展数据量非常大。这一过程不仅仅要分析观众喜欢看哪些主题的电影和偏好,还要统计观众如何观看电影和观影过程、观影过程中暂停的次数、会在看到几分钟的时候关闭视频等等,这些操作都会被作为数据进入后台分析。过去,Netflix只是用这些数据来做影片推荐。如今,Netflix会投其所好,根据这些内容拍摄用户感兴趣的电影。
通过数据分析,Netflix发现喜欢观看1990版《纸牌屋》的影迷们同时喜欢看导演David Fincher的作品。另外,他们会经常观看奥斯卡影帝Kevin Spacey的作品。因此,新版《纸牌屋》邀请了David Fincher(制作人)和Kevin Spacey(男主演)加盟,这完全是基于影迷数据分析得出的结论。
实例2:从4天到1个小时——大型在线扑克公司的反欺诈术
欧洲的一家大型在线扑克公司的员工在爱尔兰,而机房却建在加拿大。在这家公司的网站上有虚拟牌桌,6—10个人一桌在线玩德州扑克。该公司会从赢者那里提成0.5%,在线玩游戏的人越多、玩得次数越多,该公司的盈利就更有保障。
除了吸引更多人来玩在线扑克,公司更重要的是做好反欺诈工作。玩这种在线扑克时的欺诈行为一般有三种类型:第一,不同玩家线下串谋,线上打配合以增加玩家自己获胜概率;第二,洗钱,通过信用卡故意将钱输给下家;第三,外挂,研究算法比较好的人会自己写程序然后挂到网站上,可以同时玩100桌获得盈利。
该公司需要将这些欺诈行为全部找出来,识别不同模式。例如,他们通过分析玩家每一轮下了多少注、不同玩家之间下注的时间间隔以及非常规打法的记录等大量数据,就可以判断这些玩家背后是真人在玩还是机器外挂在玩、是否有线下串谋等欺诈行为。
为了识别欺诈,该公司请来了三位毕业于加拿大某学校的扑克牌专业的博士,通过算法识别欺诈行为,并开发反欺诈程序。过去,他们是将这些记录的结构化数据压缩成一个文档放到数据库里,需要分析时将文档调出,用他们花费一年半时间开发的Java软件运行分析,需要4天结果才能出来,也就是如果星期一有人做了欺诈行为,到星期五才能发现。而现在,该公司用两天时间将算法移植到TeradataAster平台之上,通过一个开源的解压代码把压缩的资料在库内做解压,然后在数据库系统内运行欺诈分析。这种做法的好处是大批量的数据不用传来传去,再加上算法优化之后,原本需要4天的欺诈行为分析只要60分钟就可以完成了。
大数据的未来发展前景
一、推动信息产业创新
据国际数据公司的监测统计,2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB,1.8ZB相当于18亿个1TB移动硬盘的存储量),而这个数值还在以每两年翻一番的速度增长。预计到2020年,全球将拥有35ZB的数据量。
随着面向大数据市场的新产品、新技术、新服务、新业态的不断涌现,大数据将加速信息技术产品的创新融合发展。对数据快速处理和分析的需求,将推动商业智能、数据挖掘等软件在企业级的信息系统中得到融合应用,成为业务创新的重要手段。同时,物联网、移动互联网的迅速发展,使数据产生速度加快、规模加大,迫切需要运用大数据手段进行分析处理,提取有效信息。大数据面临的有效存储、实时分析等挑战,将对芯片、存储产业产生重要影响,推动一体化数据存储处理服务器、内存计算等产品的升级创新。大数据应用也使基于云计算的业务创新和服务创新成为现实。
二、推动社会发展
大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展。麦肯锡研究表明,在医疗、零售和制造业中,大数据可以每年提高劳动生产率0.5-1个百分点。
宏观层面,大数据使经济决策部门可以更敏锐地把握经济走向,制定并实施科学的经济政策。微观方面,大数据可以提高企业经营决策水平和效率,给企业、行业领域带来价值。
大数据技术作为一种重要的信息技术,能够提高安全保障能力、应急能力、优化公共事业服务,提高社会管理水平;能够对多种渠道的信息快速进行自动分类、整理、分析和反馈,弥补情报、监视和侦察系统的不足,提高国家安全保障能力。