孔德汉+钟怡雯
摘要:随着信息技术的飞速发展,使用互联网的人数越来越多,人们需要处理的数据日益增加。如何对大量的数据进行分析和归纳,并从杂乱无章的数据中发现其隐藏的特征和规律,从而被人们加以提炼和使用,这正是该文所要探讨的问题。该文以大数据的相关理论知识为背景,阐述了大数据在互联网中的实际应用及其发展前景。
关键字:大数据;互联网;数据分析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)22-0006-03
1前言
在过去的几十年里,大数据这一术语正是产生在全球数据爆炸增长的背景下。大数据被挖掘的隐藏价值则会给各个领域的发展带来新的机遇,然而同时也给数据的有效组织和管理的研究带来了新的挑战,无论涉及科学研究还是实际应用,大数据都将持续给我们的生活带来潜移默化的改变。
在商业、经济及其他领域中,决策将渐渐基于数据和分析而作出,而不是根据经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。” 而根据大规模的数据增长,互联网的意义也越发重要,现在人们的生活与互联网息息相关,不知不觉中就提供了数据信息,如果这些信息被有效的提炼和分析,无论对商业还是生活都极具价值。“大数据”时代已经降临。
2大数据的内涵及关键技术
2.1大数据的内涵
在获取、存储、管理、分析方面,其范围大大超出了传统数据库软件能力范围的数据的集合。它具有数据规模大、数据流转快、数据类型多样和价值密度低四大特征。当然,不同行业的数据有不同的自身特点,还需要结合自身的行业知识才能把大数据转换为价值。
2.2 大数据的关键技术
2.2.1分布式计算框架
Google开发的一种简化的分布式编程模型和高效的任务调度模型是MapReduce,用于大规模数据集(>1TB)的并行运算,使云计算环境下的编程变得非常简单,用户按照自己熟悉的语言实现Map函数和Reduce函数使用该编程模型,MapReduce算法框架会自动对任务进行划分以做到并行执行。
2.2.2分布式文件系统
基于云计算的大数据处理系统利用分布式存储的方式来保存数据,以保证高可用、高可靠和经济性,并用冗余存储的方式保证数据的可靠性。目前广泛使用的分布式文件系统是GFS,是由Google的GFS和Hadoop团队开发的,它可开源实现HDFS。HDFS即Hadoop分布式文件系统,它很适合那些有大数据集的应用,并且提供了数据读写的高吞吐率,同时它具有高容错性,可以被部署在低价的硬件设备之上。
2.2.3实时流处理技术
随着互联网业务发展的步伐,以及业务流程的复杂化,企业的注意力越来越集中在“数据流”而非“数据集”上面,他们需要的是能够处理随时发生的数据流的架构,数据流处理强调的是数据流的形式和实时,当MapReduce任务启动时,一般数据已经到位了,而流式计算系统在启动时,一般数据并没有完全到位,而是经过外部数据源源不断地输入,它重视的是降低数据处理的延迟,数据进入的越快,处理的就越好,结果就越有价值,这也是实时处理的价值所在。
2.2.4云计算技术
云计算技术的兴起有效地解决了由于海量不同类型碎片化数据的产生,常规的技术已经不能胜任PB级大规模数据的计算这一问题。云计算技术把大量分散的数据从手机端、电脑端以及其他智能终端统统传送至云平台,再通过一个大规模的分布式系统加以计算和高效分析,从而提炼出富有价值的数据和信息。云计算技术可以说是处理海量数据成本最低和效率最高的解决方案。
3大数据技术在互联网领域中的应用
3.1电子商务
国内外的电子商务巨头如淘宝、京东、亚马逊、沃尔玛等,在电子商务领域捭阖纵横,都是由于不断地利用大数据技术Hadoop。Hadoop是在电子商务领域中应用非常广泛的大数据技术。
利用大数据Hadoop技术对网络购物、网络消费、网络团购、网上支付等数据进行深度挖掘、深入分析,将可发现大量有价值的信息与统计规律,对布局和推动今后中国互联网经济的健康有序发展、加强国家对该领域的宏观调控和监管等,均将产生积极的影响。
电子商务的竞争在很大程度上就是大数据的竞争,经历了基于用户数量的时代、基于销量的时代,现在的电子商务已经处在基于数据的时代。近年来,淘宝、京东等网络零售第三方交易平台和电子商务网站上已经聚集了大量的经营者、消费者和商品服务,并因此而衍生出了大量的数据,电子商务企业通过对这些海量的数据进行收集、分析、整合,挖掘出对自己有用的信息,分析不同用户群体的特征,根据用户需求和兴趣在正确时间,给正确用户投放正确内容的广告,来保证营销的有效性。通过基本的人口统计信息以及其潜在需求、购物行为、购物关注点等来挖掘相应的营销需求,利用多方位采集到的用户数据信息来界定消费者,实现更加精准的营销效果。
3.2 旅行预订
利用分布式计算架构下应用驱动的计算任务加载及调度算法优化,通过对各类计算任务执行情况进行深度学习,了解不同任务在不同数据量、不同计算规模、不同资源配置等情况下的时间、空间复杂度,从而以应用为驱动,以任务复杂度为依据,对计算任务进行动态调度规划,可以达到资源调配效果,从而实现旅游大数据分析的真正实用化。
对于游客们来说,旅游网站让他们出行有了更多自主选择的权利,但是海量的景点、酒店、线路等让他们犯上了选择障碍。同时,每一个出行者的出游方式、目的地和酒店偏好等都不尽相同。这样利用分布式计算架构就可以很好地解决这些问题,帮助游客获得想要的结果。例如,用户机票数据和酒店数据打通后,实现用户拉通,就可以把机票流量导入酒店中,这与常规互联网企业导流不同,不是流量分散而是凝聚,机票和酒店流量互补并且是刚需。当用户预订或购买了机票,根据用户偏好和位置信息及时推送酒店信息,即为企业增加了用户流量,同时也解决了用户的需求痛点。
3.3社交网络
社交网络成为互联网时代民众新的通信、社交和发表见解手段。利用云计算技术对此进行深入分析,可更好地发现民众新的交往习惯与方式、民众关注的社会问题与社会热点、民情民意,为改善互联网时代的通信和社交服务、更好地体察民情和改进社会管理等提供参考。
社交网站相较于其他网站的显著优势就在于它多年积累的海量用户数据,但只有有了数据分析,才能发挥数据的真正价值。腾讯qq空间通过对用户的浏览行为、浏览页面关键字等的分析得出用户的近期需求和长期爱好,再通过分析用户的朋友圈,获得用户的教育、工作、收入、地理位置等信息,从而给广告主带来广告的精准投放超乎想象。同样的借由大数据技术的应用,新浪微博挖掘与其用户基本信息、教育信息、职业信息等和现实身份挂钩的个人资料,建立该用户的朋友圈、事业圈,并按整理后的用户资料及亲友相关信息提供朋友推荐。通过显示数据相同或相似的信息,微博用户可以扩大、维系其现实生活、虚拟世界两个范畴中的人际圈,不仅有利于感情的联系和加深,同时有利于个人事业的发展。同时新浪微博挖掘、提炼其海量数据中的有利价值,开发了风云榜、微数据、微报告等应用,增强微博平台的营销优势,提高用户体验,增加微博用户的流量,而第三方也可以通过挖掘微博应用的数据价值为企业提供决策参考的依据。
3.4 智能电网
随着电网技术水平的不断提升,使得大数据关键技术在电力系统中的应用量快速增长,这也导致了其数据量和信息量的飞速提升,因此对电力系统的信息处理能力提出了更高的要求。为了更好地解决这一问题,目前很多厂家希望通过建立Hadoop 架构上的数据平台和商务服务这些措施来有效地提升自身电力系统的信息处理能力,利用该软件来对海量的数据信息进行收集和处理,并且能够建造在其基础上的Datameer 系统提供的电表格式界面,从而使得用户能够更加方便的处理和分析数据。将该数据处理系统应用于电力企业的发展当中,对于其多元化的发展具有非常重要的促进作用。
4大数据的发展前景
4.1在电子商务方面
4.1.1不断提升数据处理能力
大数据的关键在于应用,为了充分发挥其价值,只有将大数据进行处理、分析与应用。在实际的推荐系统中,利用机器学习、自然语言理解、大数据分布式存储和并行处理等技术,促使商家开放数据或者部分数据,需要在数据安全、数据使用的商业模式和技术等多个层面改变观念、不断创新才能实现。然而数据挖掘与分析对技术能力要求很高,很多企业并不具备这些能力,即使他们拥有很多数据,所以提高数据处理能力是目前电商企业的首要任务。
4.1.2充分保障数据安全性
随着技术的发展、数据的收集,电子商务已汇集了消费者基本信息、偏好信息、交易信息、社交信息和地理位置信息等消费者的全面信息。由于大数据属于新生事物,我国在数据隐私安全性和数据控制方面一直存在很大的不足,关于数据安全方面的法律法规也比较简单。因此,企业为消费者提供个性化服务,同时要做到确保用户的隐私不受侵犯,而我国相关部门也应及时加强这方面的法律法规,为数据安全提供保障。
4.2在网络游戏方面
在游戏行业中,大数据未来的有效应用就是预测流失,不需要理解游戏,只要把足够多的数据放进去,就能预测流失,发现有些用户快要流失,就想办法给他们好处,留住他们。但是没有足够数据训练的游戏项目组也很难配合起来,所以这种方式的应用,需要企业对数据挖掘团队进行大力投入。
4.3 在社交网络方面
微博、微信、QQ等社交平台的用户持续增长,他们要在此平台结交朋友,发布信息,据调查,利用社交网络大数据可以得知用户的购物喜好、游戏喜好等信息,一方面可以对社交网络的服务进行调整;另一方面,这些大数据还能够使网站经营者更加了解在线用户的需求,并针对需求,开展相对应的服务。将电子商务和网络游戏等结合起来,或者建立直达链接,不仅仅会为社交网站带来更大的经济效益,也能够带来更好的用户体验。
5结束语
虽然近年来,大数据技术已经获得了很大程度的进展,但由于大数据的复杂性,如何对其进行更加准确、全面的分析依然是一项重要的挑战,并且在互联网高速发展的今天,如何将大数据和互联网结合起来,如何使大数据在互联网中得到良好的应用,以便于帮助互联网进行决策,依旧需要众多科研工作者的努力。随着大数据技术在互联网中的普遍应用,我们的生活也将要发生翻天覆地的变化。大数据通过对海量数据进行分析,以一种前所未有的方式,从人类的发展中获得具有巨大价值的产品和服务,最终形成变革世界的力量。
参考文献:
[1] 彭小圣,邓迪元,程时杰,等.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,2015(3):503-511.
[2] 王秀磊,刘鹏.大数据关键技术[J].中兴通讯技术,2013,19(4):17-21.
[3] 蒋晓科,符龙生,李健,等.大数据关键技术及应用研究[J].电脑知识与技术,2015(8):5-6.
[4] 李娜.基于云计算的数据关键技术的研究[J].信息与电脑,2015(23):36-37.
[5] 韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):37-40.