大数据技术在电子商务中的研究和应用

2015-04-29 00:44齐丽娜
计算机时代 2015年11期
关键词:大数据技术电子商务

齐丽娜

摘 要: 云计算、物联网、社交网络、移动互联网等新兴技术层出不穷并不断发展,促使各种数据逐步呈现出爆炸性增长的趋势。数据的影响已经渗入到了产业、科研、教育、家庭和社会的各个层面,人类全面进入了大数据时代。大数据事关国计民生、产业兴衰、公司存亡。文章重点研究了当前主流的大数据技术Hadoop,分析了其体系架构和工作原理,对Hadoop技术在电子商务领域的应用场景进行了分析和探索。

关键词: 大数据技术; 电子商务; Hadoop; HDFS; MapReduce

中图分类号:TP311 文献标志码:A 文章编号:1006-8228(2015)11-32-04

Abstract: With the rapid development of emerging technologies such as cloud computing, the Internet of Things, social networks and Mobile Internet, all data is gradually showing a trend of explosive growth. The impact of data has penetrated into all aspects of industry, scientific research, education, family and society. Mankind has entered the era of Big data. Big data is beneficial to the people's livelihood, industry development, the survival of the company. This paper focuses on the research of the current mainstream Big data technology Hadoop, analyzes the system structure and working principle, explores the application of Hadoop technology in the field of electronic commerce.

Key words: Big data technology; electronic commerce; Hadoop; HDFS; MapReduce

0 引言

随着云计算、物联网、社交网络、移动互联网等新兴技术的层出不穷和不断发展,人类全面进入了大数据时代。各种数据正在迅速膨胀、变大,逐步呈现出爆炸性增长的趋势,数据的影响已经渗入到了产业、科研、教育、家庭和社会的各个层面。随着时间的推移,人们将越来越多的意识到对数据的需求和掌握已不再局限于以往的数据挖掘和数据分析,而是为人们获得更为深刻、全面的洞察能力提供前所未有的支持。《纽约时报》2012年2月的一篇专栏中称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而做出,而并非基于经验和直觉[1]。2012年3月,美国总统奥巴马公布了美国《大数据研究和发展计划》,标志着大数据已经成为美国的国家战略,上升为国家意志。

那么什么是大数据呢?

大数据指的是在“多样的或者大量的数据中快速获取信息的能力”。IT业界通常将大数据的特征概括为四个“V”:数据量(volume)巨大,数据类型(variety)多,数据价值(Value)大,发掘出价值的速度(Velocity)快[2]。大数据和传统所说的数据库有所不同。诞生在二十世纪七十年代的传统数据库是小型的、单一的、孤立的,基于小范围的抽样样本统计。而大数据则要求穷尽一切相关样本,搜集尽可能全面的数据,大数据的数据集拥有的不是支离破碎的割裂数据,不是数据片段,而是完整的数据。数据的海量与数据的完整性使大数据有着传统的数据库无法比拟的信息优势。

1 大数据的重要性

信息科技经过多年的发展,数据已经渗透到国家治理、国民经济、企业发展的方方面面。这些数据中隐藏着有价值的模式和信息,需要相当的时间和成本才能提取这些信息。一些新兴的互联网公司,利用新技术大规模地收集数据,分析和预判客户行为,然后在不同的行业纵横捭阖。而缺少数据资产、缺少强大数据分析能力的公司,则无疑将处于被颠覆的边缘。因此大数据技术虽然发源于信息科技,但其影响力已经远远超出信息行业,正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。可以毫无疑问地说,大数据事关国计民生、产业兴衰、公司存亡。

麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。著名的信用卡国际组织万事达通过分析来自210个国家的15亿信用卡用户的650亿条交易记录,分析得出商业发展和客户消费趋势,取得了极大的营销价值[3]。

2 大数据技术介绍

2.1 Hadoop简介

虽然数据量巨大是大数据时代的特点,但这并不意味着数据的含金量高和对数据的理解要求低。事实上,庞大的数据中往往掺杂着太多的无效数据,简单粗放式的数据统计和分析往往不能得到真正有价值的内容,所以对大数据技术提出了更高层次的挑战,使用传统的数据工具是远远无法满足大数据需要的,由此产生了大数据技术。Hadoop是当前最为流行的大数据技术,从诞生之日起,Hadoop便与大数据有着千丝万缕的联系。Hadoop是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。Hadoop的设计原理来自于谷歌的GFS和MapReduce模型,可以看作是后者的开源实现。由于其可以运行在对硬件配置要求低、扩展性好、容错能力强及具有强大的并行处理能力等特点的设备上,在多个行业得到广泛的应用,成为当下大数据领域的热门技术。谷歌、雅虎、亚马逊和Facebook都开发了以Hadoop为基础的大数据应用程序。

各模块的主要功能如下。

⑴ Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。

⑵ Chukwa是基于Hadoop的集群监控系统,由yahoo贡献。

⑶ Hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

⑷ ZooKeeper是高效的、可扩展的协调系统,存储和协调关键共享状态。

⑸ HBase是一个开源的,基于列存储模型的分布式数据库。

⑹ HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。

⑺ MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

其中HDFS和MapReduce是Hadoop体系架构中两大技术核心。

2.2 Hadoop技术核心介绍

2.2.1 HDFS文件系统

HDFS是一个高度容错性的分布式文件系统,能提供高吞吐量的数据访问,非常适合于大规模数据集上的应用。图2是HDFS文件系统的图示。

⑴ NameNode:可以看作是分布式文件系统中的管理者,存储文件系统的metadata,主要负责管理文件系统的命名空间,集群配置信息,存储块的复制。

⑵ DataNode:是文件存储的基本单元。它将文件块存储在本地文件系统中,保存了文件块的metadata,同时周期性的发送所有存在的文件块的报告给NameNode。

⑶ Client:就是需要获取分布式文件系统文件的应用程序。

2.2.2 MapReduce编程模型

MapReduce是一种编程模型,用于大规模数据集的并行运算[6]。Map(映射)和Reduce(化简),采用分而治之思想,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。多节点计算,所涉及的任务调度、负载均衡、容错处理等,都由MapReduce框架完成,不需要编程人员关心这些内容。图3是MapReduce的编程模型。

⑴ 根据输入数据的大小和参数的设置把数据分成splits,每个split对应一个map线程。

⑵ Split中的数据作为Map的输入,Map的输出一定在Map端。

⑶ Map的输出到Reduce的输入的过程(shuffle过程)。

① 第一阶段:在map端完成内存→排序→写入磁盘→复制。

② 第二阶段:在reduce端完成映射到reduce端分区→合并→排序。

⑷ Reduce的输入到Reduce的输出:最后排好序的key/value作为Reduce的输入,输出不一定是在reduce端。

3 大数据技术Hadoop在电子商务中的应用

大数据技术Hadoop在电子商务领域中的应用非常广泛,可以说正在渗透到电子商务中的方方面面。国内外的电子商务巨头如淘宝、京东、亚马逊、沃尔玛等,都在不断利用大数据技术Hadoop,在电子商务领域纵横捭阖。

3.1 商务领域数据处理体系

⑴ 输入实时用户数据。数据可以来源于实时的服务器日志、用户访问日志、网络数据包等。

⑵ 基于MapReduce的数据处理程序对实时数据进行处理和提取,规定统一的数据格式。

⑶ 通过HDFS文件系统将数据存储起来。

⑷ 最终用户通过可视化界面,进行数据查询、检索。

具体流程如图4所示:

3.2 典型应用

以下介绍大数据技术Hadoop在电子商务中的典型应用。

⑴ 大数据技术Hadoop在电子商务中的一个典型应用是实时掌握用户在使用电子商务网站时的用户体验情况。电子商务的核心在于网上购物和网络支付,这些都离不开一个有效的电子商务购物网站的支持。购物网站的运作核心通常是由三个要素来汇聚,包括消费者信任、丰富的内容以及安全性[4]。对于有些电子商务网站(比如淘宝、亚马逊、京东等),其每秒用户访问量巨大,从而产生的数据是海量的。这些海量数据,包含了丰富的用户行为,但通过传统的工具,很难对其中包含的信息进行快速分析。通过大数据技术Hadoop,能够实时有效地分析用户的访问行为,实现对用户行为和体验的实时管理和监控,从而从展现内容、用户体验、信息安全等多个角度为用户提供高质量的电子商务服务。通过大数据技术Hadoop能够获得的信息是非常多的,例如通过电子商务网站产生的服务器日志信息、用户访问网站的信息可以获得:

① 服务器上最近一段时间发生的错误数量;

② 用户找不到商品的资讯;

③ 用户在各个商品页面上的平均停留时间;

④ 客户的付款方式;

⑤ 客户来自哪些不同的地区;

⑥ 各个地区的平均消费水平;

⑦ 客户登入网站的次数和频率的统计;

⑧ 客户将商品放入购物车的统计;

⑨ 客户先选择了某些商品但最终没有结账购买的频率。

上述场景仅仅是大数据技术Hadoop能够分析的很小的一部分。通过大数据技术Hadoop分析,我们能够实时了解到电子商务网站的运营情况、运行情况、用户对商品的喜好程度,从而能够及时进行非常有针对性的调整,提高用户的使用体验。

⑵ 大数据技术Hadoop在电子商务中的另一个典型应用就是广告推荐系统。传统的网页广告,不管用户是否对广告所代表的产品和内容感兴趣,只是单纯地将广告信息展示给用户。因此传统网页广告必须进行大规模的投放,否则在受众人群不广的情况下无法产生效益。而利用大数据技术Hadoop开发的广告推荐系统则有明显的针对性,它的中心思想是对用户行为进行分析,通过分析其浏览过的页面、使用过的搜索词,以及其他的社交、分享、收藏、购买等行为,对用户进行分类和建模,把握用户的特点、兴趣及访问意图等,然后有针对性的投放广告、向用户推荐关联商品,真正做到了有的放矢。例如,如果我们曾经在百度中搜索了台湾,当我们浏览一些网站时,会惊奇地发现这些网站的广告页上会出现各类与台湾有关的推荐,包括住宿、机票、门票、土特产等。这是因为当我们在百度、谷歌等搜索引擎中搜索关键字时,会在我们的浏览器中留下我们曾经搜索或访问过的痕迹信息[5]。当我们再去访问那些含有广告推荐系统的网站时,首先网站会从我们的浏览器中获取我们曾经搜索过的关键字信息,然后通过广告推荐系统,将最符合我们搜索关键字的广告信息在页面中展示。

4 结束语

大数据技术目前在国内还处于初级阶段,但是商业价值已逐步显现,特别是在电子商务这一互联网前沿阵地,已经可以看到很多大数据技术应用场景的存在。如今在电子商务网站上看到的很多新的营销手段,常常在后台都离不开大数据技术的有力支持。可以设想,随着社会的不断发展,大数据技术的不断成熟,大数据技术的应用及产业链将日益成熟,大数据终将成为人们生活中必不可少的一部分。

参考文献(References):

[1]大数据研究和发展计划, http://www.whitehouse.gov/

blog/2012/03/29/big-data-big-deal,2012.

[2] 维克托·迈尔·舍恩伯格.大数据时代[M].浙江人民出版社,

2012.

[3] 互联网精准广告定向技术,http://www.iamniu.com/2012/

05/26/summary-internet-precise-ad-targeting-technology/,

2012.

[4] 高珍.电子商务系统中的大数据处理[J].计算机光盘软件与

应用,2012.21.

[5] The Google File System, http://research.google.com/

archive/gfs.html,2003

[6] MapReduce: Simplified Data Processing on Large Clusters,

http://research.google.com/archive/mapreduce.html,2004.

猜你喜欢
大数据技术电子商务
《电子商务法》如何助力直销
电子商务
论大数据技术在智能电网中的应用
大数据技术在电气工程中的应用探讨
大数据技术在商业银行中的应用分析
关于加快制定电子商务法的议案
跨境电子商务中的跨文化思考