李明杰 刘小飞
摘 要:大数据技术的迅猛发展带来商业运行模式的巨变,这种改变正从云端潜移默化地渗透到每一个置身其中的消费者身上。从数据分析的角度去处理和解决问题,用大量数据分析得出的结论是最有效、最科学的,这一观点正逐步被所有人接受。本文将从实际案例出发,描述现有大数据商业分析模式,并展示其中最常用的MapReduce文本分析技术。
关键词:用户追踪;数据分析;MapReduce
中图分类号:TP391.1 文献标识码:A 文章编号:2096-4706(2019)13-0013-03
Application of MapReduce Text Analysis Technology in Business Model
LI Mingjie,LIU Xiaofei
(School of Information & Intelligence Engineering,University of Sanya,Sanya 572022,China)
Abstract:The rapid development of big data technology has brought about tremendous changes in business operation mode,which is imperceptibly penetrating into every consumer in the cloud. From the perspective of data analysis to deal with problems and solve problems,a large number of data analysis concluded that the most effective and scientific,this view is gradually accepted by all. In this paper,we will describe the existing business analysis model of large data based on practical cases,and show the most commonly used MapReduce text analysis technology.
Keywords:user tracking;data analysis;MapReduce
0 引 言
大数据的发展带来了商业模式的改变,其技术的不断进步带来了前所未有的商机。大数据技术可以使得商业公司提升现有数据库的性能,使其更现代化;对于目前存在的机会,更具有洞察力;更快速地获取信息,探索并利用新的机会。下面我们介绍两种常见的商业应用。
1 问题的提出
第一种应用是面向广告公司的,或者是有投放广告诉求的公司,他们希望可以使用大数据技术在线上接触到特定的目标群体并且能在网络上追踪目标消费者。第二种应用我们以亚马逊为例,分析如何使用大数据来增加销量,并帮助其针对各类消费者提供个性化的产品和服务。
2 基于大数据背景的解题思路
针对第一种应用,我们给出这样一种思路:若使得广告公司或者公司可以使用大数据在线上接触到特定的目标群体并且能在网络上追踪目标消费者,其实质就是利用大数据分析得出18岁-25岁这部分人群最经常浏览的网站平台以及浏览时间,以此指导广告公司的最佳广告投放位置和投放时间。具体实施步骤如下:
(1)首先是数据收集阶段,可考虑在网络主流社交平台上投放广告,比如国内的QQ、国外的Facebook、Twitter等等。在没有任何先验知识的情况下,这时期各平台的投放比例和投放时间应平均且一致。经过一段时间的投放后,通过对点击广告并下单的实际消费者进行追踪,对其在社交平台上的浏览痕迹,比如发表的评论或点赞等信息进行收集和整理,得出消费者的分布情况,并重点对18岁-25岁这个年龄段的群体进行进一步分析,得出他们感兴趣的方面,比如提及“欧冠”“NBA”等词汇的比例达到70%,提及“游戏”“疲劳”等词汇的达到20%,其他有10%。则可以进一步追踪目标消费者。
(2)改进阶段。一是根据收集分析得出的各大社交平台上的实际点击频率和点击时间,改变各平台的投放比例和投放时间;二是根据分析得出的关键词汇对目标消费者进行追踪投放,比如70%都提及了体育类词汇,则可以在QQ的体育专栏或NBA专栏中投放广告,并且在广告语中加入“运动”“无极限”类的关键词。
针对第二种亚马逊的服务需求,则需兼顾大众营销和个性营销之间的平衡。一是大众营销,即利用自身平台和公共社交平台收集的数据分析,重点改善亚马逊平台自身的品牌形象,产品推荐和价格设定等;二是优质消费者的定制化个性营销,即注册会员服务等等,追踪会员人群的消费特点,针对性的定制服务。具体实施步骤如下:
(1)增加销量的一个简单方法是根据亚马逊网站上的搜索关键词,进行数据分析,得出关键词的搜索频率,在网站主页醒目位置提供这些关键词对应消费品的展示,增加点击量。除此之外,在各大社交网站平台,搜索关于亚马逊产品和服务的评价,通过分析,完善自身服务水平,并使得產品有更加明确的消费群体指向。
(2)设置商品的普通价格和会员价格,使得更多人从普通消费者转变为会员消费者,这样亚马逊可以获得更多关于该消费者的个人信息(比如:email、手机号码等),也更有利于追踪该消费者的消费习惯。根据大量的消费者的消费数据,分析得出不同的消费者类型,比如A类型的消费者每次买完儿童读物之后还会去浏览女性化妆品,可以据此为这类用户设定好相应产品的链接,让其在购买儿童读物的时候,方便地跳转到化妆品页面。而且这样分解成不同的消费者类型后,当有类似购买行为的消费者出现的时候,系统也可以将其归类到某种消费类型中,以便为其提供更好的服务,而原本属于类型A的消费者如果购买习惯发生了变化,通过数据分析后,要迅速更新他的消费类型,将其归为更符合他现在消费习惯的类型中。
以上即是在大数据背景下常见的两种商业思维模式,这其中数据分析扮演着非常重要的角色,而利用MapReduce进行文本分析是其中最常用的技术手段。
3 MapReduce基础
随着网络用户的急剧增加,原有的网页爬取和频率查询类应用无法应对未来的需求。为了可以高速地处理大量数据,商业公司开始使用网络中集群形式的分布计算机。分布式新算法要求必须与数据的位置以及处理数据的应用程序的位置无关。为了实现这一算法,一种新的泛型编程模型诞生了,这就是MapReduce。MapReduce这个名字来源于两种已存在的编程语言功能的结合,也就是Map和Reduce。
MapReduce具有如下特性:
(1)时序安排。将一项工作分割为各个单独的任务,再由应用程序的Map和Reduce来进行处理。
(2)同步。通过保持追踪任务及时来同时执行多个进程。
(3)代码数据协同定位。在执行相关进程和处理相关数据之前,把代码和与其相关的数据放到同一个节点上。
(4)错误处理。在一个Hadoop集群中,可以跨节点来有效地处理错误。
要让MapReduce高效地工作需要一个合适的算法:从大量的数据或者记录开始,对数据进行迭代,利用Map功能提取有效信息并且创建一个输出列表,整理输出列表进行优化以便后续处理,利用Reduce功能来计算一系列的结果,产生最终的输出。
4 MapReduce文本分析
对于各种形式的文本分析而言,LineCount应用程序是一个不可或缺的统计工具。想分析文本,我们必须知道文本中的行数、字数和单词数。此外,这些参数的出现频率也有助于我们对数(值)进行分类。本文实验中,我们将借助Eclipse集成开发环境(IDE)编写MapReduce程序,以統计给定文本文件的行数。下面给出具体实验步骤:
(1)在Ubuntu上安装Eclipse、Hadoop和JDK,在Eclipse中创建新的Java Project,在其中添加必要的jar包文件,如图1所示。
(2)创建包,并在包中创建“LineCount”类,其核心代码如图2所示。
(3)将LineCount项目导出为jar文件。启动Hadoop,复制所要分析的文件(文件名为loaddata1)到HDFS,重命名为LOAD,如图3所示。
(4)运行MapReduce程序,如图4所示。
(5)最后将结果导出到文本文件并查看,如图5所示。
5 结 论
在大数据背景下,我们需要转变自身思维,从数据分析的角度去处理问题和解决问题,认同大量数据分析得出结论的有效性和科学性。掌握大数据分析的常用技术,体会大数据背景下的商业模式变革。
参考文献:
[1] 王永昌,朱立谷.面向Twitter情感分析的文本预处理方法研究 [J].中国传媒大学学报(自然科学版),2019,26(2):31-38.
[2] 冒佳明,王鹏飞,赵然.MapReduce架构下Reduce任务的调度优化 [J].无线互联科技,2018,15(22):5-6.
[3] 陈先红,宋发枝.互联网新技术背景下的舆论传播策略 [J].武汉理工大学学报(社会科学版),2019(3):1-6.
作者简介:李明杰(1984-),男,汉族,吉林松原人,硕
士,副教授,研究方向:模式分析与人工智能;刘小飞(1984-),女,汉族,吉林敦化人,硕士,副教授,研究方向:动态规划与规划识别。