李志勇(湖南大众传媒职业技术学院,长沙,410100)
基于大数据的电子商务商品推荐系统研究
李志勇
(湖南大众传媒职业技术学院,长沙,410100)
随着现代电子商务的不断发展,如何在琳琅满目的商品中给客户推荐针对性的商品,从而提高商品成交率成为当前的思考的重点。本文结合当前的大数据技术,提出一种基于数据挖掘的电子商务推荐系统,并对其实现进行了详细的探讨,从而为当前电子商务的发展提供参考。
大数据;数据挖掘;电子商务;商品推荐;系统
随着现代互联网技术的不断发展,信息化成为当前社会发展的一个重要特点,并影响着人们的生活和学习方式。而随着大量数据信息的产生,大数据挖掘技术成为当前电子商务领域中应用的重点,从而为广大的用户提供商品推荐服务,如淘宝、京东等知名电子商务网站,都在其醒目的位置推荐曾经看过或者同类人喜欢的商品,以此通过这种挖掘算法,为用户提供更加具有针对性的产品,从而满足用户的购买需求。本文从大数据和个性化推荐的概念入手,提出一种简单的电子商务推荐算法,并对系统进行初步构建,从而为充实当前的个性化推荐理论提供参考。
大数据通常是指在规模巨大的数字资料中,无法借助现有的软件,在合理的时间内对信息进行摄取、处理和分析,最后为企业提供相关的决策经营信息。而物联网、手机、移动互联网、PC终端等都为数据的来源奠定了坚实的基础。从计算机的角度来看,大数据通常是指在信息化时代下产生的大量结构和结构化的数据;而从技术角度来看,就是从海浪的信息数据中挖掘出具有一定价值的数据信息。因此,通过上述的分析,大数据通常具有以下几个特点:
第一,数据量庞大(Volume Big)。从大数据的数据量来看,其数据从存储量已经从原来的TB直接发展到了PB,甚至到了ZB的地步,由此通常将这种信息量称为海量或者巨量的数据。
第二,数据类型多样化。在海量的数据中,包含各种类型的数据,如结构化、半结构化、非机构化的数据,而具体则可以包括诸如位置、图像、网页、文本、视频等相关的信息。当前,通过互联网产生的大量数据可极快的保存到数据库当中,
第三,速度极快。当前形成的大量数据基本都可极快的保存到数据库之中,并及时的对数据进行处理,以此满足持续不断更新的企业数据库需求。而随着数据处理速度的变化,处理的工具也在不断的变化。
第四,高价值和低密度。在庞大的数据之中,有效的数据往往仅仅只是小部分,需要深入的数据挖掘才能得出价值很高的数据,所以导致高价值数据的低密度率。
通常认为,大数据技术的发展不仅加快了数据的存储方式的转变,同时也大幅度的提升了现代数据处理的专业化程度。换句话说,随着数据的产生,大数据开始逐步成为发展为一个产业,而产业的发展关键在于盈利,因此产业参与者必须要提高对海量数据的“加工能力”,通过“加工”实现数据的“增值”。而随着现代物联网技术的不断发展,借助大数据技术的发展可以为物联网提供更好的技术和资源支持,以此让企业管理者可以从海量的数据分析中深入的挖掘出用户的行为习惯和自身爱好,并最终通过互联网实施精准的网络营销,从而掌握到大数据分析所带来的增值“金钥匙”。
虽然当前我国在大数据的发展中还出在比较初级的阶段,但是通过大数据所展现的相关价值已经开始在商业领域中开始展现。首先,大数据分析企业可以通过受众的数据分析,在数据交易市场中得到良好的收益;第二,通过大数据的挖掘,可诞生众多的商业模式,以此进一步的提高商业的活力;第三,通过大数据可以促进企业的商品交易,同时降低企业的运营和宣传成本,提高企业自身的利润率。但是笔者认为,大数据的价值并不是一味的在大,其价值是通过数据的分析、交叉复用后获取最大的数据价值。
而对于大数据给电子商务带来的影响,其主要有以下几个方面:首先,通过大数据对电子商务用户购买行为的分析,可以为电子商务企业提供更加精准的企业营销对策,以此在宣传中投放更加具有针对性的广告方案;其次,通过行为分析,可更好的优化电子商务企业内部的管理措施,以此提供更符合消费者需求的
相关服务;再次,通过大数据在电子商务的应用,可进一步的加快电子商务企业的战略转型,从而使得电子商务企业能在未来的竞争中处在不败的位置;最后,通过大数据的分析,深入的挖掘电子商务用户的潜在需求,提高电子商务企业的销售业绩。
通过对当前大数据挖掘的研究发现,当前主流的推荐算法主要包括基于内容的过滤算法以及协同过滤算法两类,其中基于内容多采用信息检索的方式;而采用协同过滤算法类的,更多的是依据用户的行为特征,对用户的行为兴趣等进行分类。
而在具体的挖掘算法中,当前主流的大数据挖掘方法主要包括列模式、聚类分析以及关联规则等方法,其中基于语义Web挖掘是现阶段研究最为流行的方法。在该推荐方法中,其最为关键的问题则是何将web领域本体与个性化推荐有机整合。
通过研究发现,现有基于大数据的个性化推荐算法在准确性方面还显得比较低,往往都是依靠客户过去的浏览的信息或者购买的商品进行推荐。如果采取这种推荐方式,一方面消费会比较抵制这种推荐方法,另一方面这种推荐也不能满足用户的实际需求。因此在电子商务中,找出一种能够对用户未来可能的需求进行推荐的算法,对挖掘电子商务客户的潜力具有重要的研究价值。对此,结合上述的需求,提出一种基于关联规则的个性化推荐架构。该算法是基于大数据的角度,通过MapReduce对充分挖掘用户的信息,提炼出用户个人的潜在兴趣和需求,最终把个性化的用户潜在需求产品推荐给消费者。
而上述的架构模型思想也被广泛的应用在电子商务推荐领域当中,并在该思想上演变出大量的改进算法。本文则在利用MapReduce算法思想的基础上,提出一种改进的个性化推荐算法,并对其实现进行了初步的验证。
本文提出的关联规则算法思想,是在MapReduce分割思想的基础上,充分借助MapReduce在并行运算中的优势,引入Aprior算法。具体步骤则为:
首先将存储在HDFS之中的数据库划分为N个不同的数据模块,利用Namenode对划分的数据库进行分类,并将这些分类好的数据模块分别发送给执行挖掘动作的M (M<=N)个数据节点中,同时在每个数据节点,结合Aprior算法对数据进行频繁及的挖掘,以此获得该数据节点的局部频繁项集。
其次,将挖掘后的数据局部频繁项集汇总后,可以得到得全局的候选频繁项集,,此时再对整个数据D进行扫描,可获得最终的频繁项集。
最后通对上述方法的验证,发现该算法对资源的消耗大大减少,也提高了推荐的效率。具体的比较如图2所示。
图2 资源消耗分析
随着信息化的发展,个性化推荐越来越受到人们的关注,并大量的用在电子商务领域之中。本文则从结合大数据的概念、价值,同时对当前的个性化推荐现状进行简易分析,并在此基础上提出了一种个性化推荐架构和算法,验证了该算法的可行性,为电子商务领域中商品的推荐提供了参考。
[1] 张新猛,蒋盛益.基于协同过滤的网络论坛个性化推荐算法[J].计算机工程.2012,38(5):67-69
[2] 李远方,邓世昆,闻玉彪,韩月阳. Hadoop-MapReduce下的PageRank矩阵分块算法[J]. 计算机技术与发展,2011,08:6-9+13.
[3] 米允龙,姜麟,米春桥. MapReduce环境下的否定粗糙关联规则算法[J]. 计算机集成制造系统,2014,11:2893-2903.
Research on the recommendation system of electronic commerce based on big data
Li Zhiyong
(Hunan Mass Media Vocational Technical College Changsha,410100)
With the development of modern electronic commerce,how to in an array of goods to customers recommended for the goods,so as to improve the commodity turnover rate has become the focus of current thinking. In this paper,combined with the current big data technology.
big data;data mining;electronic commerce;commodity recommendation;system
基金来源:2014年度湖南省教育厅科学研究一般项目,《基于大数据的电子商务商品推荐系统的研究》,课题号:14c0234