陈青艳 刘晓平 赵� B
摘 要:根据现有电子商务平台的海量数据存储及处理的需要,提出了基于大数据的贸易分析模块的构建。文章重点介绍了系统的框架结构、客户流失和用户价值度分析和设计。构建的贸易分析模块系统可以对客户流失进行预警,在一定程度上帮助挽留客户,降低客户流失率。
关键词:大数据;贸易分析模块的构建;客户流失
电子商务为企业积累了海量的原始数据,记录了客户的浏览行为、关注内容、交易方式等有价值的信息,但是如何发挥这些数据的效用,挖掘经营活动的模式或者规律,是每个企业提升竞争力的一个重要手段。因此,对贸易经营活动的分析成为企业的重要工作内容。本文充分利用过去累积的大量原始销售数据、客户浏览行为日志等重要资源,采用数据挖掘中的决策树等智能数据分析算法,构建贸易分析平台。
1 贸易分析模块功能需求分析
1.1 客户流失
在这个模块中,我们引入了基于信息论的较成熟的数据挖掘算法ID3决策树及其改进算法C4.5决策树对客户流失进行深入的分析研究。可以推导出一个较容易流失的客户名单,再结合每个客户的价值度分值,公司可以区别性地采取一些挽留措施,用来提高公司的营销额。
1.2 客户细分
电子商务企业提供符合不同客户需求的产品和服务,来满足多样化的需求,从而使不同的客户都对企业满意,就需要将客户根据不同的标准进行细分,以达到客户和企业之间建立长久稳固的关系。尽管每个小群体中的成员不可能做到消费行为完全一致,但也可以表现出一定的共性,企业在掌握了这些小群体的共性以后,就可以针对性地制定营销策略,指导公司的发展。
1.3 客户价值度
客户价值度,即企业从客户的购买中所实现的企业收益。对于企业来说,一个偶尔接触的客户和一个经常购买的客户是具有不同的客户价值。我们可以根据客户的消费行为方式和消费的具体特征等变量来预测出客户价值。要分析客户对企业的盈利价值的高低,我们需要根据传统经验获取相当数量的样本,然后再采用决策树分类算法对其进行深入研究进而分析,获取决策树模型后,就可以针对一般的客户进行预测了[1]。
2 贸易分析模块的框架结构
贸易分析模块的主要构件模块有:前台界面接口(系统用户操作界面)、数据挖掘引擎(各种挖掘算法的实现模块)和数据获取与预处理。主要的结构如图1所示。
这几个模块的主要功能详述如下。
2.1 前台界面
前台界面是整个模块展示给所有系统使用者的可视操作部分,主要有3个方面的功能:首先是任务理解,指以数据挖掘语言形式或者其他方式指定查询任务以及必要的帮助信息。其次是可视化,主要用来展示数据挖掘的结果,方便系统用户对挖掘推理出的模式进行评估。前台界面与数据挖掘引擎是相互独立的,通过接口进行交互,用户不能直接操作挖掘引擎,而是前台根据发送数据挖掘任务信息的反馈结果,进行探索式挖掘。另外,系统用户还可以通过前台界面查看数据库和数据仓库模式以及数据结构的可视化视图,用于对不同数据挖掘模式的评估。最后就是模式评估了,主要采用兴趣度对模式的实际意义进行衡量,也可对推导出的模式进行过滤,最后得出最有价值的模式。
2.2 数据挖掘算法
数据挖掘算法是系统的数据挖掘引擎模块,主要包含了各个相关的挖掘算法,包括关联规则、聚类分类等,从而对数据进行分析和预测,推导出潜在的模式和规律。
2.3 应用组件
应用组件主要是根据客户的实际需求选择适当的数据挖掘算法,帮助用户完成用户细分、客户流失分析等任务。
2.4 数据模块
数据模块是系统的最底层,也是最重要的基础数据处理部分。主要是完成对原始数据的除噪、筛选任务,然后集合不同的数据源,并按照可进行挖掘的形式对数据进行变换,最后选出与任务相关的数据交给数据挖掘引擎进行处理。
3 客户流失分析模块设计与实现
本文采用数据挖掘技术,建立客户流失预测模型,从而找出促进客户流失的最重要的因素,生成一个客户流失预测名单,然后再结合这些客户的价值度,推导出一个合理的挽留措施,帮助公司制定适当的决策策略,保持高盈利和客户的忠诚度。可以采用的方法有数据挖掘技术的分类和聚类,两者的区别在于分类需要事先知道样本分类,而聚类则不需要。本文选取分类算法中的决策树方法简便、易于理解,代表性的算法包括ID3算法、C4.5算法等。
建立數据挖掘客户流失预测模型的步骤主要有以下几点:数据整合、数据处理(数据除噪、数据抽取、数据泛化等)以及数据挖掘算法实现,各相关步骤如下[2]。
3.1 数据整合
客户流失分析所需要的客户数据和交易数据分别存放在客户索引表和订单表等多个表中。因此首先要对这些数据除噪,去除不要的属性如客户电话、年龄等信息,提取有用的信息。
3.2 数据处理
信息提取的一个原则就是能集中反映客户类型、客户背景、交易相关的信息,然后将提取出来的信息经过整理以后存入一个新的表格,放进数据仓库,供挖掘算法使用。若客户在注册时或者实际的交易中,跳过商务平台提供的一些选项不填,那么我们对这种客户抽取出来的数据有可能会存在很多空白数据项。系统需要提供一些措施对这些空白项数据项进行处理,要么去除记录,要么填入缺省值,缺省值的选择视不同属性而异,一般数值型的数据选取其平均值。
泛化处理后的客户信息数据表中数据的类型仍可能不符合数据挖掘算法的要求,仍需要进行转换处理。一般而言,ID3算法的数据要求是离散型的,而C4.5算法则可自动对数据进行离散处理,只是有时候离散化分的数据边界不太符合人们的习惯。本系统中由分析人员依据经验对属性值进行离散化划分。
3.3 数据挖掘
本系统采用ID3算法和C4.5决策树分类算法,根据离散属性集的集合来做出系列判断将数据分类,算法对客户流失原因进行分析。图2是一个决策树示例,图中决策树把所有的客户按照客户类型、交易金额和月交易频率来分类,直观,易于理解。系统最后把推导出的结果和相关数据以可视化的形式传递给前台用户,以此为依据对模型进行评估。
4 客户细分分析模块设计与实现
客户细分也可以采用聚类或者分类算法实现。在本系统中,我们选择使用K-means聚类算法对客户进行细分。所需要的源数据与客户流失分析的源数据相同,但是也需要去除噪声和信息抽取、离散化的处理。然后,对这些数据采用K-means聚类算法进行分析处理,推出的结果可以用图形进行展示。用户通过查看图形化的聚类结果以及各分组中数据的信息来辅助自己的商务经营活动[3]。
5 客户价值分析模块设计与实现
要对客户进行盈利分析,首先必须要找一个能有效衡量客户盈利能力的标准,这个问题比较难,因为不同的用户和工作人员有着不同的看法和理解。本系统使用的方法是先累积市场经验,对获取的样本数据中的客户盈利能力进行分类。这些分类样本达到一定的数量以后,就可以使用决策树分类算法进行学习预测,从而生成一个决策树模型,对一般用户进行预测[4]。
6 结语
基于J2EE的3层结构的网上商店管理系统平台的开发与设计,并将统一业务处理方案以及数据挖掘智能数据分析方法应用在所设计的系统之中,把数据挖掘算法引入系统的贸易分析模块,为决策者提供智能指导。下一步需要更深入研究算法,不断优化算法,提高运行的效率。
[参考文献]
[1]王炎.数据挖掘技术下的个性化智能推荐系统设计[J].微型电脑应用,2019(2):119-121.
[2]柳林,涂光平,杨峰.基于决策树的数据挖掘方法在CRM中的应用研究[J].计算技术与自动化,2006(1):67-69.
[3]范洁,杨岳湘,温璞.C4.5算法在在线学习行为评估系统中的应用[J].计算机工程与设计,2006(6):946-948.
[4]李章威,陈丽,曹子谞.大数据环境下智能推荐系统中协同过滤算法研究[J].电脑编程技巧与维护,2016(11):78-79.