混合PSO的K—means算法在B2C 电子商城客户细分中的应用研究

2015-03-07 22:48胡艳霞刘尖学洪宗民
电脑知识与技术 2015年35期
关键词:means算法

胡艳霞 刘尖学 洪宗民

摘要:因B2C电子商务的竞争对个性化服务提出更高的要求,该文以某B2C电子商务网站建设为研究背景,结合粒子群优化算法与 K-means 算法,以改进K-means算法陷入局部最小和对初始聚类中心敏感的缺陷,并应用到本文电子商务网站客户细分中,得到具有不同特征的客户群组,方便企业对客户进行针对性推荐服务,用有限的资源提高客户购买量,提高企业效益。理论分析和实验结果表明本算法具有较优的全局收敛性且收敛速度快的特点。

关键词:B2C;客户细分;PSO;K-means算法;全局收敛性

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)35-0158-04

Abstract: B2C e-commerce competition has made higher requirements for personalized services , Taking a B2C e-commerce website construction background, combined with PSO and K-means algorithm, to improve the K - means algorithm trapped in local minimum and is sensitive to the initial clustering center of the defect, and applied to customer segmentation, get customer group with different characteristics. It can support enterprise to make a specific recommendation service for each kind of customer, with limited resources to improve customer purchases, and improve the efficiency of the enterprise. The theory analysis and experimental results show that, the algorithm has greater global convergence.

Key words: B2C; customer segmentation; PSO; K-means algorithm; global convergence

随着电子商务的发展,传统企业的实体店铺经营模式逐渐向网络商务营销模式扩展。互联网为中小企业发展提供了一个更好的快速发展平台,通过网站建设实现网络营销和电子商务成为时代发展的必然趋势。本文以浙江省金华市某B2C电子商务网站建设为研究背景,其经营品类涵盖满足人们日常衣食住消费的各类商品。

在电子商务环境下,客户不仅获取商务信息更为便捷,而且转化成本也大大降低,导致客户极易转向竞争者。因此,针对不同的客户群体进行针对性的管理,已经成为电子商务企业面临的重大任务。而科学合理的客户细分是电子商务企业有效实施市场策略的第一步,是成功管理客户关系的基石。

1 B2C电子商城

1.1运营模式特点

对比传统商务活动,本文B2C电子商务实现了交易的无纸化、自动化、数字化。其主要特点有:(1)用户数量庞大,客户的每一次搜索,每一次浏览点击,每一次成功或失败的交易都构成了客户个人数据库的一个子集。(2)动态性,客户数据更新频繁。B2C电子商务的发展消除了商务活动在时间、地域上的限制;完成一次交易可能只需数十秒而且无需面对面的交易;智能终端、移动互联网更加促进了B2C电子商务交易能够随时随地随心进行,因而,每个客户的数据库信息都处于随时变动的状态。(3)结构性,B2C电子商务通过数据处理、传输、交换及电子支付过程将商务活动中的订货、付款、配送等中心环节有机联系起来,把电子信息处理和人工操作进行集成,提高了人力、物力的利用率。(4)交易转化成本低。在B2C模式中,企业与客户之间的交流渠道增加,各种购物辅助软件,使得价格对比、产品对比实施起来方便及时且成本低廉,客户基本上可以随时通过网络掌握实时的供需信息,在此种情况下客户很容易就会因某家店的价格过高或产品评论不好而转向同类产品的竞争者进行交易。(5)客户体验要求增强。B2C模式下交易各方都是通过网络这个虚拟环境进行,卖方对于买方实物的交付存在延迟性,因而客户的在线购物体验、个性化的服务要求成为该B2C电子商务企业生存的关键。

1.2业务流分析

本文B2C电子商务网站的业务流程如下:首先由管理员将商品分类等信息保存到数据库中,再发布商品信息。系统管理员可以对商品信息进行管理,包括添加、修改、删除、按条件查询商品信息以及处理用户订单。所有信息进人数据库保存,并显示在网站前台。注册用户登录网上商城可进行商品检索,查看商品信息。并将所需购买的商品加入购物车,完成订单。

1.3客户类型

根据客户需求和购物动机等标志将电子商务的客户划分为几种不同的类型:

时间饥饿型客户:经常可以在双收入家庭中发现,他们愿意在购物时支付更高的价格或额外费用来节约时间,而不管是否喜欢在线购物体验。

购物逃避型客户:不喜欢购物,他们可能只是通过网上购物来避免拥挤的人群、排队或堵塞的交通。

狩猎型客户:喜欢价格比较的过程和搜索物超所值的商品。

品牌型客户:是指为了某个特定品牌而在线购物的客户,也许是能给商家带来最高人均利润的客户群体。

随众型客户:看到周围的朋友同事都在这家网店购物,也会随众消费。

1.4客户细分的作用

如今B2C电子商务企业的经营关键已变为通过维持客户忠诚度、提高客户满意度来保证自己的市场竞争力,这就需要B2C电子商务企业增强对客户需求的关注力度,及时给出推荐信息,而及时得到合理建议的客户很可能更有价值(因为他们购买更多的东西)且更忠诚(因为他们感到与销售商有更紧密的关系)。而通过客户细分便可实现这一目标。

本文电子商城为了对客户进行针对性推荐服务,提高网站、购物车转化率,用有限的资源提高客户购买量,提高企业效益,需要提取客户特征进行细分,得到具有不同特征的客户群组。

1.5应用K-means算法进行客户细分的不足

在客户细分方面,现在普遍采用聚类分析算法[5],聚类分析中广泛使用的是简洁、高效且易实施的K-means算法。根据客户的交易明细、购买偏好等信息,利用k-means算法对这些数据进行挖掘,可以科学有效地对企业的客户进行细分。

但是K-means 算法的聚类结果通常会随着初始聚类中心的不同而不一样,随机选取的初始聚类中心可能会使K-means 算法陷入局部最优解。针对上述问题,利用粒子群优化算法全局搜索能力强的特点,结合K-means 算法,本文提出一种混合的PSOK聚类算法以克服K-means算法陷入局部最小和对初始聚类中心敏感的缺陷。

2 PSOK算法

2.1 K-means算法

输入:样本数据集X和聚类数k

输出:k个类

(1)随机选择k个初始聚类中心;

(2)逐个将数据集X中各点按最小距离原则分配给k个聚类中心的某一个;

(3)重新计算每个类的聚类中心;

(4)若新的聚类中心和原来的聚类中心相等或小于预设阈值,则计算结束,否则转步骤(2)。

2.2 自调整惯性权值的PSO优化算法

其中: Xij为i个粒子的d维位置矢量;Vij为粒子的飞行速度;Pij为粒子迄今为止搜索的最优位置;Pgj为整个粒子群迄今为止搜索的最优位置;w为惯性权值,表示先前粒子的速度对当前速度的影响程度; [r1,r2]为两个相互独立的随机函数,在0~1之间取值;[c1,c2]为学习因子。

粒子群算法虽然编码简单,容易实现,但它在优化过程初期收敛速度较快,后期所有粒子都向最优粒子学习,失去种群多样性,易陷入局部最优。针对粒子算法的局限性,本文提出一种自调整惯性权值策略,它能改变w 为定值的单一模式,较好地权衡全局与局部搜索能力[4]。

2.3 PSOK算法编码与适应度选择

本文采用的是基于粒子数的编码方式,也就是每个粒子的位置是由N个聚类中心组成,粒子除了位置外,还有速度、适应度值和聚类中心。由于样本向量维数为D,因此粒子的位置是[N×D]维变量,所以粒子的速度也应当是[N×D]维向量,粒子都有其适应度,和一个表示是哪个聚类中心的数目。

PSOK算法的步骤如下:

(1)对粒子群进行初始化:设置种群规模(粒子个数)m、粒子维数d,聚类数目k,搜索空间的大小、位置及速度的边界xmax , xmin , vmax , vmin和各个参数的值,把所有样本随机指派到k个簇中,并计算k个簇的聚类中心,从而得到一个粒子,重复执行m次,得到m个粒子。随机初始化各粒子的初始速度和初始位置。

(2)根据式(5)计算每个粒子的适应度值。

(3)对每个粒子,比较当前适应度值和它经历过的最好位置的适应度值。若更好,则更新;对每个粒子,比较自己当前最好适应度值和群体所经历的最好位置的适应度值。若更好,则更新。

(4)根据粒子的速度公式和位置公式调整粒子的速度和位置。

(5)样本的K均值优化。对于新一代粒子,按照以下的K均值算法进行优化:

首先根据粒子的当前位置(k个新的聚类中心),按照最近邻法则,确定每一个样本应该在哪一个簇中;其次样本全部归类后,重新计算聚类中心(粒子的位置),重新计算适应度值,更新粒子的适应度值。

(6)判断是否达到最大迭代次数或者满足最小误差,如果终止条件满足则输出全局极值以及获得全局极值的位置并结束算法,否则重复第二步。

3 实验与结果分析

3.1算法比较

实验数据采用某B2C电子商城2015年一万多位客户的消费数据。对原始数据进行预处理后产生11326条记录。经过处理后的数据共有服装类、食品类、办公类、家居类、奢侈品类这5维特征。文中根据这5维特征对数据进行分析比较。分别使用Matlab对PSOK算法和K-means算法进行实验数据处理。

从图2可以看出,在同等条件下,K-means算法收敛速度很快,但很容易陷入局部最小值,而PSOK算法全局寻优能力优于K均值算法,而且由于粒子群算法不存在随机寻优的退化现象,因此收敛比较平稳,有较快的收敛速度。

3.2客户细分聚类结果

在未进行聚类前,数据分布比较杂乱,从统计学角度来看,总消费在1000元以下的客户有3858位,占总人数的34%;总消费在(1000-5000)元之间的客户有6783位,占总人数的59.8%;5000元以上的客户只有685人,约占总人数的6%。通过这种统计,我们对客户购买商品只有一个总额上的概念,对客户的消费偏好得不到任何细致的信息。

本文中的PSOK算法对这些数据进行聚类,输入样本数据集X,聚类数目K,设置粒子群体大小N,初始化种群,对数据集进行处理,聚类结果如表l所示:

根据以上聚类结果,我们看到数据集被分成三类。其中第二类群体,客户人数最多,约占样本总数的60%,这类群体是电子商城的主要客户。这类客户的平均消费特征如下:办公用品消费金额占了他们消费总额的一半以上。他们主要以办公用品消费为主,企业就可以向这类客户重点推荐办公用品。

第三类客户人数最少,可是平均消费金额却很高,这类客户的平均消费特征如下:奢侈品消费金额占了他们消费总额的一半以上。他们主要以奢侈品消费为主,为企业创造了丰厚的利润,企业可以利用有限的资源重点维系这些客户,向他们重点推荐奢侈品。

第一类客户相较于第二类客户人数偏少,平均消费金额较少,这类客户的平均消费特征如下:服装和食品(生活日用品)的消费金额占了他们消费总额的一半以上。他们主要以生活日用品的消费为主,属于消费能力偏低的人群。针对这类群体登录电商网站时重点广告推荐生活日用品。

从这三类群体的消费特点可以看出客户的消费偏好,在进行针对性推荐时,可以花费最小的代价向客户推荐他们最感兴趣的商品,相对于仅仅依靠统计学分析,只给那些消费总额大的客户盲目推荐各式商品信息相比,这种方式更加有效,更能为企业创造价值。

以上是基于客户消费偏好的细分,把具有相似特征的客户归为一类,不同特征的客户分为不同的类,方便企业进行针对性推荐服务,用有限的资源提高客户的购买量,提高企业效益和竞争力。

4结束语

实验表明本文提出的PSOK算法具有较优的全局收敛性且收敛速度快的特点。将其应用于B2C电子商城客户细分中,对客户数据进行聚类分析,得到具有不同特征的客户群组,对不同群组进行针对性的推荐服务,用有限的资源提高客户的购买量,提高企业效益和竞争力。

参考文献

[1] 王飞,钱玉文,王执铨.基于无监督聚类算法的入侵检测[J].南京理工大学学报,2009,33(3):288-292.

[2] 冯静,舒宁. 群智能理论及应用研究[J]. 计算机工程与应用,2006,42(17):31-34.

[3] 李峻金,向阳,芦英明,吴朔桐. 粒子群聚类算法综述[J]. 计算机应用研究,2009,26(12):4424-4425.

[4] OMRANG M, SALM AN A, ENGELBRECHT A P. Image classification using paticle swarm optimization[C]. proc of the 4th Asia-Pacific Conference on Simulated Evolution and Learning 2002:370 - 374.

[5] 何焕. 聚类技术在客户细分中的研究与应用[D].江西:江西理工大学,2009.

猜你喜欢
means算法
SIFT算法在木材纹理分类上的应用
基于K—Means聚类算法入侵检测系统研究
基于Weka的Apriori算法在原油产量预测中的应用
基于HSI颜色空间的小麦粉精度自动识别研究
基于数据抽样的自动k⁃means聚类算法