移动电子商务情境下客户细分优化算法的研究

2013-08-20 01:54杨曦
网络安全技术与应用 2013年7期
关键词:细分权值均值

杨曦

(福州大学阳光学院 福建 350015)

0 引言

近年来,互联网与移动通信技术的飞速发展及全球化商务经济的到来,为移动电子商务带来了广阔的空间和更多的挑战。一方面,移动电子商务的移动性极大地增加了客户种类,且移动数据的非结构化及数据流量限制,导致企业需针对不同客户需求实施个性化定制的营销策略[1];另一方面,移动电子商务环境下,客户的兴趣和需求会随时空情境的变化而变化,而无序、海量的移动数据信息更造成“信息爆炸但知识贫乏”现象[2]。因而,移动电子商务环境下的个性化推荐理论与技术成为学术界研究的热点。而作为个性化服务的基础的客户细分也为企业识别并了解客户提供了有效的手段。移动电子商务情境下的客户细分问题要求算法的求解精度较高,而现有聚类算法存在过早收敛、精度较低、细分效果不佳等缺点,针对移动电子商务情境下的细分模型又相对匮乏,所以结合高效的聚类算法提高客户细分的精度,从而构建科学合理的客户评价体系对移动电子商务的发展有着较为重要的理论和应用价值。

1 客户细分基础理论

聚类分析能从潜在数据中发现新的、有意义的数据分布模式,是客户细分领域中较为适用的方法[3,4],传统经典的聚类分析有基于划分的方法(如K-均值算法[5])、基于密度、基于层次和基于模型(如SOM[6])等方法。经典聚类算法在很多领域都有广泛应用,但每一类算法都有各自的缺陷和不足,所以只局限于解决某一类问题。随着人工智能、模式识别、机器学习等科学理论的产生,聚类算法也有了长足的发展,例如PSO、粒度计算、FCM等。下面介绍几种在客户细分领域较为常用的聚类方法。

1.1 K-均值算法

K-均值法的所有簇类均计算出该类中所有数据的平均值或加权平均值,即聚类中心。其公式如下:

其中d(xi,cj)表示样本点xi到聚类中心cj的欧式距离。K-均值法从样本点集中随机选取K个点作为初始聚类中心,计算并比较每个点xi到聚类中心cj的距离,将xi分配到与其距离最小的簇中;重新选择聚类中心,重复此步骤,直至聚类中心不再发生变化。

K-均值法得到的结果通常只是局部最优解且一定程度上依赖于初始聚类中心的选择,其缺陷还有:K值选择无标准依据,只能处理数值群,对“噪声”和离群数据较为敏感等。

1.2 PSO粒子群优化算法

PSO是一种基于群的聚类方法[7],通过模拟生物界鱼群或鸟群间合作与竞争产生的优化算法。PSO在预测精度和运行速度方面优势明显。其算法表述如下:

设在n维空间中有粒子群xi(i=1,2,...m),每个粒子有速度vi和位置pi两种属性,在n维空间中为xi的速度分量和位置分量,通过PSO模型的计算,粒子群不断优化速度和位置。

PSO是一种随机搜索方法,类似于遗传算法和模拟退火算法,但收敛速度更快,具有一定的早熟倾向,所以在求解全局最优解方面精度仍较低。

1.3 SOM神经网络

SOM是一种具有自组织功能的、免监控自发学习的神经网络[6],由M个输入神经元与N个输出神经元构成。基于SOM的聚类方法是为每个输入神经元搜索对应的最优输出神经元及相应的连接权值。由于SOM支持多种网络拓扑结构,形成的聚类中心能映射到曲面或平面上,从而保持其自身拓扑结构不变。因此,K-均值法初始聚类中心随意性导致结果不确性的问题,可以借助自组织映射得到趋于稳定的聚类中心。

SOM对于一般客户细分问题有着较好的聚类效果,具有自稳定性,但缺点是需预构建网络结构,训练样本时间较长等。

2 改进的混合聚类算法

针对各聚类算法在客户细分方面的不足,本文结合几种聚类算法的优点提出了一种改进的聚类算法M-Cluster。

2.1 预处理优化

首先,针对K-均值法一定程度上需依赖于初始聚类中心的缺点,使用SOM神经网络先对样本集进行预处理,得到的聚类中心作为初始聚类中心。另一方面,利用K-均值法对SOM的训练数据进行预聚类并初始化权值,以克服网络构建和训练时间较长的缺点。具体改进措施如下:

(1)从初始数据集中选取样本集X作为训练数据集,同时用K-均值法将X分为K个簇,得到聚类中心集C;

(2)使用C初始化SOM网络顶点位置的神经元权值:从C中寻找间距最大的两个聚类中心点,分别作为对角线上两个顶点神经元初始化权值;然后从剩余的聚类中心集中寻找与两个顶点距离最远的聚类中心点,放置于副对角线上其中一个顶点位置,再用同样的方法寻找副对角线上的另一顶点。

(3)初始化SOM网络外层四个象限的神经元权值:以左象限为例,利用K-均值法的计算公式依次计算k-4个聚类中心分别与左侧边最上方两个顶点间距离之和,从中选取M-2个数值最小的聚类中心作为初始化权值,按照与左上顶点距离递增的顺序从左至右依次赋于各神经元。同理,从外至内逐层初始化剩余神经元权值。

(4)使用样本集X训练SOM网络后,将初始数据集分成K个簇,得到聚类中心集合C',作为进行下一步聚类计算的初始化数据。

2.2 改进的M-Cluster算法

PSO的进化过程带有一定的随机性,保持粒子多样性的同时也扩大了全局搜索范围,从而使得全局解的精度较低。而K-均值法具有局部搜索最优解的特性,利用其对PSO进化得到的新粒子进行聚类优化,从而提高全局搜索精度。

(1)优化PSO模型的惯性权重的值ω。ω的值直接决定了PSO的搜索范围,为使算法具有较强的全局搜索能力,在前期保持较高搜索效率,后期保持较高搜索精度,本文对ω做如下修正:

其中,d为迭代次数,n为调节参数(视情况而定)。

(2)利用K-均值法优化新群体。首先将粒子添加到距离最近的聚类中心C'的簇中,用K-均值法对形成的粒子簇进行聚类,得到新的聚类中心集C'';然后计算粒子当前位置的适应度、最好位置的适应度和粒子群最好位置的适应度,用适应度最大的位置更新粒子速度并调整其位置。最后,更新整个粒子群经过的最好位置。

3 移动电子商务情境下的客户细分模型

基于客户价值的评价方法通常是用来构建客户细分模型的重要方法,而其中最常用的就是生命周期价值模型LTV和近度/频度/金额(Recency/Frequency/Monetary)RFM模型。LTV应用计算模型统计出每个客户的LTV值并通过排序来评价客户的价值度。LTV模型较为简单,没有综合考虑客户行为的动态性、市场竞争等复杂因素,且需基于过去购买模式来评价和推断,未能反映客户未来行为及价值的波动趋势,故而具有一定的局限性。RFM模型通过统计最近购买时间(近度)、购买频率(频度)和购买金额三种客户行为指标来构建评价体系。根据RFM值划分出若干类别未知的子客户群,将子客户群的平均RFM与全局客户的RFM平均值依据客户细分模型进行比较,形成最终的客户分类。但RFM仍然只能对过去行为交易进行评价,无法发现潜在客户。

基于此,本文结合这两种模型的思想针对学生群体对移动电子商务的消费模式和群集现象,构建全新的客户/利润/金额CPM模型。通过问卷调查获取到CPM分别相应的三级指标对于CPM的权值,然后应用M-Cluster算法对用户进行分类,具体步骤为:①对C、P、M三个指标分别进行聚类,得到K个的客户簇;②比较每个客户簇的C、P、M平均值与全局客户C、P、M平均值,高于全局均值,记为↑,否则记为↓;③根据每个用户簇的指标变动情况分析该类用户的特征与性质,定义用户类型;④用M-Cluster算法对客户C、P、M指标进行聚类,得到K类用户群体。

4 结束语

传统聚类算法无法满足移动电子商务情境下对客户细分的高精度要求,在分析研究多种经典聚类算法理论的基础上,提出一种收敛速度快、细分精度高的混合聚类算法,且不易陷入局部最优解、不会对初始聚类中心数据敏感等,更适合解决客户细分问题。

[1]Kumara V,Shah D.Building and Sustaining Profitable Customer Loyalty for the 21st Century[J].Journal of Retailing,2004,80(10):317-330.

[2]Borchers A,Herlocker J,Konstan J,et al.Ganging up on information overload[J].Computer,1998,31(4):106-108.

[3]陈智高,陈月英,常香云.基于客户价值的期货业客户聚类细分方法[J].清华大学学报(自然科学学版),2006,46(1):1046-1051.

[4]王华秋,廖晓峰.微粒群并行聚类在客户细分中的应用[J].计算机应用研究,2008,25(10):2987-2994.

[5]MacQueen J.Some methods for classification and analysis of multivariate observations[C].In Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probabilit,Berkeley:University of California Press,1967:281-297.

[6]Kohonen T.Self-organized formation of topologically correct feature maps[J].Biological Cybernetics,1982,43:59-69.

[7]Kennedy J,Eberhart R.Particle swarm optimization[C].In Proceedingsofthe IEEE International Conference on Neural Network,1995,1942-1948.

猜你喜欢
细分权值均值
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
深耕环保细分领域,维尔利为环保注入新动力
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
基于权值动量的RBM加速学习算法研究
基于多维度特征权值动态更新的用户推荐模型研究
1~7月,我国货车各细分市场均有增长
整体低迷难掩细分市场亮点
关于均值有界变差函数的重要不等式