基于融合数据挖掘技术的烟草商业营销推荐系统

2015-03-16 11:12耿晓斐

电脑知识与技术 2015年1期

关键词：聚类

耿晓斐

摘要：融合聚类挖掘和关联规则分析算法，首先采用主成分分析方法进行特征选择，获取对算法有用的属性集合；然后以营销目标为约束条件，对商户进行聚类，获取营销目标下的不同商户分类群；再针对每一类商户，先从底层获取最基础的单层关联规则，然后再采用汇总的数据挖掘技术，获取高支持度和高置信度的强关联规则，作为营销决策依据。通过分析所挖掘出来的规则，对特定分类的商户进行针对性的商品推荐，同时为上层决策提供数据支撑。

关键词：聚类；多层关联规则；烟草商业；营销推荐系统

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2015）01-0005-02

1 研究背景

如何进行营销决策一直是烟草行业的重要研究课题。商烟公司根据国家的计划向烟草工业公司订购卷烟，然后再把卷烟销售给零售商户。由于商烟公司订购的香烟的产地、品牌、质量和价格等各不相同，不同的商户的需求不同，现有的模式是分配制度，造成有些香烟很难销售，目前大多采用搭售的策略，但如何搭售是一种营销策略，盲目搭售会造成用户满意度降低，而且会造成销售效率降低，

目前现有的针对烟草营销策略的研究，多采用数据挖掘的思想，基于数据挖掘的营销策略是对终端客户进行分类，根据用户的销量和诚信记录把用户分为多个等级，但这种分级策略只能反应用户的销量信息，把这个分类作为营销策略依据太单薄，只能起一定的辅助作用。更深入地研究是根据客户的资料和历史订单数据对现有商户进行聚类，获取到自主的商户分类，但盲目的聚类会导致商户的分类没有实际意义，或获取的结果是无助于营销目的的。

2 技术关键

本系统采用基于营销目的的商户聚类，技术关键包括三部分内容：数据预处理中的特征选择、基于限制目标的商户精确聚类和基于聚类结果的多层关联规则算法的研究。

2.1 特征选择

假定获取的数据的维数为n，通常情况下n是很大的一个数，为简化模型，也为了防止模型陷入过拟合（维数灾难），需要进行降维处理，即仅把对项目改造判定起关键作用的因素挑选出来。本系统采用PCA算法来进行降维处理，过程如下：1）计算标准化后的矩阵Z的样本的协方差矩阵Cov； 2）计算协方差矩阵Cov的本征向量 e1，e2，…，en的本征值。本征值按大到小排序；3）投影数据到本征矢张成的空间之中，利用贡献分析取前m个向量Y1，Y2，…，Ym。

2.2 基于营销目标限制的商户精确聚类算法

现有聚类算法一般没有约束条件，只根据相似度来进行聚类，为了能够体现约束条件，需要在聚类相似度或者样本距离之间把限制条件增加进去，这样在样本聚类的时候即可使得具有相同营销特性的样本或者客户被划分到同一个类中。

烟草终端商户的大部分属性是分类属性，例如：地区、类别等，此外还有数字型属性、日期型属性，由于存在不同类型的属性，常规的聚类算法无法使用，为此，采用把数字属性和日期属性划分区间的思路，这样可以转化成分类属性的方式来进行聚类。进而可建立如下商户模型：分类对象X∈Ω，X = [A1=x1]∧[A2=x2]∧…∧[Am=xm]，其中xj∈DOM（Aj），1≤j≤m，为简便起见，将对象X∈Ω用向量（x1， x2， …， xm）表达，如果属性Aj的值不存在，则Aj = ε。令Χ = {X1， X2， …， Xn}为n个分类对象的集合，用集合方式表达分类对象，则Xi = {xi，1， xi，2， …， xi，m}，如果属性Aj的值不存在，则集合中不出现xi，j，容易得到|Xi| ≤ m。如果存在Xi，j =Xk，j，1≤j≤m，则Xi = Xk。

为方便聚类，利用聚类汇总来压缩原始数据，从而达到提高算法效率的目的。一个类C可以由如下三元组（n， I， S）来表示。其中n为类C中的对象数量，I = {i1， i2， …， iu}是C内所有属性值的集合，S = {s1， s2， …， su}，其中sj为ij在类C中的数量，ij∈I，1≤j≤u。集合S按升序排列，即s1≤s2≤…≤su，这同时也暗示集合I的元素按其在C中的数量按升序排列。三元组（n， I， S）被称作类C的聚类汇总CS，CS的三个成员分别记作CS.n、CS.I和CS.S；对于CS.I的任一元素ij∈CS.I，则记作CS.I.ij，对于sj∈CS.S，则记作CS.S.sj，其中1≤j≤u。

给定一个类C包含n个对象{X1， X2， …， Xn}，Xi = {xi，1， xi，2， …， xi，m}，i = 1， 2， …， n，则类C的聚类汇总CS（n， I， S）各成员可通过下列公式得到。

CS.n = n

CS.I = X1∪X2∪…∪Xn

CS.S.sj = [k=1n|{ij}?Xk|]，ij∈CS.I，j = 1， 2， …， u

基于聚类汇总，则类的相似度公式可以描述如下：

sim（X1， X2）=2|X1∩X2| / （|X1|+|X2|）

在进行聚类时，同时把营销目标的划分进行考虑，不同营销目标的两个商户在聚类时应当不能被划分到同一个类中。

2.3 基于烟草营销的多层关联规则的研究

针对本项目，对关联规则定义进行扩展，对形如：X [?] Y的关联规则，不再限定X和Y为一个项目集，而把X和Y定义为条件的合取范式，每个条件Ai = True / False为布尔表达式。此时的Ai为一个项目集，它的含义与原来的X和Y的含义相同，如果把结果中的条件布尔表达式写成Cj = True / False，则关联规则有如下形式：

（A1 = True / False）∧（A2 = True / False）∧ … ∧（An = True / False）[?]（C1 = True / False）∧（C2 = True / False）∧ … ∧（Cm = True / False）关联规则的开采问题可以分解成以下两个子问题：

① 从数据集合或交易集合D中发现所有的频繁项目集。

② 从频繁项目集中生成所有置信度不小于用户定义的最小置信度minconf的关联规则。即对任一个频繁项目集F和F的所有非空真子集S，S [?] F，如果sup（F）/ sup（F-S）≥ minconf，则（F-S）[?] S就是一条有效的关联规则。按上述方法发现所有类似的规则。

这两个步骤中第2步要相对容易，因此项目的研究将更关注第1步，由于最大频繁项目集已经隐含了所有频繁项目集，所以可以把发现频繁项目集的问题转化为发现最大频繁项目集的问题。

针对烟草营销的客户，进行关联规则挖掘时，是在上一步的基础上，即针对每一个商户群进行规则挖掘。在获取到最大频繁项目集后，顺序生成频繁项目集，然后获取到可用的关联规则。此时获取的关联规则是底层关联规则，然后再采用概念树的方法对获取的底层关联规则进行汇总。概念树由烟草领域专家根据属性的领域知识提供，按特定属性的概念层次从一般到具体排序。树的根结点是用any表示最一般的概念，叶结点是最具体的概念即属性的具体值。

在获取多层关联规则后，能灵活确定关联规则的前后件，分析出不同层次各事务的关联。能分析出任意两个事务间的关联关系；分析出任意一项事务与其他多项事务间的关联关系；任意几项事务与其他一项事务间的关联关系，或者任意几项事务与另外几项事务间的关联关系。如：某一时间，某品牌烟，商户总进货量；某类别商户，某品牌烟进货量；某商户，某段时间，某卷烟进货量；某地址段，某品牌卷烟，商户总进货量；某地址段，某段时间，某品牌卷烟，总进货量等等。

参考文献：

[1] Han J W，Kamber M.Data Mining： Concept and Techniques[M].San Francisco，CA：Morgan Kaufmann，2001.

[2] Hong Li，Song-qiao Chen，Jian-feng Du，Li-jun Yi， Wei Xiao.An Algorithm Research for Distributed Association Rules Mining with Constraints Based on Sampling[A].Proc. 5th IEEE Int. Conf. on Cognitive Informatics[C]（ICCI'06），Bejing，2006.

[3] 汪秀林，周国祥，王莉.基于数据仓库技术烟草商业营销决策支持系统的研究与设计[D].合肥：合肥工业大学，2007.

[4] 刘向锋，于洪鹏.基于数据挖掘的延迟消费者数据库营销研究[J].物流科技，2010（6）.