基于改进K-近邻规则的数据库营销分析

2018-10-30 03:44朱芝孺
统计与决策 2018年19期
关键词:训练样本类别规则

王 昱,朱芝孺

(重庆大学 经济与工商管理学院,重庆 400030)

0 引言

数据库营销指企业搜集和积累大量的市场数据并对数据进行分析,以识别对某类营销活动或产品感兴趣的目标客户,再对目标客户进行关系维护与深度挖掘,并根据挖掘得到的信息制定和实施营销策略。根据二八定律,企业80%的利润都来自于20%的顾客。因此,如何从庞大的消费者群体中准确识别对于企业具有重要价值的目标客户,建立以目标客户为主导的营销体系,是企业在当前激烈的市场竞争中获取竞争优势的一个重要途径。

在数据库营销中,目标客户定位的精度是提升企业营销经营业绩的一个关键因素。Knott等[1]指出,一个零售业务银行的目标客户定位精度提高0.7%可使得客户的收益提高20%。从数据挖掘的角度出发,可以将数据库营销中目标客户定位视为有监督学习问题,即根据消费者历史数据建立模型以预测其是否响应(购买产品)或响应概率。因此,大量研究将数据挖掘中的有监督学习方法,如人工神经网络、支持向量机、决策树、基于案例的推理、遗传算法等,应用于预测和定位目标客户。但是在实际情况中,企业的目标客户数量一般远低于非目标客户,即存在类别不均衡问题。这一重要的问题特性使得传统的监督学习方法难以有效处理数据库营销中的类别不均衡问题,对于目标客户的预测效果较差。

为了解决类别不均衡问题,近期研究提出了基于数据集层面的过抽样和欠抽样方法[2],以及基于算法层面的方法[3]。但是,对于样本比例的调整可能矫枉过正,使得结果出现过拟合,或损失样本中重要的信息而出现欠拟合,从而降低目标客户定位的准确性。此外,这些方法往往结构复杂,实用性低且可解释性有限[4]。针对上述问题,本文将无数据输入假定且支持增量学习的K-近邻规则引入数据库营销,并根据数据库营销问题的数据特性提出一种改进的K-近邻规则。通过在实际数据集上的实证对比分析,证明所提出的改进的K-近邻规则不仅能够取得较高的目标客户定位精度,提高数据库营销的效果,还具有高度的可解释性,为市场营销管理者提供有效的决策支持。

1 改进的K-近邻规则

1.1 K-近邻规则简介

记 由 来 自 m 个 类 别 C1,C2,…,Cm的 n 个 训 练 样 本XX2,…,Xn构成的数据集合为S,其中 Xi=(xi2,...,),(i=1,2,…,n)为d维欧氏空间中的样本点,并且每个训练样本的类别标记已知。对于一个未知类别的样本X,K-近邻规则的基本原理是从S中选择与X最为相似的K个训练样本(近邻),提取其类别标记进行比较学习。若以k1,k2,…,km表示K个近邻中分别属于类别 C1,C2,…,Cm的样本数,则可以定义K-近邻规则的学习函数为:

根据式(1),K-近邻规则的分类规则为:

K-近邻规则一般采用欧氏距离作为样本的相似性测度,样本的距离越近则其相似性越高。两个样本Xi和Xj之间的欧氏距离定义为:

K-近邻规则不需假定数据输入满足某种或某些分布,并且作为非参数算法,其结果的可解释性更强,在很多情况下其精度比一些较复杂的参数算法更高[5]。但是,该算法中需要设定一个关键的参数K:若K值太小,算法易受到训练数据中的噪音影响;若K值太大,最近邻中可能包含过量的样本点,从而影响算法的性能。

1.2 参数K的取值优化方法

为了有效地处理参数K的合理设定问题以提高K-近邻规则的性能,本文提出一种参数K的取值优化方法。考虑每个训练样本 Xi,(i=1,2,…,n)与样本 X 的距离,若将这些距离按升序排列,则以样本个数为横轴,距离为纵轴的曲线一般呈“S”型的上升趋势。用线段连接距离最小值点与最大值点,并令其斜率为L,则L反映了从样本总体而言,训练样本距样本X的距离随K的增加而增大的快慢程度。在曲线上搜索斜率为L的切点,其对应的距离为d1和d2,如图1所示。

图1 距离升序变化曲线示意图

记欧氏距离小于等于d1值的训练样本集合为T1,欧氏距离小于等于d2值的训练样本集合为T2,则有T1⊂T2。根据K-近邻规则对样本相似性的定义,距离越小的样本其相似性越高,则T1包含与样本X最为相似的训练样本,而T2不仅包含T1,还包含曲线趋势较平稳,即距离处于一个相对稳定的区间的样本。与T1相比,T2中这部分样本和样本X相似性更低,且个数远大于T1。如果所选择的K个近邻中包含这一部分相似性相对较低的训练样本,则这些“冗余”的近邻可能会影响K-近邻规则的预测结果。因此,为了充分利用样本X的近邻信息,同时减少冗余信息的影响,在应用K-近邻规则对样本X进行分类预测时,设置K个近邻为距样本X的距离小于等于d1的训练样本。对于不同的样本,其与各个训练样本的欧氏距离分布不同,因此对应的K值也不同,即在K-近邻规则中需要根据每个样本的属性取值动态确定其K值。

1.3 算法步骤

(1)属性取值规范化

由于K-近邻规则中一般使用距离对样本相似性进行测度,因此为了避免量纲较大的属性在距离计算中所造成的偏差,需要对各个属性进行规范化处理。本文采用的方法为最小-最大规范化方法,记样本 Xi,(i=1,2,…,n)中属性 Al,(l=1,2,…,d)的取值,max(Al)和 min(Al)分别为属性Al在样本集合中的最大值和最小值,则规范化后的属性取值为:

(2)拟合距离曲线并设定K值

在计算得到每个训练样本 Xi,(i=1,2,…,n)与样本 X的距离并按升序排列后,为了得到图1所示的连续可导的曲线并寻找斜率为L的切点,需要对距离与样本数之间的关系进行拟合。若使用单一的曲线拟合全体数据,可能出现拟合偏差较大,精度不高的情况。为了提高拟合精度,本文对其采用分段拟合的方式。分段拟合将图1中横轴划分为若干段,再在每一段中拟合距离与训练样本个数的函数关系。在得到每一段的拟合曲线后,按照距离从小到大的顺序依次从各段曲线中寻找斜率为L的切点,所得到的切点对应的样本个数即为最优的近邻数K。

(3)预测样本属于各个类别的概率

在确定样本X的近邻后,一般的K-近邻规则采用多数投票方式对样本X的类别标记进行预测,即选择K个近邻中出现次数最多的类别。这一方式存在的主要问题是未考虑距离大小对于类别标记的预测作用。因此,本文采用加权投票方式,即根据每个近邻的距离设置投票权重。对于样本 X 的近邻 Xk,(k=1,2,…,K),其权重 wk的计算公式为:

其中,d(X,Xk)表示样本 X与近邻 Xk的距离。式(5)意味着近邻离样本的距离越小,则其权重越大。根据K个近邻的权重可以得到样本 X属于类别C1,C2,…,Cm的概率为:

其中,1(·)为逻辑判别函数,如果“·”为真,则1(·)=1,否则1(·)=0 。

2 实证分析

2.1 数据选取

为验证本文所提出的改进K-近邻规则对于数据库营销的有效性,选取CoIL 2000预测竞赛数据作为数据集[4]。该数据集包含了9822个欧洲家庭是否购买休闲车保险的记录,其中训练集合包含5822条数据记录,用于建立数据库营销模型,测试集合包含另外4000条数据记录,用于评估模型效果。每条数据记录包含86个属性,其中85个属性为关于产品使用和社会人口统计的属性,最后1个属性为类别标记(1表示购买保险,0表示不购买)。在5822个训练样本中,仅348个是实际购买的样本,少数类样本占总样本数的348/5822=5.97%,属于典型的类别不均衡数据集。

2.2 对比模型与评价指标

本文中用于对比的模型为Laurikkala等提出的领域清理规则欠抽样算法NCL[6]和Kim等[4]提出基于局部进化特征选择的人工神经网络算法ELSA/ANN。NCL是采用K-近邻规则处理类别不均衡问题的经典算法之一;ELSA/ANN使用遗传算法进行属性选择,然后应用人工神经网络预测响应概率。

有监督学习模型中最常用的评价指标为精确度。然而对于数据库营销这一存在类别不均衡的问题,人们往往更加关注对于少数类(实际购买的客户)的预测准确性。因此,本文采用受试者工作特征曲线(ROC)和命中率(Hit Rate)作为评价数据库营销模型效果的指标,这两个指标均在数据库营销研究中得到了广泛应用。

ROC反映在阈值变化时假正率(FPR)和真正率(TPR)的相对变化情况,其中FPR和TPR的计算公式为:

式(7)中,FP、TP、FN、TN的定义如表1中混淆矩阵所示。

表1 混淆矩阵

当模型的假正率越低,同时真正率越高,即ROC下方的面积越大时,模型的效果越好。

命中率这一指标反映在给定潜在目标客户数量的情况下,模型所识别的实际目标客户数量。比如,根据模型的预测结果从100名客户中选择30名响应概率最高的客户作为潜在目标客户,其中有12名为实际的目标客户,则模型的命中率为40%。因此,以命中率作为评价准则符合数据库营销的理念,是评价数据库营销模型的一个有效准则。命中率指标的具体计算公式为:

式(8)中,depthi一般被称为深度,指被选取作为潜在目标客户的数量占客户总体的比例,通常选取五分位点,如5%、10%、15%等,M为客户总体数量,TPi为在给定潜在目标客户数量下模型得到的真正率。显然,命中率越高,说明模型的效果越好,即在给定潜在目标客户数量下能够命中越多的实际目标客户。

2.3 结果分析

将本文所提出的改进K-近邻规则和NCL应用于CoIL 2000数据集,得到的两种模型的ROC对比结果如图2所示。

从图2可以看出,本文提出的改进K-近邻规则(IKNN)的ROC明显处于NCL上方,说明随着概率阈值的变化,在预测为正类的样本中,改进K-近邻规则所得到的实际正类样本占比更大,对于识别少数类的目标客户能够取得比NCL更好的效果。

将NCL和ELSA/ANN以及本文所提出的改进K-近邻规则应用于CoIL 2000数据集,得到三种模型在不同深度下的命中率如表2所示。

图2 改进K-近邻规则和NCL的ROC

表2 三种模型在不同深度下的命中率

表2的结果表明,当设定较小的潜在目标客户比率,即深度较小时,本文提出的改进K-近邻规则能够有效提高数据库营销的命中率。当深度较大时,相对于ELSA/ANN仍然具有近似相同的命中率。考虑到在数据库营销问题中,营销管理者往往设定较低的潜在目标客户比率以降低成本,但同时希望命中尽可能多的目标客户,因此,本文提出的改进K-近邻规则可以有效应用于数据库营销。此外,相对于结构复杂和具有“黑箱”性质的人工神经网络,K-近邻规则具有高度的可解释性,能够更加有效地为营销管理者提供决策支持。

3 结束语

数据库营销中一个关键问题是准确识别目标客户,而目标客户一般在客户总体中所占的比例较小,即存在类别不均衡问题。此外,营销管理者为了制定有效的产品营销策略,需要模型具有较高的解释性。针对上述两个问题,本文提出了基于改进K-近邻规则的数据库营销模型,将其应用于实际的数据集并与其它模型进行对比实证分析,结果表明提出的改进K-近邻规则能够提高目标客户识别的准确性和结果的可解释性,可以有效应用于数据库营销问题。

猜你喜欢
训练样本类别规则
撑竿跳规则的制定
数独的规则和演变
一起去图书馆吧
人工智能
让规则不规则
TPP反腐败规则对我国的启示
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
多类别复合资源的空间匹配
选相纸 打照片