胥学峰, 邢德恩, 宗炫君
(1.都城伟业集团有限公司, 北京 100020;2.国网江苏省电力公司经济技术研究院,江苏 南京 210008)
基于PCA与SOM神经网络算法的客户价值细分模型研究
胥学峰1, 邢德恩1, 宗炫君2
(1.都城伟业集团有限公司, 北京 100020;2.国网江苏省电力公司经济技术研究院,江苏 南京 210008)
针对房地产客户价值管理问题,以某大型房地产企业的普通住宅业务为研究对象,构建了基于PCA与SOM神经网络算法的房地产客户价值细分模型。首先采用PCA主成份分析法将输入变量重组为线性不相关的综合指标,然后采用SOM神经网络算法对客户价值进行聚类分析,最后针对聚类结果,分析不同目标客户群的购买模式和价值特征,旨在为房地产企业的营销过程提供决策支持。
客户价值细分; SOM; 主成份分析法; 自组织性;评价指标
Abstract: Facing real estate customer value management and taking common residence business of a large real estate enterprise as research object, this paper establishes a real estate customer value segmentation model based on PCA and SOM neural network. Firstly, input variables are reorganized into linear and irrelevant composite indicators in the PCA method. Then, a cluster analysis is made of customer value in the SOM neural network algorithm. Finally, with respect to cluster results, this paper analyzes purchasing patterns and value characteristics of different target customer groups so as to provide decision support for the marketing process of the real estate enterprise.
Keywords: customer value segmentation; SOM; principal component analytic method; self-organization; evaluation index
当前我国房地产企业面临着去库存、成交率低、营销成本高、客户满意度低、客户流失、未激活的潜在客户、资源粗放化等一系列问题,另外,房地产行业还有一定的特殊性,比如资金流动性低,需求量非常大等。这就要求房地产企业在营销过程中以客户为导向,正确进行客户价值的识别,通过对房地产客户历史数据进行分析,识别出不同价值的客户,从而对其制定个性化的营销方案,将有限的资源集中于高价值用户,实现资源的合理配置,提高企业的利润最大化。
信息时代的到来使得房地产企业焦点由“以产品为中心”向“以客户为导向”转变,这就要求企业不断聚焦客户价值细分研究,从海量的历史数据中挖掘客户的购买行为和模式,区分高价值与低价值客户的特征,针对不同的客户提供差异化的服务方案,将有限的资源集中到高价值客户上,实现企业的利润最大化。
国内外学者从不同的角度对客户价值细分进行了研究,Dweyer与Jackson从客户流失的角度出发,将客户价值细分指标分为“永久流失”和“暂时流失”两种,建立了相应的客户价值细分指标体系[1];Alex与Berson等人从客户关系管理角度出发,采用决策树和聚类算法来研究零售业客户的价值细分[2];张良均等人在研究航空公司客户价值分析中,采用了LRFMC模型,从客户会员时长、消费间隔、消费频率、飞行里程和折扣系数五个维度研究客户价值识别[3];邹鹏等人从代价敏感性学习的机制下研究了客户价值细分,建立了分类的期望损失函数作为分类效果的评价标准。
由于房地产行业是一个非常特殊的行业,具有流动性差、需求量大、政策导向明显和资金需求量大的特点,导致房地产客户价值的研究不能直接采用传统的RFM模型(消费间隔R、消费频率F、消费金额M),本文在前人研究的基础上拓展了RFM模型,针对房地产客户价值的研究,通过专家调研法和头脑风暴法粗选出了与客户价值影响因素相关的12个指标,具体的指标体系如表1所示。
(1)购买能力。主要从客户本身的购买能力出发选取指标,包括月薪酬、单价、付款类型、薪资收入、首付款、首付比例几个指标,同样的月薪酬在不同的区域反映的购买能力是不同的,区域因素可以用房产单价来反映,同时,首付款和首付比例也能直接反映购买者的购买能力。
(2)家庭结构。由于中国房屋的稀缺性以及人们的生活观念影响,使得购房不仅仅是个人的决策,往往购买决策是整个家庭的决策结果。本文用家庭生命周期、年龄、教育情况等指标来反映家庭结构,本文将家庭生命周期分为年轻男女、已婚无子女、已婚子女小于6周岁、已婚子女小于20周岁、三代家庭、老年家庭6个级别。
(3)购买动机。购买动机也就是指客户购房的直接驱动力。依据马斯洛需求层次理论得知,需求从低到高分为生理性需求、安全性需求、功能性需求、情感性需求和社会性需求五大类,应用到房地产客户上,购买动机从低到高分为栖居型、改善型、享受型、占有型和出租型。
(4)其他。从实地调研中发现,房地产客户价值分析还与已有房产面积、跟进次数、建筑面积等有非常重要联系,跟进次数在一定程度上可以反映购房者的品牌忠诚度。
表1 客户价值细分指标粗选列表
在房地产客户价值细分的研究过程中,由于客户评价指标属性较多,并且指标之间存在一定的关联性,直接对客户进行聚类分析会导致信息重溢现象。基于此,本文构建了基于PCA与SOM神经网络的房地产客户价值细分模型,针对上节构建的客户价值细分指标,首先采用基于PCA的主成份分析法将众多指标重组为少数几个相互独立的能够很大程度上反映所有指标特征的综合指标,然后针对这几个指标采用SOM神经网络算法进行聚类分析,将客户细分为不同价值的类,最后针对每个类别的客户进行分析,为企业的营销过程和客户关系管理提供一定的决策支持[4]。房地产客户价值细分建模总体流程如图1所示。
图1 房地产客户价值细分建模流程
主成份分析法(Principal Component Analysis)旨在利用将维的思想,把多维指标转换为少数综合指标(主成份),每个综合指标尽可能全面的反映原始变量的信息,且各主成份之间线性不相关,所包含的信息不重叠,从而降低问题的求解难度,保持数据分析的有效性[5]。
本文采用PCA主成份分析法确定房地产客户价值评价指标,在前文粗选的客户价值评价指标的基础上,运用主成份分析法对初始指标进行将维处理,为下一步客户价值细分做准备,分析主要的步骤如下:
(1)采集数据及确定某房地产客户价值评价集合。通过调研某房地产企业,抽样获取数据作为样本,原始数据指标集合为:
{Vi1,Vi2,Vi3……Vij}其中i=1,2,3…m,j=1,2,3…n
(1)
(2)指标变量标准化处理。进行数据探索和描述性统计分析,为了消除指标之间的量纲和取值范围差异的影响,必须对指标数据进行标准化处理。本文采用最小-最大值标准化方法:
(2)
(3)计算相关系数矩阵Rij,rij表示原变量Vi与Vj之间的相关系数,计算公式为:
(3)
(4)计算特征值λi及对应的特征向量li。
(5)计算主成份贡献率及累计贡献率。一般选取累计贡献率大于85%的特征值对应的主成份m,这m个主成份就综合体现了所有指标的大部分信息。
主成份贡献率:
(4)
主成份累计贡献率:
(5)
(6)计算各主成份得分Zij,将其作为房地产客户价值细分评价的综合指标。
Zij=Vij*li
(6)
由于客户资料复杂多变,且客户价值模式往往又由许多隐含层次因素交互作用影响,本因此,文构建了SOM神经网络对客户价值进行聚类分析,该网络为无监督学习网络,能够自动识别输入样本信息自动聚类,受环境干扰性小,具有较强的自组织性,相比于传统的聚类算法,其具有更优秀的聚类性能[6]。
自组织映射神经网络(Self Organization Feature Map, SOM)是芬兰赫尔辛基大学教授Kohonen于1981年提出的,该网络由输入层和竞争层构成,输入层将输入信息通过权值向量映射到竞争层各神经元上,竞争层神经元相互竞争使得学习率和神经元邻域半径不断减小,从而使得同类神经元逐渐集中,形成属性特征相似的类别[7]。本文基于SOM神经网络,建立房地产客户价值细分模型,建模主要思路如下:
(1)依据某房地产企业客户价值细分指标构建SOM神经网络,网络拓扑结构为六边形,竞争层包括2×2=4个神经元。
(2)网络初始化及邻域半径的确定。输入层与竞争层神经元之间实现全连接,权值向量{Wij}赋予[0,1]区间内的随机值,确定学习率η(0)(0<η(0)<1),确定初始邻域半径Ng(0),一般情况下,应该覆盖所有邻域距离的2/3。权值向量应满足:
(7)
(3)接受输入。随机从训练集中选取一个输入样本,并进行归一化处理,得到Xk=(X1,X2,…Xn),n为输入神经元数目。
(4)寻找获胜神经元。计算输入样本与全部竞争层神经元之间的距离(欧氏距离):
(8)
选择距离最小时对应的节点Nj*为竞争获胜神经元:
(9)
(5)定义优胜邻域。优胜邻域是以获胜神经元为中心,设定一定距离的半径的一个区域,在网络的学习过程中,随着迭代次数的增加,权值向量不断自组织和调整,优胜邻域不断缩小为零,模式趋于稳定[8]。Nj*表示获胜神经元的邻域,其应满足:
Nj*={m,dj (10) (6)权值调整。当样本输入后,获胜神经元及其优胜邻域范围内的神经元会以自组织形式不断调整权值向量,随着迭代次数的推移,竞争层各神经元就会趋于稳定状态[8]。权值向量调整如下: (11) (7)检查结束。随着迭代次数的增加,学习率会不断的减小,判断结束的标准为学习率逐渐减小为零或某个非常小的正数。 本文采用RStudio软件进行数据分析,为了验证模型的有效性,本文选取了24条已成交客户数据作为样本数据,利用建立的模型对客户价值进行细分研究。 为了降低问题的复杂度,选取了24条数据作为研究样本,根据客户价值细分指标体系选取12条指标,并对数据进行标准化预处理[9]。结合RStudio软件进行主成份分析,主成份的选择依据主成份累计方差贡献率大于等于85%,可知,各主成份方差贡献率如表2所示。 表2 各主成份方差贡献率 由上表可以看出,主成份一、主成份二、主成份三和主成份四的累计方差贡献率高达85.7%(大于85%),故只需选取主成份一、主成份二、主成份三和主成份四,即可代表原来的12个指标的大部分信息,各主成份因子载荷矩阵如表3所示。 表3 各主成份因子载荷矩阵 由上表各主成份因子载荷矩阵可以看出,第一主成份在首付金额、首付比例、已有房产面积、购房用途、月工资等指标上载荷较高,说明其主要反映这几个指标的信息,因此,认为第一主成份代表了个人资产情况;第二主成份在家庭生命周期和年龄指标上载荷最高,认为第二主成份主要反映了家庭结构;第三主成份在单价上载荷较高,且与购房面积呈较强的负相关关系,说明第三主成份主要反映了个人购买能力情况;第四主成份与付款方式呈较强正相关,且与年龄和咨询次数呈较强负相关,则认为第四主成份主要反映了客户付款方式情况。 各综合指标计算公式为: comp1=0.311*x1+0.3*x3+0.375*x4+ (12) comp2=0.242*x1-0.254*x2-0.397*x3- (13) comp3=-0.873*x2+0.314*x5+0.212*x6+ (14) comp4=-0.478*x1-0.129*x2+0.318*x4- (15) 各主成份得分情况如表4所示,然后将这四个主成份作为SOM神经网络模型的输入样本,进行客户价值聚类分析。 表4 SOM神经网络输入样本 如图2所示,基于主成份分析法选择的4个主成份,采用SOM神经网络算法对客户价值进行细分,通过调整参数及结果分析,将SOM神经网络参数设置为:竞争层为2*2的二维空间平面,为矩形网络拓扑结构,学习率线性变动区间为[0.05,0.01],邻域半径为0.5,最大迭代次数为500次[10],此时,模型取得最理想的效果,聚类结果如表5所示。 表5 客户聚类结果 图2 客户特征分布雷达图 针对聚类结果进行特征分析,24个客户被分成了4类客户群,客户群1包括1 2 3 4 5 8 14 18 19 20 22等11个客户,客户群1在comp2、comp3与comp4属性上较大,在comp1属性上最小;客户群2包括15 16共2个客户,客户群2在comp1、comp3与comp4属性上最大,在comp2属性上最小;客户群3包括6 7 9 10 11 12 13 17共8个客户,客户群3在comp2属性上最大,在comp4属性上较小;客户群4包括21 23 24共3个客户,客户群4在四个属性上都非常小。 通过上述分析表明每个客户群都具有显著不同的特征,根据上面特征描述,本文将客户群定义为四个等级的客户类别:重要保持客户、重要发展客户、重要挽留客户、一般客户。其中每类客户的特征如下: 第一类(客户群2):重要保持客户。这类客户的个人资产情况和个人购买能力都比较突出,中年成熟家庭,且基本采用全款方式购买,对房地产企业的贡献最大,所占的比例却非常小。因此,应该优先将资源集中到他们身上,实施差异化的管理和一对一营销,重点保持和延长该类客户的高消费水平。 第二类(客户群1):重要发展客户。这类客户个人资产水平较低,年龄基本在25至35之间,首付比例低且无房产面积,购房单价较高,有一定的购买能力,属于事业初创期的年轻人,这类客户当前的价值不是很高,但是却有很大的发展潜力。因此,房地产企业应该重点关发展类客户,挖掘其购买潜力,防止他们流失到竞争对手阵营,使他们尽可能发展为公司的忠诚客户。 第三类(客户群3):重要挽留客户。该类客户通常为中年客户,已经拥有至少一套房产,使用较低首付比例,该类客户所购买房产已经饱和。因此,可以对该类客户采取必要的挽留措施。 第四类(客户群4):一般客户。该类客户的个人资产通常较低,年龄较小,且购买能力比较低,首付比例较低,是房地产企业的一般价值客户。 本文结合房地产行业的特点,基于客户价值细分理论以及SOM神经网络理论,构建了基于PCA与SOM神经网络算法的房地产客户价值细分模型,首先运用PCA主成份分析法提取影响客户价值细分的综合指标,然后采用SOM神经网络算法对客户价值进行细分,将房地产客户价值细分为重要保持客户、重要发展客户、重要挽留客户和一般客户,帮助房地产企业优化营销资源配置,为房地产企业的价值客户群管理提供一定的决策支持。 [1] DWYER F R. Customer lifetime valuation to support marketing decision making[J]. Journal of Interactive, 2003(4):32-39. [2] (美)ALEXBERSO著, 贺奇,译. 构建面向CRM的数据挖掘应用[M]. 北京: 人民邮电出版社, 2001. [3] 张良均, 云伟标, 王路. R语言数据分析与挖掘实战[M]. 北京: 机械工业出版社, 2015. [4] 李春华. 自特征映射自组织特征映射神经网络原理和应用研究[J]. 北京大学学报, 2006, 42 (2): 543-547. [5] 杨淑霞, 吕世森, 乔艳芬. 用电客户信用的主客观评价及分析[J]. 中国电力, 2005, 38(6): 1-4. [6] 薛星, 张世峰. 房地产市场预警系统时政研究[J]. 金融纵横, 2010, 13(4): 23-29. [7] 李潇虎. 城市房地产市场预警系统研究[J]. 金融纵横, 2010,13(4):23-29. [8] 高隽. 人工神经网络原理及其仿真实例[M]. 北京:机械工程出版社, 2007. [9] 杨毅, 陈冲. 基于SOM神经网络的煤炭企业客户细分模型研究[J]. 中国矿业, 2009, 18(2): 33-38. [10] 肖强, 钱晓东. 一种改进的SOM神经网络对Web用户的聚类[J]. 情报科学, 2012, 12(3): 54-59. A Research of Customer Value Segmentation Model Based on PCA and SOM Neural Network Xu Xuefeng1, Xing Deen1, Zong Xuanjun2 (1. Ducheng Weiye Group Corporation, Beijing 100020, China; 2. State Grid JiangsuElectric Power Co., Economic and Technical Research Institute, Nanjing Jiangsu 210008, China) 10.3969/j.issn.1000-3886.2017.03.016 TM744 A 1000-3886(2017)03-0049-04 定稿日期: 2016-10-19 国家电网公司科技项目《基于云计算的多产业辅助决策支撑体系研究与应用》 胥学峰(1966-),山东邹平人,男,硕士生,高级工程师,主要研究方向:房地产产业发展。 邢德恩(1972-),山东济宁人,男,工程硕士,全国注册安全工程师,主要研究方向:数据分析研究。 宗炫君(1990-),江苏盐城人,女,硕士,工程师,主要研究方向:数据分析算法研究。3 实例分析
3.1 主成份分析
0.204*x5+0.372*x6+0.278*x7-0.297*x8-
0.156*x9+0.355*x10+0.294*x11+0.299*x12
0.419*x5+0.109*x6-0.42*x7-0.438*x9+
0.194*x10+0.345*x11
0.205*x8+0.127*x9-0.102*x11+0.13*x12
0.311*x5+-0.112*x6-0.387*x8-
0.173*x9-0.309*x11+0.505*x123.2 SOM神经网络训练及学习过程
3.3 模型分析
4 结束语