李云菊 牛贵敏
摘 要: 采用数据挖掘手段,基于某银行零售业的数据,分析了客户的投资偏好。采用CART决策树进行特征筛选,发现客户群体年龄大于30岁,资产处于5万以上且工作稳定的保守型客户更倾向于购买银行基金产品。此外,还构建了逻辑回归模型对客户购买基金的概率进行预测。结果表明,通过数据挖掘相关方法所筛选得到的客户群体有更高的购买概率,因此极大地提高了银行从业人员的工作效率。
关键词: 特征筛选; 数据挖掘; 决策树; 逻辑回归; 基金预测
Abstract: Using data mining method, based on the data of a bank's retail trade, this paper analyzes customers' investment preferences. Using CART decision tree for feature selection, it is found that conservative customers with age over 30, assets over 50,000 and stable work are more inclined to buy bank fund products. In addition, a logistic regression model is also constructed to predict the probability of customers purchasing funds. The results show that the customer groups screened by data mining have higher purchase probability, so it greatly improves the work efficiency of the bank employees.
0 引言
随着5G技术的不断普及应用,数据规模增长趋势加剧,在看似繁杂无序的数据背后,往往隐藏着具有价值的信息或知识,其对我们的生产生活具有积极的指导意义。因此从海量的、不完全的、有噪声的数据中可以抽象出人们未知但又潜在的具有实际意义的信息,即通过数据挖掘的方式对海量数据进行精细化加工,用机器学习的方式挖掘出数据间的关系,用人们易于理解的方式呈现,有助于人们更好的进行生活生产活动[1]。对于企业而言,用数据挖掘的方式对客户有关数据进行分析,有助于企业更好的了解客户行为,顺应市场变化,调整营销策略,缩减营销成本。
此外,随着互联网“快时代”的到来以及人们消费升级,人们在选择消费目标或者投资目标产品时愿意花费的时间比以前更短,因此,对于各行各业来说采取更加便捷、简单、个性化的营销推荐方式,选择真正符合客户心理需求的服务才能赢得客户的青睐,对于银行业来说也不例外。为适应这种发展趋势,提高再本行业内的竞争力,银行业应加快转变“广撒网”“大概率”的传统营销方式,由产品导向转为客户导向,从而形成以“互联网+”为依托,以“数据驱动”为关键理念的创新“新零售”模式。通过数据挖掘发现客户群体特征,对潜在的客户进行有效预测并为其提供更及时有针对性的服务。
具有相似特征的客户,往往会有相似的行为方式。因此在“新零售”模式下,发现客户群体的主要特征是重要前提。通过训练机器学习模型可以从海量的历史数据中“学”到客户特征,从而形成“客户画像”从多维度来识别客户群体,有利于企业进一步的整合销售渠道与销售产品类型,合理规划营销策略,在诸如“广告推送”的营销手段中有针对性的发送到目标客户手中[2]。此外在选择营销客户对象时,利用机器学习模型对客户购买情况做出有效的预测,也能在保证营销效果的基础上降低营销成本,提高营销效率。
因此,在大数据时代下,基于银行业零售客户大量的历史数据,挖掘数据所隐含的有价值信息,可以对客户群体特征以及購买基金产品的概率进行预测。本文的分析重点是运用机器学习模型对银行零售业中基金产品用户进行特征提取并对新用户购买基金的概率进行有效预测。
1 数据挖掘算法
数据挖掘当前采用的技术主要包括分类、回归分析、聚类、关联规则、特征分析等,在数据挖掘过程中根据不同分析目标选择不同的手段进行模型构建。其中分类是数据挖掘最常采用的分析方式之一,分类算法包括决策树、逻辑回归、随机森林、贝叶斯网络、支持向量机等[3]。本文采用分类算法中的决策树算法对购买基金的客户群体特征进行提取,并用逻辑回归算法对新客户购买基金的概率进行预测。模型参数的确定均采用网格搜索算法进行参数寻优,来保证模型的训练效果。
1.1 CART决策树算法
决策树(Descision Tree)作为一种典型的监督式学习主要用来解决分类问题,通过对数据的分类迭代,最终形成特征属性与最终类别之间的树形结构。决策树的树形结构包括三类节点,分别是问题最初所在位置的根节点,问题的结论即最终所属类别的叶子节点以及在根节点和叶子节点之间的节点为中间节点。
决策树根据不同的最优划分属性方式可以分为ID3、C4.5、CART等,与ID3、C4.5相比,CART采用基尼系数(公式1)决定最优划分属性[4],并采用二分递归分割方式构建决策树,使得CART既可以解决分类问题也可用作解决回归问题,此外CART决策树还支持连续值的处理且适合数据复杂,变量多的数据,因此CART决策树相较于ID3、C4.5来说应用更为广泛。
由于整个决策树的构建过程理论清晰,可以将训练得到的决策树模型以二叉树的方式进行输出,最终形成的决策树结构具有很好的可读性,因此决策树作为一种白盒模型除了用于分类之外也可用于特征提取。在本文中CART决策树用于购买基金客户特征的提取。
1.2 逻辑回归算法
与常见的回归模型不同,逻辑回归(Logistic Regression)是一种概率模型用于预测分类因变量的概率,采用Sigmod函数(图1)作为判别函数,图1所示的S形曲线形象的解释了概率和自变量之间的关系,对于常见的二分类问题,通过输入未知类别对象的属性特征序列得到对象所处的类别,并通过区间分布对类别进行区分,即如果Y值大于等于0.5,则判定为正样本,如果Y值小于0.5,则判定为负样本[5]。在本文我们探讨的是新客户是否购买基金为典型的二分类问题,因此,我们将构建逻辑回归模型对客户购买基金的情况进行预测。
1.3 网格搜索算法
机器学习的主要任务包括分类和回归两种,而机器学习模型构建的关键是各类参数的设置,其直接影响着模型的分类或回归效果,因此若仅仅依靠个人经验确定模型参数将是一项费时费力的工作。“网格搜索法”(Grid_Search)是一种暴力穷举搜索的方法,即在所有的候选的参数选择中,通过遍历给定的参数的组合并通过交叉验证的方式来尝试每一种可能性,并返回最优模型下的参数取值,从而进行模型优化[6]。本文中CART决策树以及逻辑回归模型的参数均通过网格搜索方法进行参数寻优。
2 算法在银行零售业的应用
数据挖掘的应用渠道非常广泛,就银行业来说,它应用于银行客户管理生命周期的各个阶段,如获取客户、保留客户和优化客户服务等等过程之中。而基金业务对于提高银行综合收益起到了举足轻重的作用,但由于获取客户难度高导致的基金业务难做成为银行业的痛点。因此本文针对银行业内普遍存在的这一难题通过数据挖掘方式进行改善。
本文的研究过程如图2所示,主要包括三部分,其中第一部分介绍了数据集的来源以及数据集的预处理过程;第二部分采用CART决策树进行基金购买客户群体的特征提取;第三部分则在以上2部分的基础上用逻辑回归进行新客户购买基金的概率进行科学预测。
2.1 数据集介绍以及数据预处理
本文研究的数据集来自于某银行零售部门的客户数据(已经过严格脱敏),共计105780条有效数据,其中特征属性包含客户基本信息、使用渠道、客户评价和资产负债这4大类别,共计17维度,其中基金购买状态为标签列,具体数据集的特征属性描述如表1所示。
为了方便模型训练和实验结果的归纳,本文将连续型变量即“年龄”与“资产量(月日均)”这两个特征属性进行如表2所示的离散化处理。其中“年龄”划分标准依据数据分布特点,“资产量(月日均)”的离散化标准为银行业内对客户资金段的划分标准。将零售客户数据集进行数据去重等数据集清洗工作后,得到总计37360条数据。
2.2 CART决策树进行特征提取
基于零售客户数据集,采用CART决策树,以“基金购买状态”为标签列,根据CART决策树算法所训练的决策树模型对数据集中除“基金购买”标签列的16维数据特征进行进一步的特征筛选,进而得到实际与客户基金购买结果相关的因素。
实验结果得到影响客户基金购买的相关的特征为包括“资产数量(月日均)”,“年龄”,“性别”,“职业”,“婚姻状况”,“代发签约状态”,“信用卡签约状态”,“微信银行签约状态”,“其他理财产品数量”共计9维特征属性。进一步的我们发现,大于30岁的资产月日均在5万以上具有稳定工作且消费为“保守型”的客户与其他银行客户相比,更倾向于购买基金理财产品,其中信用卡签约状态为未签约的客户我们认为其消费类型为“保守型”。
2.3 逻辑回归进行基金购买情况预测
基于CART决策树模型所得到的特征筛选结果,即在“资产量(月日均)”等9维特征属性以及“基金购买状态”这一标签列的基础上,采用逻辑回归(Logistic Regression)算法训练基金购买预测模型,对新客户购买基金的可能性进行预测。并将最终预测结果映射为0—1的之间的概率值,且数值越大,表明客户购买基金的可能性越大,即当映射的概率值为1时,逻辑回归模型将判定用户购买基金产品的可能性为100%。
本文采用留出法对模型进行评估,其中数据集的70%作为训练集进行逻辑回归模型训练,数据集的30%作为测试集来测试模型效果。模型参数,用网格搜索法进行参数寻优来确定。
由于本文實验目的是在保障客户预测准确率的同时尽可能多的发现基金客户,为此我们在选择模型参数时牺牲了部分准确率(Precision)来得到更高的查全率(Recall)。最终基于零售客户数据集训练所得到的基因购买逻辑回归预测模型在测试集上的准确率达到70%,查全率为75%,F1值(F-Measure)为70%。
3 结束语
大数据产业链的驱动下的数据分析与数据挖掘作为其中的一个重要环节对于加强产业与信息服务之间的联系,促进产业发展具有十分积极的作用。本文基于银行业零售基金购买情况的数据集,通过CART决策树进行特征提取,我们发现客户群体符合年龄在30岁以上,资产处于5万以上且工作稳定的“保守型”客户更倾向于购买基金,另外,基于训练得到的逻辑回归模型,可以对客户购买基金的可能性进行有效的预测。本文为银行业基金理财产品精准营销提供了科学有效的方法,实验结果表明,通过数据挖掘方法得到的客户比随机进行基金产品营销更准确方便,此法极大地减少了银行从业人员的工作量,提高了银行从业人员决策的准确性。
参考文献(References):
[1] 邵峰晶.数据挖掘原理与算法[M].中国水利水电出版社,2003.
[2] 赵飞鸿.基于金融类客户画像的二分K均值算法分析研究与应用[D].中国科学院大学(工程管理与信息技术学院),2016.
[3] Han J, Micheline K. Data mining: concepts and techniques[J]. 2006.5(4):1-18
[4] 周志华.机器学习[J].航空港,2018.2:94-94
[5] 李平,戴月明,王艳.基于混合卡方统计量与逻辑回归的文本情感分析[J].计算机工程,2017.12:198-202,208
[6] 刘道文,忽海娜.基于网格搜索支持向量机的网络流量预测[J].计算机应用与软件,2012.29(11):191-192,253