□ 陈亮 吴荣荣 刘银行 黄凯莉
数字革命是新一轮科技革命的关键领域。数字技术快速发展,深刻改变着社会经济形态及人们的生产生活方式。建设数字中国、数字乡村是国家重大战略。数字化正在对传统经营管理模式和市场竞争态势进行深刻重塑。从行业发展状况看,数字化时代头部现象愈发突出。抓住产业数字化、数字产业化赋予的机遇,是实现新一轮高质量发展的关键。金融与数字技术具有天然的融合性,金融行业有很多数据资产,隐藏着十分有价值的信息生产力。迫切需要发现海量数据中的关联关系,预测金融业未来发展趋势(杨婷婷,2021)。利用数据挖掘技术可以锁定目标客群,从而进行精准营销,降低经营成本,提升整体效益(牛亚琴、卢苗苗,2021)。
数据挖掘在金融行业中的应用很重要的一点是客户关系管理,企业利用数据挖掘技术对客户进行整合营销(杨婷婷,2021)。数据挖掘能实现对银行客户的画像和产品需求的精准分析,设计各种序列的个性化营销方案,能够在客户识别、客户筛选、内容推荐等营销环节提供精准选择,从而有效提高营销成功率。根据麦肯锡全球研究所的数据,数据挖掘技术可以为银行业创造超过2500亿美元的价值(陈子阳,2021)。
数据挖掘的步骤可以分为定义问题、数据搜集、数据预处理、数据挖掘、模型评估和优化(杨婷婷,2021)。客户提升模型常用的算法有Logistic回归模型、决策树模型、神经网络模型、XGBoost模型等。其中,决策树模型的算法是分类、预测等领域的典型算法,具有速度快、准确率高的特点,被广泛应用(路健、王立坤、李晓玉,2020)。XGBoost模型的算法包含了对特征选择部分的内容,使用其树模型的特点给与不同特征以重要性打分,并进行特征重要性排序(陈子阳,2021)。通过数据验证模型,输出模型训练结果,用验证集数据验证模型训练结果的准确性(牛亚琴、卢苗苗,2021)。
基于以上研究,本文聚焦大数据在客户筛选与精准营销方面运用的实践进行实证研究,选择了个人潜力客户资产提升大数据分析项目作为研究样本,以A银行AUM(个人金融资产)1-10万元的个人客户为研究对象,基于这些客户的基本信息、资产、交易流水等数据建立个人潜力客户资产提升预测模型,通过现有客户名单预测在营销活动中有较大概率被成功营销,从而使得个人金融资产显著提升的客户(显著提升是指个人金融资产提高20%以上),分析大数据在客户精准筛选与营销服务方面的应用方法,为提升客户营销与服务能力提供有价值的思路、路径、方法与技术支持,全面提升客户经营管理与营销服务水平。
本项目(个人潜力客户资产提升大数据分析项目)的研究思路是“参考过去、预测未来”,即使用过去已经发生的事情预测未来是否会发生某种情况,其本质在于,利用已有的数据建立模型,并使用模型确定潜力客户清单,指导营销人员实施客户筛选和精准营销。因项目研究重在探讨原理、思路、方法、技术等规律,对数据的质量和数量要求较高,对数据的时间要求较低,故而在研究过程中选择了经过沉淀的2019年-2020年确定性数据,便于分析和深入研究,获得更加有价值的信息(如图1)。
图1 研究思路图
项目主要分为建立模型(个人潜力客户资产提升预测模型)阶段和使用模型阶段:
建立模型阶段主要是结合前三个月(2019年3月末)的历史状态(多项特征)和三个月后(2019年6月末)的AUM提升状况对模型进行训练,得到个人潜力客户资产提升预测模型(模型建立阶段使用的数据都是历史数据)。
使用模型阶段是通过想要预测的未来时间点(2020年1月末),将其前三个月(2019年10月末)的时间点作为基准,根据基准时间点前三个月的历史状态作为预测模型的输入,模型的产出是AUM在1-10万元的客户中,每个客户的AUM提升20%以上的概率。
基于业务需求分析和有关专家经验及A银行现有成果,针对个人潜力客户资产提升确定了模型输入的数据范围。模型输入数据涵盖客户基本面貌、金融资产、资金往来等信息,主要来源于大数据平台分行数据集市,涵盖的数据表具体如表1:
表1 模型输入数据涵盖的数据表
8个人保险客户级汇总表20交易渠道字典表9个人第三方存管客户级汇总表21网银交易明细表10个人国债客户级余额汇总表22第三方支付绑卡清单11个人贷款客户级汇总表23第三方支付交易明细汇总表12个人客户风险事件历史表
本文选定2019年1-3月为观察期,在观察期内对客户的各项特征进行计算与评估,掌握客户在此时间区间内存在的行为特征及变化规律;选定2019年4-6月为表现期(如图2),即观察期后的三个月的月末作为预测时点,观察客户在表现期其金融资产是否提升了20%以上。
图2 观察期表现期示意图
定义模型的正样本为观察期后三个月月末时点(2019年6月30日)金融资产提升了20%以上的客户;定义模型的负样本为观察期后三个月月末时点金融资产没有提升20%以上的客户。
本项目模型的训练样本为2019年3月31日年日均金融资产在1-10万元的客户,共计306万户,其中,正样本50万,负样本256万,正负样本比例约为1:5,即客户自然状态下AUM提升20%以上的概率为16.07%。
根据上述23张数据表(表1),从中提取了440项特征作为原始特征集,包括客户基础特征,如客户年龄、性别、是否开通网银、是否开通掌银等;还包括部分衍生特征,如当月现金交易总笔数、当季第三方支付交易总笔数、柜台季交易次数等。
数据初步加工后进行数据预处理,主要包括数据清洗:对缺失值比例大于99%的特征以及日期特征进行删除;缺失值处理:将特征的空值使用0进行填充;异常值处理:对年龄异常值使用年龄众数填充;数据变换:对类别特征one-hot编码,使用盖帽法进行变量异常处理和归一化,对金额类连续变量进行对数变换。经过数据预处理,最终保留了324个特征变量。
基于得到的324项特征变量,对306万客户正负样本数据按7:3划分为训练集和测试集。尝试使用逻辑回归模型、决策树模型、随机森林以及XGBOOST等4种模型进行了个人潜力客户资产提升预测分析(如图3)。
图3 模型的建立与评价图
利用已知的3月31日、6月30日数据构造的训练集(70%)分别对各个模型进行训练,再利用测试集(30%)分别对获得的各个模型进行测试,即可判断各个模型的优劣。
本项目属于分类问题,而分类问题的评价指标主要有准确率、召回率、精确率等,通过混淆矩阵可以直观地体现,而混淆矩阵中又包括真正例(TP)、假正例(FP)、假负例(FN)和真负例(TN),如表2所示:
表2 混淆矩阵
①准确率。表示模型正确分类的样本数占总样本数的比例,即整体的预测准确程度,计算公式为:
②精确率(查准率)。是针对预测结果的指标,表示模型判别为正例的结果中真正例的比例,即正样本结果的预测准确程度,计算公式为:
③召回率(查全率)。是针对真实情况的指标,表示所有真实正例中判别结果为正例的比例,即真实正例能够被识别出来的百分比,计算公式为:
虽然准确率能够判断总的正确率,但在样本不均衡的情况下,不能作为一个很好的衡量指标。召回率和精确率通常是负相关,即召回率越大,精确率越小。在本模型中,更倾向于发现更多有潜力的个人客户,因此更重视召回率。然而,精确率过低,会导致营销命中率下降,营销成本上升。因此,在这一模型中,使用Fβ值来评定模型的优劣,Fβ是精确率和召回率的加权调和平均数。
当β=1时,认为召回率和精确率重要性相同;β>1时,Fβ偏向于召回率;β<1时,Fβ偏向于精确率。经综合考虑,本模型选择F2.0作为模型评价的综合指标。
同时,使用ROC曲线和AUC值来进行辅助分析。该指标与真正率和假正率有关。
ROC曲线(如图4)是指以FPR为横坐标,TPR为纵坐标,TPR和FPR随着分类阈值的变换而变换所得到的曲线,而曲线下方的面积为AUC值,ROC曲线越陡,AUC值越大,模型的性能就越好。
图4 模型ROC曲线对比图
本文所使用的四种模型算法效果对比情况具体如表3:
表3 4种模型算法对比情况表
由对比情况表可以看出,XGBOOST算法的Fβ值显著高于其他算法,并且AUC值也大于其他算法,因此通过对比分析,最终选择XGBOOST作为个人潜力客户资产提升预测模型的算法。
对于使用的XGBOOST算法,以影响模型最重要的参数为起点,按照对模型影响的重要性程度递减方向依次对各参数训练,每次训练将之前训练得到的最优解作为输入固定,滚动迭代。
经过多轮迭代训练,XGBoost模型最终调参结果如表4:
表4 XGBoost模型最终调参结果表
通过调参过程,基于XGBOOST算法的个人潜力客户资产提升预测模型各项特征重要性排序如图5:
图5 XGBOOST算法的模型各项特征重要性排序
由此可见,在众多特征中,当季现金流出交易笔数、当季现金流入交易金额、当季第三方支付交易总金额等是对模型预测最重要的指标,对AUM在1-10万元的个人客户其AUM是否提升20%以上有着最大的影响力。最终模型调优使得个人潜力客户资产提升模型的精确率约为73.49%,召回率约为57.86%,F2.0值约为60.43%。
将2019年10月31日的样本(约306万AUM在1-10万元的个人客户及其各项特征)输入之前建立的个人潜力客户资产提升预测模型,生成2020年1月31日该306万客户AUM是否提升20%以上的预测结果(客户号和概率),其中概率是指该306万客户在2020年1月31日其AUM能够提升20%以上的概率值。综合网点营销能力、人员配备等因素,对得到的客户清单进行遴选,筛选确定概率值大于50%的客户号,即可得到最终的潜力客户清单,共计28.75万。
历史数据表明,2019年3月31日年日均金融资产在1-10万元的客户,在6月30日AUM提升20%以上的概率为16.07%,即A银行个人客户在自然状态下AUM提升20%以上的概率为16.07%。本项目建立的个人潜力客户资产提升模型,预测精确率可达73.49%,即筛选得到的28.75万客户中,AUM提升20%以上的客户概率约为73.49%(如图6)。
图6 客户AUM提升示意图
对比自然状态,使用本模型预测后产生的客户清单的营销成功率预计是随机营销客户的4.57倍,即只对清单内客户进行营销的成功率明显大于对全量客户或随机客户进行营销的成功率。
针对最后的潜力客户清单,于2020年1月在A银行选取了甲乙丙丁4家支行进行模型结果验证,从潜力客户清单中选取34328名客户进行专项营销。
其中,在2020年1月底有27638名客户的AUM提升了20%及以上,提升比例达80.51%,即筛选的客户清单中,经过营销后,有超过八成客户的AUM提升了20%及以上。
表5 4家支行模型验证结果
而在2019年10月31日AUM在1-10万元的个人客户约有306万。其中,除了进行专项营销的3.43万客户外,随机营销的302.57万客户中,有158.15万客户在2020年1月底其AUM提升了20%及以上,提升比例仅为52.27%(如图7)。
图7 专项营销客户和随机营销客户AUM提升对比图
由此可见,专项营销客户相较于随机营销客户的金融资产提升率增加了28.24%,即通过模型预测得出的客户清单中,潜力客户的比例更高。本项目能够有效地为业务部门缩小营销范围,有利于银行针对潜力客户清单进行精准营销。不同于传统的“广撒网”模式,大数据精准营销能够让银行的营销投放得到最大程度的反馈,真正做到有的放矢,减少营销费用,节约营销成本。
利用A银行数据分析挖掘平台对个人潜力客户资产提升项目进行全流程的实施,能够较好地完成本项目且取得较为理想的效果,专项营销个人潜在贵宾客户金融资产显著提升的客户营销成功率为80.51%,相较于随机营销客户的金融资产显著提升的比率增加了28.24%。这说明运用大数据技术进行客户精准筛选与营销具有良好的效果,能够更好地进行客户精准画像、开展精准营销,从而提高营销效率,降低盲目营销,减少工作量,为客户营销与维护提供有效支撑和强有力的赋能。
同时,在工作中也发现一些需要解决的问题。一是数字化转型的意识仍需提升。部分管理和营销人员对大数据等数字化转型的认识仍不充分,有的认识还比较肤浅,以为上了几个系统、用了几个工具就是数字化转型了,对于数据的挖掘与应用、治理与保护等深层次认识还不足。二是对数据分析成果使用不到位。数据分析成果的使用才是数字化转型的目的。现实中由于科技人员与业务人员有一定的沟通障碍,科技人员对业务需求的理解不够充分,数据分析与输出质量还有待提升,而业务人员对大数据分析理解不到位,不了解如何对潜力客户进行营销,应该推荐什么产品,导致分析成果利用率不高。三是科技与业务联动融合有待加强。目前,科技部门仍是用大数据分析需求工作的主力军。相对于业务部门,科技部门因距离市场和业务较远,对业务经营和市场的了解有限,缺乏将业务需求转化为数据挖掘需求的能力。业务部门对科技工作又缺乏了解,业务需求转化为科技语言存在一定的困难。科技与业务的联动融合需要进一步加大,发挥科技部门和业务部门在大数据分析方面的相互协同与互促互进的作用。
鉴于数字革命持续深入发展,大数据在客户营销管理等领域的应用越来越广泛,具有巨大的应用价值和深远的应用前景。笔者对相关工作提出以下几点建议:
一是进一步提高思想认识,全面推进数字化转型。数字化转型是一场深刻的全方位的革命,从思维方式到生产运营,从生产方式到生产要素,从组织管理模式到市场营销方式,全领域全过程全方位深刻重塑商业银行业务经营与管理模式。要进一步树立“业务数字化、数字业务化”理念,抓住企业级数据平台建设和数字技术的深度应用,贯通内外部、上下层、不同领域、不同条线、不同业务、不同系统的数据资源,将内外部数据聚合在信息共享平台,通过数据的搜集、整合、分析、转化和共享,打破“数据孤岛”,推进数据标签化建设,形成数据资源库,推动由经验决策转向“数据+算法”决策,由事后营销转向前瞻性营销,由匹配服务转向定制服务,释放数据的生产驱动力,通过数据与技术、运营和管理的高效联动,为数字化转型提供生态环境、转型方向、路径选择和价值创造。数字技术不仅包括大数据、云计算、物联网、区块链和人工智能等技术及其软件,还包括运行这些技术所需的计算机、移动设备等硬件设施,通过标准化、服务化、快捷化的高效反应体系,建设运维数字化系统,开发升级数字技术和软硬件设备,适应多变的发展环境,支持全面的数字化转型。同时,要建立健全数据治理机制,探索数据获取、分类加工、分层应用、精准治理、全面风控的全领域、全流程数据治理体系,出台数据治理方案,提升数据治理制度化水平,有效统筹发展与安全。
二是进一步完善数据应用体系,将大数据应用推向更深更广。要进一步优化模型算法,精准筛选和营销潜力客户。尝试引入新算法,数据的收集不仅源于银行内部,而且来自客户日常生产生活,要不断丰富内外部数据来源,进一步对模型进行优化。拓展模型算法深度,从市场和客户需求的角度出发,积极探索数据算法中更适用于客户分析的模型方式,以便改良模型构建系统,不断提供信度和效度。实时更新模型数据,通过数据流识别重要客户的踪迹,实现随时发现随时营销,从而更准确地筛选和营销潜力客户,提升智慧化预测与精准营销服务能力。要进一步强化协同,业技部门联动使用大数据分析成果。基础数据的“厚度”决定了“大数据+AI”能力的起点,而数据赋能的“强度”决定了其能达到的最高点。强化部门联动,提升业务人员特别是一线营销人员运用大数据分析成果的意愿和能力。细分预测成果,为潜力客户划分推荐产品的类别,便于业务部门开展营销工作。强化考核激励,完善科技人员和业务人员成果运用的考核机制,加入衡量营销精准性的指标,激发相关人员业技融合发展的积极性。要进一步拓展应用,推动大数据技术的运用范围更广更深。大数据技术应用是商业银行数字化转型的关键抓手,应积极探索大数据在客户管理、精准营销、风险防控以及决策分析等领域的应用,提升核心竞争力。在客户管理与营销服务领域,可以利用大数据技术开展客户价值分析、预测分析等工作,对客户进行精准画像,对目标客户群体进行细分,从而将客户潜在需求的产品,以合适的营销渠道和促销策略推送给客户。在风险防控领域,以数据分析为基础,开发大数据风险监控模型,可建立全方位全流程的风险管理预警体系,能够及时获取有效的风险预警信息,进而实施有针对性防控措施。在决策分析领域,结合先进的金融数据模型,对数据进行整合、转换、分析和挖掘,以仪表盘、饼图等直观方式为管理层和各业务部门提供更客观、科学的辅助决策信息。
三是进一步提升员工数字化素养,推动数据应用创造价值。要从全行人力资源形势和竞争态势统筹谋划,以全面数字化转型为引领,制定员工数字转型的培养规划,从制度层面进行引导和推动县域员工数字化转型。按照不同类型的多维综合考虑,从意识、知识储备、业务技能、工具运用等多方面,制定短、中、长期培养计划,匹配相应的培训内容,分阶段定期进行培训和测试过关,循序渐进、持之以恒地推进员工数字化转型。要围绕最需要最紧缺的客户经理、理财经理、产品经理、数据分析师“四支队伍”着力,培养其数字化营销服务意识、数字化工具运用能力、线上线下营销服务与双向引流能力、数据分析技能等核心能力,助力业务拓展与客户服务水平提升。以打造“业技融合”的复合型人才为目标,为青年员工提供全周期、全方位的综合化培养,锻造一批政治合格、思维活跃、技能过硬、作风优良的数字化转型青年生力军队伍,为推进全面数字化转型提供强有力的人才支持。,坚持传统产品数字化改造与智慧政务、数字乡村、电商、供应链金融等数字化产品一体学习,组合应用。要全面掌握DCRM系统、金融小店、“数字人”、掌上银行、微银行等客户营销服务数字化工具,增强员工在线虚拟营销服务能力,有效提升“线上+线下”协同获客、活客、留客、粘客的系统性能力。要建立创新教育培训的新模式,加强数字化产品、业务、工具、系统等在经营管理与营销服务中的应用经验与好的做法,及时进行萃取、传播、推广等,促进组织智慧共享与价值传播,有效提升员工数字化素质和能力,全面赋能数字化转型在客户营销与维护中的全面应用。