苏治怡,季文奎,王钰婷
(招商银行网络经营服务中心,广东深圳 518000)
设计系统主要内容为一项以突破线上与线下渠道的断点为目的,突破传统的以单个员工经验为主导的服务模式,并充分以客户客观属性与历史行为数据为基础打造的,以全新模式实现到店客户的及时经营与离店线上精准触达的项目。该项目设计的出发点是,在手机的普及与电商的发展的时代,传统金融机构也逐步将经营服务的阵地从线下往线上转移,手机银行App也从仅提供查账转账等基本功能的轻型软件,升级至为客户提供账户管理、产品咨询与推荐、产品交易、资讯共享、城市服务与社区分享等一站式服务的平台。在业务平台的定位发生质变的同时,管理者希望经营模式也能从“每位个体经营人员依靠个人经验主观判断客户诉求”逐步向“系统以客观数据事实为基础对不同层次客户需求进行预测并能有效指导员工高效进行客户经营服务”迭代。当业务发展对整个经营流程提出高效、个性化、可闭环等要求时,进行系统的流程设计和整体方案规划就显得尤为重要。在此领域已经提出“数据中台”[1]概念的基础上,完善数据存储实现数据资产管理,依靠利用沉淀的业务数据为基石结合大数据算法,通过计算机挖掘隐藏规律替代经验完成决策[2],充分融合兼顾“人工”和“智能”的元素。“基于客户个性化经营与员工绩效闭环反馈的大数据系统设计与分析建模”专题就是围绕这样的出发点产生与落地的。
线上化的流程和系统固然能给客户提供更便捷、不受时间和空间所制约的服务,但也对经营者提出更大的挑战:面对千万级至亿级客户的并发到访,要求更精准地对客户进行客群划分,实现差异化经营[3],为客户提供个性化服务推荐。因此在“得数据者得天下”的大数据时代,不能忽略数据的客观性和潜在价值,充分利用数据挖掘更接近客观事实的规律,实时提供绩效监控数据以快速校正优化服务客户完成操作。
根据项目需求和业务流程框架,设计了基于客户个性化经营与员工绩效回算的闭环系统,按照方案实施后的整个业务的流转逻辑,如图1所示。全流程数据采集应用系统的运转方式表明,贯穿整个业务流程,使得系统能运转落地的重要因子就是“数据”,如何让数据在各个环节之间传递有价值的信息,显得尤为关键。
图1 全流程数据采集应用系统
如何进行数据的采集、数据的清洗与存储、数据的应用与策略落地,不仅是大数据技术的重要环节,也是当前业务需要关注和重点设计的部分。图2所示为整个系统方案中的数据流程框架。
图2 数据流程框架
(1)采集到的数据在存储阶段会天然地清洗掉部分格式登记有误、表结构无法兼容或关键信息为空无法录入的脏数据。
(2)在数据分析阶段,利用各系统底层数据的唯一ID进行数据的合并关联。并基于业务需求筛选出与当期业务目标相关性高的数据特征,清洗[4]或标注业务关键指标为空值的记录。
(3)数据分析通常会利用分箱、计算均值和分布、简单回归拟合等计算方式进行。主要使用统计分析[5]和画像聚类两种途径。
通过统计分析针对大量客户样本的重点结果指标进行汇总,以通报报表的形式直接对业务成效进行呈现;采用画像分析[6]对客户进行基础特征分层与人群计算,并在此基础上对客群内部的行为特征[7]进行聚类或对行为模式进行探索挖掘,通过个性化推荐[8]的方式直接落地到客户使用场景。
为实现数据链路的闭环,需对客户的二次行为通过相关埋点进行采集和回送,持续迭代、优化模型和规则的准确性。
业务流程框架是为业务策略能按照业务规则分阶段落地服务,数据流程框架是为支持业务系统间的数据传递流转服务的,而系统实现“智能”的关键就是足量数据特征的获取和特征的合理使用,以下将对系统组成的几个重要环节的设计要点进行展开说明。
如图3所示,当基于业务需求,进行新产品设计或在原产品上新增模组时,除了要保证客户使用层面上基本功能的实现,还需要为数据回流回检做铺垫,规范完备的埋点设计就是第一步。“规范”体现在:需要在统一框架格式下进行编码以进行管理和检索,且能避免后续数据映射的错乱;“完备”体现在:任何一个提供给客户交互的环节都应设置埋点,才能在客户与页面交互的瞬时获取到操作日志并记录。埋点的设计会决定日志数据的维度和粒度,对后续分析、建模时对客户行为特征的获取起到重要的作用。除了对交互页面需要进行埋点管理和设计,页面的参数入口预留与系统间传参及记录也至关重要。在各系设计允许的情况下,尽可能将ID信息、时点状态等进行逐层传递,以减少后续在离线端使用未及时更新的数据进行关联匹配,影响特征的准确性。
图3 页面埋点框架示意图
获取到规范准确且足量的数据后,为进一步提高客户转化效果,需对客户进行分类分层的个性化经营。初期通过“客户画像与组合特征客户标注的特征”的方式,“高价值”客户转化效果并不理想。因此,在合理利用画像分析初步结论的基础上,考虑将系统中生成存储的近100多个客户基础属性标签纳入分析体系。将客户属性做空值填充和离散化处理,通过划定实验与对标组、分箱统计与分层抽样、行为特征对比、特征组合等方法完善建模的特征工程。对当年的全部数据采样出1000 w量级的样本,进行影响因子的分析与分类模型的价值概率输出。
(1)数据模型算法的选择
分类模型的选择主要是在集成算法[9]中进行挑选,主流有套袋法(bagging)和提升法(boosting)两种方式[10],核心都是训练由弱分类器组合的强分类器,其中,bagging采用的是有放回抽样式的并行训练方式,假设每个基模型的权重ri=,方差为σ。
bagging的基模型间相关系数ρ、期望μ近似相等,故bagging模型的总体期望为:
模型总体方差为:
因此bagging主要是通过增加基模型数量减少模型的方差,但是期望和基模型是接近的。相反,boosting模型的训练是串行的,每个基模型都会在前一个基模型学习的基础上进行学习,模型间的相关系数近似等于1:
由此可见,整体模型的期望由基模型的期望累加而成,所以随着基模型数的增多,整体模型的期望值增加、准确度提高;但要保证框架中的基模型使用弱模型,以降低方差。
本项目中的模型训练流程,分别使用随机森林(randomforest)[11]和极限梯度提升算法(xgboost)[12]两类基于决策树的模型进行效果对比,并尝试用IV值(information value)的指标,来对系统内固有的用户标签进行特征初筛。其中,IV值代表利用自变量的WOE证据权重来衡量输入对输出的预测能力。
(2)模型训练的效果
所有模型的训练,采用的是同一批样本和同样的特征列,表1为随机森林混淆矩阵,表2所示为Xgboost1混淆矩阵。其中按照模型预测的结果和样本实际的分类,计算出4个基本因子的统计值:TP=True Postive(预测正实际正),FP=False Positive(预测正实际负),FN=False Negative(预测正实际正)及TN=True Negative(预测负实际负)。不同模型的混淆矩阵结果如表3所示。
表1 随机森林混淆矩阵
表2 Xgboost1混淆矩阵
表3 Xgboost2混淆矩阵
基于混淆矩阵计算模型效果,对模型效果的判断主要依靠同一阈值下的混淆矩阵所求出的所有样本分类预测正确的占比准确率(Accuracy),和正样本中预测为正的占比召回率(Recall)。常用的衡量指标表达式如下。
故计算结果如表4所示。
表4 模型训练效果对比
使用同一组历史样本数据建模,验证集上的效果显示:经过特征筛选后的Xgboost模型拥有更好的预测效果,因此采用Xgboost模型2输出的客户价值概率作为客户分类依据。
建模并对模型训练调整优化后,使用新一周期的样例数据进行测试,在同一概率阈值下仍可获得84.39%的准确率和的94.42%召回率,模型具有较好的泛化能力。
(3)模型投产效果对比
模型分类结果投产后,一线在承接客户需求时系统会计算出客户的价值概率,客户经理可根据客户的价值概率取值与当前的闲忙状态,合理调整自己的预期阈值,为不同概率区间的客户提供不同方向层面的服务或引导。模型投产后整体客户转化效果提升较为显著,客户分类模型投产前后效果对比如图4所示。
图4 客户分类模型投产前后效果对比
当流程和系统都完成搭建之后,整个业务就可以按照规划的框架运作。为保证项目的正常运作,日常的统计通报需要紧跟上线,才能更及时地获取一线员工执行情况、实现业绩效果监控闭环。
数据采集应用系统改进往常按照执行脚本代码、导出统计数据、加工图表、生成并发送报告等步骤,以作业调度系统和自动导数工具搭建作业组合,结合软件Tableau平台开发商业智能报表,创新设计自动化统计通报可视化看板。统计计算如图5所示。
图5 统计计算作业框架
自动作业组合依靠SQL语言和kettle[13]软件完成每日数据清洗汇总和简单的统计分析,主要包括按时间、客群、场景等维度的统计;员工维度的绩效明细;客户效果维度的增量增幅、转化占比;分行维度的排名比对等要素,基于自动作业加工后的数据,使用Tableau[14]开发的商业智能报表,将统计结果表达为:多轴图实现当期数据的趋势监控,简单柱状图自排序实现分类对比,各类表计算/字段计算嵌套实现同环比,合理利用时间参数可便捷回溯历史状态[15]。报表开发完成后,只需要更新后台数据,便可以一致的风格和统一的数据发布给不同的使用方。
自动作业组合保证了统计结果的自动按日以同一逻辑更新底层数据,较好地保证了数据执行的准时准确性。而选择使用Tableau开发商业智能报表,则实现将统计结果转化为宽表、图表,以一致的风格呈现发布,且随时可回溯历史状态。部分呈现内容数据指标看板如图6所示。
图6 数据指标看板
为了更好地衡量整个系统及模型的使用对实际业务效果的影响,使用模拟对照实验的方法对项目效果进行评估,图7所示为项目持续提升效果对比。
项目前期阶段,为了证明通过系统引流和数据回检的方式在打通线上线下渠道壁垒、连通客户服务的断点、通过业绩精准回算帮助中台快速完成效果分析及员工辅导等方面有综合且显著的效果,在试运行阶段在不同等级的分支行中随机抽取试点行做效果测算。通过客户在各渠道的持续活跃情况、以及资产持续达标、复杂产品配置等综合评价,得到如图7中01对标组和02实验组的效果对比。线上线下联动后,客户在各渠道的黏性和产品持有比例都有显著提升,线上渠道的灵活性和非时空限制性可以为客户诉求的达成提供便利,跳出“客户首面”的场景局限,大大提升了客户转化的可能性。此外,在手机App的依托下,线上渠道更容易让客户产生使用习惯,促成客户的品牌依赖性,实现客户深度绑定。
项目中后期,为进一步做好精细化、差异化、个性化客户经营,将2.2所述的客户分类模型投产后,客户转化效果又出现新的拐点。如图7中03实验增强组所示:当客户模型的输出结果辅助员工完成客户的转化价值预判后,客户经理可以根据实际情况调配单位客户的承接时长与深度。对于价值概率高的客户及时深挖、调取适配的个推产品刺激客户潜在需求,加速客户的转化效率。而对于价值概率偏低客户,需要为客户当期需求提供良好解决方案,提升客户满意度的同时为客户对品牌的认可奠定基础,也减少在客户意向较低时过量的推销类行为带来的客户投诉抱怨而导致未来高价值客户流失的可能。有的放矢的模式,缩短了探索了解客户的时长、提供客户管理经营的效率,对各个分支行的客户整体转化率和长期经营成效都有显著帮助。
图7 项目持续提升效果对比图
综上,“基于客户个性化经营与员工绩效闭环反馈的大数据系统”很好地解决了客户到店完成业务办理后持续经营的断点问题,整个系统参考数据中台搭建的基本原理,从数据的产生环节开始规划,打通前台客户业务和后台数据分析之间的通路,整个系统及数据对外通过客户分类模型评估客户需求为客户输出对应的服务,对内利用自动化工具和智能报表对员工绩效统计完成回算,辅助员工对客户转化效果进行及时回检和校正。以系统为依托的数据全流程流转,使得当期数据持续闭环正反馈于下一周期的策略执行,突破以个人经验为主导模式下的探索式经营,往数字化、智能化、可量化方向发展,以数据为先导挖掘客观事实,用数据为度量公平衡量结果,是经营模式上的突破性尝试,亦可作为其他业务场景的数据系统流程设计与数据收集积累应用的方案经验。