铁 锦 程
(上海浦东发展银行 上海 200120)
风险控制是信用卡业务发展的核心,随着大数据、人工智能等技术的发展,大数据风控研究成为各金融机构的研究热点。大数据风控以数据驱动风险决策,全面挖掘数据价值,提升客户风险识别能力,对数据、算法、算力有较高的要求。随着数据爆炸式增长,对算力、算法的要求越来越高,而摩尔定律趋于失效又使经典计算的算力难以突破,计算资源的限制成为大数据技术持续深入应用的瓶颈[1-2]。量子计算在特定场景下具有远超经典计算机的计算能力[3]。各金融机构都在积极探索量子计算在数字化转型中的应用,以求在新时代抢占新的竞争制高点。
量子计算以量子比特为基本单元,可实现并行计算、指数级计算加速,能够为金融领域的数字化转型提供新的解决方案。近来量子计算发展火热,2020年10月16日下午,中共中央政治局就量子科技研究和应用前景举行第二十四次集体学习。习近平总书记在主持学习时强调:“当今世界正经历百年未有之大变局,科技创新是其中一个关键变量。我们要于危机中育先机,于变局中开新局,必须向科技创新要答案。要充分认识推动量子科技发展的重要性和紧迫性,加强量子科技发展战略谋划和系统布局,把握大趋势,下好先手棋。”2021年3月《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出“打造数字经济新优势”“加快布局量子计算、量子通信、神经芯片、DNA存储等前沿技术”。2022年10月4日,阿兰·阿斯佩、约翰·克劳泽和安东·塞林格三位量子信息科学领域的科学家获得了2022年诺贝尔物理学奖,使量子计算受到社会各界的瞩目,标志着量子计算已进入各领域开展应用探索。
本文研究量子算法与经典计算机算法相融合的方法,提升贷前审批决策组合优化问题的计算性能,探索量子计算解决实际金融业务的新方法,为量子计算大规模应用于金融业务积累经验。通过Grover自适应搜索算法,优化“群内同质、群间异构”客群筛选方法,通过超启发算法和量子贝叶斯网络相结合,优化客群组合优化的方法。基于20 bit超导量子真机完成验证,计算性能提升明显。同时,经典-量子融合算法扩大策略搜索空间,提升业务效果。
量子计算以量子比特为基本单元,利用量子叠加、量子纠缠等基本原理,可实现并行计算、指数级计算加速。同时量子计算具有天然的矩阵操作特性,能够提供新的计算方式,将有助于增强模型的计算效能,开拓新的算法领域。近年来,在量子计算软硬件方面的研究也取得了突破:2019年1月,IBM发布了世界上第一台独立的量子计算机IBMQSystemOne。2019年10月,谷歌发布53位量子芯片“悬铃木”,宣称“量子霸权”。2020年—2021年,中科大成功构建76个光子的量子计算原型机“九章”和62 bit可编程超导量子计算原型机“祖冲之号”。2021年12月,IBM发布128个量子比特的超导量子计算机“Eagle”。2022年11月9日,IBM发布433 bit量子计算机鱼鹰“Osprey”。
金融行业是量子计算较早取得应用进展的领域,当前已处于实用化优势探索阶段[4]。量子金融涉及银行、券商、保险公司、交易所等主要金融参与机构,涵盖金融风险控制、投资优化组合、金融衍生品定价、量化交易等在内的重要应用领域,在许多实际问题上取得了重要的理论和算法研究进展[5]。
当前,国内多家银行也已布局量子计算研究应用,以提升银行智能金融服务的数字化水平和响应速度。工商银行于2015年起率先实现基于量子通信技术的同城和异地数据加密传输,并在电子档案、网上银行等领域落地试点。建信金科建立了量子金融应用实验室,研究量子金融算法,如“量子期权定价算法”和“量子风险价值计量算法”,并探索量子金融的应用落地。华夏银行[6]将量子神经网络技术应用于ATM机具管理的智能决策问题上,获得人民银行“2020年金融科技发展奖一等奖”。
信用卡贷前审批是指综合运用各方面数据,决定客户是否准入以及如何授信。为了提高风险识别能力,确保在可容忍的风险水平下,尽可能多地获客,通常需要利用丰富的数据,结合评分模型、客户分群等手段,实现客户风险分层、分群识别、差异化准入。
本文探索基于数据驱动和智能算法来优化审批决策。主要分为三个步骤:(1) 通过风险评分模型确定客户风险标尺,确定客户风险分层,完成客户风险第一层筛选;(2) 根据客户各方面的特征,通过随机森林算法将剩余客户分为近万个风险同质小客群;(3) 通过对近万个小客群进行筛选、组合、测算,确保客群“群内同质、群间异构”,并获取审批率最高、逾期率最低的组合最优解,以达到风控要求和获客预期。流程如图1所示。
图1 最优策略组合生成流程
目标函数:
审批率:X=φ(S_i,S_j,L_i,L_j)
逾期率:Y=ω(S_i,S_j,L_i,L_j)
max[φ(S_i,S_j,L_i,L_j)-ω(S_i,S_j,L_i,L_j)]
高低风险评分阈值:(S_i=,S_j=)
高低风险客群规则集:(L_i={},L_j={})
限制条件:
X≥目标审批率,Y≤目标逾期率
s.t. 0 L_i⊂(L_1,L_2,…,L_n) L_j⊂(L_1,L_2,…,L_n) 函数说明: φ(S_i,S_j,L_i,L_j):以高低风险评分阈值和高低风险规则集为变量,求解相应客群审批率的函数。 ω(S_i,S_j,L_i,L_j):以高低风险评分阈值和高低风险规则集为变量,求解相应客群逾期率的函数。 1) 客群“群内同质”:低风险客群:尽量都是优质客户(审批率高、逾期率低),该客群用户的审批结果倾向于“通过审批”;高风险客群:尽量都是高风险客户(逾期率高、审批率低),该客群用户的审批结果倾向于“拒绝审批”。 2) 客群“群间异构”:两个审批策略对应的客群重叠人数少(重叠率=两客群交集人数/两客群并集人数)。 随着数据量的爆炸式增长,客户各方面的数据急剧增多,该方法能够更充分利用客户隐藏的、稀疏的数据,有利于应对快速变化的风险形势。但是,对客群规则进行筛选、组合、测算,涉及大量计算,对算力要求极高,传统计算方法难以实现。 信用卡审批策略的组合优化问题需要决策是否选取每一个策略,即每个策略对应一个0-1决策变量,即选取或不选取。因此该问题的解空间就是全部0-1变量的所有组合。每种不同的决策组合都会得到一个目标函数值,这个目标函数就是优化的对象。 使用常规统计方法筛选信用卡审批策略只能根据该策略对应客群的审批率与逾期率表现进行判断,即目标函数为线性函数。根据信用卡审批策略的筛选经验,常规统计方法只能剔除60%的无效策略,无法直接剔除相似度高的策略。 当目标函数考虑总体策略相似度时,该目标函数变为一个二次函数,则该问题性质变为二次无约束二进制优化问题(QUBO),QUBO问题是一个NP-hard问题,随着策略数量的增多,计算所需时间呈指数级上升[7]。例如从1 000个策略中进行筛选,最多需要迭代计算21 000次,所需计算量大,计算时间长。 针对信用卡审批策略组合优化的难点,本文提出综合利用机器学习算法、运筹优化算法、量子计算与量子算法的解决方案。其中:机器学习算法用于划分出大量风险同质细分客群;运筹优化算法用于来快速寻找最佳的客群组合方案,并快速求解得到符合整体业务目标的客群组合;量子计算用于提升客群组合逾期率和审核率的测算速度,从而提升整体优化算法的计算时间,在更短时间内找到更好的组合方案。 主要步骤如图2所示。 图2 基于量子计算的贷前审批策略组合优化方案 利用客户基本信息、收入、职业、共债、履约等信息,建立随机森林模型,将树模型转化成客户分群规则,将客户划分为极细的风险同质客群。随机森林中决策树的数量大,因此能够生成数万条分群规则,大大提升客群的数量与精细化程度,从而充分利用多个小客群的长尾效应,对客户进行更全面的风险识别。 随机森林产出的大量分群规则需要按照确保客群“群内同质、群间异构”原则进行筛选,一方面需要保证对应客群内的审批率高或逾期率高,另一方面需要减少不同客群规则之间的相似程度[8]。 GAS算法步骤示意图如图3所示,该算法迭代地应用Grover Search来找到目标函数的最佳值,通过使用前一次运行中的已知最优值作为阈值。GAS算法中使用自适应预言机,识别所有高于或低于当前阈值的值(分别为最大值和最小值),每次迭代阈值更新时都会减小搜索空间的大小,直到找到最优值。 图3 GAS算法步骤示意图 针对客群组合的可能性多的难点,本文不会遍历所有的规则组合可能性,而是采用超启发式优化算法、进行优化计算。超启发式优化算法是一种具有顶层策略的启发式优化算法,能够识别不同阶段的优化计算瓶颈,从而调用不同的、有针对性的优化算法,最终快速、高效地找到最优的规则组合。 本文方案的模型框架如图4所示。 图4 混合量子-经典优化算法框架 基本思路:采用混合量子-经典算法,作为求解优化问题的算法架构,在借助经典计算机力量的同时,尽可能发挥量子计算机的能力去解决具体优化问题。经典计算部分的作用主要有两方面:(1) 用于串联业务数据与量子算法、记录最优结果、确定优化路径、识别最优规则组合;(2) 串联量子算法与经典运筹算法的输入和输出,形成经典算法与量子算法闭环回路,并结合经典运筹算法,利用量子算法的输出数据,对业务场景问题进行优化求解。 主要步骤有:(1) 制定超启发式算法策略,超启发式算法提供了某种高层策略(High-Level Strategy,HLS),通过操纵或管理一组低层启发式算法(Low-Level Heuristics,LLH)[10],以获得新启发式算法。(2) 量子数据转换,使用变分嵌入方法将组合数据转化为量子数据,将经典数据作为量子线路的参数,将数据归一化处理到[0,π/2]区间,再作为量子线路的部分参数进行量子写入,使用固定的变分线路编码数据。(3) 利用量子贝叶斯网络计算关键指标(逾期率和审批率)。通过业务目标确定具体目标函数,并通过设计数学中的等价变化,调整目标函数形式,保证函数的可以在量子计算机上通过测量高效计算[7,11]。(4) 对比不同迭代结果所对应的指标值,保留更优客群组合,最终获取审批策略的近似最优组合。 从线下客户申请的历史数据中抽样,形成客群组合样本及该样本对应的审批率与逾期率,样本数量共有20万条。原始历史数据共包含509 095条客户样本数据,其中386 997条样本为审批通过样本,审批通过的样本中包含294条逾期样本。基于22 bit超导量子计算机完成量子计算实验。 通过使用历史数据训练随机森林模型,并将随机森林中的多决策树拆解为客群规则,共生成超过10 000个风险同质客群。 在量子真机的辅助下,规则筛选速度呈指数级大幅提升。在20 bit量子真机下,仅需1 253次即可完成有效规则筛选,而经典计算需要220次搜索。 4.3.1贝叶斯网络训练 根据筛选规则组合的可能性进行抽样,对每种可能性对应的客群审批率与逾期率进行统计,得到20万条数据。使用该数据集训练贝叶斯网络,学习每个节点的概率分布,同时开发量子态的概率幅与概率幅进行加减乘除运算的量子电路。表1为训练样本示例。 表1 贝叶斯网络训练样本数据 4.3.2量子贝叶斯网络构建 图5展示了最终搭建的量子贝叶斯网络电子线路的4个节点。 图5 量子贝叶斯网络电路 4.3.3量子贝叶斯网络拓展 由于目前量子真机仅支持20 bit,而本文研究最终需要使用的规则数高达180条,故需要将贝叶斯网络进行拓展。拓展思路如下:将180个节点的量子贝叶斯网络,切分为若干个子网络,每个子网络的节点数量控制在20个之内,利用量子真机单独计算每个子网络;然后将每个子网络输出的结果作为虚拟节点,即中间概率;最后将这些虚拟节点和“审批率”“逾期率”作为最终的结果网络,从而进行最终的计算。图6为贝叶斯网络拆分的示意图,该拓展方案的目标是在尽可能保证180节点的模型效果的前提下,尽最大可能发挥量子真机优势。 图6 贝叶斯网络拆分示意图 4.3.4量子贝叶斯算法效果 在20个客群(量子贝叶斯子网络)下,以全局遍历算法为基准,量子贝叶斯算法准确率达到了99.5%。 基于20 bit超导量子计算机,对客群数量为20和180个分别进行验证,如表2、表3所示,最终得到的审批率、逾期率与传统方法的对比。可以看到在风险降低的情况下,实现了审批率的提升。规则数越多,效果提升越明显,预估随着量子计算机bit位越来越高,时间性能和业务效果增益将更加明显。 表2 20个客群的效果对比 表3 180个客群的效果对比 量子计算机与量子算法凭借独有的优势在金融行业的各领域展现出巨大的应用前景。本文引入量子贝叶斯网络能够支持更多节点的大规模网络模型,而且能够充分发挥量子计算并行计算的优势。研究量子算法和经典计算机算法相结合的混合算法,探索出一条量子计算机应用于金融业务场景的有效路径。基于20 bit超导量子计算机,完成优化方法的效果验证,提升计算性能,实现审批率的提升和逾期率的下降,达到了预期的目的。通过实践证明量子计算在金融业务有较好的应用前景,值得深入研究和应用。 受限于当前量子比特数目有限,本文研究的混合算法暂时难以处理成千上万级别的客群组合优化。然而,随着量子计算机的快速发展、量子比特数的不断增加,本文方法将进一步在信用卡等金融领域的各组合优化场景相结合,为金融机构在价值分析、风险防控等方面提供更高效的解决方案。2.2 面临的难点分析
3 基于量子计算的贷前审批决策方案
3.1 随机森林产出分群规则
3.2 分群规则初筛
3.3 寻找近似最优客群组合
4 基于量子计算的审批决策验证分析
4.1 随机森林生成规则效果
4.2 GAS规则筛选效果
4.3 量子贝叶斯效果
4.4 整体方案优化效果
5 结 语