李立志 陈媚
摘 要:随着商业银行对数据共享的需求不断增加及监管对数据安全和隐私保护的严格要求,隐私计算技术作为解决数据共享与安全保护这对矛盾的最佳解决方案被引入银行业。本文介绍了隐私计算发展背景、几大主流技术及商业银行当前数字化风控的痛点,探讨了隐私计算技术在商业银行数字化风控的主要应用场景,并对隐私计算技术当前存在的问题及未来发展提出了意见建议。
关键词:数据安全;隐私保护;风险控制
DOI:10.3969/j.issn.1003-9031.2022.06.006
中图分类号:F830 文献标识码:A 文章编号:1003-9031(2022)06-0050-07
一、背景概述
(一)数据应用前景
随着人类社会信息化、数字化的不断发展,海量隐私和敏感数据得以存储和积累,与此同时数据的利用水平也在不断提高,数据挖掘、机器学习、AI等技术得到了长足进步,数据给社会带来的价值日益凸显。
2020年4月,国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据与土地、劳动力、资本、技术等生产要素并列。2020年10月,《国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,提出加快建设数字中国,打造数字经济新优势,明确数据作为核心生产要素的重要性。
数据作为核心生产要素在众多服务、场景和行业中的应用催生了活跃的数据交易市场。据国际数据公司(IDC)《全球大数据和分析支出指南》预估,2025年全球大数据交易市场规模将达到900亿美元,其中中国大数据交易市场将达到200亿美元。
(二)数据安全与隐私保护
随着数据的广泛使用和大规模流通,一些互联网平台企业和金融科技公司产生了过度采集、滥用权限和违法出售数据的行为,如通过“爬虫”工具非法爬取互联网或移动终端数据。这些行为不仅严重侵犯了公民隐私,亦可能危及国家安全,加剧了市场和监管对数据安全的担忧,数据安全合规逐渐成为整个社会关注热点。
为加强数据安全和隐私保护,国家制定了《个人信息保护法》《网络安全法》及《数据安全法》等,对数据的生产、使用、流通、保护等流程进行严格规范,有效保障了以隐私计算为代表的数据安全共享技术在各行业场景的广泛应用。
(三)隐私计算金融应用背景
随着金融信息化的不斷发展,金融行业积累了大量高质量的敏感数据,金融数据的安全与风险防范一直是政府关注的重中之重。2021年12月,中国人民银行在《金融科技发展规划(2022—2025年)》中明确提出防范数据安全风险、共建数字安全生态,并制定了金融数据安全相关标准。
商业银行作为对数据共享和流通需求最为旺盛的金融机构,对隐私保护和数据安全的要求也最为严格,这大大增加了其与外部机构之间数据共享的技术难度和成本。为解决银行业数据共享难的问题,隐私计算技术作为满足安全性的前提下,打破“孤岛效应”,实现数据资源的有效配置的最佳解决方案,被引入银行业并在精准营销、反洗钱、信贷风控等业务实践中发挥了重要作用。
二、隐私计算技术介绍
隐私计算技术是指一种在全生命周期内保护隐私信息的计算方法及理论。通俗来讲,就是在不获取数据隐私的同时,实现数据安全、合规的计算和流通,最大可能地发挥数据的价值。隐私计算目前主要有三大主流技术:一是基于密码学的多方安全计算(MPC);二是融合了人工智能与隐私保护技术的联邦学习(FL);三是基于可信硬件的可信执行环境(TEE)。
(一)多方安全计算
多方安全计算(Secure Multi-Party Computation,MPC)是指在分布式网络环境下,由两个或多个互不信任参与方在没有可信第三方存在情况下,不泄露各自私有输入信息的情况系协同计算一个函数,各自得到预定输出的一种隐私计算技术。
(二)联邦学习
联邦学习(Federated Learning,FL)是指一种在原始数据不出库、仅通过加密方式进行参数交换的方式,开展多方联合模型训练的机器学习框架。联邦学习允许数据保留在各自本地不出库,极大程度解决了一些组织的数据安全顾虑,实现了数据“可用不可见”。
(三)可信执行环境
可信执行环境(Trusted Execution Envirionment,TEE)是指一种通过硬件完成隐私计算的技术。可信执行环境选择在计算机硬件平台上构建一个安全的区域,采用可信计算及虚拟化隔离等技术,在保护数据的机密性和完整性的前提下,将各方数据汇聚到该安全区域内进行计算。
(四)其他隐私计算技术
一是同态加密(Homomorphic Encryption),是一种确保密文直接进行处理跟对明文进行处理后再对处理结果加密得到的结果保持一致的加密方法。二是差分隐私(Differential Privacy,DP),是一种旨在提供最大程度保证数据查询准确性的同时最大限度减少记录识别机会的密码学手段。换而言之,就是在保留统计学特征的同时去除个体特征以保护用户隐私。三是零知识证明(Zero-Knowledge Proof,ZKP),是一种证明者向验证者证实自己掌握某一特定信息但不向验证者泄露该信息的方法。四是数据脱敏(Data Masking),又称数据去隐私或数据变形,是一种通过一定的变形方法(如失真、去标识化)将生产环境中敏感数据进行打乱并复制到非生产环境的隐私处理方法。
业界通常选择对以上隐私计算技术进行组合使用,在高效完成数据的计算、分析和模型建设任务的同时不牺牲数据安全和个人隐私。FD9ADB7E-CC50-4DF3-9964-C016BB612834
三、商业银行数字化风控发展现状
数字化风控是通过引入大数据、人工智能技术,对传统风险控制全流程进行数字化改造,全面创新风控手段,提升风控效能的风险管理模式。近年来,金融科技的快速发展深刻变革了商业银行的信贷服务模式,线上化的趋势不断加快,在向客户提供优质便捷的金融服务的同时,也给风险控制带来了不小的挑战。而数字化风控在降本增效、改善资产质量、提升用户体验、释放业务生产力等方面起到了重要作用,成为了信贷业务线上化的强力保障。
数据作为数字化风控的“血液”,在商业银行业务中日益受到重视。从需求角度来看,商业银行需要收集宏观经济、政策、市场、同业、客户等全方位多维度数据并进行分析,以便更好地提供金融服务并且控制风险。尤其是一些区域性银行受限于展业区域、业务范围、历史原因等,自身的数据积累相当有限,主要通过基于行内数据和人行征信数据开发的风控模型评估欺诈风险和信用风险,但这些模型在面对社区居民、三农群体、互联网流量等“长尾”客户效果不佳,导致银行信贷投放信心不足。在过去一段时间里,商业银行一般采用借助合作机构的风控能力和信用兜底的联合贷和助贷模式,来服务上述“长尾”客户,实质上推高了该类客群的融资成本,也客观上增加了违约风险。
要做到风险可控和服务“长尾”客户、“下沉”客户之间的平衡,商业银行有必要获取政务、同业、通讯、电商等数据,但这些数据一般归属于不同的主体,由于缺少安全和便捷的数据共享机制,形成了一个个信息孤岛,数据价值并未得到充分有效的利用。商业银行需要和政府、社会等多方协作,建立安全合规的数据共享机制,实现风险的全面准确评估,从而推动业务快速发展。
四、隐私计算在银行数字化风控中的应用
目前,隐私计算技术在银行风控场景的应用覆盖了包括贷前、贷中、贷后、反欺诈等环节在内的信贷风控全流程,以及对公、小微、个人贷款等不同贷款分类。商业银行在对信贷业务进行风险评估时,为了得到更加精准的风险预测结果,往往会采用两种方式,一是直接从外部购买信用分或者欺诈分,此种方式受外部数据源影响较大,尤其是外部信用分或者欺诈分基于的客群和银行自身客群差距较大时,会极大影响数据效果;二是结合行内客户基本信息、资金流水等自有数据和外部数据联合建模,数据合作涉及到多方数据的共享和使用,传统的技术方式主要通过数据脱敏等技术,但数据泄密事件仍时有发生,安全性未能得到充分保证,如采用隐私计算技术,银行无需数据出行即可与外部数据源建立联合风控模型。因此,隐私计算技术在保障数据安全合规的同时,促进了银行和外部数据拥有方之间数据的共享,既提高了银行风控控制水平,又更好地推動相关业务的发展。隐私计算技术在商业银行有以下几种应用场景。
(一)银行与政府数据共享
目前,中央各部委及各级地方政府都在整合各类政务数据。以海南为例,为了发挥大数据在推进海南社会治理、护航自贸港建设等方面重要支撑作用,省级层面成立了海南省大数据管理局(以下简称“海南大数据局”),整合了全省教育、医疗、住房、税务、社保、公积金、交通出行等高价值数据,通过“赛道机制”遴选大数据场景化应用场景并通过数据超市的方式进行数据输出。
商业银行与海南大数据局开展合作,应用多方安全计算等隐私计算技术,在双方原始数据不出域、满足用户隐私保护及数据安全的基础上,通过将客户信息、流水数据等与大数据局的公积金、房产、税务、社保等数据进行联合建模,开发了个人客户金融属性画像、个贷联合营销、个贷联合风控等数据产品,为海南银行个贷业务的快速发展提供了有力的支撑。
通过开展政银合作,银行获得了高价值的政务数据资源,丰富了数据维度,提高信贷审批通过率及授信额度,降低了信贷风险。而对政府而言,在数据不出库前提下发掘了数据资产价值对服务实体经济起到了良好作用。
(二)银行与支付机构数据共享
支付机构掌握了大量的客户流水数据,这些数据对评估客户还款能力、消费习惯、资金流向等风险指标有重大的价值,但流水数据属于高度隐私数据,支付机构直接向商业银行提供明细数据的合规性风险较大,如果只提供加工过数据(在目前的监管要求下,需要通过持牌征信机构作为通道提供数据),由于数据颗粒度过粗,失去了许多重要信息,这种情况下,隐私计算提供了一个良好的解决方案。
某股份制银行为快速确认小微企业基本情况,对企业风险进行动态监测,使用某支付清算机构的流水等数据完善企业主风险画像。在数据不出本地的监管要求下,通过联合联邦学习等隐私计算技术构建模型,用于评估客户消费能力、信用评级等信息,解决机构无法全面准确了解客户真实能力的痛点。该案例利用某支付清算机构的全国数据,在行内已有风控模型入模特征基础上进行筛选,同时增加了支付清算机构的个人行为数据进行补充构建联邦学习模型,主要沉淀企业主能力模型,用于映射到企业的风控场景,和存量企业客户违约预测。案例投产之后,银行风控模型效果得到有效提升,有效控制了风险并平均提高授信额度30%,增加了银行的经济效益。
(三)银行与金融同业数据共享
单个银行由于自身覆盖的客群面有限,且只掌握客户的部分金融信息,难以全面准确地评估客户的真实信用水平。若能建立与同业的数据共享,如黑名单信息、客户在其他金融机构的资产负债信息、消费数据、流水数据、违约信息等,可以对客户的风险进行全面的评估。但银行和非银行金融机构受到严格的数据安全监管,且存在一定的竞争关系,共享数据的意愿较低,若通过隐私计算技术,可在客户信息不出机构的情况下,整合金融同业的信息,实现风险的联防联控。
某银行联合多家同行在某云计算平台上,基于多方安全计算技术,在贷前对客户在各家金融同业的资产负债、消费支付、信用情况等进行联合安全统计,该银行收到联合统计结果后,决定是否向客户发放贷款以及如何进行额度及风险定价,以有效防范客户多头风险。FD9ADB7E-CC50-4DF3-9964-C016BB612834
(四)银行与运营商数据共享
运营商存储了海量的用户个人信息和通讯数据,是信贷风险评估的高价值数据来源。当前商业银行一般通过第三方数据公司间接获取部分运营商通讯数据,主要用于信息验证和欺诈风险评估。但实际上,目前银行利用到的运营商数据还只是冰山一角,大量通讯数据由于其高度敏感性仍存储在运营商的机房里面未得到充分利用。如果能利用隐私计算技术,将银行的金融数据和运营商数据在彼此不出域的情况下进行联合建模,可以大大提升数字风控模型效果。
某银行开发了一款全线上无抵押的消费金融贷款,用于满足客户购物、装修、旅游等多方面用款需求。该行在风险决策需要客户信息、交易信息及征信数据,针对该状况,该行选择与运营商进行合作,利用运营商通话标签数据和银行数据进行联合建模,采用隐私集合求交技术,确保双方无法掌握对方客户的关键信息。联合模型相比银行的原有模型,AUC值提高了约10%。
(五)银行与互联网平台公司信息共享
互联网平台公司掌握了大量社交、电商、购物、交通等数据,商业银行通过隐私计算技术与互联网公司实现数据共享,可提升商业银行风控模型效果,有助于银行更好服务互联网客群的金融需求。
1.信用卡风控
某头部城商行与某头部平台联合共建“信用卡联合实验室”,采用联邦学习技术,在保证数据合法性、安全性的前提下共同对上百个头部平台生态特征变量与该行信用卡特征变量进行特征选择以确定联邦模型,与银行自有信用卡风控模型进行叠加使用,对客户违约风险进行评估,显著提升了审批结果的准确性。双方通过远程模型训练,仅3天就实现了联邦模型的部署,数小时实现了模型的训练,相比传统的数月的模型开发和上线时间,建模效率大为提高。模型上线之后,该行对互联网欺诈风险的识别能力得到了明显提升。
2.长尾客户信贷风控
长尾客户由于缺少信用记录,无法对其进行准确有效的风险评估,导致该类客户能够获取的金融服务十分有限。为解决该情况,某股份银行和某头部互联网平台通过多方安全计算技术开展联合建模,双方各自将训练样本上传到各自的数据存储服务,建模人员通过多方安全计算平台进行数据融合、特征工程、模型训练及评估等工作,充分挖掘双方掌握的不同数据的价值。最后的联合模型相比原有模型KS平均提升5%以上。因此,银行通过隐私计算技术,实现了对长尾客户的精准风险评估,有效解决了长尾客户不敢贷、不能贷的难题。
3.小微金融风控
由于小微企业数据不规范且缺失较多、企业经营风险较大等原因,银行提供信贷服务的意愿较低。在整个信贷领域中,小微企业信贷占比很小,且融资成本较高。但从促进经济发展、提供就业等角度出发,小微企业在我国国民经济中扮演了不可或缺的作用,对其提供融资服务是商业银行履行其社会责任的重要举措。
传统小微金融风控非常依赖大量数据积累,但样本量不够、样本数据维度不足是常见的痛点。某银行与互联网机构合作,应用多方安全计算技术,将银行信贷客户申请信息、存款、理财、行为偏好、征信数据和互联网合作方提供的数据进行了安全融合,在各自数据不出库的基础上构建和训练融合模型,极大地丰富了小微金融客户风控模型的特征维度,提升了其风险评估的准确性。通过多方安全计算进行联合建模,融合双方数据训练得到的模型在目标风险水平控制不变的情况下,提升20%的通过率,有效地践行了“普惠金融”的理念。
(六)银行与传统企业信息共享
1.供应链金融
传统供应链金融业务下,商业银行需要核心企业协助对交易真实性进行确权,从而保障回款安全。然而部分核心企业对供应链金融认识不足,配合程度不高,尤其表现在不愿意共享数据上面,其原因除了科技能力不足外,对商业隐私泄露的担忧也是主要因素之一。
为解决核心企业配合程度不高、数据共享较难的问题,商业银行可考虑与核心企业共建隐私计算平台,在双方数据不出库的前提下进行模型训练,助力小微风控模型泛化能力提升,实现对核心企业上下游客户的精准风险画像刻画。通过在供应链金融中应用隐私计算技术,商业银行可有效扩大普惠金融服务半径,提升向小微企业提供融资服务的效率。
2.其他场景
银行业可以与航空公司、出租车公司、水电煤气公司、物业公司等掌握大量用户数据的公司开展隐私计算技术方面的合作,实现消费流水、收入、行为习惯等数据的安全合规共享,从而为这些企业消费者提供定制化的金融服务。
五、隐私计算未来展望
2020年至今,隐私计算技术逐步从理论概念走向商业应用,尤其是在商业银行得到了广泛的关注和应用。隐私计算技术在推动商业银行与政务机构、同业、运营商、互联网平台、企业进行数据共享有着广阔的前景和极大的实用价值,能够在数据安全和隐私得到保障的前提下,通过融合各方數据实现数据的最大程度挖掘和利用,真正发挥数据作为生产要素的价值。
目前隐私计算仍处于初级发展阶段,有许多问题待解决。一是隐私计算产品在交互效率、模型性能等方面存在瓶颈,隐私计算平台的软硬件投入成本也相对较大,如果要大规模推广仍需解决效率和成本的问题。二是目前相关隐私信息共享和数据交易流通的法律法规尚不完善,监管当局虽然对隐私计算进行了一定的关注,但并未对其应用进行系统性规范,隐私计算应用的合规性仍存在变数。三是目前隐私计算在技术和行业标准方面存在空白,国内亦缺乏权威规范的认证机构,通过隐私计算实现数据共享,其安全性如何得到保障?这都是尚未解决的问题。
展望未来,商业银行可以与政府、学术界、产业界携手共进,通过以下几方面共同推动隐私计算技术在数据安全合规共享方面的应用:一是持续优化和迭代相关算法、协议、软硬件,提升隐私计算效率和性能,实现降本增效。二是制定和完善隐私计算行业标准和认证体系,通过标准化建设,推动隐私计算技术的快速大范围推广。三是保持与监管机构的良好沟通,协助政府制定政策法规,解决隐私计算应用存在的合规痛点,推动隐私计算产业健康发展。FD9ADB7E-CC50-4DF3-9964-C016BB612834
(责任编辑:张恩娟)
参考文献:
[1]搜狐网.魔蝎科技和新颜科技同日被查,或涉嫌暴力催收和违规爬取数据[EB/OL].[2021-09-09].https://www.sohu.com/a/339805968_465429.
[2]李凤华,李晖,贾焰,俞能海,翁健.隐私计算研究范畴及发展趋势[J].通信学报,2016(37).
[3]王婷.安全多方计算理论研究综述[J].信息安全与技术,2014(5).
[4]王健宗,孔令炜,黄章成,陈霖捷,刘懿,何安珣,肖京. 联邦学习算法综述[J].大数据,2020(6).
[5]杨波.面向移动平台的可信执行环境构建方法与应用研究[D].北京:中国科学院大学,2017.
[6]CSDN.智能合约隐私保护技术之同态加密[EB/OL].[2020-03-09].https://blog.csdn.net/jingzi123456789/article/details/104761739.
[7]宁敏,罗婷,程璞,郭建勇,王青春.数字身份在商业银行个人客户尽职调查中的应用探究[J].海南金融,2020(6).
[8]Dwork C.Differential Privacy:A Survey of Results[J].Springer,Berlin,Heidelberg,2008.
[9]Shafi Goldwasser,Silvio Micali,Charles Rackoff.The knowledge complexity of interactive proof systems[J].SIAM journal on computing,1989(18).
[10]Oracle Database Online Documentation.Database Real Application Testing User's Guide[EB/OL].[2020-06-01].https://docs.oracle.com/cd/E11882_01/server.112/e41481/tdm_data_masking.htm#RATUG04000.
收稿日期:2022-04-05
作者簡介:李立志(1984-),男,湖南衡阳人,现供职于海南银行股份有限公司;
陈 媚(1989-),女,海南海口人,现供职于海南银行股份有限公司。FD9ADB7E-CC50-4DF3-9964-C016BB612834