王利军,赵佩婕
(河北经贸大学 法学院,河北 石家庄 050062)
算法是为了实现特定目标而按步骤执行的过程。广义的算法最早可追溯至古希腊时期的欧几里得算法,而当下被广泛应用于计算机领域的算法则主要起源于英国数学家图灵于1936年发表的《论数字计算在决断难题中的应用》。
1956年达特茅斯人工智能夏季研究会正式开启了人工智能研究,自此对于如何构建人工智能这一问题便分为了符号学派和机器学习学派两条路径,符号学派主张人工智能的构建应基于逻辑和计算机符号系统,而机器学习学派则自下而上,主张仿照大脑并利用数据来培养人工智能学习能力,是当前被广泛应用的主流算法。目前大数据征信、智能投顾等金融科技应用中使用最广泛的深度学习算法便属于机器学习算法中的神经网络算法。
深度学习算法作为机器学习算法中神经网络算法的分支,通过模拟人类神经网络,利用输入和目标输出样本集训练感知器,使其自动生成并调整权重,再利用测试集保证感知器可以被推广泛化。深度学习算法与其他学习类算法最大的区别在于,决定输入单元到输出单元转化的权重,由算法基于样本集自动学习生成而非由工程师手动设置。
学习类算法的技术原理和运行方式决定了其技术本身具有不透明性,使得研发者无法完全掌控在算法中起决策作用的算法权重。在此基础上由于算法的高度专业性,普通使用者对于决策代码无法理解,造成了研发者与使用者之间的信息鸿沟,在投入金融领域使用后易加剧金融市场的信息不对称。
当前金融科技领域适用的大多为学习算法(learning algorithm),其中以深度学习算法为主流。研发者只能通过选取样本集来干预算法的决策权重,并通过测试集进行调整,尽可能保证输出结果与研发计划相契合。但算法究竟生成怎样的决策权重却是研发者也无法完全掌控的,同时算法决策权重在学习过程中不断发生变化,需要研发者持续地监督调整,技术自身的不透明性使得金融算法在实践中难以避免出现决策行为失控的情况。英国兰卡斯特大学高级讲师Joe Deville发现改变手机屏幕分辨率、充电频率这些与个人信用无关的行为会影响自己的信用评分,这一结果显然不是借贷商在算法研发时所设计或能够预料的,而其他无关联性的微小行为也可能悄悄地在算法运行中发挥难以预料的作用。
学习类算法依照设计者干预程度的不同区分为监督算法与无监督算法。当前算法技术仍处于监督算法阶段,即设计者需预先确定结构化数据及运行规则,且输入端的训练数据与输出端的算法目标皆由设计者选定,这就决定了算法无法避免设计者的主观影响和大数据潜在的偏见影响,具有有限的自主性。
金融机构利用算法推出金融科技产品的初衷不仅在于提升服务水平和金融的普惠性,更主要的动力在于增强竞争优势以汲取更多利益,金融机构算法利用初衷的非中立性在缺乏严格有效监管的情况下恐使得金融算法歧视性与逐利性更为凸显,损害金融公平,这一点在智能投顾产品上已经有所体现。据山西证监局调查,目前市场上存在多种运作模式,以智能投顾为名义看似中立地提供投资建议,实则擅自开展公募证券投资基金销售活动,通过为基金销售导流谋取利益。
算法的有限自主性除表现为受设计者主观价值影响外,还受到数据的影响,具体可区分为训练数据集的局限性和潜在偏见以及投入使用后大数据的影响。例如训练算法的数据集中存在群体性差异,部分少数群体在数据集中样本较少,这种数据样本的失衡在算法投入使用后将导致少数群体的假阳性误判更多,甚至出现针对少数群体的算法歧视。当然由训练数据库局限性所导致的算法偏差可以通过及时的监督和调整予以纠正,但数据中潜在的偏见却无法完全避免。金融算法的训练数据集包括自有业务、网络记录和向第三方购买的金融消费者交易、表达或其他活动的数据,因此数据集不可避免地存在着金融交易和交往活动中的歧视观念[1],算法经过偏见数据的训练并投入使用后便可能造成“社会结构性歧视的延伸”。另外,学习类算法在投入使用后仍处于不断学习的过程中,决策权重在大数据规训下不断发生变化,若不及时干预大数据中潜在的偏见导向将导致算法歧视性持续加深。微软曾于2016年在Twitter上推出了名为Tay的聊天机器人,由于其算法缺乏有效的纠错程序,在上线后不满24小时便出现了种族歧视、支持纳粹和恐怖主义等消极倾向,而这些问题足以证明在缺乏纠错程序和有效监管的情况下,大数据偏见将高速推动算法歧视问题发展。
学习类算法由于其自主学习等运行原理,在同一应用领域中呈现出不同算法系统间相互渗透、交叉演化的特点,这一特性随着算法投入使用将出现输出相似结果或实现相似功能的趋势,即算法的趋同性[2]。同时,程序模型和大数据是影响算法输出结果和演进趋势的关键因素,但当前金融市场中程序模型和应用数据的同质化问题严重,如智能风控系统中风控模型相似且征信数据源高度同质[3],金融系统需要正负双向反馈保持平衡,而算法趋同性与金融科技耦合恐引发“羊群效应”,进而触发金融系统性风险。
在金融行业中并非每一家金融机构都使用自己开发的金融算法程序,而是部分选择将科技开发业务外包,这就造成多家运营商使用同一家金融科技公司算法模型的现象。在信用评估领域,由于数据采集标准、数据挖掘标准、风险评估模型的趋同,也呈现出同质化竞争,产生顺周期问题[4]。同时,市场中征信数据也呈现出高度同质化。据统计,中国人民银行征信覆盖全国20%~30%的市场,以前海、蚂蚁征信为代表的第三方征信机构覆盖全国70%~80%的市场[3]。算法趋同性导致的金融同质化风险早在1987年纽约股灾中就有所体现,当时全美100 多家银行、交易商和投资顾问使用同一家公司生产的“哈德迪牛市指示器”(Hadady Bullish Indicator),计算机卖出指令在这次股灾的抛售潮中占比25%,严重加剧了危机爆发风险[5]。而在我国当前的金融实践中,算法引导的金融趋同问题也已有所显示。
在传统金融市场中,金融机构与金融消费者由于资源、专业能力等方面的差距存在显著的能力差异,但这一差异通过公权力的介入得以平衡。算法因其具有的高度专业性和不透明性打破了这一平衡,金融监管发展的滞后性使得消费者暂时处于更弱势地位。
在当前的金融算法实践中,消费者对于引导其进行投资的程序原理知之甚少。一方面,算法的高度专业性导致大部分消费者无法理解其运行逻辑;另一方面,金融科技公司对其产品披露不足,消费者难以获得决定其决策结果的算法逻辑及运行参数等有效信息。消费者由于算法介入导致的知情权受损加剧了与金融机构间的信息不对称,使得消费者在被侵权时无法及时发觉。同时,“告知—同意”作为当前适用范围最广的个人信息保护手段,在金融算法程序中恐造成消费者权利事后难救济的局面。金融与算法的双重专业性以及消费者对“用户协议”习以为常的被规训心理,使得其在同意签署时往往忽视其内容,也无法预测到后果,消费者知情内容有限、取证难等问题,辅以当前司法实践中难以应对算法复杂性的现实使得消费者事后救济困难重重。另外,消费者签署“用户协议”只是被金融算法规训从而让渡选择权的开始,程序在经用户同意后开始收集分析个人数据,具备预测性和引导性的算法可以在数据分析后提供个性化推荐诱导消费者作出投资选择,这种只有让渡个人信息才能享受的智能化服务将催生“被迫依赖”问题[6],于消费者而言是一种算法规则生成的霸权。
算法的高度专业性与不透明性也增加了法律监管的难度,当前我国针对金融算法的监管与算法应用实践相比处于相对滞后状态,监管部门力图将算法监管规则纳入现有的投资者适当性、信息披露、风险隔离等监管体系内,未介入对算法的直接监管[7]。同时,由于算法具有不透明性,输出内容不完全受设计者控制,使得在出现问题时难以归责。如何在算法技术外包时划分设计者、运营商责任,如何界定算法不可抗力与设计者、运营商注意义务等,因算法的黑箱属性而加剧了这些金融监管问题的解决难度。
算法在金融领域的应用实现了消费者监督与政府监管的双重削减,造成三方力量失衡。部分金融科技公司通过金融科技产品掌握海量用户信息,使得政府在金融算法领域被边缘化,逐渐丧失对金融数据的控制权,面临去中心化的挑战,出现私人资本支配公权力的风险。
算法的有限自主性决定了算法输入内容与决策权重均受到数据样本及设计者的影响,难以保持中立性,同时大数据天然的分配不均与偏见性质辅以金融机构的营利导向,使得金融算法应用在实践中与金融科技的高效普惠目标有所偏离。
计算机系统偏见按照来源的不同可以区分为先行存在偏见、技术性偏见和突发性偏见[8],这一区分标准也可适用于金融算法应用中产生的各种不公平现象。
首先,用于训练算法的样本集和设计者具有先行存在偏见。样本集的内容与设计者的主观想法从主客观两方面均难以保证绝对的中立,故算法自训练完成之初便具有歧视性。同时,由于金融机构具有营利导向,故在设计时可能存在大数据杀熟、动态定价等歧视设置,以及利用算法诱导消费者优先购买部分产品造成不同金融产品被选购的机会差异。
其次,算法自身的机械理性局限和效率导向与大数据样本量差异造成了算法的技术性偏见。算法由于当前的技术特性,在训练和使用中存在将稀有数据认定为错误数据或归类于类似数据群的技术逃避现象,造成本就属于少数群体的利益在金融算法作用下更难获得关注与保障。而训练样本的数据抽样由于具有随机性,同样存在少数群体数据难以成为训练样本,从而导致算法结果更偏向于多数样本群的问题[9]。同时,作为金融算法主要数据源的交易数据、移动通信数据、人为数据和机器传感设备数据自身便存在因个体贫富差异、通信设备持有使用差异、地区性经济差异而导致的样本量差异,从而使得金融资源分配不均问题在所难免。
最后,金融市场和社会潜在的歧视性导致金融算法在运行中难以避免突发性偏见。金融市场在无法律规制的情况下天然具有使穷者愈穷、富者愈富的属性,金融法通过设置“反向歧视”制度力图增加较贫困群体的金融获得机会,试图以此实现普惠金融。但算法的去理性化与去伦理化的机械理性局限使得在当前算法技术下算法更易受到社会歧视和金融内生性歧视的影响,进而在运行中产生突发性歧视。
金融算法的应用除可能影响个体间金融公平外,还可能造成群体性、地区性马太效应。金融算法应用对金融资金流向存在指引作用,大数据分布存在的数字鸿沟,对金融群体性、地区性差异起到负面助力[10]。当前国内学者基于实践数据已从多角度证实了大数据金融算法催生出金融马太效应。在贫困户与非贫困户之间,数字金融对贫困户的生存型消费没有显著影响,但对非贫困户则能起到平滑消费防范风险、助推休闲娱乐的作用[11]。在区域性差异方面,统计显示我国数字金融发展极差为2.362,存在严重的区域性差距,三、四、五线城市和互联网普及率低的城市相对明显落后[12]。调查数据显示数字金融增加了贫困发生率,加深了贫困维度[13]。
算法受当前技术限制和大数据趋同的影响容易导致算法结果同质化进而产生金融顺周期性风险,同时由于算法具有不透明性和不完备性,在当前金融配套监管不充分的背景下产生突发事件的风险性增大。金融科技公司打破传统金融市场由少数大规模公司主导的特点,呈现出规模小但分布广泛的特点,由此伴生出抗风险能力减弱且波及面广的风险特性,增加了金融市场的系统性风险。
首先,算法技术局限可能导致金融同质化现象从而加剧金融顺周期性风险。目前金融市场中科技外包情况普遍,大数据亦呈现出同质化局限,故不同金融科技产品可能出现算法决策高度互联,产生“羊群效应”,造成算法同质化问题。金融顺周期性即在经济周期中金融变量围绕着实体经济某一趋势值波动的倾向或效应,智能投顾、信贷评估等金融算法应用若随实体经济波动出现同质化输出则与金融市场风险对冲需求相违背,必然导致金融顺周期性问题。
其次,算法技术的不完备性与金融配套监管不充分增加金融突发性风险。算法技术的理论还未跟上实践,导致其隐含的各项风险难以被监管者预判,具有突发性。实践中就出现过算法被片面信息引导出现误判、被黑客攻击造成损失的实例,如2013年8月16日,光大证券乌龙指事件就是因其独立的套利系统出现问题所造成的。金融市场需要有效的引导和监管,算法不透明特性增加了金融监管难度,使得部分传统金融监管措施失效,亟需适应金融科技发展的新型监管机制。当前配套监管措施不健全的背景下,金融算法风险潜在的突发性与振荡性恐扩大金融风险的波及面。
最后,金融科技公司发展趋势增加金融系统性风险。在传统金融市场中,主流观点认为在金融系统中占据重要地位的大型银行和其他金融机构由于与其他经济部门关系紧密交织且市场占比巨大,因此是金融系统性风险的主要来源。但在金融科技变革下,以大数据算法、云计算为关键技术的小型金融公司层出不穷,新兴的金融科技公司呈现出规模小、分布广且因大数据算法应用关联性强的特点,使得新金融业态呈现出抗风险能力弱、顺周期性增加以及潜在突发性风险增加等问题,更易引发金融系统性风险。
算法的不透明性决定了其潜在风险难以被发觉,技术的高度专业性也决定了部分披露内容难以被监管人员理解,因此仅依靠传统公权力金融监管机关难以应对高速发展且极具专业性的金融算法应用,有必要引导行业协会、金融机构和媒体公众共同参与到算法监管中来,形成多元化的算法风险规制体系。
1.明确监管部门职责,统筹分级监管
算法由于受大数据影响,在应用中表现出强关联性,也暴露出我国当前金融分业规制体制在系统性风险防范方面的局限性。其中尤为突出的便是各监管机构间缺乏数据共享平台,如征信领域,各部委间数据不共享,形成了数据孤岛[14],加剧了算法导致的信息不对称问题,难以有效应对整体性风险。因此,在金融算法监管中应注重各监管机构的互通互联,尽量统一风险规制标准,防止各部门规制差异化引发的监管套利和监管竞次问题。为保证金融算法规制的相对统一,协调各监管机构关系,防止业态隔离造成的视野局限,应选定一监管部门对算法风险规制目标、规制标准等事项进行统筹协调。国务院金融稳定发展委员会(简称“金稳会”)作为统筹协调金融稳定和改革发展重大问题的议事协调机构,符合统筹协调的规制需求,应通过立法确定金稳会跨市场金融监管协调主体地位[15],由金稳会确立算法风险规制的总领性目标,再由各监管部门按需求细化,并引导各行业协会确立详实的算法规制标准。
2.构建行业自律管理体系
国务院《新一代人工智能发展规划》中强调要实行设计问责和应用监督并重的双层监管结构,实现对人工智能算法设计、产品开发和成果应用等的全流程监管。数据治理的技术性和复杂性决定了其不可能完全依赖国家正式法律的制定[16],金融监管机构受制于行政机关角色定位及算法专业性局限,难以直接介入实现全流程监管[17]。因此,需要对算法专业技术和金融市场充分了解的行业协会来细化规则标准并辅助全流程监管及事后救济。
首先,应将部分算法规则标准的制定授权给行业协会,使行业协会在金融监管部门规则标准框架下根据行业具体情况进行细化,以弥补监管部门由于专业局限和对算法实践发展了解不充分所造成的认知局限。
其次,可以授予行业协会监督权、惩罚权以及协助进行公益诉讼等权力。行业协会相较于金融监管机构的优势在于对具体行业的专业知识和实践情况了解更为具体,因此金融监管机构由于技术和职能受限难以充分实现的算法监管职能就可以由行业机构辅助执行。美国计算机协会通过要求算法开发者提交算法检验方法、过程和运行效果对算法的可执行性和公平性进行监管[18],这一方式可以看作金融公司知识产权保护与金融监管平衡的折中办法。另外,由于算法专业性使得消费者对侵权行为难以察觉,事后救济也困难重重,行业协会可依托其专业性和其掌握的各金融公司监管数据辅助消费者进行公益诉讼,其制定的行业标准也可为司法裁判提供重要参考指标,解决算法专业性造成的信息壁垒。
3.引导公司进行算法风险自律规制
金融科技公司作为金融算法的研发者和运营者是最直接决定算法运行逻辑的主体,在算法技术不透明性影响下也是最直接感应到算法偏差和算法突发风险的主体,因此通过搭建算法合规指引等引导金融科技公司设置算法专员、算法检测等算法风险自律规制措施是控制金融算法风险的首要途径。
当前《数据安全法(草案)》已经提出针对数据安全管理,要求重要数据处理者设置数据安全负责人和管理机构并按规定进行风险监测、评估和上报。金融算法监管也可参考此路径要求金融科技公司设置算法监测专员并依照金融监管部门和相关行业协会制定的非正式指引进行算法应用前的测试和评估,以及算法应用中的监测和风险上报。
同时,监管部门也可引导市场创设金融算法监管公司。此类公司具备算法和金融两方面的专业性,通过接受金融科技公司委托,对其算法合规情况和风险治理措施进行调查评估并出具调查报告[19],作为具备专业知识的合规机构为消费者中立地提供金融算法产品评估意见。金融算法监管公司的设置能够同时弥补算法不透明性造成的信息鸿沟和新金融业态下声誉机制效用减弱的双重问题。
传统的金融监管以信息披露为主要手段偏重于事中和事后治理,通过增强公司信息透明度和流通性维持金融的稳健运行,但金融公司引入算法技术后,信息披露增强透明度的作用将大打折扣。首先,决定算法输出结果的算法模型和训练数据是决定金融公司竞争力的关键商业信息,在信息披露时需要考虑公司合理的技术保密需要。其次,算法技术的专业性和不透明性也决定了即使是设计者也难以完全了解算法的决策权重,被披露的信息也难以被理解。另外,在算法运行中金融算法风险表现出突发性,信息披露作用的滞后性难以满足这一风险防范需要。因此,金融算法风险需要将监管重心前移至事前阶段并通过技术手段逐步提升金融监管能力,引入事前的算法测试制度并辅以事中分级分层监管,以全流程监管提升算法透明度。
1.依托监管沙盒构建算法准入前测试制度
监管沙盒最初由英国金融行为监管局于2015年在《监管沙盒》报告中提出,是对金融创新企业在特定安全空间内测试产品、服务和商业模式进行监测评估并判定是否给予正式市场准入机会的事前监管方式。
传统的金融监管从时间维度上可以区分为事前的准入监管和事中、事后监管,监管沙盒则将监管时间提前至准入监管之前,通过实践测试反映金融产品和服务的风险情况和消费者保护措施的完备情况,能够有效弥补传统准入监管平面化的局限性,与包括金融算法在内的金融科技产品多样性、专业性特点相契合,与金融创新和风险防控相互协调的监管需求相一致。同时,金融产品和服务在监管沙盒测试过程中能够较充分体现产品的风险性,进而监管机构可以提出针对性完善要求为市场准入做准备,也为准入后算法分级监管提供依据。
我国在2017年于北京市房山区的北京互联网金融安全示范产业园开始了互联网金融监管沙盒的实验,2019年12月开始在北京进行试点并逐步扩展至上海、广州等9个地区。从当前的监管沙盒试点情况来看,无论是试点项目的“入盒”还是“出盒”都缺乏明确的标准和详细的评估机制,另外对于试点对象的评估标准主要局限于微观审慎监管层面,缺乏针对金融系统性风险的宏观审慎监管。监管沙盒在测试中应注意到算法等金融科技潜在的同质化、高度关联性所增加的金融系统性风险,在现有评估方式中完善系统性风险测度指标体系,借助计算机模型推演,评估监管沙盒内金融项目风险积聚效应和跨部门风险传染效应,强化金融量化监管[20]。
2.构建金融算法监管分级分类制度
算法技术的原理和应用都具有多样性,在不同的应用场景也呈现出不同的风险层级,因此对不同金融算法类产品使用同一套监管措施可能既抑制了部分稳健型产品的性能,但又疏漏了部分高风险产品的潜在问题,故应当通过监管沙盒测试将金融产品和服务区分为不同的风险等级,充分调动政府监督、行业自律以及正当法律程序等手段,进行分级分类的金融算法监管。
具体的分级分类制度可参考人工智能领域自动驾驶分级制度和金融领域券商分级制度的思路,从算法的自动化程度、算法模型的稳健性、算法与同类别产品或服务的同质化程度、应用场景的风险性等要素入手。对于测试结果稳健且预期风险较小的产品进行低风险分级,并可在披露内容、干预性措施上给予一定的优惠性放宽措施;对于测试结果存在较大波动且对金融市场影响较大的产品进行高风险分级,加以更为严格的信息披露要求和检查频次,并强令其购买与潜在风险对应的保险产品,制定更为严格的消费者保护措施[7]。通过合理的算法分级分类进行差异化监管,平衡金融科技监管中金融创新与风险防范的双重需要。