张 晨
(中国人民银行长春中心支行,吉林长春 130051)
近年来,人工智能、云计算、大数据等新兴技术被广泛应用,更多新型门类信息被作为征信数据进行采集、分析、加工和使用,全社会在享受数据红利的同时,也面临着信息不对称、数据采集渠道受限、信息安全难以保障等诸多问题。区块链技术具有去中心化、去信任、开放性、自治性、数据不可篡改、记录可追溯等特点,对于促进征信数据流通、打破“信息孤岛”、保护隐私安全等有着天然优势。因此,研究构建一个基于区块链技术的征信数据共享机制,对于推动我国社会信用体系建设高质量发展具有积极的现实意义。
征信数据形成渠道多样,数据种类也非常复杂。既有来自政府的公开信息,也有来自机构的商业信息;既有金融交易数据、市场交易数据,也有不少社交行为数据。各单位为强化自身数据维度,或通过技术手段从互联网渠道爬取,或以合作方式进行信息交换,或以高价从其他渠道进行购买,在数据采集的过程中耗费了大量人力物力,数据共享带来的收益与成本支出不成正比。与此同时,公权部门各自为政,资源独享的权属观念在各部门间普遍存在;市场化机构利益牵绊,逐渐将数据源包装为自身核心竞争力。因此,各单位将自身采集的征信数据共享出去的内在动力不足。
数据本身具有隐私和价值双重属性。随着数字经济时代的到来,各领域的用户信息被泄露、非法采集、倒卖的事件频发,不仅侵害了信息主体合法权益,甚至可能威胁用户生命财产安全。因征信数据分布广、价值高等特点,共享过程中仍面临较大安全风险。从制度层面看,对于征信数据的所有权、管理权和使用权以及共享责任主体等,我国法律法规还不够具体,可共享的数据范围界定还很模糊;从技术层面看,征信数据共享必然需要多种计算机技术作为支撑,过程中很容易遭到黑客攻击,导致征信数据被截取篡改,并且传统的技术架构也难以保证信息主体对自身信息的控制权。因此,基于以上考虑,各单位在对外共享征信数据时都秉持着“宁不共享也不冒险”的原则。
我国尚未形成统一的征信数据共享平台和标准体系,对数据格式、质量标准、数据可读性、可操作性等均未做出明确要求,不同行业、不同单位、不同部门等都可能专用一套系统、一组网络、一种数据标准,逐步形成了一个个自我封闭、隔绝的“信息孤岛”,信息很难做到互通互联。同时,不同“孤岛”拥有的数据杂乱、重复,数据质量、更新频率参差不齐,数据真实性、权威性很难甄别,给数据实际共享应用带来诸多不便。
区块链系统的开放性体现在两个方面:一方面是信息开放。链上所有节点共用一套数据标准,除了交易各方的私有信息被加密外,链上数据对所有节点公开,任何节点都可以通过公开的接口查询链上数据和开发相关应用,省去了现阶段数据共享过程中统一数据规范、改造系统接口等环节,大大降低了接入门槛。另一方面是组织结构开放。任何单位都可以作为区块链上的某一节点,自由加入或退出区块链网络,不受第三方机构的控制,扫清了以往因跨地域、跨行业、跨网络、跨系统等带来的共享阻碍,使得有数据共享意愿的单位可以轻松上链,为全行业互联互通提供了可能。
一方面,区块链使用分布式核算和存储,不存在中心化的硬件或管理机构,所有节点的权利和义务均等,既可以对外发布信息,也可以获取到相同的公开信息,避免了因信息不对称造成的采集渠道受限的情况,从而弱化了数据的稀有属性。另一方面,区块链是依靠节点间遵从一套公开透明的一致性算法进行维护和管理的,其去信任的特点不是不需要信任,而是将信任的对象从交易参与方变成了底层协议,实现所有节点在互不信任且无需第三方背书的情况下进行数据共享,避免了第三方介入的中介支出。因此,区块链去中心化和去信任的特点可以大幅降低数据采集成本,不仅能提升各单位数据共享的积极性,也能促使其将更多资金投向模型创建、数据分析、产品创新等方面。
一是非对称加密,即使用“密钥对”来加密解密数据。密钥对包含两部分,一个公钥,是对外公开的部分,任何人都可以获得;另一个私钥,是非公开的部分,每个节点专属。发送数据时,需要使用自身的私钥和接收节点的公钥对数据进行加密;接收数据时,则使用发送节点的公钥和自身的私钥进行解密。整个过程只有交易双方可以看到数据,规避了数据泄露风险。二是共识机制,即区块链上所有节点或大部分节点就某一提案的真实性和有效性快速达成一致的机制。这就意味着,区块链上任一数据的上链或修改,必须经由大部分节点授权同意才能进行,不仅保证了数据质量,也大大增加了数据被恶意篡改的成本代价。三是时间戳,是一段能够表示一份数据在某个特定时间点已经存在的完整的、可验证的数据。区块链是一种“块-链式”数据结构,所有信息都保存在区块中,每一个新区块生成时,不仅会保存上一区块的相关信息,同时还会被打上时间戳,区块依照生成时间的先后顺序连接形成区块链。这种设计使更改一条数据的难度按时间的指数倍增加,越早的数据篡改的代价越大;同时,也使得区块链上任意一条数据都可以按时序追溯其本源,可以有效解决节点间争议。区块链的这三项核心技术,从传输、存储、追溯等环节共同保障了链上数据安全,实现了对信息主体的隐私保护。
根据区块链的去中心化程度,可以将其分为公有链、私有链、联盟链三类。公有链被认为是“完全去中心化”的,任何节点都有权利读取数据、参与交易及共识过程;私有链则是“完全中心化”的,其公开程度由一个中心组织决定,所有参与到这个区块链中的节点都会被严格控制;联盟链是“多中心化”的,其由多个机构共同参与管理,每个组织或机构管理一个或多个节点,链上数据只允许系统内机构进行读写和发送。三者相比,公有链的开放程度最高,但因需要大多数节点参与共识导致运行速度慢、效率低;而私有链和联盟链则削弱了中心化属性,更加侧重于数据安全和维护效率。
区块链的三种类型也刚好对应征信数据共享的三种模式:一是“公有链”模式,即构建一个庞大的区块链网络,所有拥有征信数据的单位都可以自由选择数据上链或退出。此模式虽然能够拓宽数据采集渠道,解决“征信数据孤岛”问题,但数据共享过程效率较低,且政府职能被完全弱化,不利于监管。二是“私有链”模式,即构建一个以区块链为底层框架的全国性征信平台,由某一特定的国家监管部门进行管理,对节点接入实行严格把控。此模式虽然保证了数据安全和交易效率,但监管职能被过分放大,数据扩充、整合需要多部门协调配合,成本高、见效慢。三是“联盟链”模式,即运用区块链技术将现有存储征信数据的数据库相互连接,并选取部分单位作为预选节点参与共识过程。此模式相当于是前两种模式的折中方案,在保证数据安全与交易效率的同时,尽可能多地扩大数据来源,并能对链上交易行为进行有效监管。基于征信数据共享的特殊性,显然选择“联盟链”模式最为恰当。
目前,中国人民银行构建的“长三角征信链应用平台”和“珠三角征信链应用平台”就是“联盟链”模式下的的实践成果。虽然现阶段两个平台都实现了区域内企业征信数据共享互通,对区域经济发展起到了推动作用,但随着征信机构和数据源单位的不断增多,共识节点的数量也将不断攀升,交易效率面临持续下降的风险,平台发展必将受阻。若各地均以此模式构建地方性征信平台,全国形成“百花齐放”的局面,则很有可能因不同区块链缺乏统一标准而造成新的“数据孤岛”。
因此,本文提出一种基于“联盟链”模式的改进的征信数据共享机制。即,构建一个标准统一的全国性区块链网络,信息主体、监管部门、数据源单位、数据需求方等均作为联盟链条上的参与节点,通过划分节点等级来实现有效监管,通过固定共识节点数量来保证交易效率,通过社区投票来保障竞争共识节点的公平性,通过建设应用平台实现资质审核、权限管理、数据共享等功能。总体架构如图1所示。
图1 区块链征信数据共享总体架构
实用拜占庭容错(简称PBFT)算法是一种解决拜占庭容错问题的副本复制算法,其最多能容忍1/3的共识节点作恶,共识效率高,是目前公认的能够应用于联盟链的一种有效算法。但将PBFT算法直接应用在征信数据共享机制中会存在问题:PBFT算法需要节点之间大量的两两交互,对网络通信量和网络带宽消耗很大,效率也会随着共识节点数的增多而不断下降。
委托股权证明(简称DPoS)算法是通过社区投票的方式,选出一定数量的节点作为全部节点的代表进行共识,在公有链中可以达到秒级的共识验证。但此种方式同样有个缺陷,即很难保证选出的共识节点真正具有代表性。
本文参考了DPoS算法的工作思路,对PBFT算法进行了改进:
首先,重新定义了节点类型。将所有节点分为三类,分别是监管共识节点、交易共识节点和交易普通节点。监管共识节点为最高级别节点,在同步账本数据、参与共识的同时,还负责对数据共享平台、相关主体进行管理与授权,主要由人民银行等监管部门维护;交易共识节点为中间级别节点,除可进行数据交易之外,还需同步账本数据并参与共识过程,主要由少量有影响力的数据源单位维护;交易普通节点为最低级别节点,只可进行数据交易并同步账本数据,主要由数据需求方、其他数据源单位和信息主体等维护。
其次,对参与共识的节点数量进行了限制。共识节点总量控制在100个以下,每个省份固定分配一个监管共识节点和一个交易共识节点,并视各地发展情况适当扩大交易共识节点范围。交易普通节点数量不做限制。
最后,动态选取交易共识节点。在整个区块链网络中,监管共识节点不参加交易过程则无需变动,而交易共识节点扮演着“裁判员”和“运动员”的双重角色,因此,选取交易共识节点的公平性至关重要。在每次交易完成后,交易普通节点需对数据源单位提供的服务进行打分投票,改进后的PBFT算法根据投票分数选取排名靠前的数据源单位作为共识节点。当作为交易共识节点的数据源单位出错时,通过相关协议将该共识节点替换为当前排名最靠前的交易普通节点,从而最大程度保障交易效率和服务质量。
本文假定,所有征信数据的摘要信息均已上链,只讨论数据共享流程。如图2所示。具体如下:
图2 区块链征信数据共享流程
1、数据需求方向平台提出数据请求任务,除包括要采集的数据内容及相应格式外,还包括对所属信息主体的授权申请;2、平台将数据请求任务上链存证;3、平台通过对整个区块链网络内摘要信息进行检索,找到所有相关信息主体并转发授权申请;4、信息主体授权后向平台发送自己签名后的授权信息;5、平台将授权信息上链存证;6、平台根据数据需求方提出的请求信息,检索找到所有相关数据源单位并发送提数申请;7、数据源单位向平台发送定价策略;8、平台将定价信息上链存证;9、平台向数据需求方转发定价信息;10、数据需求方支付后将支付信息及数据库地址发送至平台;11、平台将支付信息上链存证;12、平台向数据源单位返回支付信息及数据需求方的数据库地址;13、数据源单位确认收到支付信息后,根据请求的数据内容和格式向数据需求方发送相关数据;14、数据源单位数据发送完成后,向平台反馈数据发送完成信息;15、平台将数据发送完成信息上链存证;16、平台将数据发送完成信息返回给数据需求方;17、数据需求方确认收到数据后向平台发送接收报告信息;18、平台将报告接收信息上链存证。
本文提出的共享机制中,为确保整个区块链网络的交易效率,将监管共识节点设定为每个省份分配一个,但征信数据涉及领域众多,每个领域都可能有一个或多个部门进行监管,同一领域的监管部门在不同省份也可能不同,同一部门在不同省份话语权也可能会有差别,因而也就产生一个问题:监管共识节点究竟由谁来维护?建议前期先由多部门共同维护,待相关权责进一步明确或整合后,可由某一部门代为维护,或是重新组建一个新部门进行维护。
区块链解决的是链上信任问题,通过哈希算法、共识机制、时间戳等技术确保了链上数据不可篡改,但若上链的数据本身就存在质量问题,其不可篡改的属性也就毫无意义。而链下数据质量需各节点自身依靠相应的技术工具、管理手段、组织体系等予以保障,某一节点的数据治理缺失都可能会对整个区块链的运行效果造成影响。建议成立数据质量评估联盟,通过采用已有的数据治理评价模型,对各节点链下数据治理情况进行考核,从而达到督促各方提高上链的数据质量的目标。
在移动通信发展初期,1G无线系统因受到网络容量的限制只能传输语音流量,并存在着很多诸如串号、盗号等问题,将其民用化的典型代表——“大哥大”的公开售价更是高达2万元。尽管如此,但人们认识到了无线通信的巨大前景,因此坚持致力于通过改善基础设施和创新通信技术来提高通信效率、降低应用成本。如今,区块链交易就面临着当年1G刚刚民用时的困境:既慢又贵。随着我国社会信用体系的不断完善,将会有越来越多的数据源单位、信息主体、数据需求方等加入到征信数据共享体制当中,届时整个区块链网络的并发交易量将会大幅提升,到达极限时势必造成网络拥堵,并导致大量交易的确认延迟。针对区块链交易效率低的问题,相关科技公司也提出了一些解决方案,比如增加块大小、脱链、委托共识、分片等,但在实践中还并不成熟。因此,政府应加大政策扶持力度,鼓励企业积极开展区块链应用;深化校企交流合作,推动相关科研项目落实落地;在重点高校设立相关课程,培养区块链领域的创新型人才,推动区块链行业快速健康发展。