任 南,马园园
江苏科技大学 经济管理学院,江苏 镇江 212003
习近平总书记在十九届中共中央政治局集中学习时强调“要把区块链作为核心技术自主创新的重要突破口”。区块链技术正逐渐应用于金融、医疗、政务、能源等领域[1-5],成为我国数字化转型、加快数字经济发展的重要技术力量,如何解决安全和效率问题是当前区块链技术研究的重点之一。共识机制作为区块链技术的基础和核心,决定了区块链的安全性、可扩展性和去中心化程度等重要特性[6]。系统探究共识机制的内在机理及优化改进对于提高区块链技术的安全与效率具有重要的理论与现实意义。
目前主流的区块链共识机制包括工作量证明机制[7](proof of work,PoW)、权益证明机制[8](proof of stake,PoS)、股份授权证明共识机制[9](delegated proof of stake,DPoS)和实用拜占庭容错协议[10](practical Byzantine fault tolerance,PBFT)。PoW由于巨大的算力消耗与出块时间被人们所诟病;PoS权益积累会造成贫富两极分化的问题;实用拜占庭容错协议不适合大规模的应用场景;DPoS以类似于董事会投票的方式选举出代理节点生成区块,在一定程度上解决了工作量证明机制和权益证明机制存在的算力消耗和权益累积问题,同时,减少了参与区块生成和验证的节点数量,适用于大规模的应用场景和实现了秒级的共识验证。但是DPoS存在如下问题:在DPoS中只有生成区块的代理节点会获得奖励,参与投票的节点在本轮投票中没有任何收益,节点参与投票的积极性下降,导致区块链共识效率低下;由于DPoS以类似于董事会投票的方式选举出块者,因此会出现恶意节点通过贿赂手段与投票节点合谋获得出块权的现象,若该恶意节点无法完成区块生成任务或者有篡改区块信息的意图,区块链系统将面临严重的安全问题。
目前,针对DPoS共识机制存在的节点投票不积极与合谋问题,一些学者提出了改进方案,Xu等[11]针对节点合谋和恶意节点不能及时剔除问题,提出了基于模糊集投票的改进方案,降低了恶意节点被选为代理节点的可能性,提高了区块链的安全性和公平性。Wang等[12]针对代理共识节点的恶意行为与节点投票不积极的问题,提出一种基于信誉的区块链共识协议,提高了区块链的安全性与抵抗攻击的能力。Tang等[13]针对节点的恶意行为造成的算力资源浪费问题提出信誉机制,激励节点诚实参与共识,提高矿池整体收益。付瑶瑶等[14]通过提出基于奖励激励和信用机制的改进方案,提高了节点投票的积极性和降低了恶意节点成为代理节点的概率,提高了区块链系统的安全性。
上述研究大多从技术角度出发解决问题,并未过多关注节点间行为策略的相互影响以及策略变化的问题。Liu等[15]提出博弈论作为一种分析工具,可以应用于解决区块链存在的攻击、共识中的利益分配和激励机制设定问题。目前,已有学者在此方面开展了一些研究,袁勇等[16]指出区块链共识算法与激励机制是一个整体,将区块链运作系统建模为节点群体博弈过程,共识规则和奖惩制度将决定博弈树的形状和叶节点的收益。唐长兵等[17]从工作量证明共识算法的挖矿困境入手,分析共识过程中矿工策略选择的纳什均衡存在条件,利用零行行列式策略对矿工策略进行优化,为设计基于博弈论的共识算法提供思路和方法。王雷等[18]针对双花攻击问题,构建进化博弈模型并解释节点策略的动态演化趋势,预测双花攻击出现的概率。Adler等[19]为保证区块链系统的安全性,把投票节点和代理共识节点作为博弈方,分析表明在设置的规则条件下存在纳什均衡,所有理性参与者为了利益最大化都将诚实行事。上述研究利用博弈论为解决区块链共识存在的安全、利益分配、交易延迟等方面提供了一定的指导意义,但对于监管和奖惩对于节点行为的影响关注过少。
共识机制中加入监察机制可以有效遏制恶意节点的不良行为,进而保证共识安全和提高共识效率[20-21]。刘懿中等[6]从共识机制本质等角度对共识机制进行研究,区块链技术人员可以将节点共识过程以及治理规则写入链上,实现区块链节点自身行为监管。Tao等[22]针对区块链中存在恶意节点问题,引入监管节点辅助监管,及时纠正和更换恶意节点。上述研究关注到了监管对恶意节点行为的束缚作用,但并未对监管力度和监管与奖惩的协同作用进行深入研究。
目前针对共识机制的改进研究大多集中在计算机科学和密码学领域,但是已有研究表明节点遵循特定的规则完成共识任务并获得利益本质上是一个经济问题,站在管理的视角通过改变节点的行为优化共识机制是可行的。同时,尽管学者们很少关注监管与奖惩对节点行为影响的协同作用,但也有研究表明监管机制和奖惩制度在一定程度上可以遏制不良行为[23]。故本文结合DPoS共识机制改进的研究现状与博弈论在区块链中的分析应用,站在管理的视角,引入监察机制,构建代理节点、投票节点、监管节点三方主体演化博弈模型,研究在监管与奖惩的协同作用下节点行为策略的动态演化趋势和惩罚因子对三方演化趋势的影响。
在区块链系统中,扮演不同角色的节点群体根据达成共识的规则和影响因素选择行为策略进行博弈,经过不断地学习和调整达到演化博弈的稳定状态。不同于经典博弈论研究两个个体之间的交互作用,演化博弈引入种群的思维模式,以群体为研究对象,探索群体达到某一稳定状态并且如何达到的[24]。在节点演化博弈模型中,把节点群体行为的调整看作一个动态过程,把个体行为到群体行为的形成机制以及涉及到的因素纳入其中,构成一个具有微观基础的宏观模型,为调控节点群体行为提供理论依据,其中,每个节点都是重复从群体中随机选取其他节点进行博弈,他们既可以通过自身经验也可以模仿他人而做出决策。
为解决节点投票不积极和合谋问题,本方案设计代理人选举规则如下:投票节点权重是由节点的实际权益和信誉值决定的,候选节点(以下统称为代理节点)的得分是由得票数和自身信誉值决定,得票数最多的前n名候选节点成为代理节点生成区块。代理节点若是通过与投票节点合谋获得生成区块的权力,将会承担经济处罚、信誉值降低和被踢出代理节点组织群体的后果;投票节点受贿合谋,将承担经济和信誉值降低的双重处罚;改进方案加入监管节点,该节点负责监管网络中节点的行为,对节点的合谋意向行为进行处罚,同时,系统也会对于未履行监管职责的监管节点进行处罚。当节点均正常参与投票与选举,系统稳定发展,节点手中的权益增值,所有的节点都能够获得间接收益,方案以惩罚机制约束节点的负向行为,以奖励机制激励节点的正向行为,从管理视角分析节点行为。
结合DPoS共识机制的改进方案,为分析各方策略均衡点的稳定性以及奖惩力度对演化稳定趋势的影响,做出如下假设:
H1:代理节点为参与方1,投票节点为参与方2,监管节点为参与方3。三方均为有限理性的参与主体,代理节点的策略空间A=(A1,A2)=(贿赂,不贿赂),投票节点的策略空间为V=(V1,V2)=(接受,不接受),监管节点的策略空间为S=(S1,S2)=(不监管,监管)。
H2:代理节点通过正常投票选举获得生成区块的能力,完成区块生成任务获利为R1,通过贿赂获得区块生成的权力,需贿赂成本C1,合谋成功收益为R2,仅有贿赂意图但未成功实施不需要成本。在监管节点监管的情况下,代理节点的贿赂行为和贿赂意向都将被处以罚金B1,信誉值降低D1;监管节点不监管时,代理节点将会获得合谋收益R2。
H3:投票节点正常投票获利为R3,在未改进方案中,节点投票没有直接收益,仅有权益增值后的间接收益,改进方案设定节点正常参与投票就会获得收益R3,受贿参与合谋进行投票获得收益R4,不论是否接受贿赂,投票节点的投票成本均为C3。监管节点监管时,投票节点接受贿赂的行为将被处以罚金B2,信誉值降低D2;监管节点不监管时,投票节点获得合谋收益R4。
H4:监管节点的监管成本为C2,监管行为的收益为R5,发现节点合谋,监管节点将会收获罚金B1、B2;θ为对监管节点的失职行为进行惩罚的力度(以下简称惩罚因子),可根据演化程度适当调整θ值,B3为监管节点未履行监管职责的罚金,若在节点存在合谋行为或者合谋意图而监管节点未采取监管行为的情况下,将被以θ的惩罚力度处于罚金θB3,监管节点未实施监管行为时可以利用监管资源获得其他收益I。
H5:监管节点选择不监管策略,投票节点与代理节点无合谋意图,系统稳定发展,三方节点主体获得权益增值价值n。不考虑货币的时间价值对节点收益造成的影响。
H6:代理节点选择贿赂策略的概率为x,不贿赂策略的概率为1-x;投票节点选择接受贿赂策略的概率为y,不接受策略的概率为1-y;监管节点选择不监管策略的概率为z,监管策略的概率为1-z。为研究方案改进对节点投票积极性的影响,设方案改进的概率为w,方案不改进的概率为1-w,节点参与投票的概率为q,不参与投票的概率为1-q。其中x、y、z、w、q均为时间t的函数,R1,R2,R3,R4,R5,C1,C2,C3,B1,B2,B3,D1,D2,n,I>0,0≤x,y,z,w,q≤1。
基于上述假设,对未改进方案的演化稳定策略进行分析,已知未改进方案中无监管节点与奖惩机制,投票节点完成投票任务后没有投票奖励,构建代理节点主体、投票节点主图两方演化博弈模型,收益矩阵如表1所示。
表1 未改进方案演化博弈收益矩阵Table 1 Unimproved scheme evolutionary game profit matrix
改进方案加入监管节点和奖惩机制构建代理节点主体,投票节点主体与监管节点主体三类节点主体间的演化博弈模型,三类主体不同策略组合的收益矩阵如表2所示。其中R3、R4为投票节点收益减去成本的纯收益,为简化计算,表2未引入投票成本C3。
表2 改进方案演化博弈收益矩阵Table 2 Improved scheme evolutionary game profit matrix
改进方案为激励节点积极参与投票,设计投票节点参与即可获得收益,构建方案改进与投票节点的演化博弈模型,由于节点积极参与投票维护区块链的良性发展,改进共识方案后矿池收益增加,为了研究改进方案对节点投票积极性的影响,故仅考虑投票节点的收益,方案改进前后矿池收益以“*”表示,其投票节点的收益矩阵如表3所示。
表3 方案与投票节点的演化博弈收益矩阵Table 3 Evolutionary game profit matrix of scheme and voting node
根据表1的收益矩阵,可以得出代理节点贿赂策略的期望收益EA1和不贿赂策略的期望收益EA2及策略选择的平均收益EA各为:
从以上策略组合的收益表可以看出,在没有监管节点监管和奖惩机制的约束下,节点的收益与选择合谋策略的概率成正比,从理性经济人的角度来看,为了利益最大化,节点在达成共识时均会选择合谋策略。
代理节点贿赂策略的复制动态方程为:
投票节点接受策略的期望收益E'V1和举报策略的期望收益E'V2及策略选择的平均收益E'V为:
投票节点接受策略的复制动态方程为:
监管节点不监管策略的期望收益ES1和监管策略的期望收益ES2及策略选择的平均收益ES为:
动态复制系统稳定点所对应的策略组合为演化博弈的一个均衡,简称为演化稳定[25],基于演化稳定策略的性质,博弈群体达到演化稳定点的条件必须满足该策略下的复制动态方程等于零且一阶导数小于零。
2.2.1 代理节点贿赂策略的复制动态分析
2.2.2 投票节点接受策略的复制动态分析
2.2.3 监管节点不监管策略的复制动态分析管概率随着代理节点的贿赂概率与投票节点的接受概率的增加而增加。
图1 三方主体策略演化过程Fig.1 Evolution process of tripartite agent strategy
令三方博弈主体的复制动态方程(10)、(14)、(18)等于零求解可知存在如下系统均衡点E1(1,1,1)、E2(1,1,0)、E3(1,0,1)、E4(1,0,0)、E5(0,1,1)、E6(0,1,0)、E7(0,0,1)、E8(0,0,0)、E9(x1,y1,z1)、E10(x2,y2,z2)、E11(x3,y3,z3),其中
对以上均衡点,利用雅可比矩阵判断以上均衡点是否稳定演化,当其特征值均为负时,则均衡点为演化稳定点;当其特征值有一个为正时,则均衡点不是演化稳定点;当其存在为零的特征值,其余特征值均为负时,则均衡点处于临界演化稳定状态[26]。该三方演化博弈系统的雅可比矩阵:
在非对称博弈中,演化稳定均衡点一定是严格纳什均衡点,严格纳什均衡点一定是纯策略均衡点,故在非对称博弈中混合策略均衡点一定不是演化稳定均衡点[27],故仅讨论纯策略均衡点的稳定性,E1~E8特征值及均衡点稳定性分析如表4所示。
表4 均衡点稳定性分析Table 4 Stability analysis of equilibrium point
均衡点稳定性分析如下:
(1)E1(1,1,1):代理节点贿赂策略带来的超额收益大于实施贿赂成本,λ1=-(R2-R1-C1)<0,投票节点接受贿赂进行合谋的收益大于正常投票收益,λ2=-(R4-R3)<0,下面对λ3进行分析。
情形1若I-θB3<(R5+B1+B2-C2),则监管节点选择不监管策略的收益小于监管时的收益,λ3>0,存在雅可比矩阵大于零的特征值,该点为不稳定均衡点。
情形2若I-θB3>(R5+B1+B2-C2),则监管节点选择不监管策略的收益大于监管时的收益,λ3<0,雅可比矩阵的特征值均小于零,该点为稳定均衡点。对应的稳定演化策略为(贿赂,接受,不监管),即代理节点选举过程存在大量合谋现象且没有监管措施,对区块链网络中共识节点安全高效达成共识造成极大的安全隐患,不是方案的改进目标。
(2)E2(1,1,0):λ1=-(R2-R1-C1-B1-D1),λ2=-(R4-R3-B2-D2),λ3=I-θB3-(R5+B1+B2-C2),对λ1、λ2、λ3的符号进行判定。
情形1若R2-R1-C1>B1+D1、R4-R3>B2+D2且I-θB3<R5+B1+B2-C2,则代理节点通过贿赂行为获得区块生成的权力所获得的收益大于被监管的处罚,投票节点受贿投票获得的超额收益大于被监管的处罚,监管节点不监管的收益小于监管的收益,对应雅可比矩阵的特征值均小于零,该点为演化稳定点。此时,监管节点的监管行为和惩罚措施不能阻止代理节点和投票节点的合谋行为,此时系统存在极大的安全隐患,不是方案的改进目标。
情形2若R2-R1-C1<B1+D1、R4-R3<B2+D2且I-θB3<R5+B1+B2-C2,则代理节点和投票节点的合谋行为获得的超额收益均小于被监管的处罚,监管节点的监管行为能够有效阻止选举投票过程中的合谋行为,此时对应的雅可比矩阵存在大于零的特征值,该点不是演化稳定点。
(3)E4(1,0,0)、E4(1,0,0)、E5(0,1,1)、E6(0,1,0)均衡点的雅可比矩阵均存在大于零的特征值,以上各均衡点不是演化稳定点。
(4)E7(0,0,1)、E8(0,0,0),λ1、λ2均小于零,λ3=±(n+I-R5+C2),下面对E7、E8的特征值λ3进行讨论。
情形1n+I>(R5-C2),即λ3=-(n+I-R5+C2),均衡点的雅可比矩阵的特征值λ1、λ2、λ3均小于零,此时对应的策略组合为(不贿赂,不接受,不监管),代理和投票节点合谋收益均小于正常投票选举收益,监管节点的监管收益小于不监管收益,即在监管节点监管和罚金与信誉值的处罚约束下,系统节点经过不断博弈演化到最优进化策略,代理节点按照正常的投票选举产生和安全高效的完成区块生成任务,投票节点根据各节点的真实情况进行投票完成投票任务,监管节点由于区块链网络中节点达成共识的状态良好,无安全隐患且无需监管,这正是方案的设计目标。
情形2n+I<(R5-C2),即λ3=n+I-R5+C2,均衡点的雅可比矩阵的特征值λ1、λ2、λ3均小于零,此时对应的策略组合为(不贿赂,不接受,监管),即该共识机制使运用该机制的区块链系统处于安全高效的运行环境时,监管节点仍采取监管策略,保证代理节点的正常选举,此情形为本方案的次稳定演化点。从理性经济人角度出发,可以降低监管节点的监管奖励,促使监管节点改变行为策略,利用自身资源获得其他收益I,使系统演化至E7状态;当系统中节点存在变异个体乃至群体时,可以提高监管节点的监管奖励,确保系统安全高效的运行环境。
为了验证本文改进方案能够有效解决节点投票不积极与节点合谋问题,结合三方演化博弈模型的稳定性分析对方案中各变量进行赋值,利用Matlab2018a进行数值仿真分析。初始值设定C2=2,B3=12,n=4,B2=3,D2=3,R5=5,I=10,θ=0.5(当节点均处于意向合谋状态时θ>0.5,当监管作用使代理节点的放弃贿赂策略时θ<0.5)。
首先根据上述数值设定,R1=10、R2=15、C1=3、B1=6、D1=6、R3=3、R4=5、C2=2、B3=12、D2=3、R5=5、C2=2、B3=12、n=4、I=20、θ=0.5,进行方案改进前后节点行为策略选择的演化趋势仿真分析,如图2所示。
图2 E7(0,0,1)稳定点趋势图Fig.2 Trend diagram of steady point E7(0,0,1)
当I-θB3>(R5+B1+B2-C2)和R2-R1-C1<B1+D1、R4-R3<B2+D2时,监管节点不监管的收益大于监管收益,代理节点和投票节点合谋收益小于正常投票收益,无论三方节点行为策略选择的初始概率为多少,最终都将趋向于唯一的演化稳定点(0,0,1),相应的演化稳定策略为(不贿赂,不接受,不监管),与进化博弈演化稳定点的分析相吻合。
原方案未引入监管与奖惩机制,节点选择合谋策略的收益大于正常投票选举的收益,从图3可以看出,无论两节点行为策略选择的初始概率为多少,都将趋向于唯一的演化稳定点(1,1),对应的演化稳定策略为(贿赂,接受),如图3所示。
对比图2和图3可以看出,改进方案中的监管机制与奖惩机制能够有效阻止代理节点与投票节点在投票选举过程中的合谋行为,同时也能在一定程度上减少恶意节点谋划成为代理节点对区块链恶意攻击的概率。
图3 原方案节点合谋策略演化稳定趋势图Fig.3 Original plan node collusion strategy evolution and stability trend graph
当I-θB3<(R5+B1+B2-C2)和R4-R3>B2+D2、R2-R1-C1>B1+D1时,设数值R1=10,R2=15,C1=2,B1=0.5,D1=0.5,R3=3,R4=5,B2=0.25,D2=0.25,R5=5,C2=1,B3=12,n=4,I=10,θ=0.5,对三方演化稳定策略进行模拟仿真,如图4所示。
图4 E2(1,1,0)稳定点趋势图Fig.4 Trend diagram of steady point E2(1,1,0)
改进方案中唯一的演化稳定策略点是(0,0,1),演化稳定策略为(不贿赂,不接受,不监管),但是当IθB3<(R5+B1+B2-C2)和R2-R1-C1<B1+D1、R4-R3<B2+D2时,即监管节点选择监管策略的收益大于不监管策略的收益,代理节点与投票节点的合谋收益大于监管缴纳的罚金。监管节点的监管行为与奖惩机制均不能有效阻止节点在投票选举过程中的合谋行为,区块链达成共识存在严重的安全隐患和算力资源浪费,故应当合理地设置惩罚与监察力度,通过控制监管节点的其他收益,规制监管节点履行监管职责,极力避免这种情景。
为了保证区块链系统以尽可能小的算力消耗安全高效的达成共识,完成交易的记录,需要在节点群体演化的不同阶段调整惩罚因子,本文设定惩罚因子θ(0≤θ≤1),设定数值θ=0.2,0.5,0.8研究对三方节点稳定演化趋势影响进行仿真分析,如图5所示。
图5 惩罚因子θ对三方主体行为策略选择的影响Fig.5 Influence of penalty factorθon behavior strategy choice of three parties
根据图5仿真结果可知,代理节点与投票节点选择合谋的概率随着奖惩力度的增大而减小,监管节点选择监管的概率随着奖惩力度的增大而增大,但在监察机制与奖惩制度的制约下,最终演化至(不贿赂、不接受、不监管)的均衡稳定状态,故可以在节点群体演化的不同程度适当调整改进方案的奖惩力度。
从管理学中经济人的角度出发,人们在选择某一行为策略时总是会考虑收益,若收益可观,便会保持这种行为。投票节点选择投票策略的复制动态方程F(q)=dq/dt=q(1-q)[w(R3-C3)+n-C3],由于共识方案的变化仅有改进(w=1)和不改进(w=0)两种可能,当方案不改进时F(q)=q(1-q)(n-C3),方案改进时F(q)=q(1-q)[w(R3-C3)+n-C3],取R3=3,n=2,C3=1,方案改进前后投票节点策略随时间变化对比如图6所示。
由图6可知,当t=2.5时,未改进方案中,投票节点选择投票策略的概率仅约为0.4,而改进方案中约为1。用投票节点选择投票策略的概率看作投票积极性,可以得出共识方案改进前投票节点的投票积极性远低于改进后,故改进方案中激励措施能够提高投票节点参与投票的积极性。
图6 方案改进前后投票策略演化趋势对比Fig.6 Comparison of voting strategy evolution trend before and after scheme improvement
通过共识方案改进前后对比分析及节点策略演化稳定性分析得出如下结论:
(1)监察和奖惩的协同作用能够改变节点的合谋行为,提高投票节点参与投票的积极性。
(2)收益影响节点行为策略的选择。当节点合谋收益小于正常参与投票收益且监管节点的监管收益小于不监管收益时,系统处于演化稳定状态,此时投票节点和代理节点在罚金和信誉值的约束及奖励的激励下将遵循共识规则,积极参与区块链系统的良好运行。
(3)监管节点的行为策略受惩罚因子与收益的双重影响。当系统存在较大的安全隐患时,可通过提高监管节点监管策略的收益和加大对不监管策略的惩罚力度来激励监管节点履行监管职责,降低系统的安全风险;当系统的安全隐患适中时,可对监管节点保持适中的激励和惩罚力度,使系统朝着更加安全稳定的方向发展;当系统的安全隐患较低时,可适当放松对监管节点的管束,使其通过参与其他共识活动提高自身收益,避免职位冗余、资源浪费,但也要实时监管,防止恶意节点萌生合谋意图。
针对以上结论,未来对DPoS共识机制的改进可从以下两个方面开展:
(1)从管理的角度看待节点达成共识中的策略选择。对于EOS等区块链系统平台,其选举制度和节点利益分配属于系统设定,但是随着系统的发展演化,最初的设定需要根据其需求进行变化。由于节点通过完成某项任务达成共识完成数据上链并获得交易费用的问题实质上是一个经济问题,故建议在变更相关制度时应考虑到激励因素和惩罚因素的作用,以正向激励促进节点某种优良行为,以负向惩罚遏制节点的某种不良行为。
(2)根据应用场景和系统状态制定监管力度。共识机制是制约区块链技术发展的最重要因素,然而一种共识机制并不能满足所有的应用场景。当应用场景对安全和效率有着极高的要求,则应当适度调高系统监管力度,使节点在高额的作恶代价下严格约束自身行为,保证系统有一个安全高效的环境。当系统节点处于高度自治,可以适当调整监管力度,节约监管行为的成本。
未来的工作主要考虑把改进方案引入到区块链共识的实际应用中,为区块链技术在具体场景的安全高效应用做出贡献。