基于三方演化博弈模型的精准扶贫主体行为研究

2020-04-09 02:03□

电子科技大学学报(社科版) 2020年2期

□

[1. 三明学院三明 365004；2. 电子科技大学成都 611731；3. 广西财经学院南宁 530003]

引言

自2013年习近平总书记在湘西提出“精准扶贫”的概念以来，精准扶贫成为中国式扶贫的基本方略。国内外学者纷纷对此开展了大量的研究。2017年10月18日，党的十九大报告强调指出，要动员全党全国全社会的力量，坚持精准扶贫、精准脱贫。恰如阿玛蒂亚·森指出的那样，造成贫困的原因各异，但是，外部扶持力量对于贫困者逐步形成可行能力作用显著[1]。他认为，能力的完备性取决于权力的可扩展性和可实现性。某种能力的缺乏导致了全面能力形成的障碍，突破障碍需要外在群体在权力分配和物质分配过程中的平等化救济[2]。现有研究认为，贫困主体的解贫脱困离不开政府的主导扶助，作为准公共经济活动，扶贫工作的开展更偏重于实现公平条件下，不同群体获得共同发展的普惠福祉[3]。作为公共职能实施的主体，政府在政策制定、行动执行安排等协调性活动中作用显著，但是，政府在资源创造、资金增值等经济活动中作用不大，需要倚重企业的力量实现扶贫目标，增强减贫成效[4]。目前的文献大体分为政府主导扶贫、社会力量参与扶贫、混合式扶贫等思路[5]。从研究者业已取得的成果分析，政府在调动社会力量积极参与扶贫的优势无可比拟，但是扶贫工作既需要宏观控制，又存在微观行动支持和效果评价等具体实施过程[6]。增强贫困户自我造血能力，需要社会力量在市场理念形成、产品风险规避、经营商品经验方面加以引导[7]。科斯在论述企业的性质时，提出了企业在成长过程中，更重视成本降低带来的效益提升，企业自利行为成为他们参与社会活动的重要动机[8]。因此，在准公共经济活动中，保障企业在经济活动中获得稳定的直接收益和良好的社会声誉产生的间接扩展性效益是促使企业投入到扶贫工作的基础[9]。罗斯在肯定了阿玛蒂亚·森的可行能力的公共特征后，进一步指出，政府在设定一定标准后，形成了社会群体认可的标准和可以达成共识的理念，是政治公正和正义得以量化的基础[10]。政府扶贫政策实施、企业参与扶贫活动的最终效果都对贫困户采取有限认知下的利益策略有重要的影响。罗斯试图从打破个人差异性的视角说明公正性多数原则的合理性，但是，事实上，个体之间的差异会形成多方群体复制性共识，从而影响最终的政策效果。为此，降低不同个体差异性产生的效率损害的摩擦成本，减少目标偏离的可能性是实现政府、企业和贫困户共同利益的基础。和当前研究不同，本文将政府利益对策、企业自利行为对策和贫困户个体差异对策进行了动态的演化分析，采用现场调查的数据和实际访谈的结果，模拟了现实状况下不同利益相关者形成利益均衡的路径。和现有的文献研究相比，本文的贡献在于更加客观地从政府公共政策利益、企业在经济发展和社会选择均衡利益追求的平衡，以及个体差异性造成的决策变化这三方利益均衡的可实现性进行了模型的设定和模拟现实的效果展示，更加充分地展示了现有的扶贫工作中不同群体在目标达成中的演化过程，为打赢扶贫攻坚战提供有益的参考。

为了减少现实因素的不确定性，设定三方群体的总目标保持一致，政府实施以提高人民生活水平为出发点的惠民政策，企业能够在经济利益和社会利益方面保持均衡策略，不会出现冒进等小概率事件，贫困户以经济利益为基础考虑自身的决策。据上述的条件和相关的理论，提出以下模型，并做出了相应的假设。

一、基于政府、企业和贫困户三方的演化博弈分析

（一）模型假设

精准扶贫过程涉及政府，企业和贫困户三大利益相关者，三者之间存在相互博弈关系[11]。为进一步分析三个博弈主体之间的利益关系，寻求各方的利益均衡点，探索精准扶贫的有效途径，需要构建精准扶贫三方利益主体演化博弈模型。

假设1：政府、企业和贫困户是博弈的三大主体。三者在策略的选择上均为有限理性，政府以社会福利最大化为目标，企业和贫困户均以自身利益最大化为前提。本文仅从成本收益的角度出发，考虑政府如何用最少的成本达到最好的扶贫效果。三大主体中任何一方的决策取决于另外两方的行为选择。因此，研究三方之间的演化博弈有助于脱贫路径的选择。

假设2：参与策略。政府在精准扶贫过程中采取激励与不激励两种行为，记为S1、S2；企业选择介入和不介入两种行为，记为E1、E2；贫困户选择积极脱贫和消极脱贫两种行为，记为P1、P2。

假设3：当贫困户的收入无法达到脱贫标准时，政府将采取兜底扶贫措施帮助贫困户脱贫。

假设4：政府收益从其支付的扶贫资金的机会成本角度考虑。

假设5：根据三方主体选择的策略，共可分为8种情形。

情境1：当政府不激励、企业不介入、贫困户消极脱贫时，即(S2，E2，P2)。企业的收益为E1；地方政府需要拿出扶贫资金资助贫困户，收益为-K；贫困户得到扶贫资金，最终收益为K（假定政府扶贫资金足以兜底所有的贫困户）。

情境2：当政府不激励、企业不介入、贫困户积极脱贫时，即 (S2，E2，P1)。企业的收益为E1；地方政府需要拿出部分扶贫资金资助贫困户，最终收益为W1-K；假定贫困户积极脱贫的收入W1不能达到国定贫困线标准，政府会对贫困户发放扶贫资金K-W1，此时，贫困户的收入包括两部分：贫困户积极脱贫获得的收入W1和政府的扶贫补贴K-W1，故贫困户的最终收益为K。

情境3：当政府不激励、企业介入、贫困户消极脱贫时，即(S2，E1，P2)。企业要从总收益中拿出一部分扶持贫困户，实际收益为E2-W2；由于贫困户消极脱贫，企业扶持基金W2不足以脱贫，地方政府需要拿出扶贫资金资助贫困户，地方政府的收益为W2-K；此时，贫困户的收益包括政府扶贫资金K-W2和企业扶持资金W2，因此，最终收益为K。

情境4：当政府不激励、企业介入、贫困户积极脱贫时，即 (S2，E1，P1)。企业要拿出一部分的收益扶持贫困户，收益为E2-W3；由于贫困户积极脱贫，假定企业扶持基金W3足以使贫困户脱贫（W3＞K），地方政府不需要拿出扶贫资金资助贫困户，地方政府的收益为0 ；贫困户得到扶贫资金，最终收益为W3。

情境5：当政府激励、企业不介入、贫困户消极脱贫时，即(S1，E2，P2)。企业的收益为E1；地方政府激励贫困户个体的成本为C1，同时需要拿出扶贫资金资助贫困户，因此收益为-C1-K；贫困户得到扶贫资金，最终收益为K。

情境6：当政府激励、企业不介入、贫困户积极脱贫时，即 (S1，E2，P1)。企业的收益为E1；地方政府需要拿出部分扶贫资金资助贫困户，最终收益为W1′-K-C1；假定贫困户积极脱贫的收入W1′不能达到国定贫困线标准，贫困户的收益包含政府扶贫资金K-W1′和这种情境下贫困户积极脱贫获得的收入W1′两部分，故此时贫困户的最终收益为K。

情境7：当政府激励、企业介入、贫困户消极脱贫时，即 (S1，E1，P2)。企业的收益要拿出一部分扶持贫困户，实际收益为C2+E2-W2′；由于贫困户消极脱贫，企业扶持基金W2′不足以脱贫（W2′＜K），地方政府需要拿出扶贫资金资助贫困户，地方政府的收益为W2′-K-C1-C2；贫困户的收益包括获得的政府扶贫资金K-W2′和从企业得到的扶持收入W2′两部分，因此，贫困户最终收益为K。

情境8：当政府激励、企业介入、贫困户积极脱贫时，即 (S1，E1，P1)。企业的收益要拿出一部分扶持贫困户，实际获得收益为C2+E2-W3′；由于贫困户积极脱贫，假定企业扶持基金W3′足以使贫困户脱贫（W3′＞K），地方政府不需要拿出扶贫资金资助贫困户，地方政府的收益为-C1-C2；贫困户得到扶贫资金，最终收益为W3′。

参数设置及含义如表1所列。

（二）模型构建

根据上述假设，可得到支付矩阵如表2所列。

假设政府选择“激励”策略的概率为x，选择“不激励”策略的概率为1-x；企业选择“介入”策略的概率为y，选择“不介入”策略的概率为1-y；贫困户选择“积极脱贫”策略的概率为z，选择“消极脱贫”策略的概率为1-z。

表1 参数设置及含义

表2 支付矩阵

设US1表示政府采取激励行为时的期望收益，US2表示政府采取不激励行为时的期望收益，表示政府采取两种策略时的平均收益，则：

同理，可得到博弈方企业采取合作行为的期望收益UE1和企业的平均收益分别为：

贫困户采取积极脱贫行为的期望收益UP1和企业的平均收益分别为：

（三）结果讨论

根据Malthusian动态方程，得出政府、企业和贫困户之间的长期利益博弈行为和策略选择随时间演化的动力学方程。

考虑政府采取激励行为的复制动态方程为

其中

考虑企业采取介入行为的复制动态方程为

其中

考虑脱贫户采取积极脱贫行为的复制动态方程为

其中

设上述动力学方程的海瑟（Hessian）矩阵为：

（四）模型的渐进稳定性分析

二、案例分析与数值计算

通过查阅某个国家扶贫改革试验区资料汇编和2016年某市精准扶贫第三方评估问卷调查数据统计资料，对各项参数测算结果如表3所示。

表3 某省某市某县的扶贫数据（单位：万元）

（一）初始分布对演化路径的影响

根据理论分析，政府、企业和贫困户的初始状态会影响演化路径。将调查数据带入复制子动态方程组中发现，对于固定的z，不论x和y取何值，复制动态方程F(x)和H(z)的符号不变，故政府和企业的初始状态对演化路径几乎无影响。因此，本部分仅讨论贫困户的初始状态z对演化路径的影响。取x=0.5，y=0.5，演化结果如图1和图2所示。

由图1可知，不论z取何值，系统演化到(0，0，1)的均衡状态，即政府不激励、企业不参与、贫困户积极脱贫。显然，该均衡状态不是帕累托最优的。由图2可知，z的不同取值对x演化到0的速度没有太大的影响，不论贫困户中积极脱贫的比例占多少，政府都采取不激励策略。z较小时，y先增加后演化到0，并且z越小y增加的速度越大；z很大时（位于图1中的阴影面以上），y呈减小趋势，最终企业选择不进入策略。初始z越大，其演化到1状态也就越快，最终贫困户都积极脱贫。

（二）政府兜底扶贫金额对演化路径的影响

根据理论分析，政府兜底扶贫金额K会影响复制动态方程，从而影响演化均衡。本部分研究K对演化路径和演化均衡策略的影响。为了便于研究，这里取x=0.5，y=0.5，z=0.5，K的不同取值为：K=200，300，400，500，600，700，800。演化结果如图3和图4所示。

由图3可知，政府兜底扶贫金额K的不同取值会影响演化均衡结果，均衡结果包括三个(0，1，1)，(0，0，1)，(0，1，0)。具体演化结果可从图4看出：1. 无论K取何值，x均演化到0状态，即政府采取不激励策略。2. 随着K值变大，y从演化到0变化为演化到1状态，即政府兜底扶贫金额变大时，企业介入扶贫可以降低扶贫成本因而选择进入策略。3. 随着K值变大，z从演化到1（当满足本文假定的K＜W3时）变化为演化到0状态（当K＞W3时），这是由于政府兜底扶贫金额过大导致贫困户产生依赖政府脱贫的心理而选择消极脱贫。因此，为了达到三个均衡点中的帕累托最优状态(0，1，1)，K值不应过小，也不应过大，图4中可知K=700左右可以达到该均衡。

（三）企业介入扶贫情况下企业的收益总额对演化路径的影响

根据理论分析，企业介入扶贫情况下企业的收益总额E2会影响复制动态方程，从而影响演化均衡。本部分研究E2对演化路径和演化均衡策略的影响。为了便于研究，这里取x=0.5，y=0.5，z=0.5，E2的不同取值为：200，400，600，800，1000，1200，1400。演化结果如图5和图6所示：

由图5可知，企业介入扶贫情况下企业的收益总额E2的不同取值会影响演化均衡结果，最终导致均衡状态下选择积极脱贫的贫困户比例不同。具体演化结果可从图6看出：1. 无论E2取何值，x均演化到0状态，即政府采取不激励策略，随着E2的增加，演化到0的速度也增加。2. 随着E2值变大，y从演化到0变化为演化到1状态，即企业介入扶贫情况下企业的收益总额E2较大时，企业因介入扶贫可以获得收益而选择进入策略。3. 随着E2值变大，z从演化到非1状态变化为演化到1状态，这是由于企业介入扶贫给予贫困户一定的就业机会和补贴。因此，为了达到帕累托最优状态 (0，1，1)，企业介入扶贫情况下企业的收益总额E2要足够大，由图6中可知E2≥1000可以达到该均衡。

（四）W3对演化路径的影响

根据理论分析，政府不激励、企业介入、贫困户积极脱贫情况下，贫困户的收益W3会影响复制动态方程，从而影响演化均衡。本部分研究W3对演化路径和演化均衡策略的影响。为了便于研究，这里取x=0.5，y=0.5，z=0.5，W3的不同取值300，400，500，600，700，800，900，1000。演化结果如图7和图8所示：

由图7可知，政府不激励、企业介入、贫困户积极脱贫情况下，贫困户的收益W3的不同取值会影响演化均衡结果，均衡结果包括三个(0，1，1)，(0，0，1)，(0，1，0)。具体演化结果可从图8看出：1. 无论W3取何值，x均演化到0状态，即政府采取不激励策略，随着W3的增加，演化到0的速度反而变慢，这是由于当企业介入时需要赋予贫困户的收益W3较大，企业不愿意介入，导致政府考虑是否要采取激励策略。2. 随着W3值变大，y从演化到1变化为演化到0的状态，即贫困户的收益W3较大时，企业因介入扶贫需要付出较多的成本而选择不进入策略。3. 随着W3值变大，z从演化到0（当W3＜K时）变化为演化到1状态（当满足本文假定的W3＞K时），这时W3越大表明贫困户可以获得更多的收益。因此，为了达到上述三种均衡结果中的帕累托最优状态 (0，1，1)，政府不激励、企业介入、贫困户积极脱贫情况下，贫困户的收益W3不应过大，也不应过小，由图8中可知400＜W3＜700可以达到该均衡。

三、结论

本文构建了精准扶贫过程中政府、企业和贫困户三个利益相关者之间的演化博弈模型，分析了不同利益群体行为决策的演化趋势，并通过数值仿真分析得到如下结果：1. 从实际调查数据可得，目前系统处于政府采取了大量激励措施，企业参与扶贫程度参差不齐，贫困户积极脱贫态度不够明确的状态。但通过模型分析，在现行政策引导下，经过长时间的演化，系统将最终达到(0，0，1)状态，即政府不激励、企业不进入、贫困户积极脱贫。该状态没有实现帕累托最优。2. 导致系统无法达到帕累托最优的原因是多方面的，其中包括政府政策制定因素和市场因素。政策制定因素指的是政府兜底扶贫资金的设定，政府下拨和分配的扶贫资金规模应该适度，才能使系统达到帕累托最优。市场因素包括企业介入扶贫时所能够获得的收益以及贫困户的人工成本。企业介入扶贫时所能够获得的收益回报越高越可能演化至帕累托最优。贫困户本身积极脱贫时获得的劳动报酬（即人工成本）适中合理时，有助于系统达到帕累托最优。

精准扶贫工作是一项范围广泛、投入巨大、情况复杂的系统工程，具有动态性、多维性、相对性和多样性等特征，涉及众多的相关利益群体[12]。而在本文的模型构建中只考虑了政府、企业和农户三者之间的演化博弈关系，没有考虑村集体等其他精准扶贫利益相关群体，因此，进一步探求精准扶贫过程不同主体的行为决策对扶贫成效的影响将是下一步研究的方向。