乳制品企业失信问题的进化博弈分析

2015-03-10 08:49梅洁

市场研究 2015年9期

关键词：监管

◇梅洁

乳制品企业失信问题的进化博弈分析

◇梅洁

摘要：本文基于进化博弈的复制动态机制，对乳制品企业的失信策略选择进行进化博弈分析，并在模型求解和参数分析的基础上，判断进化博弈均衡的稳定性，剖析两个博弈方群体的策略选择状况，得出影响违规行为进化的因素。

关键词：乳制品企业；失信；监管；进化博弈

10.13999/j.cnki.scyj.2015.09.015

一、研究思路

乳制品市场中各企业的相互模仿与竞争行为与自然界中生物的进化博弈十分相似。本研究在进化博弈的分析框架下，基于博弈参与方的有限理性前提，建立乳制品企业间的进化博弈模型，探讨企业与企业横向间隐蔽违规行为的长期进化趋势，并考虑博弈方群体间非法利润的差异对系统收敛效果的影响，求解出它们类型比例变化的动态趋势及稳定性关系，剖析乳制品企业诚信与失信的策略选择状况，得出影响乳制品企业失信行为的关键因素。

有限理性博弈的有效分析框架是由限理性博弈方构成的，一定规模的特定群体内成员的某种反复博弈[1]，这与市场上众多的乳制品企业相互间的策略选择非常相似。起初企业大多是基于“质量取胜”的原则进行原料奶的采购与加工，但在市场竞争中，有的企业为了缩减成本，使用问题奶源或沿用落后的加工存储技术（易使奶粉在加工过程中受到污染），利用消费者难以识别劣质奶粉及追溯维权难等特点，将问题奶粉上市，致使诚信企业所占的市场份额急剧下降，其他竞争对手如不想退市，在策略选择上就只能模仿学习这种失信行为。当这种违规行为曝光，问题企业就会受到政府、监管部门、消费者的惩罚，整个行业受到整顿，许多奶粉企业又会回到符合国家标准的生产程序中，这是一个时间动态博弈系统。本文重点关注乳制品企业失信情况的演进筛选过程，根据进化博弈理论，筛选过程中既有原来策略选择的惯性，也有潜在突变的动力，两者共同作用，使乳制品企业违规状态发生改变。为了清晰把握乳制品企业失信演变机制，本研究的进化博弈模型以是否失信作为公司策略选择单位，用动态机制来说明乳制品企业失信状况的演变过程。

二、乳制品企业之间的进化博弈分析

（一）模型建立

根据模型设计思想，针对乳制品企业失信情况的进化模型作出以下假设：

假设1博弈方。乳制品企业在决策时面对的是群体中的其他乳制品企业，总可以假设博弈是在两类有限理性的乳制品企业之间进行的：企业1和企业2。

假设2策略空间。乳制品企业具有诚信（等同守规）和失信（等同违规）两种可选策略。假设ki（i=1，2）表示企业i采取诚信策略时生产单位产品获得的净利润，vi（i=1，2）表示企业i采取失信策略时生产单位产品获得的净利润（vi>ki），qi（i=1，2）分别表示企业i生产乳制品的数量；m表示企业失信行为被曝光后所承担的单位产品惩罚费用（包括监管部门罚金、消费者产生“信任危机”而带来的持续销量损失），n表示企业失信行为被曝光的概率，则mnqi（i=1，2）为企业i选择违规策略时的风险成本；通常情况下，企业1和企业2均采取失信策略的得益大于其风险成本，即v1q1>mnq1、v2q2>mnq2[1]。

假设3重视当期收益。由于乳制品企业数量众多，且企业制假售假行为带有一定隐蔽性，短期内不易被发现，但长远收益不一定为正，故假设企业只重视当期收益，当期收益对公司策略选择的影响远大于远期收益。

假设4行为策略的采取比例。假设在乳制品企业群体1中，采取失信策略的企业比例为p（0

乳制品企业的失信行为过程是在一个具有不确定性和有限理性的空间进行的，同时企业之间的策略又是相互影响的，各成员根据其他成员的策略选择，考虑在自身群体中的相对适应性，来选择和调整各自的策略[2]。在乳制品企业群体的进化博弈过程中，由于博弈方相互均为有限理性，倾向于在决策中模仿学习对方的行为，而在模仿之初可能并不完全知道此行为的持续将给生产系统带来多少得益、模仿后的得益大抑或原先行为的得益大，带有相对的盲目性。因此，存在v1v2和v1=v2三种情况。需特别指出，当重复博弈过程出现v1=v2的情况，且被博弈方察觉时，他们彼此会停止这种模仿学习的行为，调整到单独决策的轨道上来，此时双方的策略选择相互独立，不符合进化博弈的内在机理。因此，本研究将不考虑第三种情况。

博弈得益矩阵如下：

（二）进化博弈模型求解

我们对上述模型进行进化博弈求解。首先，计算采用不同策略的博弈方的期望收益和群体的平均期望收益。

分别是：

根据GINTIS[3]、谢识予[4]的研究，可以将p、y分别看成时间t的函数，采取不同策略的乳制品企业的概率变化速度可以用复制动态方程表示。将进化博弈的复制动态分析用于两个位置上的博弈方群体，分别得到在企业1和企业2位置上的博弈方类型比例的复制动态方程为：

根据进化博弈的稳定策略性质，一个稳定状态必须对微小扰动具有稳健性才能称为进化稳定策略。也就是说，进化博弈稳定策略点在某个博弈方因为偶然错误偏离它时，复制动态具有自动回位功能[5]。结合微分方程的稳定性定理，进化稳定策略可以表达为:在稳定状态处，F'（p*）<0、F'（y*）<0。

对博弈方1和博弈方2的复制动态方程作分析。根据复制动态方程⑦，若p=0、1或y=（k1q1-v1q1+mnq1）/（v2q1-v1q1），F （p）始终为0，企业群体1中采用失信策略的企业所占的比例是稳定的；同样，根据方程⑧，若y=0、1或p=（k2q2-v2q2+mnq2）/（v1q2-v2q2），F（y）始终为0，企业群体2中采用失信策略的企业所占的比例是稳定的。

如果y≠（k1q1-v1q1+mnq1）/（v2q1-v1q1），则p=0和p=1为两个稳定状态，可求解F'（p）<0确定群体变化趋势；如果p≠（k2q2-v2q2+mnq2）/（v1q2-v2q2），则y=0和y=1为两个稳定状态，可求解F'（y）<0确定群体变化趋势。依据v1与v2的大小关系，会出现两种情况：

1.当v1

博弈方1：如y>（k1q1-v1q1+mnq1）/（v2q1-v1q1），p=1为进化稳定策略（ESS）；如y<（k1q1-v1q1+mnq1）/（v2q1-v1q1），p=0为ESS。博弈方2：如p>（k2q2-v2q2+mnq2）/（v1q2-v2q2），y=0为ESS；如p<（k2q2-v2q2+mnq2）/（v1q2-v2q2），y=1为ESS。

进一步，我们可以把上述两个群体类型比例变化复制动态的关系，在以两个比例为坐标的坐标平面图上表示出来，如图1、图2。由图1可知，该博弈中的5个平衡点中，点A和点C为不稳定源出发点，点D为鞍点，点B和点O为进化稳定状态，它们分别对应于所有企业均采取诚信策略和均采取失信策略两种模式。图2反映了企业1和企业2的复制动态进化博弈过程，由两个不稳定的均衡点（A和C）和鞍点D连成的折线为系统收敛于不同状态的临界线，即在折线的右上方（即ABCD部分）系统收敛于所有企业选择失信策略的模式，在折线的左下方（即AOCD部分）系统收敛于所有企业选择诚信策略的模式。考虑到系统的进化是一个漫长的过程，在很长的时间内系统保持一种失信与诚信共存的局面。

图1　演化博弈分析下的博弈方类型比例变化趋势示意图（v1

图2　演化博弈分析下的博弈方策略动态进化图（v1

2.当v1>v2时:

博弈方1：如y>（k1q1-v1q1+mnq1）/（v2q1-v1q1），p=0为ESS；如y<（k1q1-v1q1+mnq1）/（v2q1-v1q1），p=1为ESS。博弈方2：如p> （k2q2-v2q2+mnq2）/（v1q2-v2q2），y=1为ESS；如p<（k2q2-v2q2+ mnq2）/（v1q2-v2q2），y=0为ESS。同理，我们可以把这两个群体类型比例变化复制动态的关系，在以两个比例为坐标的坐标平面的图上表示出来，如图3、图4。由图3可知，该博弈中的5个平衡点中，点F和点O为不稳定源出发点，点H为鞍点，点E和点G为进化稳定状态，图4反映了企业1和企业2的复制动态进化博弈过程，当初始情况落在EFHO区域时，博弈方1位置群体都采用诚信策略，博弈方2位置群体都采用失信策略；当初始情况落在FHOG区域时，博弈方1位置群体都采用失信策略，博弈方2位置群体都采用诚信策略。两个博弈方长期最终进化结果为一方采取诚信策略，而另一方采取失信策略，即有企业会在竞争中出现违规造假行为，破坏市场秩序。

图3　演化博弈分析下的博弈方类型比例变化趋势示意图（v1>v2）

图4　演化博弈分析下的博弈方策略动态进化图（v1>v2）

三、乳制品企业失信问题进化博弈模型分析

有限理性博弈方通过长期的学习和策略调整，最终会沿何种轨迹，收敛于何种策略，与博弈的支付矩阵及博弈发生时的初始状态有关。在博弈过程中，博弈双方得益函数中某些参数值的差异及变化将导致进化系统向不同的均衡点收敛。前已述及，当v1v2时，两个博弈方长期最终进化结果为一方采取诚信策略，而另一方采取失信策略，模型中博弈双方无法同时达到一个进化稳定策略（ESS）。如何使得乳制品企业失信行为的比例趋向于最小呢？下文我们将从参数分析的角度来讨论这个经济问题。

（一）当v1

1.风险成本mnqi。构成厂商风险成本的重要组成部分就是“企业失信行为被曝光后所承担的单位产品惩罚费用（包括监管部门罚金、消费者产生‘信任危机’而带来的持续销量损失）”和“企业失信行为被曝光的概率”。由图4可看出，当相关部门的惩罚力度越大、概率越高时，折线的右上方（即ABCD部分）的面积越小，折线的左下方（即AOCD部分）的面积越大，系统会趋向收敛于所有企业选择诚信策略的模式。

2.诚信行为单位净利润ki与失信行为单位净利润vi。当厂商采取守规策略生产单位产品的成本降低，所获净利润的幅度加大，能拉近与违规获利的差距时，折线的右上方（即ABCD部分）的面积会减小，系统收敛于均衡点O的概率会增加，即所有企业最终都采取守规策略的可能性增加；反之，当企业的非法利润远大于合法利润时，逐利的本性会使所有企业采取失信策略的比例增加，导致折线的右上方（即ABCD部分）的面积增加。

（二）当v1>v2时：

风险成本mn。有限理性的博弈方在选择策略时不仅考虑自己的得益，还需考虑其他同质企业所选策略的得益。如果博弈方2的失信策略为其带来的惩罚高于诚信行为，则博弈方1会趋向采用诚信策略；反之亦然。由前文p=0和y=0成为进化稳定策略的条件，可推导出博弈方2风险成本的临界范围mnq2>v2q2-k2q2（v2>k2）及博弈方1风险成本的临界范围mnq1< v1q1-k1q1（v1>k1），即两博弈方的风险成本在各自的临界范围内才会趋向守规。根据vi、ki、qi等参数的数量关系不同，双方的临界范围将出现差异，但可以推断，参与竞争的博弈方会根据其他博弈方失信行为的得益情况调整自己的策略，如博弈方2的违规行为曝光，被处以重罚，此时即使博弈方1的风险成本很小，它也会采取保守的诚信策略。

四、结论

本文基于进化博弈的复制动态机制，对乳制品企业之间的策略选择进行进化博弈分析，考察了两个博弈方群体相互模仿失信行为过程中，双方非法利润的差异对系统收敛效果的不同影响。分析结果表明，当博弈方1的非法利润小于博弈方2时，在很长的时间内系统都将保持一种或全部失信，或全部诚信共存的局面；当博弈方1的非法利润大于博弈方2时，两个博弈方长期最终进化结果为一方采取诚信策略，另一方采取失信策略。影响违规行为进化的因素有风险成本（包括企业生产劣质乳制品被查处的概率及惩罚额度）、非法利润与合法利润的差额等等，即使非法利润的空间大，但相应的风险成本高，企业的违规行为也将趋于减少。我国相关部门在2013 至2014年的一年间就出台了14项乳粉新规，正是从婴幼儿乳粉参照药品规范管理、婴幼儿乳粉在出厂时接受全项目批批检验、对婴幼儿配方乳粉行业企业进行兼并重组、落实婴幼儿配方乳粉生产企业质量安全责任和对企业的监督检查方式、禁止以委托、贴牌、分装等方式生产婴幼儿配方乳粉、明确婴幼儿配方乳粉生产企业应当具备自建自控奶源、严格落实质量安全责任追究制度，建立先行赔偿和追偿制度[6]等方面入手，旨在大幅提高乳制品失信企业的曝光机率、惩罚力度与违法成本，令企业违规行为的机会成本增大，最终使我国的乳制品市场秩序回归良性，提振消费信心。从这个角度而言，本研究从进化博弈的角度对国家当前严厉的乳制品监管行为提供了方法论的支持。

注：通常情况下，企业采取失信策略的得益大于其风险成本，但也存在采取失信策略的得益小于风险成本的情况。本研究暂只考虑第一种情况。

参考文献：

[1][4]谢识予.经济博弈论[M].上海：复旦大学出版社，2006.

[2]樊斌，李翠霞.基于质量安全的乳制品加工企业隐蔽违规行为演化博弈分析[J].农业技术经济，2012（01）.

[3]Herbert Gintis.Game Theory Evolving[M].Princeton:Princeton University Press，2000.

[5]黄维民，沈乐平.上市公司违规问题的进化博弈分析[J].管理学报，2009（03）.

[6]http://finance.qq.com/a/20140515/006185.htm pgv_ref=aio 2012&ptlang=2052

（作者单位：广西大学）