摘要:供应链管理为现代企业提供了基于组织间竞争的有力支持,而供应链管理中的合作伙伴选择成为构造高质量供应链的关键因素之一。文章首先在供应链合作伙伴选择的一般非合作博弈模型研究的基础上提出了具有激励机制的合作博弈模型,分析了具有激励机制应满足的条件。
关键词:博弈论;供应链;合作伙伴选择;MAS
一、引言
随着全球一体化进程的深入,竞争愈演愈烈。为了获取优势,企业将非核心业务外包给相应的供应商,同时将重点放在核心企业。当今制造商对供应商的依赖性增强。企业之间的竞争转化为供应链之间的竞争,提高供应商选择的质量和效率对供应链的绩效有着至关重要的影响。
博弈论是研究决策主体行为相互作用以及决策均衡问题的一门学科,它的基本概念包括局中人、战略、支付、行动、信息、结果和均衡,这也是一个完整博弈的基本要素。博弈论依据当事人是否达成具有约束力的协议分为合作博弈和非合作博弈,合作博弈是指“参与者从自己的利益出发与其他参与者达成协同或形成联盟,其结果对双方均有利,非合作博弈是指参与者在行动选择时无法达成约束性的协议”。可见,合作博弈强调团体理性、效率、公平,非合作博弈论强调个人理性、个人最优决策。
供应链合作伙伴关系(Supply Chain Partnership,SCP)主要是指在供应链内部,两个或两个以上独立的成员之间形成的一种协调关系,其目的是保证实现某个特定的目标或效益。这就需要与合作伙伴进行协商和合作,以链主企业的理性来公平地对待伙伴,创造一种和谐的氛围。这种和谐氛围中的分工与交换的经济活动,就是一种合作性的博弈。当今,供应链协同运作更强调伙伴间的协同商务理念,即链主企业与合作伙伴协同预测市场、协同采购、协同研发、协同制造,协同整个产品生产和服务的全过程,不但协同行为有先后顺序,更重要的是协同行为是透明的。所以,供应链伙伴间的合作博弈又是动态的,可以称其为动态合作博弈。
Agent具有自治性、社会性及学习能力,非常适于描述具有自治行为的主体的交互的过程,大量地被应用于供应链系统的建模。将Agent用于合作伙伴选择过程,并充分考虑到供应商的自主性,可提高合作伙伴选择的准确性、客观性和效率。
本文尝试把合作博弈理论运用到基于多智能体系统(Multi-Agent System,MAS)的供应链合作伙伴选择研究中,通过建立合作博弈模型,探求均衡解,来揭示供应链伙伴合作在何种条件下都能带来整个供应链相对于不合作时的最大收益,以期望能从博弈的视角,观察链主企业与合作伙伴如何在分工与合作的经济活动中达到均衡。
二、合作伙伴选择的一般非合作博弈模型
供应链上下游企业之间的充分合作将有利于信息的共享,从而有利于提高供应链的竞争力,达到双赢的目的;但是作为独立的利益体,各自都会追求自身利益的最大化,避免自身的风险。在交易过程中,生产商往往会保留很多重要的“私有”信息,这是因为在双方信息不对称的情况下,如果供应商(双方)获得的信息越多,供应商在交易过程中就越易掌握更多的主动性,这对生产商不利;处于同样的考虑,供应商也会隐瞒自己的信息,这样双方就形成了博弈的局面。
供应链企业间是否合作,从本质上看是企业间的博弈。依据博弈理论,某企业的收益不仅取决于其自己的行为,还取决于与之交易的另一企业的行为。其博弈方式分为两类:合作与不合作。这里的合作是指双方克制自己的行为,为各自的利益、共同利益着想,并非达成一个具有约束力的协议。任何一方在必须做出自己的策略选择时,并不知道另一方将会选择什么策略,但每一方都会对另一方将选择的策略做出预期。理性的交易双方都会以个体自身利益最大化为目标。
假设存在两个Agent(博弈参与者),其一般博弈模型描述如下:
Agenti的博弈模型,其中I={Agent1,Agent2};S为Agenti可能采取的所有策略集合,可能采取的基本策略为“合作”、“不合作”;U={u1,u2},其中u1和u2分别为Agent1和Agent2的收益函数。Agent1和Agent2博弈产生的局数可以由函数: τ: S|Agent1×S|Agent|2→Ω产生。令τ(不合作,不合作)=ω1,τ(不合作,合作)=ω2,τ(合作,不合作)=ω3,τ(合作,合作)=ω4,ωi(i=1,……,4)为博弈Γ的一个态势。Agenti的收益函数为:ui(ωj),其中i∈I;j=1,……,4。
一般情况下,为了便于分析,假设双方Agent具有相同的收益结构,用收益矩阵来表示双方博弈组合,如表1所示,矩阵中的收益值存在如下关系:
在此模型中,Agent作为理性智能体,追求自身利益的最大化,不管对方是合作还是不合作,自身的最优选择都是不合作,在这样的博弈中纳什均衡显然是不合作,各自得到较少的收益,合作效率较低。
三、具有激励机制的合作博弈模型
在传统的非合作博弈模型中,双方都不合作是唯一的纳什均衡,这是一个囚徒困境。如果双方都选择前者则会获得合作收益,否则他们得不到任何收益。其中一方Agent发现对方合作对自己有利,它就会试图提供合作回报诱导对方合作,我们把它叫做主Agent,记为Agent1;如果对方Agent认为尽管合作对自己并没有好处(甚至会降低收益),然而只要对方提供的回报合作,同样可以考虑合作,同时还可以获得收益,文中称为从Agent,记为Agent2。因此上方可以就冲突问题展开协商,协商过程通过博弈表现出来。假设Agent1、Agent2为两个不同的Agent,对于不同的策略收益矩阵中的收益值存在如下关系:
P2表示Agent1为了争取Agent2参与合作而付出的代价,同时又是Agent2因参与合作而从Agent1那里得到的回报;P1为Agent2同意与Agent1合作所支付的成本,也是Agent1通过合作所得到的回报。当P1、P2为Agent1、Agent2获得的边际回报时,即Agent2、Agent1激励对方合作时分别需支付给对方的最小成本,P1=u1(ω2)-u1(ω4),P2=u2(ω3)-u2(ω4),其中i∈I。
在改进的模型中,Agenti的边际回报为Pi,收益值为ui’,其中i∈I,收益值之间的关系为:
u1′(ω1)=u1(ω1),u2′(ω1)=u2(ω1)
u1′(ω2)=u1(ω2)-p2,u2′(ω2)=u2(ω2)+p2=p2;
u1′(ω3)=u1(ω3)+p1=p1,u2′(ω3)=u2(ω3)-p1;
u1′(ω4)=u1(ω4)-p2+p1=u1(ω2)-p2,
u2′(ω4)=u2(ω4)+p2-p1=u2(ω3)-p1
改进后的收益矩阵如表2所示,由表2可以看出在具有激励机制的模型中,Agent对态势存在以下偏好关系:
ω2~1ω4;如果p1=u1(ω1),ω3~1ω1;如果p1>u1(ω1),ω3>1ω1;如果p1
符号~i,表示Agenti对符号两边态势的偏好程度是无差异的;>i,表示Agenti偏好符号左边;
在改进的模型中,当Agent或取的回报为边际回报,并且pi=ui(ω1)时,对策Γ存在两个平衡点,Agent在博弈中选取合作或不合作的几率相等;pi<ui(ω1),不合作策略具有较强的优势,pi>ui(ω1)合作策略具有较强的优势。总之,当双方的或取得回报为边际回报时,系统总收益不具有pareto效率,合作策略微弱优势策略。
在具有激励机制的博弈模型中增大Agent获取的回报值,假定Pi′=Pi+△P,△P为非负数,并且pi′>ui(ω1),Agent的收益值为