基于Agent的协同物流利润分配模型

2015-11-04 06:19:31李斌勇

计算机工程 2015年9期

关键词：底价利润分配报价

田冉，韩敏，李斌勇

（西南交通大学信息科学与技术学院，成都610031）

基于Agent的协同物流利润分配模型

田冉，韩敏，李斌勇

（西南交通大学信息科学与技术学院，成都610031）

传统Rubinstein利润分配模型中的参数设定多由经验判定，造成协商结果的不确定性。针对该问题，建立一种自学习的利润分配模型。该模型将协同物流商分为主动协同和被动协同2类，不同类型的协同物流商在探索对方物流商底价的基础上给出自己的报价或者反报价，依据当前报价结果决定是否转变协商角色类型，并引入自学习的报价参数实现报价过程中报价策略的改变，得到使协同各方满意的结果。仿真结果表明，与传统Rubinstein利润分配模型相比，该模型能降低达成协商所需的次数，有效避免因经验判定造成的不确定性。

交通运输经济；利润分配；报价策略；协同物流；讨价还价策略

1 概述

协同物流运输模式是现代物流运输的发展方向和趋势所在，而在协同过程中必然会产生由“1+1＞2”的协同效应所带来的新的协同利润，而如何分配新利润就成为对物流链的协同的关键问题。由于协作企业之间是不同的利益主体，因此既要保证各方的利益，又要保证协同的整体利益最大化，在考虑协同各方利益的基础上公平合理地分配协同物流运输中产生的协同利润，协调协同各方的关系，这是关系到协同物流能否顺利进行和持续进行的基本问题。

目前，对于利润分配的对象上可以分为横向和纵向的利润分配，对于物流链纵向利润分配的主体主要为参与物流链上协同的物流商之间的利润分配。对于物流链横向利润分配的主体主要为物流链多个层级上的物流商与制造厂、经销商、供应商之间的利润分配。

利润分配方法主要集中在利润的直接分配和利润的协商分配（即讨价还价）上，直接分配多采用Shaply值法及其改进方法［1-3］，协商分配多基于Stackelberg［4-6］，Bertrand［6-7］等博弈策略的基础上建立K-S［4］，Rubinstein［8］等分配模型及与其他算法的混合算法［9-11］组成的分配模型。从经济学研究的角度来说，现有的合作博弈理论是解决价格博弈问题的最佳策略，但是还存在一些问题，如在利润直接分配上多采用的Shaply值法的结果优劣主要取决于利润分配因素及其权重的定义。在利润协商分配的过程中多采用合作博弈策略模型，如Stackelberg策略可以找到一个合作区间，但无法给出一个准确的利润分配方案［12］。而Rubinstein讨价还价策略虽然可以给出一个分配方案，但其设定参数对其还价策略的影响很大，当设定参数取值不合适时会陷入难以协商成功的困境。

随着物流协同的不断发展和物流链上企业间系统的相互集成，使用Agent根据环境的变化进行协商策略的变更，从而进行协同利润的分配是一种很好的解决方案［13-15］。本文为各协作物流商建立拥有独立报价的Agent，通过各Agent之间的相互学习探索对方的价格底线，从而改变自己的协同角色和修正自己的报价参数进行讨价还价，最终实现各方都满意的协作利润分配。

2 协商模型

2.1 模型描述

对在协同物流的过程中产生新的利润进行分配时，以协调Agent为主导，在主动协商物流商和被动协商物流商之间执行Stackelberg博弈策略。博弈的顺序为主动物流商提出报价，使自己的利益最大，随后由被动物流商根据主动物流商的报价再提出反报价，并使自己的收益最大。具体的流程如下：协调Agent首先在历史数据中查询是否有先例可以遵循，如果有则将其作为初始的利润分配，由协调Agent直接广播给各协同Agent。如果没有则向分配利润Agent发送分配请求，利润分配Agent初始按照各物流商在协同中的贡献度进行分配利润，这里采用文献［2］方法确定初始利润分配方案，并将分配结果告知各协同Agent，如各协同Agent均同意该分配方案则结束协商，如不同意则进入多Agent协商过程。物流商Agent根据利润分配Agent分配的价格（即第一次根据贡献自动分配的报价）提出自己的反报价，并根据其他协作方的反报价探索其私有信息（例如底价和报价策略），并修正自己对于对方现有报价看法的主观判断，从而在兼顾协同的同时修正自己的报价策略和反报价，从而尽可能地提高自己所获得的利益。

如各物流商Agent直接拒绝该方案则协商需要人为干预后再次协商。当协商次数到达最大协商次数后仍然没有达成协议则协商结束。协商的过程如图1所示。

图1 协商过程

这里将Agent分为协调Agent和物流商Agent，协调Agent负责利润分配历史数据的查询、初始的利润分配广播和到达最大协商次数节点时人为干预协调终止的工作。

物流商Agent负责每个独立的物流商在利润分配过程中对报价的反应和对其他物流商底价的探索。其部分信息是私有的，即自身的底价和对报价的满意度，而部分信息是公开的，即各个物流商历史报价信息、反报价信息。

2.2 模型定义

多Agent的协商过程与协商次数、双方底价、互相报价、各自的报价策略等因素有关。根据协同物流中利润分配的实际情况，本文将协商模型定义为一个多元组（ST，SA，ACTION，T，RP，OP，β（t））：

（1）ST为进行协商的子任务，SA为进行协商的子任务的集合，即由运输任务SA可以拆分出多个为运输任务SA拆分的子任务个数。

（2）ACTION为该智能体的动作集合：接受（Accept），拒绝（Reject），报价与反报价（Offer and C_offer）。智能体按照当前的报价和规则进行行动。

（3）T为协商次数，定义Tmax为协商的最大次数，即协商不可能无休止地进行下去，当协商次数超过协商的最大次数时，停止协商。最大协商次数定义为：

其中，μ为事先定义的合理的协商次数；f（SA）为运输任务SA分配协同的物流商数量；N为常数，用于控制协商的最大次数不至于过多。最大协商次数与参与协同的物流商数量成正比，当参与协同的物流商数量越多，参与协同的资源就越多，重新协商达成协同的机会就越大，协商的最大次数就越多，反之亦然。

（4）RP为该物流商的底价，对于该物流商来说如果报价低于底价则停止协商。参与协同的各个物流商是无法知道其他物流商的底价。只有通过不断报价与反报价，最终达成协商。

（5）OP为物流商的报价与反报价的价格。物流商通过反报价来探索其他物流商的底价和报价参数，从而使得自己的利益最大化。同时定义OPe为最后的成交价格。

（6）β（t）为报价参数，与协商中的智能体的风险趋向和协商的次数相关。主动协商的报价参数定义为：

其中，β（0）=w；λ为正实数，决定了报价参数的变化速度；w∈（0，1］，决定了β（t）的最大值。当w=1时，图2分别表示了λ=0.1，λ=1.0和λ=10.0在w=1.0时主动协商的β（t）的变化情况。

图2 主动协商企业报价参数β（t）的变化过程

图3分别表示了λ=0.1，λ=1.0和λ=10.0在w=1时被动协商的β（t）的变化情况。

图3 被动协商企业报价参数β（t）的变化过程

（7）物流商Agent对利润分配报价的反应一般是模糊的，特别是对分配给自己的利益总希望更多一些。因此，对分配给自己的利润价格可以建立模糊评价集合，即该物流商对报价的反应集合，对应的满意度定义为：

当物流商i对t时刻分配结果不满意时，即满意度小于1时，需要主动和其他协同物流商进行协商，即采用式（2）中的主动协商报价参数定义进行报价；当物流商i对t时刻分配结果满意时，其满意度在所有物流商中最大，即其在协商过程中仅需要被动接受其他物流商的协商要求，即采用式（2）中的被动协商的报价参数定义进行报价。

2.3 自学习协商算法

物流商Agent在观察学习其他协同物流商反报价的基础上判断其他物流商对报价的反应类型，并提出自己报价分配方案与其他物流商进行协商。其学习的过程如下：

SteP1 查询历史

查询分配历史记录判断利润分配Agent提出的报价方案是否在之前有过成功的先例。如果有则按此历史方案进行广播，如果所有Agent不反对则直接接受，结束协商过程。如果没有则进入Step2。

SteP2 主动物流商的报价

假设需要对2个物流商a，b协作时产生的利润S进行分配，此时对于物流商a来说，如果对初始报价方案不满，即其满意度此时物流商a需要主动和物流商b进行协商，因此，物流商a的Agent需要向总的协调Agent提出新的报价方案

对于物流商a来说，物流商b的底价RP′b是未知的，但其满意度肯定大于自己，因此，需要给出一个对自己有利的报价方案。这里物流商a的协同Agent将物流商b的底价假设为一个可能值的集合｛B1，B2，…，Bq｝，每一个可能值的取值定义为：

假设从物流商b的反报价估算的物流商b的底价集合是满足正态分布的，因此，归一化后将其定义为：

其中，σ2为底价变化的步长，当物流商b急于达成协商时，该值较小，反之则较大，因此，定义σ2=α×D，D为常数。

定义 P（OP′b|Bi）为在物流商b的底价为Bi时，分配给物流商b的利润为OP′b时的概率，定义后验概率为：

随着协商的进行，被动企业可以根据协商的情况变更α的取值。α值越大时，代表物流商b的风险承受能力越高，其协商的耐心越大，|OP′b/（1+α）-Bi|越小，则P（OP′b|Bi）越大，此时假设集的概率分布越精确。

根据全概率公式：

推算出物流商b的底价：

以该底价为基础提报该报价方案（S-RP′b，RP′b）给协商Agent。

SteP3 被动物流商的反报价

被动物流商b的Agent从协商Agent收到报价方案（S-RP′b，RP′b）后，根据该方案同Step2的过程探索主动物流商a的底价RP′a，并根据该底价提出反报价方案（S-OP′b，OP′b）给主动物流商，其中，OP′b=（S-RP′b）（1+βb（t））。

SteP4 报价过程中的学习

通过以下的比较来学习和改进自己的报价方案：根据物流商的反报价方案（S-OP′b，OP′b），计算各物流商的满意度。如果各个物流商的满意度均为1，则直接按照该报价方案结束协商；如果各个物流商的满意度不都为1，即假设对此时的反报价方案（S-OP′b，OP′b）计算各物流商的满意度后，如果物流商的满意度小于1，即仍为主动物流商，S-OP′b＜RP′a，则认为物流商a高估了物流商b的底价，此时变更主动物流商a的α的取值为：

其中，K为连续主动协商的次数，当主动物流商多次为某一物流商时，该物流商的K=K+1；λ为主动物流商报价的变化速度。

如果物流商b的满意度小于1，即OP′b＜RP′b，则认为低估了物流商b的底价，此时以物流商b为主动协商的物流商按照反报价方案（S-OP′b，OP′b）返回Step2继续协商。

SteP5 协商次数限制

如果在规定的协商次数t内都未成功达成分配协议则进行人工干预。在Agent的协商过程中，也可以随时进行人为调整报价参数以变更自己的报价策略从而进行干预。

3 应用实例

假设没有历史数据，所有的物流商都参与讨价还价的流程。设定最大的协商次数为Tmax=120。以某汽车制造厂的2个进行运输协同的物流公司为例，初始的利润分配、各自的底价和报价参数如表1所示。

表1 初始利润分配和底价元

由于初始分配给物流商A的利润小于A的底价，因此按照式（5）其满意度为0.904 19，此时物流商A对初始分配不满，为主动物流商，需要对分配进行协商且急于获取更多的利润以达成协商，因此物流商A的耐心较小，需要以一个较大的初始λa值和wa值来对初始分配提出自己的报价，而此时物流商B为被动物流商，因此其耐心肯定大于物流商A。由于物流商B对初始分配的满意度为1，其已经对现有分配满意且希望获取更多的利润，因此其并不急于达成协商，耐心较大。设定物流商B的α=0.8，λ=0.5，下面计算主动物流商A提出的报价方案。

对于主动物流商A的Agent，按照式（2）计算得出初始报价参数为β（1）=（1-m in（1，600）/600）2× 1=0.983 4。设定式（6）中的参数q=5，N=100，式（7）中的参数D=100，按照式（6）求得物流商B的底价的可能值为｛1 383.59，1 483.59，1 583.59，1 683.59，1 783.59｝，按照式（7）求得对应的概率为｛0.054 5，0.244 2，0.402 6，0.244 2，0.054 5｝，按照式（8）求得后验概率分别为｛0.947 6，0.966 1，0.984 6，0.996 9，0.978 3｝，按照式（9）求得概率为｛0.052 6，0.240 6，0.404 2，0.248 2，0.054 4｝，进而按照式（10）计算出此时物流商B的底价为1 584.70，物流商A的Agent按照该底价提出报价的分配方案为｛4 415.30，1 584.70｝。

对于物流商A提出的分配方案｛4 415.30，1 584.70｝，已知物流商A急于达成协商，属于主动物流商，因此，设定物流商A的α=0.4，λ=2，来对该分配提出自己的反报价。和上述的物流商A的Agent计算方式相同，参数设定相同，求得物流商B反报价的分配方案｛3 706.16，2 293.84｝。

此时协调Agent以分配方案｛3 706.16，2 293.84｝作为当前方案广播给所有物流商，再次判断物流商A和物流商B对该方案的满意度。同上述的计算过程，物流商A仍为主动物流商，物流商B为被动物流商，此时物流商A的按照式（11）变化为0.9，物流商A根据报价方案｛3 706.16，2 293.84｝提出新的报价方案｛4 792.72，1 207.28｝，物流商B提出反报价的方案｛4 041.21，1 958.79｝。此时对于该方案物流商A和B的满意度为｛0.985 6，1｝。

物流商A仍为主动物流商，K=2，同上述计算过程物流商B提出反报价的方案｛4 213.82，1 786.18｝。此时对于该方案物流商A和B的满意度为｛1，0.992 3｝。此时物流商B为主动物流商，K=0，重新进行协商。如此反复进行，当t=9时，反报价的方案｛4 177.36，1 822.64｝，此时对于该方案物流商A和B的满意度均为1，达成协议，协商结束。总满意度变化结果如图4所示。

图4 总满意度比较

如图4所示，当协商的物流商在报价过程中都不参与学习时，报价的满意度是缓慢上升的，在t=109时，总满意度之和为2，即协商结束。当参与学习时，报价曲线在t=9时，总满意度之和为2，提高了报价协商的效率。因此，报价过程中的自学习可以有效地降低达成可以使得各方满意的协同物流分配方案过程中的协商次数。同时从图中的自学习总满意度的变化曲线可以看出，总满意度越接近2时，协商的次数越多，这是由于主动协商的物流商耐心增加，报价参数增加放缓，不同角色物流商协商次数增加。当总满意度开始下降且未到达2时，则变化主动协商的预测参数和范围并开始新一轮的讨价还价。

如果将该报价结果和Rubinstein讨价还价模型的结果进行比较，这里设定参与讨价还价的物流商的贴现因子相同，均为0.8时，其协商过程中总满意度的变化曲线如图5所示。

图5 本文模型和Rubinstein模型的总满意度比较

Rubinstein讨价还价模型受主动协商物流商的还价设定的影响较大，一旦主动还价设定过高，使得主动协商物流商过快转换角色，则可能陷入不断转换角色而很难达成协商的循环中，如图5的Rubinstein取不合适参数值的曲线所示，当Rubinstein模型讨价还价策略取不合适的参数值时，在最大的协商次数范围内一直未能达成协商。而当Rubinstein模型讨价还价策略取合适的参数值时，如图5的Rubinstein取合适参数值的曲线所示，仅需要7次协商即可形成协商双方满意度都为1的利润分配方案，但在实际应用中很难取到一个合适的还价值，还价值往往通过经验判定，而采用本文模型时，协商总满意度到2的速度取决于贴现因子，Agent自动探索对方底价和修正报价方案而无需人工经验设定还价值，如图5所示，共需要9次协商即可形成协商双方满意度都为1的利润分配方案，从而避免了经验判定所带来的协商的不确定性。

当有多个物流商参与利润分配时，根据图1所示，在协调Agent发布初始利润分配后，物流商根据各自的底价自行判断自己的协商角色，将第一个主动物流商作为物流商A，将之后的所有物流商整体作为物流商B，应用2.3节中的自学习过程进行讨价还价，得出满意结果后再对物流商B内的物流商重复上述过程，这样就将多个物流商讨价还价的问题转换为2个物流商讨价还价的问题。

4 结束语

本文将协作物流商分为主动协商物流商和被动协商物流商，通过各物流商Agent对当前协商Agent分配报价方案的满意度确定自己的主动或者被动地位。主动协商物流商通过探索被动协商物流商的底价来提出自己的报价方案，被动物流商通过探索主动协商物流商的底价来对主动物流商提出的报价方案给出反报价方案，通过协商次数和连续主动协商的影响不断地修正自己的报价参数，从而提高协商效率，最终实现各方都满意的协作利润分配。应用实例结果证明其有效性。但本文并未考虑协商过程中的协商成本，且未考虑协商后发生违约时，再次协商时应予惩罚等情况，这些都是今后的研究重点。

［1］ Singh C，Sarkar S，A ram A，et al.Cooperative Profit Sharing in Coalition-based Resource Allocation in Wireless Networks［J］.IEEE/ACM Transactions on Networking，2012，20（1）：69-83.

［2］刘伟华，曲思源，钟石泉.随机环境下的三级物流服务供应链任务分配［J］.计算机集成制造系统，2012，18（2）：381-388.

［3］齐源，赵晓康，李玉敏.基于Shaply值及Gahp的供应链知识共享收益分配研究［J］.科技进步与对策，2011，28（9）：132-137.

［4］孙多青，马晓英.基于博弈论的多零售商参与下逆向供应链定价策略及利润分配［J］.计算机集成制造系统，2012，18（4）：867-874.

［5］陈远高，刘南.具有服务差异的双渠道供应链竞争策略［J］.计算机集成制造系统，2010，16（11）：568-575.

［6］肖剑，但斌，张旭梅.双渠道供应链中制造商与零售商的服务合作定价策略［J］.系统工程理论与实践，2010，30（12）：2203-2211.

［7］胡盛强，张毕西，刘绘珍，等.基于多方博弈的二级网状供应链合作及利润分配研究［J］.系统科学学报，2012，20（2）：48-51.

［8］李勇，张异，杨秀苔.供应链中制造商供应商合作研发博弈模型［J］.系统工程学报，2005，20（1）：12-18.

［9］姜能涛，古贞.协同机制下供应链剩余利润合理分配的影响因素研究［J］.物流工程与管理，2010，32（4）：97-100.

［10］韩建军，郭耀煌.基于事前协商的动态联盟利润分配机制［J］.西南交通大学学报，2003，38（6）：425-433.

［11］周扬，石岿然.制造商主导的供应链合作及利润分配研究［J］.科技管理研究，2012，31（5）：136-140.

［12］潘会平，陈荣秋.供应链合作的利润分配机制研究［J］.系统工程理论与实践，2005，25（6）：568-572.

［13］ Bremer J，Sonnenschein M.Estimating Shapley Values for Fair Profit Distribution in Power Planning Smart Grid Coalitions［C］//Proceedings of International Conference on Multiagent System Technologies.Berlin，Germ any：Springer，2013：208-221.

［14］ Pinto T，Morais H，Oliveira P，et al.A New Approach for Multi-agent Coalition Formation and Management in the Scope of Electricity Markets［J］.Energy，2011，36（8）：5004-5015.

［15］蒋国瑞，庞婷.基于多Agent供应链协同的自适应协商方法［J］.计算机工程，2014，40（3）：188-192.

编辑刘冰

Collaborative Logistics Profit Distribution Model Based on Agent

TIAN Ran，HAN Min，LIBinyong
（School of Information Science and Technology，Southwest Jiaotong University，Chengdu 610031，China）

For the problem of uncertainty of negotiation caused by the parameters setting in the Rubinstein profit distribution model are mostly from the artificial experience，a self learning model of profit distribution is established for this problem.The model divides logistic providers to active collaborative logistics provider and passive collaborative logistics provider.Different types of collaborative logistics providers propose offer or counter offer by exploring the other logistics provider's base price，decide whether to change the role type by current offer results，changes the strategy of quotation in quotation process by self learning quotation parameters，and gets the satisfactory results for all parties. Simulation results show that this model can reduce the number of negotiation times，and can effectively avoid the negotiation uncertainty of experience judgment com pared with the Rubinstein profit distribution model.

transportation economy；profit distribution；pricing strategy；collaborative logistics；bargaining strategy

田冉，韩敏，李斌勇.基于Agent的协同物流利润分配模型［J］.计算机工程，2015，41（9）：286-291.

英文引用格式：Tian Ran，Han M in，Li Binyong.Collaborative Logistics Profit Distribution Model Based on Agent［J］. Computer Engineering，2015，41（9）：286-291.

1000-3428（2015）09-0286-06

TP391

10.3969/j.issn.1000-3428.2015.09.053

国家“863”计划基金资助项目“汽车及工程机械多产业链业务协同服务平台研发”（2013AA 040606）。

田冉（1981-），男，博士研究生，主研方向：智能计算，决策支持系统；韩敏，副研究员、博士；李斌勇，博士研究生。

2014-07-11

2014-08-06 E-m ail：troom@163.com