移动对等网络中讨价还价动态博弈的激励策略*

2017-08-16 11:10陈志刚张连明

计算机与生活 2017年8期

关键词：卖方买方估价

刘浩，陈志刚，张连明

1.湖南人文科技学院信息学院，湖南娄底 417000

2.中南大学信息科学与工程学院，长沙 410083

3.湖南师范大学物理与信息科学学院，长沙 410081

移动对等网络中讨价还价动态博弈的激励策略*

刘浩1+，陈志刚2，张连明3

1.湖南人文科技学院信息学院，湖南娄底 417000

2.中南大学信息科学与工程学院，长沙 410083

3.湖南师范大学物理与信息科学学院，长沙 410081

摘要内容由于移动对等网络的自组织、开放性以及节点资源受限等特点，一些节点表现出其自私性或恶意性。针对该问题，给出了一种基于讨价还价动态博弈的节点激励策略DGBIS（incentive strategy based on dynamic game of bargaining in mobile P2P network）。该激励策略采用虚拟货币的支付方式，节点先根据其拥有的虚拟货币量、自身资源状态和消息属性对每次消息转发进行估价，然后交易双方基于估价通过三次讨价还价动态博弈以合理的报价进行交易。通过博弈分析给出了DGBIS策略的纳什均衡解，使理性的自私节点为最大化其自身利益而积极参与消息转发合作，同时能抑制恶意节点的虚假报价。分析与实验结果表明，该激励策略能提高整个系统的消息转发成功率，降低系统的能量消耗，达到了预期的设计目标。

移动对等网络；自私性；恶意性；讨价还价；虚拟货币；动态博弈；激励策略

1 引言

近年来，随着无线通信技术的快速发展和移动用户资源共享、协同工作需求的日益增长，移动对等（peer-to-peer，P2P）网络得到了广泛应用。目前，移动对等网络已成为网络通信产业界与学术界普遍关注的重点领域之一[1]。一方面，由于移动对等网络的自组织与开放性等特点，其用户节点逐年大幅增加；另一方面，由于资源受限等原因部分移动节点表现出自私性与恶意性[2]。相关研究[2-5]表明，在Gnutella等网络系统中，存在着2/3以上的freerider节点，这些自私节点只消费网络系统中的资源而不愿意共享自身资源。并且移动对等网络中存在着大量不可信的服务和欺诈行为[2]。显然，这与对等网络实现的基本理念“人人为我，我为人人”是相违背的[2]。移动用户节点的自私行为与恶意行为严重影响了移动对等网络服务的可用性，降低了网络系统的整体效用。因此，在移动网络中，研究与设计有效的节点激励策略，约束节点的自私行为与恶意行为，激励节点间的相互合作，对提高网络系统的可用性和整体效用具有重要的意义[2-3]。

当前，对等网络中常见的节点激励策略主要有两类：区分服务与虚拟支付[3,6]。

区分服务类型激励策略的基本思想是，给予积极参与资源共享和协同合作的节点更高级别的服务（如享受优先服务等）。针对P2P网络中节点的搭便车行为，乐光学等人在P2P可信流媒体网络环境下给出了一种以节点的贡献度、信誉度及其收益为评价指标的抑制机制[6]。针对P2P文件共享系统中用户节点的搭便车行为，若仅仅使用奖励等区分服务激励策略是不够的，文献[7]对相应激励策略的公平性进行了评估与改进。为了抑制P2P多媒体共享网络中节点的自私行为，崔光海等人给出了一种基于演化博弈论的P2P多媒体共享网络自组织激励策略，激励节点为最大化自己的收益而积极参与多媒体共享合作[8]。基于重复博弈相关理论，文献[9]在P2P网络中建立了对自私节点的惩罚机制，并通过制定相关的行为规则，激励理性节点为使其自身收益最大化而向网络系统贡献相关资源。基于Stackelberg博弈方法，文献[10]给出了一个基于信用的异构对等网络中节点的激励策略，该策略通过偏袒的资源配置机制，根据节点的不同信用值为其提供不同的服务，以激励节点间的相互合作。尽管基于区分服务思想的激励策略容易实现，然而在该类型激励策略作用下，网络系统的整体效用与每个节点的自身利益很难同时达到最优，因此理性的自私节点仍然存在违背协议的动机[3,6]；同时，若评价机制不够完善，节点间还可能存在共谋等恶意行为。

基于虚拟支付激励策略的基本思想是，节点采用虚拟货币来支付所获得的各种网络服务，当为其他节点提供各种网络服务时则能够获得以虚拟货币形式的报酬[11]。基于虚拟支付的激励策略在机会网络、无线网络、P2P网络等领域应用广泛，尤其是与博弈论相结合，将成熟的博弈论思想应用于虚拟支付的激励策略中，能够有效地解决网络系统中节点的自私性问题，提高系统的整体效用。赵广松等人针对节点在自私性机会网络中内容分发方面的自私行为，提出了一种网络服务商A类节点与B类节点可以达到共赢互惠的激励策略，基于虚拟支付的方式，使每个节点在试图最大化自己收益的同时，达到提高整个机会网络中内容分发性能的目标[12]。基于虚拟支付和演化博弈理论，文献[13]提出了一种自组织网络中节点间的协同合作激励策略。文献[14]针对机会网络中边缘注入和边缘隐藏攻击等问题，提出了一种MobiCent机制，该机制使用倍减算法来计算报酬，能激励网络系统中节点间的相互合作。为提高移动对等网络数据的可用性，文献[3]提出了一种基于经济激励的经纪方案，激励中继节点作为路由和消息转发的经纪人，以提高对等网络的路由与消息转发效率。为了约束移动P2P网络中节点“搭便车”的行为，提高网络的搜索效率，基于资源拍卖文献[15]给出了一种节点激励策略，系统通过拍卖经济模式激励节点为获得收益而贡献相应的资源，该激励策略能够有效地提高系统的整体效用，达到优化系统性能的目标。针对机会网络中节点的自私性问题，并结合机会网络中节点资源受限等特点，李云等人提出了一种基于买卖模型的节点消息转发激励策略，有效地解决了节点盲目合作带来的网络性能退化问题[16]。

这些激励策略大多数是通过各种规则、策略来激励自私节点进行合作，并没有考虑节点自身资源受限等因素对节点行为的影响，因此不适用于节点资源受限的移动对等网络。同时，它们在追求系统整体效用最优时，既没有充分考虑理性节点的自私性，即最大化其自身收益，也没有考虑恶意节点虚假报价的影响。

为了描述方便，本文的分析场景为移动对等网络中节点间的消息转发合作过程。由于移动对等网络中节点的资源是有限的，假如其节点激励策略不考虑资源的使用情况，就会造成节点因能源耗尽而直接退出网络，从而导致整个网络系统性能退化，造成更大的损失。因此，综合考虑移动网络中节点的自身状态和消息属性等因素，给出了一种基于讨价还价动态博弈的节点激励策略DGBIS（incentive strategy based on dynamic game of bargaining in mobile P2P network），同时该激励策略将充分考虑节点自私性与恶意性的影响。

2 网络概述

移动对等网络本质上是各种移动终端以自组织的方式叠加在网络层之上的分布式覆盖网络，通过利用移动终端的空闲资源进行协同工作与资源共享[1]。比如，移动自组网上的覆盖网络就属于移动对等网络。显然，这些移动节点所拥有的能量、缓存等资源都是有限的，并且能量是不可再生的。一方面，移动节点加入网络系统，是以资源共享与协同工作为目的，这就会消耗其自身的资源。另一方面，移动节点为了保证较长时间的正常工作，就会尽可能地节约其所拥有的资源，那么就会表现出其自私性或恶意性。

2.1 基本假设

本文先给出一些在网络模型方面的基本假设。

（1）节点间消息转发被抽象为两人交易模型，没有第三方参与，消息转发服务节点为卖方，卖出消息转发服务，消息转发请求节点为买方，购买相应的服务。

（2）假设相邻节点之间可通过监控机制知晓对方的状态信息，也就是说邻居节点之间的状态信息是透明的。

（3）由于邻居节点之间的状态信息是透明的，可以认为所有节点都会根据自身状态和消息属性真实地对每次消息转发交易进行估价。

（4）在估价的基础上，买卖双方轮番出价，由于移动节点资源受限，本文采用三次讨价还价交易模型，即必须在3轮之后终止，双方必须接受第三次出价。

（5）每个移动节点的能量都不能得到补充，并在运行过程中知晓其能量状态，当能量耗尽时会自动退出网络。

（6）每个移动节点都不会最终接收其他节点的消息，除非它是消息的目的节点。

2.2 设计目标

本文所设计的激励策略要达到以下3个目标：

（1）有效性。设计的激励策略将通过虚拟支付的交易模式来激励理性的自私节点为最大化其自身利益而积极参与消息转发合作，以提高系统的消息转发成功率。

（2）实用性。由于移动节点的资源受限，设计的激励策略要能降低系统的能量消耗，能有效地提高网络系统的整体效用。

（3）公平性。该激励策略通过三次讨价还价交易模型给出一个相对合理的交易价格，以抑制恶意节点的虚假报价。

3 基于讨价还价动态博弈的节点激励策略

讨价还价是有共同利益的相关方面临冲突时试图达成一致协议的一种博弈过程，它是一种典型的谈判活动；利益相关双方通过对方的报价来判断对方意图，并给予再报价等反应，使交易朝着己方有利又能让对方接受的方向发展，最终达成利益分配的一致协议[17]。本文将节点间消息转发过程抽象为一种双方交易模型，提出了一种基于讨价还价动态博弈的节点激励策略DGBIS，它是一种基于虚拟货币支付的激励策略。与目前相关研究不同的是，DGBIS策略综合考虑了移动节点的自身状态与消息属性等因素对节点估价的影响；同时，该策略将充分考虑节点自私性与恶意性的影响。DGBIS策略不需要信任第三方来管理交易过程，每个移动节点各自管理自身的虚拟货币、缓存、能量等资源，每次消息转发交易完成后，消息转发请求节点支付给消息转发服务节点一定的虚拟货币作为报酬。因此，DGBIS策略适用于移动对等网络这样的完全分布式系统。

3.1 博弈方与交易规则

在此，消息转发动态博弈包括两个博弈方：卖方即消息转发服务节点j，买方即消息转发请求节点i。每次消息转发交易必须满足以下规则：

（1）每次交易开始时，买卖双方各自根据下面的估价函数对本次消息转发交易进行估价。设卖方对本次消息转发交易的（成本）估价为cs，买方对本次消息转发交易的（价值）估价为cb。

（2）若cb≺cs，则本次交易失败。

（3）若cb≥cs，则将Π=cb-cs作为一个双方在本次交易中的共同受益，以供卖方节点j与买方节点i进行利益分割。

（4）若经过3次讨价还价博弈后最终定价为cs+pbest，则卖方的收益为pbest，买方的收益为Π-pbest。

3.2 基本定义

在移动对等网络中，影响节点进行消息转发合作意愿的因素较多。在此，DGBIS策略主要考虑节点的能量、缓存与虚拟货币量以及所需转发消息的属性等一些重要的因素。

定义1设Ei为节点i的剩余能量百分比，可表示为：

其中，Et_i表示节点i当前t时刻的剩余能量值；Emax_i表示节点i的初始能量值。节点i的剩余能量百分比越大，此时节点i合作的意愿越强烈，越愿意参与消息转发。

定义2设Hi为节点i的剩余缓存百分比，可表示为：

其中，Ht_i表示节点i当前t时刻的剩余缓存值；Hmax_i表示节点i的最大缓存值。节点i的剩余缓存百分比越大，说明节点i存储消息的能力越大。

定义3设节点的初始虚拟货币量为V0。

定义4设节点i当前t时刻的虚拟货币量为Vi(t)。

节点i当前t时刻的财富（虚拟货币）状态可表示为：

（1）富裕状态，Vi(t)≥αV0；

（2）一般状态，αV0≻Vi(t)≻βV0；

（3）贫困状态，Vi(t)≤βV0。

其中，α、β为系统自设参数，且有α≻β≻0。

消息属性包括消息的大小与消息的剩余生存时间。在其他条件相同的情况下，消息越大，转发信息的时间越长，所消耗的能量越大。消息的剩余生存时间是指从当前时刻到消息过期（生存周期结束）这段时间，消息的剩余生存时间越短，说明该消息越应尽快转发到达目的节点。

定义5设消息M的大小为Ms，并约定Ms∈[0,1]。

定义6设消息M的剩余生存时间为Tres。

定义7设Murg为消息M需要转发的紧急程度，当Tres≥Tmin时，可表示为：

其中，TTTL为消息M的生存周期时间长度；Tmin为一次消息转发所需要的最小时间。当Tres≺Tmin时，该消息应该被丢弃，不再进行转发。

3.3 估价函数

3.3.1 买方估价函数

在发送消息时，作为买方，消息发送节点i需要对本次消息转发进行（价值）估价。买方i在估价时，主要会考虑自身的财富状态、缓存与消息的属性。作为理性节点，买方i的剩余缓存百分比越小，为了减小缓存压力，节点i发送出消息的意愿越强烈；消息需要转发的紧急程度越高，购买消息转发服务的意愿越强烈。并且，若买方i越富裕，即其拥有的虚拟货币量越大，则它更愿意出一个相对高的价格来支付本次消息转发服务。那么，买方i的估价函数可以表示为：

其中，Hi为买方i的剩余缓存百分比；Murg为消息需要转发的紧急程度；ε和ω为两者的权重值，表示买方节点i对缓存空间与消息转发紧急程度的偏好，且有ε+ω=1；Ms为本次需要转发的消息大小。

Wb和买方i的财富（虚拟货币）状态相关，可表示为：

3.3.2 卖方估价函数

作为卖方，消息转发服务节点j在对本次消息转发（成本）进行估价时，主要考虑自身的状态与消息属性。作为理性节点，如果卖方j的剩余能量百分比越小，则为了节省能量资源，它对本次消息转发的估价会越高；若卖方j的剩余缓存百分比越小，它提供消息转发服务的要价也会越高。与买方不同的是，若卖方j越贫穷，即其拥有的虚拟货币量越小，则它进行本次消息转发交易的意愿更为强烈。因此，卖方的估价函数可以表示为：

其中，Ms与式（4）的含义相同；Ej、Hi分别为卖方j的剩余能量百分比与剩余缓存百分比；λ和η为两个权重值，且有λ+η=1。Ws和卖方j的财富（虚拟货币）状态相关，可表示为：

由于节点剩余缓存的变化是可逆的，而能量是随时间严格递减的，并且只要两者之一变小，卖方提供消息转发服务的要价就会越高，因此可采用自适应加权。当剩余带宽百分比小于剩余能量百分比时，前者对卖方估价的影响更大，反之亦然。则有：

3.4 博弈策略与收益

在讨价还价动态博弈模型中，交易的物品（服务）是有时间价值的，即每次讨价还价之后，双方的共同收益都会有一个衰减，也称贴现率σ，0≤σ≤1。三次讨价还价博弈的具体过程如下：

（1）第一轮，卖方节点j出价cs+p1，则卖方节点j的收益为p1，买方节点i的收益为Π-p1；若买方节点i接受这一报价，那么双方进行消息转发交易，否则进入下一轮。

（2）第二轮，即买方节点i出价cs+p2，则卖方节点j的收益为σp2，买方节点i的收益为σ(Π-p2)；若卖方节点j接受这一报价，那么双方进行消息转发交易，否则进入下一轮。

（3）第三轮，卖方节点j进行第三轮报价cs+pe，买方节点i必须接受，则卖方节点j的收益为σ2pe，买方节点i的收益为σ2(Π-pe)，交易完成。

三次讨价还价动态博弈过程中，买卖双方的收益如表1所示。

Table1 Dynamic game of tri-stages bargaining表1 三次讨价还价动态博弈过程

3.5 博弈均衡分析

在三次讨价还价动态博弈中，下面两点是博弈双方的公共知识：

（1）在第三轮中，卖方节点j提出的报价，买方节点i必须接受。

（2）随着时间的推移，双方的共同收益会有所衰减。

[17-18]，采用逆向归纳法来进行博弈均衡分析。

（1）在第三轮，买方节点i必须接受卖方节点j提出的报价cs+pe，此时买方节点i的收益为σ2(Π-pe)，卖方节点j的收益为σ2pe。因此，卖方节点j一定会报价cs+pe=cb，那么卖方节点j获得全部收益，买方节点i的收益为0。

（2）在第二轮中，买方节点i知晓一旦博弈进行到第三轮，卖方节点j一定会报价cs+pe=cb。事实上，因为共同收益的衰减，双方都不愿意进入第三轮报价，所以只要买方节点i在第二轮的报价使得卖方节点j的收益不小于其第三轮的收益，卖方节点j将接受买方节点i的报价。那么博弈也不会进行到第三轮。因此，应有下不等式成立：

由式（10）可知，p2取最小值为 σpe。

那么，卖方节点j的收益为σ2pe，其收益与第三轮完全相同。买方节点i的收益为σ(Π-σpe)，其收益大于第三轮的收益。

因此，当p2=σpe时，交易在第二轮完成。

（3）在第一轮中，卖方节点j知晓自己在第二轮和第三轮的收益为σ2pe，并能推断买方节点i在第二轮的报价为p2=σpe。由于收益衰减的原因，从共同收益角度考虑，最佳的成交方案应该是在第一轮。为了达到这一目标，卖方节点j在第一轮的报价必须使得买方节点i的收益不小于其第二轮的收益，即下面不等式成立：

由式（11）可知，p1取最大值为 Π-σ(Π-σpe)。

那么，卖方节点j的收益为 Π-σ(Π-σpe)，其收益大于第二轮与第三轮的收益σ2pe。买方节点i的收益为σ(Π-σpe)，其收益与第二轮收益相同。

因此，当p1=Π-σ(Π-σpe)时，交易在第一轮完成。

综上所述，该动态博弈的子博弈纳什均衡解是：卖方节点j给出报价cs+p1，其中p1=Π-σ(Π-σpe)。同时，卖方节点j的收益为Π-σ(Π-σpe)，买方节点i的收益为 σ(Π-σpe)。

在最后一轮，买方节点i必须接受卖方节点j的报价，因此卖方节点j一定会选择报价cs+pe=cb，即pe=cb-cs=Π。那么，子博弈的纳什均衡解为：

显然，pbest由1-σ+σ2决定，且有0≺(1-σ+σ2)≺1，即pbest≺Π，双方都达到收益的最大化，交易成功。

4 消息转发过程

若消息转发请求节点i预测其某一邻居节点j更可能与消息M的目的节点相遇或者更可能将消息M转发到其目的节点，则向节点j发起消息转发服务请求。消息转发的具体过程如图1所示。

具体描述如下：

（1）服务请求。若节点i向节点j发起对消息M的转发服务请求，则请求信息包括消息M的ID（身份识别码）、买方估价cb与大小Ms、目的节点。

（2）请求响应。节点j收到节点i发来消息转发服务请求信息后，若节点j愿意接受本次消息转发，则根据式（6）计算出估价cs。然后，反馈给节点i一条请求响应信息，该请求响应信息包含卖方节点j估价cs。

（3）若cb≺cs，则本次交易失败。否则，根据3.5节的博弈分析，得出使博弈双方（节点i与节点j）利益最大化的最终报价cs+pbest。

（4）消息转发交易。若cb≥cs，交易的最终价格为cs+pbest。卖方节点j向买方节点i提供消息M的转发服务，本次交易成功。

（5）更新。消息转发交易完成后，节点i扣除cs+pbest单位的虚拟货币，同时节点j增加cs+pbest单位的虚拟货币。

Fig.1 Procedure of message forwarding图1 消息转发过程

5 仿真实验与结果分析

为了评价激励策略DGBIS的网络性能，本文采用NS2作为系统模拟软件来实现网络模型中的相关机制与协议，其中以按需路由协议AODV（Ad hoc on-demand distance vector routing）作为仿真实验中的路由协议，仿真实验由离散事件（消息转发）进行驱动。先对NS2中的节点、链路、代理以及包等基本功能模块进行初始化。网络中的路由配置通过对节点附加路由协议AODV来实现。在节点上，通过配置不同的代理（发送代理与接收代理）以实现相应的协议，并接收一些实验用的通信量等数据。通过NS2仿真系统中的Trace文件来保存整个模拟过程，并对Trace文件中的相关数据进行统计分析。

实验场景参数设置：500个移动节点（无线终端）随机分布在4 000m×3 000m的区域内，每个节点使用IEEE802.11无线网络接口，节点移动速度为0～20m/s，节点通信半径为100m，移动方式遵循Random Waypoint移动模型。每个节点的初始能量为1 000 J，发射功率为1 W，缓存空间初始值为30 MB，并假设节点只有在消息转发时才会消耗能量，其中每次消息转发请求与响应以及讨价还价博弈等过程消耗能量1 J,消息传输的能量消耗与消息大小成正比，即1 MB的消息传输消耗2 J能量。模拟时间为4h，其中最初的5min为热身时间，网络系统每分钟随机地产生500个大小服从[0.5,1.0]MB均匀分布的消息。设α=2/3，β=1/3，ε=ω=0.5，V0=6，TTTL=30s，σ=0.85。

为了检验所设计激励策略DGBIS的有效性、公平性与实用性，假设网络系统可能存在3类节点：

（1）合作节点（cooperative node），该类节点会无条件地帮助其邻居节点转发消息。

（2）理性的自私节点（rational selfish node），该类节点会真实地对每次消息转发进行估价，在利益驱使下才会积极参与消息转发，并且会尽可能地最大化其自身利益。

（3）恶意节点（malicious node），该类节点会对每次消息转发进行真实的估价，即买方节点会按式（4）进行真实估价，卖方会按式（6）进行真实估价。但是可能会虚拟报价，即不会按3.5节进行真实的报价。

为了准确地分析相关网络性能，本文使用包投递率和平均剩余能量作为网络性能的评价指标。包投递率（即消息转发的平均成功率）是指目的节点正确接收到的数据包个数与源节点发送的数据包个数之比值。平均剩余能量是指成功转发相同数量的消息时，所有节点的平均剩余能量，它是消息转发过程中能量消耗的评价指标。为了验证所设计的激励策略DGBIS在3个设计目标（有效性、公平性与实用性）上的达成度，进行了3个实验。

实验1检验DGBIS策略的有效性，即能否有效地激励理性的自私节点积极参与消息转发合作。将文献[16]给出的基于买卖模型节点激励策略简称为BIP，文献[19]给出的节点激励策略简称为RF20。分别在网络系统中采用DGBIS策略、BIP策略、RF20策略和不采用任何激励策略Nature状态的4种情况下，假设系统中只有合作节点与理性的自私节点两类节点，当系统中自私节点的比例增大时，考察整个网络系统中消息转发的平均成功率，其实验结果如图2所示。

Fig.2 Varying of average success rate of message forwarding with proportion of selfish nodes图2 消息转发成功率随自私节点比例的变化图

从图2可知，当网络系统中自私节点的比例增大时，在不采用任何激励策略的Nature状态下，系统的消息转发平均成功率快速下降，极端情况网络系统性能严重退化，成功率在12％左右；采用BIP激励策略和RF20策略，系统的消息转发平均成功率缓慢下降；采用DGBIS激励策略，系统的消息转发平均成功率基本保持不变。原因是在不采用任何激励策略的Nature状态下，理性的自私节点不会参与消息转发合作，这就会降低消息转发的成功率。并且DGBIS激励策略比BIP和RF20策略更能够有效提高系统的消息转发成功率。

实验2检验DGBIS策略的公平性，即能否抑制恶意节点虚假报价对系统性能的影响。在网络系统中分别采用DGBIS策略、BIP策略、RF20策略和不采用任何激励策略Nature状态的4种情况下，假设系统中只有合作节点与恶意节点两类节点，当系统中恶意节点的比例增大时，考察整个网络系统中消息转发的平均成功率，其实验结果如图3所示。

Fig.3 Varying of average success rate of message forwarding with proportion of malicious nodes图3 消息转发成功率随恶意节点比例的变化图

从图3可知，当系统中恶意节点的比例增大时，在Nature状态下，采用RF20策略和BIP激励策略，系统的消息转发平均成功率都快速下降，极端情况下系统性能严重退化；采用DGBIS激励策略，系统的消息转发平均成功率缓慢下降。原因是在Nature状态下采用RF20策略和BIP激励策略，都不能有效地抑制恶意节点的虚假报价，导致了许多消息转发交易失败，这会降低消息转发的成功率。然而，在DGBIS激励策略中，通过讨价还价交易模型来抑制恶意节点的虚假报价，因此降低了恶意节点对消息转发合作的影响。

实验3检验DGBIS策略的实用性，即能否降低系统的能量消耗，提高系统的整体效用。不失一般性，不妨设合作节点在网络系统所占比重为40％，自私节点所占比重为30％，恶意节点所占比重为30％。在网络系统中分别采用DGBIS策略、BIP策略、RF20策略和不采用任何激励策略Nature状态的4种情况下，当系统中消息转发成功的次数增加时，考察所有节点的平均剩余能量，其实验结果如图4所示。

Fig.4 Comparison of average residual energy in 4 kinds of situations图4 4种情况下平均剩余能量的比较图

从图4中可以看出，当系统中消息转发成功的次数增加时，在不采用任何激励策略的Nature状态下，系统中所有节点的平均剩余能量减少得最快；采用BIP激励策略和RF20策略，系统中所有节点的平均剩余能量减少得较快；采用DGBIS激励策略，则平均剩余能量减少得最慢。原因是不采用任何激励策略，由于节点的自私性与恶意性，会导致许多消息转发合作交易的失败，那么在达到相同消息成功转发的次数时，会增大消息转发请求与响应以及讨价还价博弈等过程的次数，从而加大了能量消耗。同时，若系统采用BIP激励策略和RF20策略，由于该策略不能抑制恶意节点的虚假报价，也会导致一些消息转发合作交易的失败，同理会加大系统的能量消耗。因此，可以认为采用DGBIS激励策略能降低系统的能量消耗，提高系统的整体效用。

综上所述，DGBIS激励策略达到了预期的设计目标（有效性、公平性与实用性）。

6 结束语

通过借鉴讨价还价动态博弈的基本原理，本文给出了一种移动对等网络中节点间消息转发的激励策略DGBIS。该策略通过虚拟货币支付方式有效地激励理性的自私节点进行合作；通过讨价还价交易模式来抑制恶意节点的虚假报价，给移动对等网络中节点激励策略等相关研究提供了一种新的研究思路。尽管DGBIS策略不失为一种有效的节点激励策略，但是尚未考虑如何约束节点因自身的富裕性出现的偏好自私性等问题。因此，这些将是未来的研究重点之一。

References:

[1]Zhang Guoyin,Li Jun.Overlays in mobile P2P networks[J].Journal of Software,2013,24(1):139-152.

[2]Qu Dapeng,Wang Xingwei,Huang Min.Selfish node detection and incentive mechanism in mobile P2P networks[J].Journal of Software,2013,24(4):887-899.

[3]Padhariya N,MondalA,Madria S K,et al.Economic incentivebased brokerage schemes for improving data availability in mobile-P2P networks[J].Computer Communications,2013,36(2):861-874.

[4]Safiriyu E I,DaudaA.Anovel security protocol for P2Pincentive schemes[J].Journal of Multidisciplinary Engineering Science and Technology,2015,5(2):1046-1051.

[5]Feldman M,Papadimitriou C,Chuang J.Free-riding and whitewashing in peer-to-peer systems[J].IEEE Journal on SelectedAreas in Communications,2006,24(5):1010-1019.

[6]Yue Guangxue,Li Renfa,Chen Zhi,et al.Analysis of freeriding behaviors and modeling restrain mechanisms for peerto-peer networks[J].Journal of Computer Research and Development,2011,48(3):382-397.

[7]Li Yunzhao,Gruenbacher D,Scoglio C.Reward only is not enough:evaluating and improving the fairness policy of the P2P file sharing network eMule/eDonkey[J].Journal of Peerto-Peer Networking andApplications,2012,5(1):40-57.

[8]Cui Guanghai,Li Mingchu,Jin Xing,et al.Evolution of cooperation in P2P media sharing networks based on selforganized incentive[J].Journal of Chinese Computer Systems,2016,37(2):202-206.

[9]Chen Hongwei,Xu Hui,Chen Li.Incentive mechanisms for P2P network nodes based on repeated game[J].Journal of Networks,2012,7(2):385-392.

[10]Kang Xin,Wu Yongdong.Incentive mechanism design for heterogeneous peer-to-peer networks:a Stackelberg game approach[J].IEEE Transactions on Mobile Computing,2015,14(5):1018-1030.

[11]Tan Guang,Jarvis SA.Apayment-based incentive and service differentiation scheme for peer-to-peer streaming broadcast[J].IEEE Transactions on Parallel and Distributed Systems,2008,19(7):940-953.

[12]Zhao Guangsong,Chen Ming.Research of incentive-aware data dissemination in selfish opportunistic networks[J].Journal on Communications,2013,34(2):73-84.

[13]Yang Yanbing,Liu Bin,Shi Yan,et al.Design and simulation of the cooperation incentive mechanism in ad hoc network based on evolutionary game[J].ICIC Express Letters,2015,9(10):2827-2834.

[14]Cheng Gang,Song Mei,Zhang Yong,et al.Routing protocol based on social characteristics for opportunistic networks[J].The Journal of China Universities of Posts and Telecommunications,2014,21(1):67-73.

[15]Ding Hui,Pei Jinming.The research of resource auction incentive mechanism in mobile P2P[C]//Proceedings of the5th International Conference on Wireless Communications,Networking and Mobile Computing,Beijing,Sep 24-26,2009.Piscataway,USA:IEEE,2010:5520-5522.

[16]Li Yun,Yu Jihong,You Xiaohu.An incentive protocol for opportunistic networks with resources constraint[J].Chinese Journal of Computers,2013,35(5):947-956.

[17]Wang Kanliang,Wang Song.Dynamic game of asymmetry information bargaining with tri-stages bargaining as example[J].Systems Engineering,Theory&Practice,2010,30(9):1636-1642.

[18]Li Bangyi,Wang Yuyan.Game theory and information economics[M].Beijing:Science Press,2016.

[19]Huangfu Shenlong,Guo Bin,Yu Zhiwen,et al.Incentive mechanism for opportunistic social networks:the market model with intermediaries[J].Journal of Software,2014,25(S2):53-62.

附中文参考文献：

[1]张国印,李军.移动对等网络覆盖网[J].软件学报,2013,24(1):139-152.

[2]曲大鹏,王兴伟,黄敏.移动对等网络中自私节点的检测和激励策略[J].软件学报,2013,24(4):887-899.

[6]乐光学,李仁发,陈志,等.P2P网络中搭便车行为分析与抑制机制建模[J].计算机研究与发展,2011,48(3):382-397.

[8]崔光海,李明楚,金星,等.基于自组织激励的P2P多媒体共享网络节点合作的演化[J].小型微型计算机系统,2016,37(2):202-206.

[12]赵广松,陈鸣.自私性机会网络中激励感知的内容分发的研究[J].通信学报,2013,34(2):73-84.

[16]李云,于季弘,尤肖虎.资源受限的机会网络节点激励策略研究[J].计算机学报,2013,35(5):947-956.

[17]王刊良,王嵩.非对称信息下讨价还价的动态博弈:以三阶段讨价还价为例[J].系统工程理论与实践,2010,30(9):1636-1642.

[18]李帮义,王玉燕.博弈论与信息经济学[M].北京:科学出版社,2016.

[19]皇甫深龙,郭斌,於志文,等.机会社交网络下基于中介市场模型的激励机制[J].软件学报,2014,25(S2):53-62.

Incentive Strategy in Mobile P2PNetwork Based on Dynamic Game of Bargaining*

LIU Hao1+,CHEN Zhigang2,ZHANG Lianming3
1.Institute of Information,Hunan University of Humanities,Science and Technology,Loudi,Hunan 417000,China
2.School of Information Science and Engineering,Central South University,Changsha 410083,China
3.College of Physics and Information Science,Hunan Normal University,Changsha 410081,China
+Corresponding author:E-mail:lhkd0407@126.com

LIU Hao,CHEN Zhigang,ZHANG Lianming.Incentive strategy in mobile P2P network based on dynamic game of bargaining.Journal of Frontiers of Computer Science and Technology,2017,11(8)：1269-1278.

Owing to the self-organization and opening features of mobile P2P network and the resource-constraint of nodes in it,some nodes show their selfishness and malice.Aiming at this problem,this paper proposes a novel incentive strategy based on dynamic game of bargaining in mobile P2P network(DGBIS).The incentive strategy adopts virtual currency payment method.The node calculates the evaluation of a message forwarding based on the virtual currency,its resource state and the message property.Both sides of the transaction give the reasonable price according to the evaluation and based on the dynamic game of tri-stages bargaining.Through the game analysis,this paper gives the Nash equilibrium solution of DGBIS strategy,which encourages rational selfish node to cooperate with the message forwarding in order to maximize its own benefits,and holds back the deceptive price of the malicious nodes.Analysis and simulation show that this incentive mechanism is able to effectively improve the success rate of message forwarding,reduce the system's energy consumption in the whole network system,and reach the predetermined design target.

as born in 1977.He

the Ph.D.degree from South China University of Technology in 2010.Now he is an associate professor at Hunan University of Humanities,Science and Technology.His research interests include parallel computing and peer-to-peer network,etc. 刘浩（1977—），男，2010年于华南理工大学获得博士学位，现为湖南人文科技学院副教授，主要研究领域为并行计算，对等网络等。

CHEN Zhigang was born in 1964.He received the Ph.D.degree from Central South University in 1998.Now he is a professor and Ph.D.supervisor at Central South University.His research interests include computer network and distributed system,etc.陈志刚（1964—），男，1998年于中南大学获得博士学位，现为中南大学教授、博士生导师，主要研究领域为计算机网络，分布式系统等。

ZHANG Lianming was born in 1972.He received the Ph.D.degree from Central South University in 2009.Now he is a professor at Hunan Normal University.His research interests include complex network and network calculus,etc.张连明（1972—），男，2009年于中南大学获得博士学位，现为湖南师范大学教授，主要研究领域为复杂网络，网络演算等。

：TP393

*The National Natural Science Foundation of China under Grant Nos.61572191,61571188(国家自然科学基金);the Natural Science Foundation of Hunan Province under Grant No.2017JJ2124(湖南省自然科学基金);the Key Construction Course of Computer Application Technology in Hunan Province(湖南省计算机应用技术重点建设学科资助项目).

Received 2017-01,Accepted 2017-03.

CNKI网络优先出版:2017-03-23,http://kns.cnki.net/kcms/detail/11.5602.TP.20170323.1322.004.html

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology 1673-9418/2017/11(08)-1269-10

10.3778/j.issn.1673-9418.1701040

E-mail:fcst@vip.163.com

http://www.ceaj.org

Tel:+86-10-89056056

Key words:mobile P2P network;selfishness;malice;bargaining;virtual currency;dynamic game;incentive strategy