一种基于信息博弈的粮仓智能通风决策模型与算法

2014-03-27 08:10徐朝辉廉飞宇金广锋
关键词:粮情局中人代理

徐朝辉,廉飞宇,金广锋

(河南工业大学1.经济贸易学院;2.信息科学与工程学院,河南 郑州 450001)

0 引言

我国各级粮库的储粮仓型大多采用了高大平房仓,这种仓型储藏粮食多、储藏周期长,为了防止粮食霉变生虫,适当的通风十分必要.通风系统往往配备了窗口、通风口、轴流风机和离心风机,通风控制系统需要根据季节、天气状况、粮情条件选择不同的通风方式,以达到既具有良好的通风效果,又能节约能源的目的.为此,近年来人们提出了智能通风的概念[1-5].智能通风的核心是通风控制软件,该软件能够根据采集的粮情和当时的气象条件,对需要何种方式的通风给出智能化的建议,并能够控制相关通风设备开启和停止.目前,大多数粮库都实现了自动化通风,但智能化通风还很少.不少粮库混淆了自动通风和智能通风的界限,声称实现了智能通风的粮库实际上仍然是自动通风,因为智能通风不仅能够根据通风条件自动地控制通风设备,而且能够综合现有各种粮情,结合环境条件,给出是否需要通风,需要哪种通风模式的决策.因此,智能通风的核心其实是一个通风决策的问题.目前,已有智能通风系统采用系统自学习技术和信息融合技术,结合专家系统,初步实现了通风决策的智能化[6-7].这些系统大多采用了基于评估反馈的自学习技术、神经网络技术、信息融合技术等构建通风模型,这些模型的实际应用使得通风效率得以提高.

但在通风实践中,智能通风软件面临的粮情和环境信息比较繁杂,而且具有不稳定性,采用单纯的通风条件判定,给出的通风模式也许并不可靠,有可能出现同时满足两种甚至是多种通风模式的通风条件的情况,在这种情况下,往往最终需要由人来判断最合适的通风模式.通过分析问题的实质,发现智能通风的决策问题其实是一个信息冲突下的多源信息融合问题,融合所需的信息具有不确定性、不一致性甚至具有矛盾性,由于传统信息融合理论较少地考虑到信息的不完整性和矛盾性而达不到理想的效果,因此有必要引入新的理论和方法解决这一类特殊的信息融合问题.

1 智能通风决策中的信息融合问题

在基于多传感器的粮情信息融合系统中,融合系统的处理对象是仓温、仓湿、粮温、粮食水分、外温、外湿、气压等多种来源的信息,对这些粮情和环境信息进行综合处理,以取得最佳的通风决策输出,是粮情信息融合系统的根本目标.由于粮情信息来源于储粮状态的不同方面,因此粮情信息之间具有很大的关联性.

当多种粮情信息都是来自储粮粮堆的同一特征时,比如温度传感器监测到粮堆内部各点的温度,则称为粮情提供了冗余信息,该信息可能有不同的可信度,通过对冗余信息进行融合,可以降低信息的不确定性,提高粮情识别的精度.

当多种粮情信息来自于储粮粮堆的不同特征时,即来自被感知对象特征空间的不同子空间时,如湿度和水分传感器检测到的粮仓湿度和粮食水分,则称为粮情提供了互补信息,互补信息是对对象不同特征的描述,互补信息的融合,有利于提供关于粮情的完整认识,更能为通风模式的识别提供决策支持.但互补信息有时是不一致的或是矛盾的,这就需要采用新的方法予以解决.

大量的粮情信息既具有冗余性又具有互补性,冗余性的信息之间由于不一致,形成了信息之间的竞争性;而互补的粮情信息则可以看作是信息之间具有合作性.因此通风决策的过程就是对大量具有竞争性和互补性的粮情信息进行信息融合进而进行粮情评估的过程.如何在粮情信息存在竞争和互补的情况下,对粮情信息进行融合,从而输出更优的通风决策,成为粮仓智能通风系统必须面对和解决的关键问题.

作者对多源粮情信息融合涉及的一些基本理论问题进行了初步的研究,以粮库智能通风为实例,以博弈论为基本理论和数学工具,提出了以局中人、策略和支付为3 个基本要素,以粮情评估为目标的粮情博弈信息融合模型.该模型将粮情信息的竞争与合作在融合系统中看作是粮情信息的博弈过程.作者研究了博弈信息融合系统的建模,并给出了基于Bayesian 推理的博弈算法.

2 智能通风博弈信息融合模型

智能通风博弈信息融合模型将博弈论的思想引入智能通风信息融合系统中,用于解决当获取的粮情信息不确定、不准确、互相矛盾时,应用传统通风模型获得的通风决策互相冲突的问题[8].该模型将整个粮情融合过程和通风决策过程抽象为各传感器群的策略交互过程,其目标是使每个粮情传感器群对整个融合决策系统支付效用最大化[9].在该模型中,包含了博弈的3 个基本要素:局中人、策略和支付.融合和决策的过程表现为各传感器群选择不同策略以使对系统的支付效用最大化,因此,模型中融合和决策算法要解决的问题实质上就是如何选取局中人、策略和支付,从而取得Nash 均衡的问题[10].

智能通风博弈信息融合模型采用了模块化的设计结构.该模型按功能分为5 个模块:局中人提取、策略提取、支付提取、粮情评估和控制提取.该模型如图1 所示.采用了总线结构连接各个模块.在该模型中,数据库管理系统采用SQLServer 2005设计,保存了安装有粮情测控系统仓的所有粮情况信息.接下来分别简要讨论一下各模块的功能.

(1)局中人提取(Player Refinement).在智能通风博弈融合模型中,将多个相互关联的传感器视为局中人,这些传感器由于根据自身提供的信息提供了不同的通风决策,或者由于提供的信息具有不确定性甚至矛盾性,从而可以看成是构成了一个关于通风决策的博弈局势.在博弈信息融合过程中,就把这些传感器或者传感器群(如测某一粮层温度的所有传感器)看作是局中人.

(2)策略提取(Strategy Refinement).策略提取就是为参与信息博弈的各局中人确定其策略集.可以从3 个方面考虑策略提取问题:传感器资源管理、传感器判定和策略交互.传感器资源管理通过传感器群的调度与协同,以使传感器对融合系统支付最大化;传感器判定为智能通风的传感器级决策;而策略交互应使各局中人的最大支付达到Nash 均衡.

图1 博弈信息融合的功能模型

(3)支付提取(Payoff Refinement).在智能通风博弈信息融合模型中,支付函数定义为:u:XCT→R,其中CTi为局中人的策略集.在一个稳定的博弈局势中,所有局中人的策略将构成一个策略组合,策略组合的不同,决定了融合系统的不确定性减少的程度也不同,因此在模型中,根据信息论的概念,将支付定义为不同策略组合下的信息量.

(4)粮情评估(Situation Assessment).在作者的智能通风博弈信息融合模型中,粮情评估是其核心功能,粮情评估的结果直接导致通风决策的输出.可以把粮情评估看作是一种态势评估,但传统的信息融合模型并未对态势评估做出明确的定义.在本模型中,从博弈论的观点对态势评估进行定义.考虑到态势总是对应所有局中人的一个策略组合,态势评估可以用所有局中人的支付值进行定量度量.

(5)控制提取(Process Refinement).信息融合是模仿了人脑信息处理方式而产生的技术.人脑处理信息的基本过程是:“传感”-“融合”-“施动”.其中“施动”是信息融合处理的最终目的.在模型中,也将“施动”看作是粮情信息融合处理的最终目的,即对粮情进行控制,以保证其处于可储藏状态.模型中的“施动”功能由“控制提取”模块完成.在模型中,局中人为了实现支付效用最大化,往往需要采用不同的策略,这些策略体现为相应传感器系统或信息采集系统的不同工作方式,传感器采用不同的策略靠“施动”模块来完成,“控制提取”实际上构成了博弈局势演变的一个反馈控制环.

3 基于Bayesian 博弈的智能通风融合算法

传统博弈论认为,在博弈的各方都遵循一个确定博弈规则的条件下,博弈的各方都存在一个均衡策略,当博弈各方都没有失误地实施了各自的均衡策略,博弈局势达到Nash 均衡状态.但在通风决策系统中,博弈信息融合的各方包含的信息却是不确定的,甚至是矛盾的,各传感器给出的通风决策也可能是不相同的,为了解决这种复杂的博弈局势,将Bayesian 推理引入智能通风博弈信息融合模型.作者定义Bayesian 博弈为局中人在提供的信息不完整、不确定的情况下的博弈.

3.1 Bayesian 博弈的结构、表示及算法

博弈可以用一种树状结构来表示.非叶子节点表示某种可能性,其子节点表示这种可能性的可选结果,叶子节点表示博弈的结果或收益.非叶子节点的子节点都有一个概率分布.对于信息完整的确定博弈,博弈树是可解的,即可遍历的.

粮情信息中包含不完整甚至是矛盾的信息,这样传感器在博弈树中的确切位置不固定,因此该博弈问题一般难以求解,通过建立策略表求取Nash 均衡的方法求解该类题,策略表包含了局中人的策略组合及其收益.

根据文献[17],Bayesian 博弈Γb定义为:式中:N 是参与者的集合;Ci是参与者i∈N 的可能的策略的集合;Ti是参与者i的可能类型或属性;Pi是概率,它代表参与者i 对其他参与者是什么类型或属性的确信程度;ui是参与者i 的收益函数,其他参与者的任何一个类型和策略组合都对应参与者i 的一个支付.

如果可以用一个全局概率分布描述局中人之间的信任关系,则称这种Bayesian 博弈是一致信任的博弈,作者研究的正是这种博弈.

图2 为Bayesian 博弈的概念性结构图.该结构由若干个为Bayesian 博弈产生收益值的关联图组成,图2 中的子图为局中人的关联图.局中人使用关联图进行态势评估和决策.在该体系结构中将局中人称为代理.该体系结构在以下两个原则下成立:(1)局中人之间是一致信任的;(2)该结构可以由一个概率模型组合而成.

通风决策博弈信息融合模型算法基本结构为:

输入:①一系列关联图.每个关联图对应一个代理模型.分别包含属于代理1,…,n 的决策节点D1,…,Dn和收益U1,…,Un.②一个对应于每个代理模型的先验概率分布.

输出:以混合策略Nash 均衡的形式给出关联图中决策变量D1,…,Dn的解.

算法步骤:

①使每个关联图对应一个Bayesian 博弈类型组合,即使每个关联图对应到一个关于参与者私有信息的一致信任概率pi(t-i|ti)上.

②Bayesian 博弈为:

图2 Bayesian 博弈模型体系结构

式中:N 为参与者的集合,直接对应到一个代理的集合;Ci表示关联图中代理的动作集;Ti表示代理的类型集,(一致信任);ui由关联图评估算法给出,ui:C×T→R.

③以混合策略Nash 均衡的形式对Bayesian博弈计算一个或多个解.

④非混合策略Nash 均衡直接对应到原始类型图中决策变量D1,…,Dn上的解概率分布.

使用上述算法,就可以为智能通风的决策建立一个Bayesian 博弈,该博弈中的均衡采用混合策略Nash 均衡的方式给予解决.

因为已经假定博弈是一致信任的,可以引入一个初始节点来建立Bayesian 网络.初始节点是一个假定结果已经发生的节点,并且已为各局中人所知其类型.对于其每一可能类型,初始节点的边对应着一个代理的关联图.

3.2 Bayesian 博弈的均衡

在博弈论中,一个博弈局势的Nash 均衡解被定义为一种策略组合(Strategy profiles).对于一个Bayesian 均衡,Harsanyi[11]把它定义为一种混合策略集,这个混合策略集包含了每一个代理的每一种类型的情况.如(1)式所定义的,一个Bayesian 博弈Γb的Bayesian 均衡,对在每一种类型ti∈Ti下的每一个代理i∈Ν,是任一混合策略组合σ.

式中:Δ(Ci)是集合Ci上的概率分布集合Ci是代理i 能够选择的混合策略集;σi(·|ti)是代理i 在类型ti下的可采用的混合策略.

通常博弈问题的求解是不易的.如著名的Lemke Howson 算法[12]也只是解决一个线性互补问题.按照Nash 理论,至少有一个均衡存在于混合策略中,但它的求解却存在着一个计算复杂度的问题.如对某些博弈,甚至是零和博弈,应用Lemke Howson 算法求解时,就有着指数规模的计算时间.找到一个各方均有最大收益的均衡,其实是个NP-Hard 问题[14].

为了能够求解这类博弈问题,一般都采用了近似解的方式.在适度的规模上,对于某类决策问题,可以得到最优解.目前一些相关的快速算法已经被提出来[21].

4 试验案例与结果分析

以粮库智能通风为例,运用博弈信息融合模型,说明智能通风的决策过程.

目前粮库通风仍是根据3 温(粮温、仓温、外温)和3 湿(粮湿、仓湿、外湿)进行通风的.根据3温和3 湿的不同状况,选择不同的通风模式.通风系统应该首先选择降温通风,其次再根据湿度变化选择除湿通风或保水通风.

将温度和湿度分别用代理1 和代理2 表示,并将争取“通风依据主导权”作为双方博弈的目标.如果代理1 是“优先”被使用的,代理2 是“次要”的,则代理1 将“战胜”代理2 并占据“通风依据主导权”,反之亦然.当双方都为“优先”或“次要”(应有程度的不同),则双方将形成Bayesian 博弈,并最终以Nash 均衡的形式以一定的概率取得“通风依据主导权”.

某个通风决策过程中,假定代理1 控制着通风依据主导权,且代理2 不知道代理1 的控制能力(以一定概率表示).代理1 可以取得主导权.也可放弃主导权;如果代理1 放弃,代理2 将通过一个中间件侦测代理1 的控制能力,如果代理1 控制概率低于自己,代理2 取得主导权;另一方面,如果代理1 争取主导权,代理2 将面临或者与代理1争夺主导权或者放弃.如果代理1 是“优”的,且代理2 选择与之争夺,代理1 将战胜代理2 并取得主导权.如果代理1 是“次”的,代理2 选择与代理1 争夺,代理1 将失去主导权,如果代理2 放弃,代理1 将保持主导权,而不管代理1 是不是“优”的.

图3 为相应的关联图.随机变量A1S(代理1是优的)生成基于代理1 决策的证据DA1,用一个从A1S到DA1的点划箭头线表示.同时,节点A1S也产生一个局势结果节点RS,RS 节点决定了博弈的结果并影响着决策者各自的收益节点.假定两者是零和博弈,支付UA1=-UA2.对于代理1,变量A1S可以依据证据DA1产生一个“代理1 是最优”的博弈模型和一个“代理1 不是最优”的博弈模型,而对于代理2,A1S 仅仅是一个普通的随机变量,并有着一个与之相关联的条件概率表.

定义q∈(0,1)表示代理2 对代理1 是否是优的信任程度,假定该定义也适用于代理1,即两个代理之间的信任关系式是一致信任的.这个局势可以被一个Bayesian 博弈Γb模拟为:

图3 智能通风中的决策关联图

该博弈局势的收益矩阵如表1 所示.

表1 收益矩阵

根据Harsanyi 的描述,引入一个“根节点”,用于决定开始时代理1 的类型(优或次).这样,该Bayesian 博弈根据表1 所示的收益矩阵就可以转换相应的扩展形式,如图4 所示.

图4 博弈的Harsanyi 变换

注意标注“2.0”的两个决策节点都代表代理2对代理1 类型的不确定性.也要注意1,s 下的活动标签不同于1,i 下的活动标签,代表代理1 能区分1,s 和1,i 这两个节点.这个博弈可以通过如表2所示的策略来求解.

无论q 取何值,代理1 如果是“优”,则将总是争取通风依据主导权.如果4/5≤q≤1,代理2 总是选择忽略争取通风依据主导权,因而当4/5≤q≤1 时,([Ff],[I])是仅有的一个均衡策略组合,这说明在温度决定通风模式优势明显的条件下,通风决策总是以温度结果为依据,直接的湿度总是选择退出充当通风决策依据的角色,从而使双方在博弈中达到了一个均衡.当0<q<4/5,纯策略上的均衡(这里仅指4 种保留的可能性)就不存在了,均衡不得不在混合策略中寻找.假定x[Ff]+(1-x)[Fr]和y[M]+(1-y)[I]分别为代理1 和代理2 的均衡策略,x 表示代理1 的竞争概率,y 表示代理2 的应对概率,对于代理1,均衡要求它的期望收益对于Ff 和Fr 相同,即

表2 博弈的策略

同样,为了能够在M 和I 之间随机选择代理2,对于x[Ff]+(1-x)[Fr],M 和I 必须给代理2 同样的期望收益.即:

可见,一个Bayesian 均衡实际上是一个随机的策略组合.该组合实际上是代理及其类型的所有组合的一个策略σ(·|ti),本例中唯一的Bayesian均衡为:

对于0<q<4/5,

σ1(·|1.s)=[F]

σ1(·|1.i)=x[F]+(1-x)[R]

σ2(·|2)=2/3[M]+1/3[I].

对于4/5≤q≤1,

σ1(·|1.s)=[F]

σ1(·|1.i)=[R]

σ1(·|2)=[I].

5 结论

在智能通风信息融合系统中引入博弈论思想,并与Bayesian 网络相结合,提出了智能通风的Bayesian 博弈信息融合模型.将模型应用于实际通风过程中,效果表明,在温度传感器大量缺失,粮情监测部分分机失效或不可达的情况下,智能通风系统仍能对通风模式做出正确的决策,而传统信息融合系统或专家系统则会停止响应或做出不正确的通风模式决策.试验表明,基于该模型的智能通风决策正确率达到95%以上,大大高于正确率80%的传统模式智能决策水平.

[1]余吉庆,李宗良,周智华,等.智能通风在储粮降温中扩大应用的研究[J].粮食储藏,2012,41(6):22-26.

[2]鲁海峰,王铁钢,时清林,等.采用智能通风的科技手段实现仓房节能排热低温储粮[J].粮食储藏,2009,37(2):27-29.

[3]陈德发,秦维平,马飞.改进型储粮智能通风系统实仓应用效果[J].粮油仓储科技通讯,2013(3):43-45.

[4]赵小军,袁耀祥,王录印,等.高大平房仓智能通风系统夏季排除积热试验[J].粮食储藏,2005,34(6):38-40,47.

[5]史钢强.智能通风操作系统水分控制模型优化及程序设计[J].粮油食品科技,2013,21(5):109-113.

[6]鲁海峰,高峰.粮仓智能通风控制系统[J].粮食储藏,2007,36(6):17-21.

[7]冯黎明,陈卫东,吕宗旺,等.储粮智能通风系统研究[J].电脑知识与技术,2013,9(15):3588-3590.

[8]王从陆,尹长林.基于博弈论的安全决策信息融合[J].中国安全科学学报,2005,15(4):74-76.

[9]王刚,赵海,魏守智.基于威胁博弈理论的决策级融合模型[J].东北大学学报:自然科学版,2004,25(1):32-35.

[10]Brynielsson J,Arnborg S.Refinements of the command and control game component[C].7th International Conference on Information Fusion,2005(2):1510-1513.

[11]Harsanyi J C.Games with incomplete information played by Bayesian player[J].Management Science,1967,14(3):159-183.

[12]Von Stenged B.Computing equilibria for twoperson games[M]//Auamann R J,Hart S.Handbook of Game Theory with Economic Applications:Vol 3.Amsterdam:North-Holland,2002.

[13]Gilboa I,Zemel E.Nash and correlated equilibria:Some complexity considerations[J].Games and Ewnomic Behavior,1989,1(1):80-93.

[14]Brynielsson J,Arnboyg S.Refinements of the command and control game companent[C]//Proceedings of the 8th International Conference on Information Fusion.Philadelphia:IEEE,2005:1510-1515.

猜你喜欢
粮情局中人代理
粮库粮情智能监测系统的设计与实现
张一山、潘粤明联手 演绎《局中人》
代理圣诞老人
立足赣州粮情实际 确保区域粮食安全
代理手金宝 生意特别好
2×2型博弈决策均衡的归一化解法
CGSR-GDCSIV型粮情测控系统通过中国粮油学会组织的科技成果评价
超对策模型中多形式结局偏好认知信息融合的0—1规划方法
粮情监测技术的现状与展望
胜似妈妈的代理家长