孙婷 向新 宋晓鸥 王锋 孙晔
摘 要: 基于多智能体系统的认知无线电技术研究是近年来通信领域的热点问题。阐述了多智能体系统的基本概念,对智能体和多智能体系统运行机制进行了介绍,并从适用于认知无线电网络的智能体模型设计和多智能体运行机制的应用两方面,对近年来用于认知无线电网络频谱管理的多智能体技术作了总结。
关键字: 认知无线电; 频谱管理; 多智能体系统; 多智能体技术
中图分类号: TN92?34 文献标识码: A 文章编号: 1004?373X(2014)09?0038?05
0 引 言
随着无线电技术的飞速发展和广泛应用,使得有限的频谱资源和猛增的需求间的矛盾日益突出。传统静态的频谱分配方式极大限制了频谱的使用效率,使得无线资源本身的匮乏以及对它使用不合理的问题越来越突出。认知无线电(CR)是解决当前静态频谱分配问题的有效方法,因此成为当前通信研究领域的热点之一。认知无线电是在软件无线电的基础上发展起来的一种新的智能无线通信技术,它能够根据无线电的内部状态和外部环境的变化而变化且能调整其行为,通过让具有认知功能的节点与授权用户共享信道来解决无线频谱资源紧张的状况。但是如果大量认知无线电用户在一个空间内使用,则将构成一个复杂的、分布式的、多变的网络,如何使之成为一个自我调节、有序运作的网络是当前需要解决的一大问题。多智能体系统常用于复杂的、互相依赖的,且有大量分布式设备参与的环境中。每个智能体都能与周围的环境交互并与其他智能体共享信息、协商合作共同完成任务。正是由于它的这些特点,使得多智能体系统非常适用于认知无线电网络中的动态频谱管理[1]。
1 多智能体系统
多智能体系统(Multiagent System)是新兴计算机科学的一个分支,其概念从20世纪80年代被提出后,在90年代随着计算机技术、网络技术、通信技术的飞速发展得到了广泛的关注。由于智能体(Agent)体现了人类的社会职能,具有很强的自治性和适应性,因此,越来越多的研究人员开始关注对其理论和应用方面的研究。
1.1 智能体定义
智能体,从广义上理解,它涵盖了许多不同的计算实体,这些实体能够感知环境并作用于环境。智能体结构如图1所示。由图1可知,智能体能对从环境中感知的事件进行监察,可根据自身的知识和意图对感知信息和其他智能体的通信信息进行进一步分析、推理并作出合理决策,并通过执行模块反馈到环境中去。
智能体有如下特征:
(1) 自治性(Autonomy):智能体拥有内部自治机制和问题解决机制,能够控制自己的行为和内部状态。无需他人干涉就可根据自己的知识和捕捉到的信息进行判断和行为。智能体自治性的高低在很大程度上决定了其智能的高低;
(2) 社会性(Social ability):智能体不是孤立的,而是一个相互作用的群体。智能体间可以按照某种协议或者语言进行通信和对话,从而形成一个小组来协作完成某一特定任务;
(3) 反应性(Reactivity):指智能体具有外部环境的反射作用,能够识别外部环境的变化作出适当反应;
(4) 自发性(Pro?activeness):指智能体具有对目标的能动性,为了达到目标,智能体能够自发地参加到某些处理或协作中来[2?3]。
图1 智能体基本结构
1.2 多智能体系统介绍
虽然智能体具备特定功能,但能力有限,在解决现实中复杂的、大规模的问题时,常常需要将各种具有不同能力的智能体结合起来,这就是多智能体系统产生的最直接的原因。多智能体系统可定义为由一系列在网络上耦合的智能体或者在同一硬件环境下的软件智能体构成,将的大的复杂系统构造成小的、彼此可以互相通信及协调的、易于管理的系统。图2为一个典型的多智能体系统模型结构图[4]。
图2 多智能体系统结构图
在多智能体系统中,一方面,每个智能体作为有自主性的实体,作用于自身,自己运转,能自主解决一定的问题;另一方面,通过与其他智能体的通信,可以开发出新的规则或求解方法来处理众多不确定的、相互矛盾的知识事件。这样,通过智能体间的协作,多智能体系统不仅改善了每个智能体的基本能力,而且从智能体的交互中进一步理解了各个系统的全局,提高多智能体协同共同完成任务的能力。
当多个智能体组成多智能体系统时,智能体之间就出现了如何协调各自的知识、策略和规划,如何采取联合行动实现全局目标等问题。因此,智能体之间的交互和通信是多智能体系统必不可少的组成部分。智能体通信是交互的基础。智能体之间通信可以传递字符流或二进制数流,也可以是在知识层上进行表达、理解和交流,即专门的智能体通信语言,如知识询问与操作语言(KQML)等。智能体之间的交互方式包括协调(coordination)、合作(cooperation)、讨论(negotiation)等。协调是为了确保智能体活动的有序性和互补性,一般常用的方法有设定规章、制定方案和反应性操作等。合作是指智能体共同工作达成一致目标最大化效用采取的方法,包括黑板模式、合同网、联盟等。讨论是一智能体向另一智能体提供服务的一种方法,包括拍卖、辩论、启发等。
此外,由于多智能体系统的复杂性和动态性,不可能具备完全的先验知识,因而学习能力是多智能体系统必不可少的能力之一。学习方式包括智能体信念的开发与更新、基于性能的学习。一般使用较多的为基于性能学习中的强化学习、Q学习等。整个多智能体系统运行机制如图3所示[1?2,4]。
图3 多智能体系统运行机制
2 多智能体系统在认知无线电频谱管理中应用
的国内外相关研究
近年来,认知无线电技术受到广泛关注。需要实现认知用户电磁设备的智能化,使其能通过频谱感知技术监测本地电磁环境的变化,完成本地电磁环境感知,在本地网络中分发共享频谱感知信息,作为频谱管理的依据,并且能够通过认知无线电干扰估测估计认知无线电用户与授权用户之间的干扰,通过用户间的互相协商来避免它们之间干扰的发生。这些庞杂的、分布式的电磁设备也就构成了复杂的、多变的一个电磁社会。如何使这个电磁社会如人类社会一样实现自我调节、有序运行就是目前需要解决的一大问题。多智能体系统的开发设计可看成两部分互相交织的工作,即智能体设计(agent design)和智能化社会设计(society design)[2]。
2.1 认知无线电的智能体模型
电磁设备的智能化使其体现了智能体的特征,因此适用于认知无线电的智能体模型的设计是整个问题的研究基础。根据智能体的基本模型,认知无线电的智能体所面对的外部环境是电磁环境,其完成的工作可以分为感知环境、智能处理、通信等三个部分,在面对具体问题时,每个部分可进行适应性调整和变化。比较有代表性的有以下几种。
WLAN是早期的具有一定认知能力的无线系统,采用CSMA/CA方式使系统具有很大的应用灵活性,为了提高其性能,文献[5]提出了一种智能体模型,如图4所示。该智能体位于每个WLAN的接入点AP(Access Point),智能体由两个模块组成,分别为预测参数判断模块PPE(Predictive Parameter Estimation)和资源管理优化模块RMO(Resource Management Optimization)组成。PPE模块的用于感知射频环境,并利用智能体预测模型产生RMO所需的参数,包括链路质量、信息交换速率、发射功率等;RMO由建模优化模块(Utilization Modeling and Optimization,UMO)和优化决策模块(Strategy to Effect Optimal Utilization,EOU)两部分组成,对接受哪个移动站的请求、发射功率控制、减少信道选择冲突等进行建模并做出决策;智能体间通过连接所有AP的高速链路网进行通信[4]。
图4 认知智能体模型图(一)
文献[6?7]给出了包含智能体在内的次用户(SU)设备模型设计,如图5所示。该设备主要由动态频谱传感器DDS(Dynamic Spectrum Sensor)、频谱特征分析器SC(Spectrum Characterizer)、用户界面SUI(Secondary User Interface)和智能体组成。DDS主要功能是感知频谱空穴;SC根据香农定律计算相关PU(Primary User)用户信道容量;SUI向智能体发送通信链路服务质量信息。智能体包含知识库模块AKM(Agent′s Knowledge Module)和协同模块ACM (Agent′s Coordination Module)。AKM根据传送的数据产生有空余频谱的PU列表,ACM负责智能体之间通信合作[6?7]。
图5 认知智能体模型图(二)
文献[8]提出了一种基于智能体的频谱管理模型,如图6所示。认知无线电设备由一系列模块组成,包括能力控制模块、调制模块、数据管理模块、安全管理模块和通信模块等。智能体负责对这些模块的管理,监督它们所有的操作。智能体可以通过通信模块与其他智能体进行交互,通过扫描功能感知外部环境。交互与感知得到的信息(空闲频带、调制方式、信道选择、服务质量、发射功率等)存储于共享知识库,可供所有智能体存储或检索信息。于此同时,规则库、终端状态、用户操作也与智能体相互作用。从整体上来说,智能体对整个系统进行控制[8]。
图6 认知智能体模型图(三)
2.2 多智能体运行机制的应用
多智能体运行机制确保了多智能体系统高效有序运作,能实现对整个系统的有效管理。因此,将多智能体运行机制应用于认知无线电频谱管理成为研究的另一方面。不同的多智能体运行机制从不同的方面完善系统功能。在通信、交互、学习三种机制中,由于通信为智能体交互的基础,所以主要研究的为智能体间的交互和学习机制的应用。
智能体的交互方法促进了智能体之间的沟通交流,主要有三种,即协调机制、合作机制和讨论机制。协调机制的灵活性相对较差,因此使用较少。
合作机制使智能体在自身无法完成任务或者其他智能体可以更高效完成任务的情况下,通过与其他智能体的合作最大化效用。其中,文献[10]中黑板模型在认知无线电网络跨层结构中得到了应用。黑板是一个共享的问题求解工作空间,问题和初始数据都记录在黑板上,智能体都能看到黑板。每个认知无线电节点产生与当前网络状态相关的参数,通过黑板展示,与其他节点共享信息,实现了带宽的优化利用。它提高了频谱分配的有效性和整体网络的服务质量[9]。合同网是合作机制中的另一种任务分享方式,文献[11]中所有智能体分为管理者和订约者两种角色。智能体通过发布任务通知书而成为管理者,通过应答任务通知书而成为订约者。系统中的每一待求解任务,由承担该任务的智能体负责完成。在认知无线电网络中,该任务通知书即为请求方案(Call for Proposal),PU(Primary User)智能体即为管理者,SU(Secondary User)为订约者。每个SU向有空余频带的相关PU发送请求方案,包括SU的地址、所需频带宽度、时间、价格、回复截止时间等。直至截止时间,SU选择最佳PU发送接受信息同时向其他PU发送拒绝信息[10]。另一种方式为智能体联盟,文献[1]中智能体对整体环境考虑共同利益而形成联盟,共享知识和专门技术,因而不用通过认知无线电终端进行大量计算工作,而是通过智能体联盟鉴别环境信息。
讨论机制中智能体间为了表达各自观点而进行信息交换,为有效解决智能体间的冲突的一种方法。讨论机制中最适用于认知无线电频谱管理的是拍卖方式。文献[11]中使用的是密封递价方法(即竞买人在规定的时间内将密封的标书递交拍卖人,由拍卖人在事先确定的时间公开开启,经比较后选择出价最高者成交)。认知无线电移动站竞争主用户无线电网络的频段,SU用户在规定的时间内将给出价格的标书递交给PU用户,由PU用户在事先确定的时间公开开启,经比较后选择出价最高者成交,该SU用户在一个超帧的时间内保证该频段的使用。文献[12]了建立认知无线电网络频谱分配的拍卖框架。认知无线电网络根据自身使用需求,竞争在某一信道成为主接入网络的权利。考虑网络间互相联系等情况下,使用了基于加权图中最大化匹配问题的polynomial?time算法,求出该信道的主接入网络,由此实现各个其他信道的合理使用[12]。除拍卖方式外,智能体也可以第三方的角色出现在频谱交易过程中。文献[13]中智能体向PU以固定价格买入频谱使用权,再以零售商的方式转卖给SU。在考虑需求不确定因素的情况下使智能体获得最大利益。
学习机制使智能体通过自身的学习过程来完善整个多智能体系统的功能,以适应多智能体系统的复杂性和动态性。学习机制中基于性能的学习是在不同的触发条件下有用的学习策略,其中的强化学习特别适用于认知无线电网络。文献[14]中强化学习应用于认知无线电网络中的频谱感知,使用基于强化学习的分布式多智能体频谱感知策略,并在多智能体强化学习中采用线性函数逼近的方法降低了状态?行动空间的维度。文献[15]中强化学习应用于认知无线电网络中的频谱分配,使用价值函数来评估使用不同发射参数的满意度,并通过最大化长期回报来实现有效频谱分配和发射功率选择。对于大规模认知无线电网络,进一步使用到了Kanerva?based Function Approximation方法。此外,基于性能学习中多智能体Q?Learning方法可以为信道选择提供策略。文献[16]通过将其他SU视为环境的一部分,使单智能体决策扩展到多智能体决策。智能体的学习内容不仅包括可用频谱,还包括其他智能体的表现。
3 结 语
多智能体系统是解决认知无线电网络频谱管理问题的有效方法。从智能体模型设计到多智能体运行机制的应用,多智能体系统已深入到认知无线电的研究中。多智能体系统的设计极具挑战性,探寻更适合于认知无线电系统的多智能体系统,使智能体设计与智能化社会设计有机结合,而不是单独使用于认知无线电网络将是未来研究的重要方向。
参考文献
[1] TRIGUI E, ESSEGHIR M, BOULAHIA L M. On using multi agent systems in cognitive radio networks: A survey [J]. International Journal of Wireless&Mobile Networks, 2012, 4(6): 11?15.
[2] WOOLDRIDGE M. An introduction to multiagent system [M].West Sussex: Wiley and Sons, 2002.
[3] Liu J.多智能体原理与技术[M].北京:清华大学出版社,2003.
[4] 张秋花,薛惠锋,吴介军,等.多智能体系统MAS及其应用[J].计算机仿真,2007(24):133?137.
[5] XIE J, HOWITT I, RAJA A. Cognitive radio resource management using multiagent systems [C]// Proceedings of Consumer Communications and Networking Conference. [S.l.]: CCNC, 2007: 1123?1127.
[6] MIR U, BOULAHIA L M, GAITI D. Utilization of a cooperative multiagent system in the context of cognitive radio network [C]// Proceedings of 2009 Fourth IEEE International Workshop on Communications Environments. Venice, Italy: Springer?Verlag, 2009: 100?104.
[7] MIR U, BOULAHIA L M, GAITI D. Dynamic spectrum sharing for cognitive radio networks using multiagent system [C]// Proceedings of 2011 IEEE Consumer Communications and Networking Conference. Las Vegas, NV: CCNC, 2011: 658?663.
[8] AHMED A, HASSAN M M, SOHAIB O. An agent based architecture for cognitive spectrum management [J]. Australian Journal of Basic and Applied Science, 2011, 5(12): 682?689.
[9] REDDY Y B, BULLMASTER C. Cross?layer design in wireless cognitive networks [C]// Proceedings of International Conference on Parallel and Distributed Computing Applications and Technologies. Otago: PDCAT, 2008: 462?467.
[10] MIR U, BOULAHIA L M, GAITI D. COMAS: A cooperative multiagent architeture for spectrum for spectrum sharing [J/OL]. [2010?12?10]. http:// www. downloads.hindawi.com/journals/wcn/2010/987691.
[11] CHANG H B, CHEN K C. Auction based spectrum management of cognitive radio networks [J]. IEEE Transactions on Vehicular Technology, 2010, 59(4): 1923?1935.
[12] KASBEKAR G S, SARKAR S. Spectrum auction framework for access allocation in cognitive radio networks [J]. IEEE/ACM Transations on Networking, 2010, 18(6):1841?1854.
[13] QIAN L, YE F, GAO L. Spectrum trading in cognitive radio networks:an agent?based model under demand uncertainty [J]. IEEE Transactions on Communications, 2011, 59(11): 3192?3203.
[14] LUNDEN J, KOIVUNEN V, KULKARNI S R, et al. Reinforcement learninng based distributed multiagent sensing policy for cognitive radio networks [C]// Proceedings of IEEE International Symposium on New Frontiers in Dynamic Spectrum Access Networks. [S.l.]: IEEE, 2011: 642?646.
[15] WU C, CHOWDHURY K, FELICE M D, et al. Spectrum management of cognitive radio using multiagent reinforcement learning [C]// Proceedings of the 9th International Conference on Autonomous Agents and Multiagent System. Richland, SC: [s.n.], 2010: 1705?1712.
[16] LI H. Multiagent Q?learning for aloha?like spectrum access in cognitive radio system [J/OL]. [2010?05?23]. http:// www.oalib.com/paper/2894239.