陆泽健++刘筱++秦永刚++潘越
摘 要:雷达组网协同探测是当前应对多种威胁目标的重要手段,文章将认知管控技术引入到组网探测系统中,通过赋予系统感知外部环境、学习、推理并做出有效判断的能力,能够使雷达网络有效应对复杂多变的战场环境,提升系统反应能力,最大化探测效能。
关键词:雷达组网;认知;管控
1 概述
雷达组网探测利用探测系统在空域上空间分集、频域上频率分集、极化域上极化分集、时域上信息互补、信息域上信息融合的优势,来突破单一装备对非合作目标探测存在的局限性。随着组网探测系统在军事预警探测领域的广泛应用,如何有效的利用有限的雷达资源,实现对国土及边境24小时不间断监测、快速应对突发事件,已经成为雷达网络系统面临的重要挑战之一。
认知控制技术结合脑科学与人工智能技术,能够赋予雷达组网系统智能感知外部环境、学习、推理并做出有效决策判断的能力,使雷达系统有效应对外部复杂的战场环境[1-2]。与传统雷达组网资源“开环管控”模式不同,认知管控强调“感知-学习-决策-行动”的反馈闭环,同时赋予雷达网络存储、记忆的能力。近年来,Haykin教授在人脑认知的机理上,提出并发展了动态认知系统(Dynamic Cognitive System,DCS)概念[3],为认知系统的构建提供了理论的支撑。一个典型的动态认知系统如图1所示。
2 雷达组网资源管控基本内容
雷达组网资源管控包括空间管理、模式管理、时间管理、能量管理、附属资源管理等诸多方面的内容[4]。在雷达组网预警探测系统中,雷达资源管控与信息融合是密切相关、互相对应的。JDL模型是数据和信息融合领域最通用的模型,它将数据和信息融合的级别分为威胁评估、态势评估、目标评估以及信号评估四个层次[5]。与之相对应,雷达资源管控也可以分为四层:任务规划、资源分配、激励器调度和信号产生[6]。JDL模型与雷达资源管控模型的对应关系如图2所示:
雷达组网资源管控的基本内容如下:(1)第3级管控(level3):顶层任务规划,包括对资源优化管理周期的设置、探测目标选择、目标环境分析、保卫资产设置、任务优先级、资源状态监测与评估、探测效能评估等功能;(2)第2级管控(level2):多传感器资源分配,主要指不同传感器之间的资源调度与协同工作,包括资源优化部署、多目标跟踪中雷达选择、目标分配、目标交接等;(3)第1级管控(level1):传感器资源安排,主要包括探测空域设置、时域设置、工作模式设置、频率设置等;(4)第0级管控(level0):针对单个雷达的波束调度、波形、调制样式、极化方式、功率分配、脉冲宽度等参数进行管理和优化设置。
3 雷达组网认知管控系统架构
基于动态认知系统理论以及雷达组网资源管控的基本内容,本文提出的雷达组网认知管控架构如图3所示。
在认知管控架构中,雷达网络通过传感器对物理环境的探测,形成对真实环境的描述,在此基础上学习、分析得出感兴趣的探测区域以及目标,结合传感器状态通过智能规划自适应生成各类探测行动策略以及感知行动策略,完成资源管控闭环。系统各部分功能如下:
感知组合:通过传感器组合实现对物理环境的量测,同时基于量测数据生成目标运动状态以及信息熵状态。目标运动状态表示目标运动物理轨迹,而信息熵状态则描述外部环境的“不确定性”。必要的时候,感知组合接受认知控制模块的调节,完成认知雷达系统的“内反馈”。在感知部分可调节的雷达资源包括目标运动模型、滤波模型、杂波模型、检测门限等。
存储及记忆:雷达测量数据中往往包含着对环境的重要信息,这些信息可能给当前以及今后的探测提供重要的帮助,因此雷达网络必须存储这些信息。记忆是在存储基础上建立起的对环境、对系统自身工作的知识、规律的总结,包括感知记忆以及行动记忆。前者表示对环境的认知(例如先验检测概率)以及对感知系统参数调节的记录,后者表示对每一次调度策略及其效果的记录。根据需要记忆又可以分为短期记忆以及长期记忆,后者主要是指各种算法、知识、规律等。
认知控制:认知控制是认知雷达网络系统的“大脑”,是完成反馈闭环的中枢。认知控制通过分析感知系统对物理环境的不确定性描述(信息熵),结合过去的“记忆”,把认知雷达网络系统中有限的资源集中到感兴趣的区域以及目标上,实现探测效能的最大化。认知控制主要包括学习、规划以及评估三大功能。学习是基于探测的信息熵,确定感兴趣的区域以及目标;规划是通过各种智能算法对认知网络有限的资源进行动态调度,生成或更新应对策略;评估是实时在线对生成的策略进行评估分析。认知控制可以实现对探测资源的管控(探测行动策略),也可以实现对感知资源的管控(感知行动策略),甚至还可以通过调整数据率等参数实现对系统网络带宽以及计算资源的管控。
探测组合:探测组合接受认知控制生成的探测行为策略,调度合适的雷达资源对物理环境进行探测。可以管控的资源包括探测装备的选择、探测天线组合、雷达工作模式、波束分配、波形、频率、功率等。
4 雷达组网认知控制关键技术
认知管控的目的是在不降低当前系统整体探测性能的前提下,自适应将系统有限的资源调度到感兴趣或者重要的区域以及目标上,提高对重点区域或目标的探测能力。从上一节的分析可以看出,认知控制关键的步骤是要完成“感知-学习-决策-行动”的闭环,而完成这一闭环的基础在于对真实物理环境的恰当描述以及对环境、策略的反馈学习。
4.1 对真实物理环境不确定性的描述
在传统的雷达组网系统中,每部雷达上传的是目标的点迹或者航迹信息,而点迹、航迹等信息仅仅是对目标的物理描述,缺乏对真实世界“不确定性”的描述。为此,需要借助香农理论从信息熵的角度描述传感器网络对于目标探测信息量的大小。传感器网络每次探测目标的信息增量 定义为:
其中p、q分別为某事件的先验概率、后验概率,pi,i=1为N个事件的离散概率,则先验概率对应的信息熵定义为:
若pi=qi,则I(q,p)=0,表示本次量测没有提供任何信息,若pi≠qi,则I(q,p)≠0,则说明本次量测提供了新的信息。传感器的目的就是与目标环境互相作用,以进一步减小目标环境的“不确定性”。
4.2 基于贝叶斯理论的目标环境状态估计技术
由于在雷达检测跟踪过程中不可避免的存在量测噪声,因此需要对量测数据进行一定的处理,以准确估计目标环境状态。贝叶斯理论能够依据积累的经验值以及当前的量测值,准确估计目标的运动状态,因此被广泛应用于多目标检测跟踪过程中。设定zk为量测的数据向量,xk为目标环境状态向量,则依据贝叶斯理论有:
贝叶斯理论表明了后验概率与先验概率以及当前量测值的关系。典型的贝叶斯滤波器是卡尔曼滤波器。卡尔曼滤波器精度高,并且具有一定的自适应特性,因而是跟踪滤波中最常用的方法。但在实际系统中,观测模型往往具有较强的非线性,且模型噪声可能存在非高斯的情况,因而须使用非线性滤波方法。通过对量测数据的滤波,不仅能够给出目标的运动轨迹,也能够计算目标的信息熵,这是因为在滤波过程中协方差矩阵表示的是目标状态的不确定性,通过对每一次观测更新协方差矩阵,减少目标环境的不确定性,使信息量增加。
4.3 传感器网络自主学习技术
具备自主学习技术的传感器网络能够根据每次量测的数据完成对目标环境的学习,在此基础上采用合适的传感器组合策略并对策略进行实时在线评估。本文采用增强学习方法实现雷达组网系统自主学习的能力。增强学习算法能够使机器与环境进行自主交互,通过感知数据完成对目标环境学习、规划与评估功能,因此十分适合于实现认知控制的反馈闭环。在认知系统中,目标环境通常可以建模为一个有限状态的马尔科夫决策过程(Markov Decision Process,MDP)。在MDP中,状态转移概率和奖励概率在是随机的但在问题求解过程中保持不变。增强学习的问题可以定义为:给定环境状态集合S,认知系统行为集合A,奖励集合R,求解一系列决策规则δt,t=1,...,T,使得当前的收益与期望的收益最小化。在t时刻,决策规则δt也称为策略。
基于增强学习的传感器控制闭环如图4所示。在第k个管控步骤,传感器组合不断的从目标环境获取量测数据,在此基础上计算k时刻目标的信息熵Hk,并结合先验的知识预测k+1时刻目标的信息熵Hk+1,信息增量模块计算两个时刻的信息增量Ik+1,作为增强学习的奖励函数。传感器控制模块根据信息增量Ik+1来动态调整探测策略,选择合适的传感器组合对目标环境进行探测,从而完成“感知-学习-决策-行动”的管控闭环。
5 结束语
当前,世界上多个国家都在积极发展各种新型威胁武器,这些新型目标给传统的防空雷达组网系统造成了很大的威胁。为有效应对这些新型非合作目标对我国领土的威胁,需要进一步提高传统雷达网络的智能协同能力,才能充分发挥体系作战的力量。认知管控技术通过对感知信息的智能处理,可以协助帮助鉴定一系列的国土突发威胁,包括可疑目标行动、非法入境、低空飞行器以及自然灾害等事件,同时实现雷达资源的自适应分配、调整,进而提升雷达组网探测网络的整体作战效能。本文结合雷达组网资源管控的基本内容以及动态认知系统的基本理论,提出了一种雷达组网认知管控系统架构,并对认知控制的关键技术进行了研究,为雷达组网认知系统的构建提供了理论依据。
参考文献
[1]HaykinS., Cognitive radar: a way of the future[J].IEEE Signal Processing Magazine, 2006, 23(1):30-40.
[2]HaykinS., Cognitive radar networks [C].Computational Advances in Multi-Sensor Adaptive Processing, 2005 1st IEEE International Workshop on, 2005:1-3.
[3]HaykinS., FusterJ.M., On cognitive dynamic systems: Cognitive neuroscience and engineering learning from each other [J].Proc. IEEE, 2014, 102(4): 608-628.
[4]叶朝谋,丁建江,等.雷达探测资源管理技术分析与评估[J].现代雷达, 2012, 34(3):6-11.
[5]Steinberg, A., Bowman, C., Rethinking the JDL Data Fusion Levels[C].in Proc .National Symposium on Sensor Data Fusion, 2004.
[6]Felix Smits, Albert Huizing, Wim van Rossum, Peter Hiemstra, A Cognitive Radar Network: Architecture and Application to Multiplatform Radar Management[C].Proceedings of the 5th European Radar Conference, 2008:312-315.
作者简介:陆泽健(1986,08-),男,2015年获得北京邮电大学博士学位,目前為中电集团电子科学研究院在站博士后,主要研究方向为多传感器信息融合、认知系统以及智能优化理论和方法。