张宗恕,路正国
(1.装备工程技术研究实验室,河北 石家庄 050081; 2.河北师范大学 附属民族学院,河北 石家庄 050011)
基于粗糙集的多源通信网络信息分析方法
张宗恕1,路正国2
(1.装备工程技术研究实验室,河北 石家庄 050081; 2.河北师范大学 附属民族学院,河北 石家庄 050011)
针对通信对抗多源传感器获取的通信网络信息挖掘问题,对通信信号外部技术特征和内涵信息进行形式化表示,根据传感器处理信息深度建立了域数据模型。深入分析了通信信息数据挖掘准备的方法,基于域数据模型和粗糙集理论,采用决策表分解知识发现的方法提取规则,对复杂通信网络信息挖掘过程进行了基于规则的非机理指示建模,按信号体制分类对通信网络信息挖掘模型进行组织,构建了基于规则的知识系统,应用粗糙集理论和方法实现了通联关系的挖掘,并提出了对数据挖掘模型的评价方法。
通信对抗;多源传感器;粗糙集;域数据模型;网络信息挖掘;决策表分解
通信对抗[1]是电子战的重要内容之一。及时、准确、全面地提供通信对抗情报[2],是保证有效实施通信对抗的先决条件之一。通过多种传感器集成,是全面获取通信设备系统和通信网台的战术技术情报,从中分析出对手通信态势和薄弱环节,掌握对手通信网台的重要目标,做到知己知彼,使行动计划有充分依据的重要途径[3]。
多种传感器集成面临日益严峻的“数据丰富、信息缺乏”问题。考虑到通信对抗信息挖掘数据的多样性、过程的复杂性,难以用精确模型表示,本文基于粗糙集理论[4]和域数据模型[5],构建基于规则的知识系统,不需要对过程进行数学描述,而是对过程进行经验总结,依据信号分类,将操作员的日常经验总结形成“if…then…”的规则集合,构造粗糙集,利用决策表对规则进行分解,提出形成知识,并给出规则有效性评价方法,利用粗糙集在分析处理不完全、不精确和不一致数据中所具有的优势,将粗糙集方法应用于通联关系的挖掘。
传感器对通信信号能够获取的外部技术特征[6]和内涵信息形式化表示可以记为s(t),一般包括:频率参数、调制参数[7]、编码参数、解调信息、解码信息(包括还原信息)和时空信息等。
其形式化表示为:
(1)
其中,频率参数记为:
(2)
式中,SF(t)=SingleFP(F,B,L,t),表示单载波频率特性,其中F为频率,B为带宽,L为信号电平,t为测量时间;MF(t)=MultiFP(FNum,F,Space,SubBand,t),表示多载波频率特性,其中FNum为子载波波数,F为起始子载波频率,Space为子载波间隔,SubBand为子载波带宽,t为测量时间;HF(t)=HopFP(FNum,FSet,SubBand,t),表示跳频频率特性,其中FNum为跳频点数,FSet为跳频频率集,SubBand为跳频带宽,t为测量时间。
调制参数与解调参数一致,记为:
(3)
式中,SWM(t)=SingalWaveMP(MT,MM,MH,FOffset,R,t),表示单载波调制特性,其中MT为调制类型,MM为调制阶数,MH为调制指数,FOffset为频偏,R为符号速率,t为测量时间;MWM(t)=MultWaveMP(SubMT,MM,R,…,t),表示多载波调制特性,其中SubMT为子载波调制类型,MM为调制阶数,R为子载波符号速率,t为测量时间;HFM(t)=HopFreqMP(HSpeed,STime,MT,R,B,DR,t),表示跳频调制特性,其中HSpeed为跳频速率,STime为驻留时间,MT为调制类型,R为符号速率,B为带宽,DR为占空比,t为测量时间。
编码参数记为:
CP(t)=CodeParam(CL,CW,CType,CParam,IL,…,t),其中CL为码长,CW为特征字,CType为编码类型,CParam为编码参数,InterL为交织参数,t为测量时间。
解调信息记为:
(4)式中,ADI(t)=AnalogDInfo(IDAddress,t),表示模拟调制信息,其中IDAddress为呼号地址码等身份信息,t为测量时间;DDI(t)=DigitalDInfo(AddressCode,DCode,t),表示数字调制信息,其中AddressCode为地址码、身份码等信息,DCode为解调码流,t为测量时间。
解码结果记为:
DP(t)=DecodeInfo(Type,Te,P,V,SA,TA,t),
(5)
表示解码信息,其中Type为信息类型,Te为文本信息,P为图象信息,V为声音信息,SA为源地址,TA为目标地址,t为测量时间。
时空特性记为:
(6)
表示获取信号的时间、方位信息,其中SP为观测点地址,Az为方位角,El为仰角,Lo为经度,La为纬度,ST为开始时间,ET为结束时间。
对传感器s(t)多次获取的信号信息可以记为:
(7)
域的概念通常被用于对信息管理系统中的行为特点进行抽象和划分,把具有某些共同特性或作用范围的行为抽象成一个域。域数据模型把数据的归属作为共性之一,把数据的可访问范围作为抽象依据,把一定的数据结构作为被管理目标,那就把域的特征和数据模型的特征结合起来。
传感器获取的通信信号信息一般按域进行组织,即按传感器对数据的处理深度和处理过程进行组织,充分考虑传感器应用领域的组织结构和数据的归属、访问控制等方面的特点。通信信息的域数据模型的构建如下:
(8)
(9)
(10)
(11)
(12)
(13)
在挖掘前需要进行数据准备[8],数据准备是对相关数据的基本属性进行传输、抽取、清洗、转换和加载等处理,使得源数据满足数据挖掘方法模型的需要。
对多次接收的信号sj,进行通信网络信息挖掘数据准备,需要经过信号关联、信号归并和信号野值剔除。
信号关联是指在对信号监视过程中,需要判断监视的为同一个目标信号,或者判断本次监视信号与以前出现的信号为同一个目标信号。
信号关联可以表示为:
(14)
式中,
(1) 以频率作为关联条件,可以分为以下几种情况:
① 单载波的频率关联,其关联条件为:
(15)
式中,ε为频率测量误差门限。
② 多载波的频率关联,其关联条件为:
(16)
即以FNum子载波波数、F起始子载波频率、Space子载波间隔和SubBand子载波带宽等多载波参数作为关联判断条件。
③ 跳频的频率关联
(17)
即以FNum跳频点数、FSet跳频频率集和SubBand跳频带宽等跳频频率参数作为关联判断条件。
(2) 以调制参数作为关联条件:
CM=CMod(Si(t),Sj(t))=
(18)
(3) 以编码参数作为关联条件:
CCP=CCodeParam(Si(t),Sj(t))。
(19)
(4) 以解调信息作为关联条件:
CDP=CDemod(Si(t),Sj(t))。
(20)
(5) 以解码结果作为关联条件:
CI=CDecodeInfo(Si(t),Sj(t))。
(21)
(6) 以空间方位位置作为关联条件:
CST=CTimeSpace(Si(t),Sj(t))。
(22)
信号归并:主要是对数据集合的合并与索引,即对各传感器获取的辐射源参数信息按照传感器、通信体制和通信网络进行统一编批;对辐射源数据进行一致性检验、纠错及去重复处理;管理传感器多次获取的同一批号的数据;根据传感器持续获取的同一批号数据进行处理,完善辐射源属性信息、参数信息及位置/方位信息,并对多次分时获取的信源信息进行拼接接续。
信号野值剔除:一般通过与观测量均值偏差的大小来判断野值并剔除,表示如下:
(23)
式中,Ave(S(t))为信号观测量均值。
对不同体制的信号,其关联判断条件是不同的,需要根据不同的通信体制、通信网络选取。
建立数据挖掘模型的目标是从海量数据中发现未知的有价值的新知识或规律。数据挖掘是包含多个阶段的知识发现过程,可能包括数据预处理阶段、数据挖掘算法的应用阶段、对挖掘结果的评估阶段以及最终挖掘模型的可视化处理阶段。
数据挖掘方法模型根据应用场合分为:通用模型和专用模型。
通用模型是针对通用问题所建立的适用于多个应用场合的数据挖掘方法模型。例如,上述的信号关联、信号归并、信号野值剔除即为常见的通用模型。
专用模型是针对特定问题所建立的只适用于特定应用场合的数据挖掘方法模型。例如,对定频时分双工的话音通信组网的挖掘模型,图1描述了其通信交替过程和通信检测方法。
图1中,电台1与电台2的信道交替没有重叠,因此二者可以进行通信。
图1 对定频话音通信组网的挖掘模型
其信息关联特征为:① 频点的同频;② 调制方式相同;③ 时间的交替;④ 信息内容的相关。
针对定频时分双工的多个辐射源属于同一个网的必要条件可以表示为:CF,CM,CST,CI取值为真,可以将其用粗糙集理论的知识表示方式[9]为:
定义:信息系统[10]为:
S=(U,C∪D,V,ρ)。
(24)
式中,U={s1,s2,…,sn}表示传感器获取通信信息的集合;C=(CF,CM,CCP,CDP,CI,CST)表示条件属性集合;D为决策属性集合;V为属性值域,此种信息系统被称为决策表,信息函数ρ如表1所示。
表1 对通信网络数据的一个决策表
表1中,d1为定频时分双工的话音通联关系;dm为ALE通信通联关系。
在决策表中抽取规则的一般方法为:① 在决策表中将域数据的属性信息压缩得到压缩后的信息表,即删除多余域属性;② 对每一个对象及其信息中将多余的域删除;③ 求出最小约简;④ 根据最小约简,给出逻辑规则。
文献[11-12]给出了粗糙集理论对知识(或数据)的约简和求核的方法。对决策表抽取规则可以参考有决策情况的约简方法[13]。
数据挖掘模型选择[14]是在应用领域业务知识及数据挖掘专业知识的约束下,基于数据探索建立适应业务数据的建模过程。对通信对抗传感器获取的通信网络信息挖掘内容一般包括:
① 将数据按照平台及通信体制、通信网络进行分类处理,对各传感器获取的信号信息按照传感器、目标进行统一编批;
② 对传感器获取的数据进行一致性检验、纠错和去重复处理,管理传感器多次获取的同一批号的数据,根据传感器持续获取的同一批号数据完善目标属性信息、参数信息及位置/方位信息,并对多次分时获取的信源信息进行拼接接续;
③ 根据目标组网特性挖掘通联关系,生成通信网络,并根据传感器上报的不同目标间的通联关系,补充完善通信网络成员信息。
通信网络信息挖掘处理过程如图2所示。通信对抗信息挖掘可以被认为是一种从输入到输出的映射,将通信对抗信息挖掘模型看作一个盒子,输入变量经过这个盒子的变换,成为希望的输出。对于一些简单的系统,挖掘模型往往可以采用一些简单的数学公式来表示。但对于通信网络信息挖掘,难以用数学公式对系统加以表述,或者必须花费极大的代价才能求得精确的数学模型。此时,传统的过程建模方法就失去了作用。而在现实中,操作员没有精确的数学模型,但是通过经验积累和不断学习,却可以手动分析的很好,操作员的经验常常可以用“if…then…”的规则形式表达[15],这些规则常常是基于可以观测的系统状态和输出信号。
图2 通信网络信息挖掘处理过程
因此,对通信对抗信息挖掘可以通过构建粗造集,在信号分类的基础上,将规则理解为对数据的分类,利用已有的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)表达,用以发掘海量数据项之间的某种潜在关系。
对式(24)定义的通信对抗信息系统,可以将决策属性集合扩充到不同的通信系统D={d1,d2,…,dm},其信息函数如表1所示。
对不同通信系统的处理,可以利用粗糙集在分析处理不完全、不精确和不一致数据中所具有的优势,对复杂通信网络过程进行基于规则的非基理指示建模,在规则模型的基础上,将粗糙集方法应用于通信网络分析。
判断通信网络数据挖掘的有效性,可以从2个方面进行评价:① 便于控旧查新,快速识别新目标;② 便于深度分析,能够全面掌握通信网络情况。可以采用支持度和置信度对挖掘方法的有效性进行评价。
定义通联关系为C→D,则其支持度[16]为:
(25)
置信度[17]为:
(26)
这里支持度表示规则的频繁程度,支持度高,这种规则使用概率高,价值更大。置信度表示规则的可靠度,置信度越高,表示C→D的可能性越大。
粗糙集理论是一种通过等价关系和近似概念对数据进行约简以获取知识的方法。本文主要目的是利用粗糙集在分析处理不完全、不精确和不一致数据中所具有的优势,对通信网络挖掘过程进行基于规则的非基理指示建模,在规则模型的基础上,将粗糙集方法应用于通信网络信息挖掘,并给出了挖掘的有效性评价方法。在利用粗糙分析对大型数据表进行规则发现时,由于必要的条件属性很多,直接进行粗糙分析效率低且难以得到最小简约。考虑到各条件属性相对于决策属性的重要性有所不同,因此在对大型数据表进行规则发现时,可以研究对其进行分解,通过属性集的重要程度将数据表按对象划分,对分解得到的各个子表进行并行规则发现,以提高运算速度和规则质量。
[1] 高晓滨.先进的通信对抗系统[J].无线电工程,1997,27(6):1-3.
[2] 王海清.数据挖掘在情报侦察系统中的应用[J].无线电工程,2009,39(4):20-22.
[3] 苏春梅,何剑伟,李永刚,等.一种多传感器空情信息融合算法[J].电讯技术,2015,55(2):193-199.
[4] 张文修,吴伟志,梁吉业,等.粗糙集理论与方法[M].北京:科学出版社,2001.
[5] 赵 雷.域数据模型的研究与实现[D].苏州:苏州大学,2006.
[6] 王海清.战术通信网络的识别方法[J].无线电通信技术,2004,34(3):47-49.
[7] 陆满君.通信辐射源个体识别与参数估计[D].哈尔滨:哈尔滨工业大学,2009.
[8] 马 昕.粗糙集理论在数据挖掘领域中的应用[D].杭州:浙江大学,2003.
[9] 张文修,吴伟志.粗糙集理论介绍和研究综述[J].模糊系统与数学,2000(4):1-12.
[10] 关 欣,潘丽娜,张政超,等.基于粗糙集理论的雷达辐射源信号识别[M].北京:国防工业出版社,2015.
[11] 官礼和.基于Rough集的不完备信息处理方法研究[D].成都:西南交通大学,2012.
[12] 王永生.基于粗糙集理论的动态数据挖掘关键技术研究[D].北京:北京科技大学,2016.
[13] 裴小兵.粗糙集的知识约简研究[D].长沙:中南大学,2006.
[14] 高雅田.基于MAS的数据挖掘模型自动选择方法研究[D].大庆:东北石油大学,2011.
[15] 谭天乐.基于粗糙集理论的过程建模、控制和故障诊断[D].杭州:浙江大学,2003.
[16] 王庆东.基于粗糙集的数据挖掘方法研究[D].杭州:浙江大学,2005.
[17] 王加阳.面向海量数据的粗糙集理论与方法研究[D].长沙:中南大学,2005.
张宗恕 男,(1977—),高级工程师。主要研究方向:信息处理。
路正国 男,(1980—),讲师。主要研究方向:信息处理。
The Analyzing Method of Multi-source Communication Network Information Based on Rough Sets
ZHANG Zong-shu1,LU Zheng-guo2
(1.EquipmentEngineeringTechnologyResearchLaboratory,ShijiazhuangHebei050081,China; 2.InstituteforNationalities,HebeiNormalUniversity,ShijiazhuangHebei050011,China)
Aiming at the problem of the mining method of communication network information about the multi-source data of communication countermeasure,external technical features and connotation information are represented by formulae.According to the depth of the sensor processing information,the domain data model is established.The method of data mining preparation of communication information is deeply analyzed.On the basis of the domain data model and Rough Set theory,the rules are extracted by the method that decomposes the knowledge by the decision table.The information mining process of complex communication network is modeled based on non-mechanism rules.The communication network information mining model is organized according to the classification of the signal transmitting system.Knowledge system based on rule is constructed.The communication relationship is mined based on rough set theory and method.And the evaluation method of data mining model is analyzed.
communication countermeasure;multi-source sensor;rough set;domain data model;network information mining;decomposition of decision talbe
10.3969/j.issn.1003-3106.2017.05.01
张宗恕,路正国.基于粗糙集的多源通信网络信息分析方法[J].无线电工程,2017,47(5):1-5.[ZHANG Zongshu,LU Zhengguo.The Analyzing Method of Multi-source Communication Network Information Based on Rough Sets[J].Radio Engineering,2017,47(5):1-5.]
2017-02-09
河北省重大科技成果转化专项基金资助项目(14040322Z)。
TP391.4
A
1003-3106(2017)05-0001-05