浅谈模式识别在流量建模中的应用

2016-11-30 01:51刘恩亚
数字通信世界 2016年5期
关键词:信源模式识别数据包

刘恩亚,王 刚

(国家无线电监测中心,北京 100037)

Radio Wave Guard

浅谈模式识别在流量建模中的应用

刘恩亚,王 刚

(国家无线电监测中心,北京 100037)

本文简介了模式识别的概念、研究场景分类以及常用的模式识别方法,并针对移动通信系统性能仿真中的信源流量建模环节,探讨了模式识别在传感器网络流量建模中的应用。

模式识别;传感器网络;流量建模

1 引言

模式识别是人类的一项基本智能,早在远古时代,人类的祖先就已经掌握了“模式识别”。随着20世纪40年代计算机的出现以及50年代人工智能的兴起,利用计算机进行模式识别逐渐发展并成为一门新兴学科,研究掌握模式识别方法对于解决通信系统中的科研和工程问题将大有裨益。

2 模式识别在传感器网络信源建模中的应用

通常为考察一个通信系统的网络接入性能,需要通过信源建模来获取“取之不竭”的数据流量。信源数据流量建模可以从两个方面考察:

一方面,移动终端以一定的时间间隔发送一定大小的数据包,时间间隔可以是一个固定值,也可以是一个随机数。若为固定值,则移动终端为周期性发包;若为随机数,则需掌握随机数服从的概率密度分布。数据包大小(包长)也是同理,可以是等长的数据包,也可以是服从某概率密度的随机数。从这个角度分析得到的模型,一般称之为ON/OFF模型,ON通常指包长,OFF通常指两包之间的时间间隔。

另一方面,可从较大的时间尺度上去考察移动终端的发包情况。若等间隔地观察一段时间内的发包状况,在每一个时间采样点上记录包长,若无包则记为0,那么我们得到的就是一个时间序列。通过时间序列建模即可模拟“信源”。时间序列建模有着比较成熟的研究方法,如AR模型、MA模型、FARIMA模型等[5]。

下面,我们将研究场景聚焦到传感器网络。

图1 传感器网络结构示意图

图1是传感器网络结构示意图,黄色的节点即为传感器节点(即移动终端),该类节点定期或随机地发起发包的接入请求等;绿色的节点为汇聚节点,在分层的网络结构中,下层节点的数据汇聚到上层节点,上层节点再汇聚到基站端。针对前述场景,我们可以利用模式识别思维提出一个传感器节点数据包建模方法[4]。

2.1 数据包流量(Packet Traffic)建模基础

数据包流量建模的任务就是要找到流量中的统计不变量,并以此来识别不同类型的数据。描述数据流量特征的参数可以大致分为三组,如表1所示。

表1 数据包流量特征分类

通过以上一组或几组特征我们即可模拟不同类型的数据包流量。

2.2 节点流量建模

节点流量建模常用两种方法[4]:依据发包顺序建模、依据源流量建模。我们重点讨论如何依据发包顺序来建模。

在通信协议中,信令交互均已预定义,例如:路由回复(RREP)总是在路由申请(RREQ)之后发出。对于一个特定的节点而言,它本身有着自身独特的发包序列,我们可据此建模。

2.2.1 数据包分类

可以用一个单字节的ASCII码来对包进行分类,这样通过一个特定的ASCII码序列我们即可获得该节点的包序列。

我们可以根据“信源-信宿”地址{Src,Dest}来分类。将实际的地址空间映射到了一个抽象的更为简化的地址空间,该简化的地址空间共有五个实体(entity):{me;neighbor;local;unlocal;sink/ cluster head}:

Me是当前被研究的节点;Neighbor是与当前研究节点距离为一的节点;Local是在路由建立过程中已经被当前节点知晓的本地其他节点,路由成功建立后,所有节点均会被标记为local;Unlocal通常用于标记外部入侵的节点;Sink/Cluster Head是信宿/汇聚节点。

2.2.2 数据包映射

为了简便起见,已分类的包可被进一步映射到一个单字节的ASCII码。以图2中第一个数据包为例:该包由地址为15的信源发给地址为00的信宿,包类型为RREQ。按照4.2.1给出的地址空间,该包的三项信息可表达为Local-Sink-RREQ,根据映射表,“Local-Sink-RREQ”这个类型的包可用单字节的ASCII码“A”来表示。通过这种映射,我们可以把包序列看作一个字符串序列。

图2 包序列建模映射

2.2.3 模式提取

为了研究并模拟包序列,我们可在映射得到的字符串序列中提取模式。详尽的提取算法可以参考相关文献[6][7],此处仅举一例:令子序列的长度k为4,样本字符串为AABBDCC,则我们得到的模式集为:AABB,ABBD,BBDC,BDCC。通过研究子序列之间的相互关系,我们即可建模模拟该信源。如果考虑k取不同值,我们将得到不同长度的模式集。为避免模式集过于复杂,可增加限制条件,如仅考虑那些出现了两次以上的模式,起到给模式集瘦身的效果。

3 结束语

本文首先讨论了模式识别的定义,在此基础上进一步介绍了模式识别常用的四种方法:模板匹配、统计分类、结构匹配以及神经网络。结合通信系统的具体场景,介绍了利用模式识别进行数据包建模的思路。在当今的大数据时代,模式识别作为一种数据分析手段,研究方法日臻完善,应用场景更加广泛。这就鞭策着研究者们不但要从深度上钻研更好的方法,同时还要从广度上纵横捭阖,学科之间相互学习借鉴,共同繁荣。

[1] Larry O’Gorman,What is Pattern Recognition? www.iapr.org/docs/ newsletter-2003-01.pdf

[2] Anil K.Jain,Robert P.W.Duin and Jianchang Mao,Statistical Pattern Recognition:A Review,IEEE Transaction on Pattern Analysis and Machine Intelligence,Vol.22,No.1,January 2000

[3] V.N.Vapnik,Statistical Learning Theory,New York:John Wiley &Sons,1998

[4] Qinghua Wang,Packet Traffic:A Good Data Source for Wireless Sensor Network Modeling and Anomaly Detection,IEEE Network,Vol.25,Issue 3,May/June 2011

[5] Jiakun Liu,Yantai Shu,Lianfang Zhang,FeiXue,Yang,O.W.W.,Traffic Modeling based on FARIMA Models,1999 IEEE Canadian Conference on Electrical and Computer Engineering

[6] S.Forrest et al.,A Sense of Self in Unix Process,Proc.1996 IEEE Symp.Security and Privacy,May 1996,pp.120-28

[7] S.Hotmeyr,S.Forrest,and A.Somayaji,Intrusion Detection Using Sequences of System Calls,J.Comp.Security,vol.6,1998,pp.151-80

[8] 边肇祺,张学工等编著.模式识别(第二版).北京:清华大学出版社,2000

A Brief Introduction of Pattern Recognition and Its Application in Traffic Modeling

Liu Enya,Wang Gang
(The State Radio Monitoring Center,Beijing,100037)

Pattern recognition is widely used in computer science.This paper presents an introduction to pattern recognition,concerning its concepts and common methods.In order to apply pattern recognition in simulation in mobile communication systems,an example of traffic modeling in wireless sensor network is illustrated.

Pattern Recognition;Wireless Sensor Network;Traffic Modeling

10.3969/J.ISSN.1672-7274.2016.05.021

TN911.72 文献标示码:A

1672-7274(2016)05-0066-03

刘恩亚,硕士研究生,助理工程师,现就职于国家无线电监测中心。

王 刚,硕士研究生,助理工程师,现就职于国家无线电监测中心北京监测站。

猜你喜欢
信源模式识别数据包
基于极化码的分布式多信源信道联合编码
基于Jpcap的网络数据包的监听与分析
SmartSniff
UPLC-MS/MS法结合模式识别同时测定芪参益气滴丸中11种成分
第四届亚洲模式识别会议
信源自动切换装置的设计及控制原理
灾难传播中的媒体人微博的信源结构分析
——以鲁甸地震相关新浪微博为例
第3届亚洲模式识别会议
电气设备的故障诊断与模式识别
基于Matlab的信源编码实验系统的设计