谭红春,杨松涛,阚红星
(安徽中医药大学医药信息工程学院,安徽合肥230012)
目前我们广泛使用的P2P(Peer-to-Peer)技术即对等网络,打破了以服务器为中心的C/S(Client/Server)传统模式[1],充分利用了网络带宽和广泛分布的网络资源,改变了信息的传输方式,减轻了服务器的负担,比传统的C/S模型有更好的健壮性、稳定性、可扩展性以及更高的性价比[2,3].这使得P2P应用日益广泛,流量迅速增长.据统计,我国的P2P流量占整个网络流量的比例大约为40%到70%[4,5].校园网主要用户为行政人员、教研人员及学生,这些用户可以通过网络获取教学信息、最新研究成果和各类数据库资源.
我们在一段时间内对校园网中的流量进行了统计,在这期间,总共统计出13种服务类型,位于前3位的服务分别是P2P服务、流媒体服务[6]、传统服务,其中P2P服务约占52.11%,而其他服务只占到很少比例.这说明P2P流量严重吞噬了校园网的带宽,损害了正常业务的通信,影响了广大师生的利益.
图1 服务大类流量分布情况及对应饼图
P2P流量的有效识别是进行网络控制的基础,P2P识别的过程其实就是一个具体的分类过程,下面是分类过程的定义:
定义:给定一个数据集F={x1,x2,…xi}和一组类E={E1,E2,…Ej},分类就要将每个元组xm对应到每一个类中,即确定一个映射f:F→E.其中所有的元组都属于每一个类En,即 En={xm∣ f(xm)=En,1 < =m < =i且 xm∈F}.
在本文设计的P2P流量检测方法中,我们预处理数据库F={x1,x2,…xi},并抽取其中第m条网络流,形成元组xm.根据类E的不同,映射f:F→E得到的结果也各异,所以本文总结出P2P流量识别主要包括两个方面:
首先从P2P应用的自身特点来分类,在这个方面来说,一般类E的大小j>2,其中最具代表性的就是根据著名端口号和应用层特征签名进行识别.
其次,从P2P流量跟非P2P流量的行为特征加以识别,在这个方面来说,一般类E的大小j=2,其中最具代表性的就是其为流量特征.
我们所讲的端口即TCP或UDP端口.互联网数字分配机构将端口分为3种:知名端口、用户端口和动态端口.通过对端口的识别,可以区分出应用层的各种应用,其中包括使用固定端口的 P2P应用,比如 BT使用6881-6889[7],EDonkey 使用 4661 和 4662[8]端口.
DPI即深层数据包检测技术,它是基于应用层的“特征字”的检测方法,通过对IP包头的解析,读取相应的荷载内容.此种方式需要维护一个payload特征库,此特征库可以建立在前人的基础上,也可以以人工的方式自动提取.根据解析出来的特征码,再加上适当的模式匹配算法,符合的流量就可判断为 P2P 流量[9-11].
为了弥补深度数据包检测技术的缺陷,深度流检测技术对加密的、未知的以及复杂的难以提取特征码的流量,进行行为检测.检测标准是根据不同的数据流具有不同的行为特征,即数据流或会话链接上会呈现的不同的行为方式.本文选取两种典型的行为特征作为检测标准:
(1)地址识别法.当节点S与对等网络的其他节点进行通信时,该节点会将自己IP地址和监听端口告诉超级节点或索引服务器,超级节点或索引服务器再将S的加入信息及IP地址、监听端口号告诉网络中的其他主机.在后续的查询和下载过程中,其他主机在连接S的监听端口时将随机选择一个源端口,由于不同主机选择到一样源端口的概率相当低,所以与S的监听端口相连的源端口号基本不会重复.在具体实现上,要连续记录此S节点所链接到的每个源地址、源端口号,我们分别记为S_IP和S_PORT,如果这两个数量相差小于等于10,则我们认为是P2P流量.
图2 IP_PORT通信图
(2)参与P2P网络进行通信的节点既充当服务器的角色又充当客户机的角色,在通信端口的流量具有如下性质:
既有大量流入的连接(被其它节点连接其监听端口),又有大量流出的连接(连接其它节点的监听端口).上行流量和下行流量基本相同.一般的网络协议,如HTTP、FTP等,大致都是客户机向服务器提出申请,这个流量非常小,有几十到几百字节大小,然后服务器传输给客户机所需要的数据(几十兆或上G),上行流量与下行流量远远不等.当此节点不参与P2P时,要么只做服务器,要么只做客户机,其出入连接必定不平衡.通过上述性质,我们做如下工作:
对可能参加P2P通信的节点S的端口在一定时间T的统计,当某个端口的入流量和出流量的比值在一个区间时,就认为这个端口是P2P端口,其端口上的所有连接都是P2P连接.
本文的P2P流量检测系统中,为了达到高效率的识别结果,进而对流量进行有效控制,针对上述分析的几种检测方法,我们将DPI和DFI技术相互结合,提出了一种综合的、多重的检测手段,模型包括端口检测、深度数据包检测和深度数据流检测3个基本模块.其示流程图如图3所示.识别的过程:首先对使用固定端口的P2P流量进行检测;其次对未能检测出来的数据流再比对特征值来加以判别;最后,对于加密的未知的P2P流,再根据节点在传输层表现出来的特征来判断.
图3 综合流量检测流程图
本系统P2P流量检测算法如下:
(1)报文被送到检测引擎后,首先进行端口检测,如果使用的是知名端口,如http服务的80端口,ftp服务的21端口等,则直接转到第5步,如果使用的是已知的P2P端口,则直接转到第4步.如果都识别失败,则转入下一步.
(2)采用端口检测如果不能识别,则转到此步深度数据包检测,对识别出来的P2P流量进行分类,并根据相关数据格式存储在数据库中,为以后的统计分析做好准备,如果识别不出来,则转入下一步.
(3)深度数据包检测没有识别出来,则根据传输层两个流量特征进行识别,采用我们提出的检测算法对流量进行识别,如果识别出来,则转入第4步.否则转入第5步.
(4)流量被识别出来以后,则根据相应的控制策略采取措施.
(5)对常规业务和未检测出来的流量进行放行操作.
针对本文提出的算法,系统采用PHP开发语言,数据库采用MYSQL,整体架构在微软平台上.系统具体流程为数据包的采集、端口检测、DPI检测和DFI检测.常见端口的设置,输入一些公认端口,比如http服务的80端口,ftp服务的21端口等;特征比特串的设置,尽可能的输入所有目前发现的特征值,比如迅雷的特征值:“POST/HTTP/1.1”,BT的特征值:“0x13B itTorrent”等;流量特征的检测,采用本文提出的两种行为特征.本系统经过一段时间的运行,效果明显,图4就是本系统的运行结果截图.
图4 流量检测实时结果
在理论结合试验的基础上,作者感觉到此模型还有一些不足之处,有以下几个方面需要进一步的探讨和改进:
(1)对检测出来的P2P流量没有进行进一步的分析,其有效性和正确性还有待验证.
(2)本文提出的多重检测方案,还可以结合其他如机器学习、人工神经网络等识别手段则更高效准确.
(3)本模型测试的环境是百兆的校园网,如果采集数据的环境变成千兆或更大时,本模型要能灵活应对,从而满足各种环境的检测.
[1]闫佳,应凌云.结构化对等网测量方法研究[J].软件学报,2014,(6):1302-1305.
[2]韩淑芳.基于P2P技术的网络应用及分析探讨[J].电子技术与软件工程,2013,(15):13.
[3]林维锵.中小型校园网流量的控制方法[J].武汉工程大学学报,2011,(4):97-98.
[4]唐红,黄鼎.通用Bittorrent模拟器研究[J].计算机工程与应用,2011,(15):130-133.
[5]李致远,王汝传.一种基于机器学习的P2P网络流量识别方法[J].计算机研究与发展,2011,(12):2253-2255.
[6]郑艺芳.基于HTTP的P2P流媒体直播系统构建[J].长沙大学学报,2012,(2):43-46.
[7]Yuan R,Li Z,Guan X,et al.An SVM-based machine learning method for accurate internet traffic classification[J].Information Systems Frontiers,2010,(2):149-156.
[8]M Soysal,E G Schmidt.Machine learning algorithms for accurate flow-based network traffic classification:Evaluation and comparison[J].Performance Evaluation,2010,(6):451-467.
[9]李彬彬.基于流量特征的P2P应用分析与控制[J].北京交通大学学报,2010,(8):32-36.
[10]刘剑刚,秦拯.基于多重特性的P2P流量识别方法[J].微计算机信息,2010,(33):69.
[11]熊殿华.一种结构化P2P网络中的动态协作缓存策略[J].计算机与数字工程,2010,(1):58.