LTE网络中业务识别方案的研究与实现

2015-05-05 01:59刘志强张治中
电视技术 2015年1期
关键词:解码决策树端口

刘志强,张治中

(重庆邮电大学 通信网与测试技术重点实验室,重庆 400065)

LTE网络中业务识别方案的研究与实现

刘志强,张治中

(重庆邮电大学 通信网与测试技术重点实验室,重庆 400065)

为了实现对长期演进(Long Term Evolution,LTE)网络的业务识别,分析了S1接口用户面协议栈,利用模块化设计思想实现了对S1接口流量的业务识别。针对传统业务识别系统识别度低、统计能力不强的缺陷,在传统的业务识别系统基础上,提出了一个多识别的业务识别方案,实现了对业务类型的精确识别。经过现网数据测试验证,所设计的多识别的业务识别方案达到了预期的效果,在LTE移动通信网络业务识别领域具有推广意义。

LTE网络;S1接口;流量识别;DPI;机器学习

国内LTE网络已经商用,在移动通信网络不断演进过程中,网络中的新业务也层出不穷,例如音视频聊天、流媒体播放、Web TV、线上游戏等。这其中有些新业务采用动态端口、伪装端口和加密技术,还有些新业务协议升级频繁,种种情况都导致网络缺乏有效的流量监管设备,运营商无法对网络运行进行有效的感知。

目前,国内外已经提出了很多业务识别的方法,但要实现高效、准确、智能地识别网络业务,且有较强的可扩展性,即能识别加密流量和未知流量,仅靠某种单个的识别方法已经不能满足。本文主要针对LTE网络S1接口的数据业务提出了一种多识别方式的业务识别方案,通过多种识别来解决单一识别无法识别复杂业务的问题,并从数据采集层、数据解码层、业务识别层、应用层4个层面描述了识别方案框架。该方案可以广泛应用于所有的业务识别场景中。

1 LTE网络S1接口

LTE网络由用户设备(UE)、演进的接入网(E-UTRAN)和演进的核心网(EPC)组成,E-UTRAN由基站(e Node B)组成,EPC由分组交换域组成(见图1)。

图1 LTE网络基本结构

S1接口在LTE网络中占据很重要的位置,它连接了E-UTRAN和EPC,对其进行研究可以充分掌握网络的整体运行情况,充分挖掘网络流量信息[1]。因此本文中提出的业务识别方案针对S1接口,通过监测S1接口的用户面数据,分析数据的业务类型。S1接口用户面的协议栈结构如图2所示。

图2 S1接口用户面的协议栈结构

2 多识别的网络业务识别方案

由于常规的网络业务识别方法具有很大的局限性,所以需要一个高效、准确、智能的业务识别方案来对LTE网络中复杂的业务类型进行识别。为此,本文建立了一个业务识别分层模型,见图3。

图3 LTE网络业务识别分层模型

数据采集层主要对接口数据进行采集,采用不同速率的采集技术,保证数据可以完整、可靠地传送至数据解码层。

数据解码层提供对原始数据的协议解析,向上层提供准确的原始数据信息,满足业务识别层对业务的感知和识别。解码过程采用从底到顶逐层解码的方式,提取需要的关键字段[2]。由图2中S1接口协议栈可知,解码的协议层次依次为:Ethernet协议、IP协议、UDP协议、GTP-U协议以及用户面IP协议、TCP/UDP协议以及应用层协议。数据解码层向上层提供原始呼叫详细记录(Call Detail Record,CDR),CDR中包含一些必要数据信息:IP五元组(源IP、目的IP、源端口、目的端口、承载协议)、净荷信息、分组长度、分组到达间隔、流持续时间等。这些信息由协议解码和合成获得,作为上层进行业务识别的依据。

业务识别层实现对业务类型的识别,主要依据为下层上传的CDR信息。识别过程中综合应用多种识别方法,这些识别方法包括端口匹配、深度包检测(Deep Packet Inspection,DPI)识别、连接模式识别、业务特性识别、机器学习识别等。该层向应用层提供的接口是业务识别CDR,组成为数据解码层上传的CDR+业务类型。具体识别流程如图4所示。

图4 业务识别流程

基本步骤如下:

1)首先采用端口匹配识别,可以完成固定端口业务的识别。用源端口或目的端口来查找端口映射表即可得到对应的业务类型。但随着越来越多的业务采用伪装端口或者随机端口(如80、443),仅靠端口识别的识别准确率越来越低。若为未知端口则可进行连接模式和业务特性识别,还可验证端口匹配识别结果。

2)未查询到结果则转到DPI识别模块进行查询,用各个特征字符串匹配建立的特征库,即可得到对应的业务类型。识别出业务类型后,更新数据流特征与业务类型映射表。

3)若仍未查询到结果则转到决策树识别,识别未知业务或加密业务,同时完成学习过程,不断修剪决策树,将业务类型纳入决策树中。

应用层包含运营商各种应用系统,比如经营分析系统、性能管理系统、业务分析系统等。数据解码层通过灵活的接口及转发功能将业务识别CDR提供给各个应用系统,为运营商的市场开发、精细化经营、差异化服务提供数据支持[3]。

为了验证方案的识别准确性,用实际网络数据对根据本方案开发出的业务识别系统进行了具体的测试。网络数据在中国移动重庆分公司网络上通过拨测采集得到。部分测试结果如表1所示。

表1 识别准确率对比

3 业务识别方法分析

3.1 DPI识别

方案中使用的DPI识别技术通过分析数据包载荷中的特征字段来将网络流量关联到具体的应用。大多数业务在数据包的净荷中含有特定的协议字符串,可以通过检测和匹配这一字符串来进行业务的识别[4]。对于某些更复杂的应用,则需要通过几个特征字符串综合起来才能对其进行识别。为进行DPI识别,首先用爬虫程序对应用进行分析,建立特征库,特征库中包含特征和相对应的业务类型。由于不断有业务更新和协议升级,特征库也需不断更新。特征库建立后就可以用在数据包中取得的字符串与特征库进行匹配,即可获得数据的业务类型。

显然匹配过程在DPI识别中是非常重要的,正则表达式在这里得到了充分的应用,可以将正则表达式转化成确定有限自动机(Deterministic Finite Automation,DFA)来进行处理[5]。DFA用五元组(Q,Σ,q0,δ,A)表示,其中Q为状态点集合,Σ为字符表,q0为初始状态点,A为终止状态点,δ为状态转移函数。正则表达式描述了一种字符串匹配的模式。将所有模式构造为一个DFA可获得很好的匹配速度,但所需内存可能非常大,超过系统物理内存。而每个模式构造一个DFA时,匹配速度可能无法满足性能要求。下面是一个满足有限内存资源限制且时间复杂度最小的算法。

DPI识别是一种应用很广的识别方法,但仍存在一些缺陷。比如:无法识别加密业务和未知业务,更新特征库的工作量很大。机器学习识别可以弥补DPI识别的一些缺陷。

3.2 机器学习识别

方案中的机器学习识别是通过统计分组数据到达间隔、流持续时间等统计特征,采用机器学习的方法实现业务分类。采用机器学习中的决策树算法来实现网络业务的识别。这种识别方法是从决策树的根结点开始,按照给定实例的属性值对应的树枝向下移动,这个过程不断在以新结点为根的子树上重复,最后到达的一片叶子代表业务分类,即实现了分类学习,达到业务识别的目的[6]。

决策树形成过程中最重要的是对分裂属性的选择,常用的方法是计算信息增益

(1)

采用C4.5算法来建立决策树,C4.5算法采用信息增益率来处理样本分类。算法要求选择信息增益率最大的属性为决策树的新结点,并对属性的每个值建立分枝,依据此思想划分训练数据样本集。信息增益率是信息增益与分裂信息量的比,分裂信息量可以衡量属性分裂的广度和均匀性

(2)

式中:Si为C个值的属性A划分S形成的C个样本子集。由此得到信息增益率为[7]

(3)

信息增益率最高的属性将被作为测试属性。依次不断对生成的样本子集进行分割,直到无法分割或达到停止条件即可得到决策树,决策树的生成过程就是使划分后不确定性逐渐减小的过程。

决策树建立后还需不断修剪,用样本对生成的决策树进行检验,调整不正确的分枝,增加节点或者进行剪枝。用决策树对未知类型业务进行分类时,从根节点开始依次对样本的属性进行分类,直到到达一片叶子为止,即可得到样本的业务类型。

4 微信业务的识别验证

微信支持发送/接收语音、视频、图片和文字,支持许多社交插件,因此拥有了庞大的用户群,对运营商的短信、彩信、语音业务产生了巨大竞争。同时微信需要频繁占用网络资源,而运营商获得的却只是极低的流量收入,所以运营商希望能找到应对策略和方法,而微信业务的识别是制定应对策略的前提和保证。

将从S1接口采集到的包含微信业务的用户面数据发送到数据解码层,经过解码后将原始CDR提交到业务识别层,用提取到的必要信息进行业务类型的识别。微信业务大类的识别可根据特征字符串,如果HOST字段中包含key:“weixin.qq.com”或“mmsns.qpic.cn”或“wx.qlogo.cn”,则可认定分组为微信业务。为进一步识别微信业务中业务小类,如发送图片、语音、文字、摇一摇等,需分析微信私有协议,经过大量爬虫抓包分析,总结出微信私有协议基本结构,如表2所示。

表2 微信私有协议基本结构

其中报文类型代表不同的业务小类,如表3所示。

表3 报文类型与业务小类

因此,为识别业务小类可将报文类型作为特征字,用DPI识别法进行识别。

由于微信业务小类在不断增加,私有协议也随时存在更新的情况,且DPI特征库的更新耗时费力,所以机器学习识别法此时将弥补DPI识别的不足。机器学习根据流量的各种属性特征,如流持续时间、分组长度和分组到达间隔等,来进行流量分类,能够适应对加密业务和未知业务的识别,克服DPI识别的缺陷。

图5是业务识别CDR出表的一部分。不同的业务类型用不同的数字表示,图中D,E列为1,9则表示识别出微信业务。一条CDR根据微信业务中某TCP流合成,其他字段还包括:源IP、目的IP、源端口、目的端口、HOST、URI、上下行包数、上下行流量。经过统计验证分析,发现识别方案能较为准确地识别各种业务类型。

图5 业务识别出表文件(截图)

5 小结

本文提出了基于LTE网络的业务识别方案的设计,分析业务识别在现今网络中面临的困难,建立了一个多识别的识别模型,详细介绍了模型中应用到的几种识别方法。用该识别方案较好地解决了业务识别在LTE网络中遇到的困难。系统在Linux平台中运行稳定,经过现网数据测试,发现识别准确度较高,达到应用标准。

[1]沈嘉,索强,伞海洋,等. 3GPP长期演进(LTE)技术原理与系统设计[M]. 北京:人民邮电出版社,2008.

[2]李艳,张治中.LTE网络S1AP监测方案的研究与实现[J]. 电信科学,2013(1):31-38.

[3]中国移动通信集团公司.中国移动上网日志留存系统数据合成服务器设备规范[S]. 2013.

[4]张晟,贾思远. 基于深度业务识别(DPI)的TD业务感知提升策略[J]. 电信科学,2011(2):131-134.

[5]于强,霍红卫. 一组提高存储效率的深度包检测算法[J]. 软件学报,2011(22):149-163.

[6]郑淋,叶猛. 基于多尺度分析和决策树的P2P流量检测模型[J]. 电视技术,2013,37(1):101-104.

[7]MITCHELLT.Machinelearning[M].北京:机械工业出版社,2003.

Research and Implementation of Traffic Identification Program in LTE Network

LIU Zhiqiang,ZHANG Zhizhong

(KeyLaboratoryonCommunicationNetworksandTestingTechnology,ChongqingUniversityofPostsandTelecommunication,Chongqing400065,China)

In order to achieve the traffic identification in Long Term Evolution (LTE) network, the user plane protocol stack of S1 interface is analyzed and the traffic identification of the user plane of S1 interface with the idea of modularization design concept is achieved. To solve the problem of weak identification of data services and poor statistical ability in traditional traffic identification system, multiple identification integrated service identification scheme is constructed, which is more accurate in traffic identification than traditional system. The traffic identification based on multiple identification integrated service identification scheme works effectively by the real network data testing and has important significance for traffic identification in LTE network.

LTE network; S1 interface; traffic identification; deep packet inspection; machine learning

国家“863”计划项目(2014AA01A706)

TN929.5

B

10.16280/j.videoe.2015.01.025

2014-05-08

【本文献信息】刘志强,张治中.LTE网络中业务识别方案的研究与实现[J].电视技术,2015,39(1).

刘志强,硕士生,主研LTE网络测试技术和信令监测技术;

张治中,教授,博士生导师,主研第三代移动通信测试技术、宽带信息网络、NGN网络等。

责任编辑:许 盈

猜你喜欢
解码决策树端口
《解码万吨站》
一种端口故障的解决方案
解码eUCP2.0
一种针对不均衡数据集的SVM决策树算法
NAD C368解码/放大器一体机
Quad(国都)Vena解码/放大器一体机
决策树和随机森林方法在管理决策中的应用
端口阻塞与优先级
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用