张 江,孙 治,徐 锐,陈剑锋
(1.网络空间安全四川省重点实验室,四川 成都 610041;2.中国电科网络空间安全技术重点实验室,四川 成都 610041;3.中国电子科技网络信息安全有限公司,四川 成都 610041)
网络空间资源是指网络空间中“载体”、“信息”、“主体”等各类要素的总和,不仅包括通信基础设施、IP网络、覆盖网络、应用支撑系统等互联网基础设施实体资源,还包括了承载在实体设施之上的信息内容、用户等虚拟资源等[1]。
网络空间资源测绘按照一定的方法、技术和标准,利用软件或硬件工具,通过测试表征网络空间各层次要素状态、属性和关系的多元指标来认知网络空间的构成及发展规律的行为。
网络空间资源测度是指一定标度下对网络空间资源的可探测属性的定量计算,而可探测属性需要通过测绘技术实现,通过对网络空间资源的探测、采集、分析、处理,可以根据网络资源在网络空间的分布,并结合地理和社会空间信息,以逻辑图和地理信息图的形式绘制出网络资源实时分布的属性状态和发展趋势。
通过网络空间资源测绘能够为各类网络资产评估等提供数据和技术支撑,研究网络空间资源测绘技术对于维护推动国民经济发展具有十分重要的理论意义和应用价值[2],而通过网络空间资源测度可以对网络空间资源测绘技术进行量化评估,因此网络空间资源测度技术可以对网络空间资源测绘技术起到促进和推动作用。
网络空间资源包括网络空间的组成、结构、属性、行为、特征、规律和趋势等,测量获取的信息构成一类典型的大数据,其内容格式多样、结构复杂、变化迅速,为测绘信息的理解、交互、传播带来了较大困难。测绘的范围可以是网络空间局部,也可以是全域。现有测度方法又有多种,不同的测度方法各有优缺点。因此,在网络资源测度的过程中需要综合考虑,在对测度方法进行遴选与组合时需要遵循以下原则。
一种测度方法如果能够被广泛使用和发展,首先其科学性必须是受承认的,其科学性是已经得到了前人检验的。在众多测度方法中进行选择和组合,给出适合网络空间资源测量效果的测度方法,由于不同的测度对象适用于不同的测度方法,因此测度方法的合理性是必须考虑的一个重要原则。合理性指所选择的方法须遵循“三个是否”,即是否能客观反映测度网络空间资源测量的效果、是否能全面覆盖网络空间资源的各个方面、是否能突出网络空间测量的特点与重点等。
适用性原则要求测度方法的选择要考虑数据来源情况、测度对象本身的发展情况。网络空间资源测量效果虽然属于测量测度范畴,但是也有其特殊性。首先,它属于宏观范畴的测度,使得测度数据的来源必须具有公认的或官方认可的统计性;其次,网络空间资源测量的效果测度从总体上看还处于探索阶段,许多数据目前还无法获取,有些数据只能部分获取,一些数据无法判断正确性。因此要考虑到数据来源的实际情况,选择适用的测度方法。
有些方法看似非常严谨,然而在使用过程中缺乏可操作性,一些指标体系非常庞杂、涉及方方面面,但是由于数据的缺乏而无法实施。重要的是,由于事物之间的普遍联系,某方面的数据可能与另一方面的数据之间存在同样的揭示效果,如果指标体系过于庞杂、数据来源过多,反而会掩盖实质而不利于测度。因此,指标体系不宜庞杂,指标体系的设计要考虑指标之间的相互关系,指标项的拟定要考虑数据的可获取性等问题。
可扩展性指测度方法的可发展、可变化性。在网络空间的效果测度中,可扩展性体现在两个方面。一方面是指标体系的可扩展性,即要考虑网络空间测绘发展的实际情况,在早期阶段,指标体系可以适当粗略,反映网络空间测量的主要方面;另一方面是指测度中使用指标的可扩展性。设计出来的指标体系可能是比较完备的,然而实施过程中可以选择其中操作性强的指标进行调查与测度,在数据条件具备之后逐步扩展指标的数量。这一原则也符合网络空间资源测度生命周期理论,即逐步深入、逐步增加测度的维度。
测度就是对多属性体系结构描述的对象系统做出全局性、整体性的测度,即根据一个复杂系统同时受到多种因素影响的特点,依据多个有关指标对复杂系统进行总测度的方法。测度的结果需要通过比较来说明,有不同测绘方法之间的比较,也有同一测量方法不同时间的比较、不同区域的比较。比较的目的是为了更好地认识的网络空间资源,分析其中的优劣势,从而制定网络空间测绘的对策。为了达到比较的目的,测度方法必须具备通用性、标准化特征,既可以用来测度不同网络空间资源,又可以用来测度不同时期的网络空间资源。
按照资源在网络空间不同层次表现出来的状态、结构和行为特征,将网络空间资源测度划分为实体资源测度和虚拟资源测度两大类[3],分别用于测度资源在不同层次上的显性和隐性特征。测度指标体系的确立是网络空间资源测度工作中的首要环节,测度的指标体系原理图如图1所示。
实体资源根据设备用途可分为网络基础设施和接入设备;虚拟资源包括网络虚拟人物、网络虚拟社区等。在借鉴已有的信息经济测度、城市发展测度[4]以及统计理论与方法的基础上,通过对网络空间资源测绘研究对象的分析研究,提出了分层分级的网络空间资源测度体系制定指标体系,如表1所示。
该指标体系为三级测度指标体系,第一级2个指标,分别是实体资源测度和虚拟资源测度。第二级6个指标,分别是所属机构信息测度、网络拓扑测度、网络节点测度、网络服务测度、虚拟主体测度、投影实体测度。第三级有超过20个指标,这其中,网络服务测度包括了服务共性测度和各类应用层协议对应的服务内容,包括超文本传输协议(HyperText Transfer Protocol,HTTP)、文件传输协议(File Transfer Protocol,FTP)等服务;虚拟主体测度包括了账号测度、共性测度、群体测度;投影实体测度包括了共性测度、群体测度。
图1 测度指标体系原理图
表1 网络空间资源测度指标体系
每一叶子层次的资源测度指标由测度指标名称、测量数据类型、测量值域、归一化测量值、主观指标权值构成,而非叶子层次的资源测度指标则由测度指标名称、测度数学符号、测度和主观测度权值构成。
测度是指一定指标下对事物某种属性的定量计算。而指标是根据人们对客观事物观察所取得的经验来决定,它不是绝对一成不变的,因此要确定测度就必须先要按照指标体系进行指标确认,该过程需要通过大量的测量实现。
网络测量的分类标准有多种,不同的分类方式有不同的分类结果。根据测量的方式可以分为主动测量和被动测量;根据测量点的多少又分为单点测量与多点测量;根据被测量者知情与否可分为协作式测量与非协作式测量;根据测量的对象可分为实体资源测量和虚拟资源测量,而实体资源测量包括所属组织机构测量、拓扑测量、性能测量、网络节点测量、网络服务测量和安全测量,而虚拟资源测量包括虚拟主体测量和投影实体测量。由于测度指标体系关注的是网络空间资源,属于研究对象的范畴,因此下面针对网络资源测量的主要对象展开论述。
在拓扑测量方面,网络拓扑可以用分为自治域(Autonomous System,AS)级、路由器级和IP级。IP级网络测量主要基于Traceroute的方式实现,由于传统IP级探测会导致拓扑中存在大量的匿名路由器,拓扑完整性不够等问题,文献[5]提出了一种多协议的分布式IP级互联网拓扑探测方法。路由器级拓扑测量方法包括基于协议的方法和基于Traceroute的方法。基于协议的方式通过简单网络管理协议(Simple Network Management Protocol,SNMP)获取路由器的IP子网的路由信息表,从而恢复路由器级拓扑。而基于Traceroute的方法则是利用IP路径数据通过别名解析等方式恢复网络拓扑。总之,生成AS级拓扑图的方法可采用基于边界网关协议(Border Gateway Protocol,BGP)的路由信息方法、基于Traceroute的方法和基于互联网路由注册信息库(Internet Routing Registry,IRR)的方法[6]。由于BGP的路由表和更新报文中都包含有AS路径信息,采集器通过侦听BGP路由表和更新报文获取AS级拓扑信息来构造AS级拓扑图。将通过Traceroute得到的IP地址映射到AS号的IP-AS技术将IP级拓扑映射为AS级拓扑。IRR作为全球化的分布式路由信息数据库,用于受理IP和AS号申请和记录ISP的BGP路由信息,因此也可以恢复部分AS级网络拓扑。
在性能测量方面,测量内容主要包括带宽、吞吐量、延迟、丢包率,并作网络可靠性、稳定性、可达性等方面的分析[7]。带宽测量主要包括两种测量方式,一种是端到端带宽测量,其又包括可用带宽和瓶颈带宽的测量[8];另外一种是逐跳带宽测量,主要测量网络路径上各段链路的带宽参数,重点在于测量逐跳链路的带宽值。而延迟测量是指借助于全球定位系统(Global Positioning System,GPS)接收机或网络时间服务(Network Time Protocol,NTP)来实现同步测量[9]。
网络节点测量和网络服务主要分为主动探测和被动监测。其中,主动探测主要包括设备端口开放性检测、主机存活性检测、Web框架侦察、系统指纹发现、服务指纹发现和漏洞扫描等;被动解析子模块主要有高速流量获取、协议识别和字段解析、入侵检测系统日志汇聚等功能。
虚拟资源主要包括网络虚拟人物、网络虚拟社区,以及人物相关的文本、音视频等信息内容。在虚拟资源测量方面,主要包括特定信息内容快速探测和话题发现技术、音视频内容探测技术、网站自动探测技术等。
从数学的角度,测度论是实分析的一个分支,研究对象有σ代数、测度、可测函数和积分,它对一个给定集合的某些子集指定为一个数,这个数可以比作大小、体积、概率等。本方法给出测度的数学定义,以便引出网络空间资源的测度定义。
测度μ(可列可加的正测度)是个函数。设A的元素是X的子集合,而且是一个σ-代数,μ在A上定义,取值范围为[0,+∞],并且满足以下性质:
(1)空集合的测度为零
μ(Ø)=0
(1)
(2)非负性
∀E∈A,μ(E)≥0
(2)
(3)可数可加性
若可数个两两不相交集合的序列,则所有Ei的联集的测度等于每个Ei的测度之和:
(3)
这样的三元组(X,A,μ)称为一个测度空间,而A中的元素称为这个空间中的可测集合。
依据测度的数学定义,给出网络空间资源的测度S的定义。定义网络空间为T,存在某一网络资源tp∈T,那么资源tp的属性全集为X。定义对资源tp的n次测量结果为A={a1,a2,…,an},某次探测结果为ai∈A,S是网络空间资源tp的测度。因此,网络空间资源tp的测度空间为(X,A,S)。
(4)
当εji是数值且数值越大对认识网络资源越有利时,采用正向指标计算方法,那么归一化指标mji为:
(5)
当εji是数值且数值越小对认识网络资源越有利时,采用负向指标计算方法处理,那么归一化指标mji为:
(6)
综上,归一化指标mji的值域为[0,1]。由于网络空间资源的测度指标有重要性区别,有些指标可以很好地表征该资源,而有些指标不是该资源的特征属性,因此,有必要对测度指标的重要性进行评估,指标的重要性即为测度权值W。
确定指标权重的方法包括主观赋权法和客观赋权法两类。主观赋权法是指从评价者主观角度出发来决定权重的方法,客观赋权法是指根据各指标所提供的信息量来决定指标的权重。按照信息熵的理念,可以根据熵值大小,也即各项指标值的变异程度,计算出权重。
本方法中测度权值W的计算综合考虑了主观因素和客观因素,测度指标的权值W等于主观赋权(领域专家)乘以客观赋权(信息熵)来确定测度指标的权重系数。其中,领域专家给出的权值表征了先验知识,信息熵给出的权值表征了客观测量结果。因此,测度指标的权值W等于:
W=Ws×Wo
(7)
式中Ws是主观权重,由领域专家给出,取值范围为Ws∈[0,1],且针对同一级测度指标Ws满足:
(8)
以下给出客观赋权Wo的计算过程。假定测量指标εm和εn是独立随机变量,满足p(εm,εn)=p(εm)p(εn)。那么指标εj的信息熵为:
(9)
式中p(εji)表示指标εji在多次测量中出现的概率,显然有0≤ej≤1。那么信息熵冗余度计算为:
dj=1-ej
(10)
综上,客观赋权Wo的计算公式为:
(11)
显然,客观赋权的值域范围Wo∈[0,1],因此指标权重W∈[0,1]。那么按照指标体系分层,level 3层级的测度计算公式为:
(12)
显然,测度Si的值域范围为S∈[0,1]。同理level 1、level 2层级的测度计算公式为:
(13)
当前网络空间资源测绘技术是一个全新的研究领域,研究其网络空间资源的测度当属于一个开创性研究。本文从满足网络资源测度的基本需求出发,提出了一种网络空间资源的测度方法,包括测度标准的原则性要求、网络空间资源测度的数学定义、网络空间资源测度指标体系和网络资源测量方法。该测度方法可应用于网络空间资源测绘技术的评估,通过将抽象问题量化,能够适应网络空间资源的多样性和动态变化的特性,对网络空间资源测绘研究起到一定的指导和促进作用。