国内互联网真实源地址验证研究进展①

2022-05-10 08:39甄龙飞吴振强
计算机系统应用 2022年4期
关键词:数据包聚类图谱

甄龙飞,吴振强,马 克

1(青海师范大学 计算机学院,西宁 810008)

2(陕西师范大学 计算机科学学院,西安 710119)

3(青海师范大学 网络中心,西宁 810008)

由于Internet 数据传输采用无连接的逐跳转发模式,使网络节点之间的数据包在网络层传输时仅以目的IP 进行寻址转发,由此可能导致网络中的恶意节点伪造数据包中源端的IP 地址以欺骗目的节点进行非法通信窃取目的端用户的相关信息,导致了基于源地址欺骗类型的网络攻击行为的出现,如MITM、洪泛攻击、反射式攻击、DoS/DDoS 攻击等.由此本段主要介绍源地址验证研究的目的、意义、方法、范围和背景等.为了预防上述的恶意攻击行为,在网络数据转发过程中有必要进行源地址验证,它有助于保护网络层数据传输的整体安全.源地址验证又称数据源真实性鉴别,是指网络数据在转发的过程中利用数据包中的源IP 地址在网路中的传输节点上进行源地址真实性鉴别再进行数据转发,以保障目的端能接收到真实源端的数据报文进一步保障传输数据的安全.为此我国在国家“973”项目计划“新一代互联网体系结构理论研究”项目之课题四进行真实IPv6 源地址寻址体系结构的研究[1],以此拉开了源地址验证研究的序幕,使其在国家重点科研项目的支持下进行了深入探索,研究成果颇丰,掌握了一定核心的关键技术,使该研究领域走在了世界前列.

在源地址验证研究漫长的岁月中,经统计分析得知:文献[2-6]分别从源地址验证研究的基础理论、体系架构、实现及实验情况和关键防护技术的4 个大方面进行了重要的系统阐述,表明源地址验证的研究对于新一代互联网(IPv6)安全起着重要的作用;而基于源地址验证研究的综述仅有文献[7]一篇且仅阐述了互联网AS 域间的源地址验证研究的现状和相关技术,并没有一篇综合性的综述对该领域的研究现状、研究主题、研究热点和发展演化趋势进行详细阐述,因此本文通过文献计量学的方法统计了近25年来对源地址验证研究的文献并采用可视化手段,对源地址验证研究的文献年际变化、重要作者、科研机构、高索引文献等方面进行了科学性分析,同时应用CiteSpace 可视化工具绘制出源地址验证研究的相关科学知识图谱,如基于关键词共现、聚类、突现、时间线等知识图谱,呈现出学界对源地址验证研究的研究主题、热点、发展现状及演化趋势,以把握研究热点领域并进一步了解整体发展趋势,从而为源地址验证的深入研究与实践提供参考借鉴.

1 数据来源与研究方法

1.1 数据来源与获取

为使科学研究的数据具有一定的代表性、关键性和权威性,本文采用中国知网数据库(CNKI)收录的研究论文作为研究样本的数据来源,主要通过高级检索来获取研究样本,使得到的研究结果具有一定的有效性、准确性和真实性.检索表达式为“主题&全文=源地址验证or 源地址认证or 源地址鉴别”,需要注意的是源地址验证、源地址鉴别、源地址认证均为数据来源真实性鉴别研究课题的术语名词,其研究内容、意义相同,所以在以下研究分析中仅以源地址验证一词进行统称.因此经检索后发现源地址验证一词最早出现于1997年,便将检索时间设为1997-2021年,共检索出988 篇文献数据,其中期刊论文459 篇、博硕论文366 篇、会议论文15 篇、特色期刊(中国教育网络)126 篇、其他文献22 篇(含专题报道、简讯、图书、专利成果等).然后对检索出的文献数据进行筛选,剔除无效无用的文献(含专题报道、简讯、图书、专利成果等),最终共筛选出817 篇有效数据作为研究样本.

1.2 研究内容

本文主要通过科学的分析方法对基于源地址验证及其相关研究领域的论文文献进行统计分析和可视化分析,以可视化为主、计量为辅,定性定量分析其在国内的发文情况、科研机构及作者的合作情况、主题和关键词的研究情况等,探寻其内在的发展规律,以进一步研判国内研究的发展趋势,并总结出国内的研究现状和聚焦的研究热点.

1.3 研究方法与分析工具

本研究主要使用科学知识图谱和文献计量学两种研究方法对源地址验证的研究领域进行学科性分析,并以科学知识图谱为主、文献计量学为辅来探寻源地址验证研究的内、外在发展规律.科学知识图谱[8]以知识域为研究对象,并根据研究对象间的强弱联系来构建图网络结构,通过基于作者、研究机构为主体和基于关键词、参考文献等为主题进行共现聚类的提取,采用可视化工具呈现并分析该图网络结构,以进一步分析某一学科领域的知识结构及其科研发展规律.文献计量学[9]是以文献为研究对象,将研究对象整体进行量化分析,采用数学与统计学的计量方法,研究文献信息的分布、结构、数量关系及规律,进而表征重要文献作者分布的洛特卡定律、文献中词频分布的齐普夫定律和文献信息离散分布的布拉德福定律等.

所谓“工欲善其事,必先利其器”,本文采用陈超美教授研发的可视化分析软件CiteSpace[10]作为研究样本的主体研究工具,它是科学知识图谱和文献计量学的通用分析工具之一,是利用网络寻径算法与共引分析进行计量,通过动态网络图谱的形式对某一知识领域的研究进展与宏观结构进行了可视化呈现[11].基于此,利用CiteSpace 的这一可视化特性,对研究样本进行基于作者、研究机构的共现以及基于关键词的聚类、共现等方法,通过可视化科学知识图谱,勾勒出当前源地址验证研究领域的基本研究情况、发展趋势和聚焦的研究热点.

2 研究现状分析

本章通过采用文献计量学的方法,应用数学和统计学对研究样本进行统计,计算文献发文量以表现其研究发展的年际变化、计量研究机构发文情况以表现重视该研究领域的科研机构;并以科学知识图谱的方式用CiteSpace 对作者共现、机构共现、重要文献引用等情况进行可视化做最终分析,最后总结出源地址验证研究的国内研究现状.

2.1 发文量统计分析

通过CNKI 数据库检索出来的论文数据经筛选无效数据后共有817 篇论文以源地址验证为主题或与其相关的研究为内容的论文进行过公开发表,相关统计结果见图1所示.根据图1 中显示的基于源地址验证研究的总发文量、主题发文量、关键词发文量和相关研究发文量的统计,可分析得出以下内容.

图1 基于源地址验证研究的发文量统计时序变化

(1)按总发文量分析,可以看出从2000-2009年发文总量有增有降,在2009年发文总量更是达到了巅峰,以此可判定2009年源地址验证研究领域引发了学界的关注导致发文量激增;2009-2016年虽多数年份的总发文量呈下降趋势,但年发文总量仍高于年均总发文量,在此期间出现了如物联网、互联网+、大数据、云计算等新兴研究热点,据此可推断此期间因热点研究的增加减缓了源地址验证领域的研究,但其作为IPv6 网络安全的基础难题依然备受关注,发文总量虽有减少但依然可观;2017-2019年源地址验证研究又出现第二次研究高潮,这段时期IPv6 网络建设如火如荼,可推断已步入基于IPv6 网络的源地址验证的新一轮研究中;至于2020年因新冠疫情爆发各学科研究领域论文发表均受到不同程度的影响,因此总发文量减少是必然出现的情况;从总体来看源地址验证研究趋势向好,虽然该研究方向难度大,但依然有大批学者跟踪研究.依照上述源地址验证研究的发展趋势,可预测2021年总发文量虽受新冠疫情波及,但其发展趋势依然平稳向好.

(2)从主题、关键词发文数来看,相继从2000年和2007年开始分别进行相关理论应用和专题研究,其总发展趋势大体相同,均呈波形曲线动态平稳发展,有增有降.值得注意的是在检索过程中发现源地址验证和源地址鉴别一词分别首次出现于文献[12]和文献[13]中,其在文中仅作为一种网络安全防范技术进行引用并没有过多的详述,据此可推测源地址验证研究在1997年以前的中国暂时没有进行该领域的专题研究,而只是停留在引用国外的研究成果作为技术手段来参考使用,因此国内在数据源真实性鉴别这一网络安全的基础研究领域上还没有引起重视.并且以源地址验证为主题和关键词的论文分别在2001年和2007年发表.在2001年文献[14]是以源地址验证的基础原理进行应用设计,而由时任清华大学网络中心主任、CERNET专家委员会主任吴建平教授在2007年发表的文献[15]则是从源地址验证技术理论的本身进行深入研究,开启了我国从事网络数据源真实性鉴别领域的研究.据此可进一步推测在1997-2002年间我国还停留在源地址验证技术的基础原理和应用层面上进行研究,而从2007年开始我国网络工程专家学者逐渐进入网络数据源地址验证的深层次理论研究中,激起了一股基于网络数据源验证安全理论的研究浪潮.

(3)从相关研究发文量可以分析得出在2007、2009、2010、2013、2019 这5 个时间节点对基于源地址验证相关研究的发文量均呈大幅度增长模式,而究其背后原因是在国家倡导IPv6 网络大规模部署的背景下导致其网络安全备受业界高度关注,因此作为网络安全基础研究课题之一的源地址验证专题研究在这几个重要的时间节点内得到了一定的深入探索,成果颇丰.值得一提的是清华大学2005年在国际上首次提出真实源地址验证技术、2008年在IETF 发布了RFC5210 作为第一个源地址验证体系架构的国际协议标准(source address validation architecture,SAVA)[16],随后又在2013年发布了RFC7039 源地址验证改进框架协议(source address validation improvement,SAVI)[17],填补了国内在这一专题研究领域的空白,为IPv6 网络安全研究奠定了一定基础.

2.2 研究力量及其合作分析

本节从作者、研究机构两方面来分析源地址验证研究力量的分布和合作关系情况,因此在可视化工具CiteSpace 中将知识图谱的节点类型分别设置为author、institution、author&institution,时间划分为1997年至2021年,每1年设为一个时间切片,每个时间切片选取前50 个,得到作者共现图谱、重要作者及合作关系图谱、重要科研机构共现图谱和作者及科研机构合作共现图谱,分别如图2-图6所示.从2 个维度、4 个图谱对源地址验证研究的研究力量和合作关系进行科学性分析.

图2 基于源地址验证研究的科研作者共现图谱

科研作者共现可视化知识图谱可以清晰地辨别出源地址验证研究领域作者发文量的多少以及两个或多个发文作者之间的合作关系强弱,在图2 中,圆形节点表示作者的发文强度,作者姓名的突出显示表示重要发文作者,节点连线表示作者之间的合作关系,连线的粗细代表着合作关系的强弱.据此可分析出吴建平、毕军、徐恪、刘莹、任罡、李星等人是该领域的重要发文作者,其中吴建平、毕军、徐恪3 人的中心性较大为该领域重要的研究专家,相互之间形成较强的合作关系且与其周围的作者联系密切;还有一些重要的发文作者如徐启建、谭鹏许、史文博、涂睿等人为该领域重要的研究学者,其每个人与其他作者也有或强或弱的合作关系.

为了进一步分析作者间合作强弱关系,通过PageRank算法进行了重要作者关系的提取.PageRank 算法是Google 的网页排序算法对每个目标网页附上权值[18],权值大的就靠前显示而权值小的就靠后显示,因此抽象的应用到了CiteSpace 软件中用来提取出重要作者之间的合作关系图谱,如图3所示.在图3 中可以清晰看出作者之间的抱团关系和合作强弱关系,其中吴建平与其它重要作者均有直接或间接的合作关系,合作关系广泛;其发文作者节点连线的强弱和颜色的深浅表明徐恪、李琳、姚苏、刘昕、李琦、凌思通、张智超、吴波、沈蒙的抱团最紧、合作关系最强.

图3 重要作者及合作关系共现图谱

综上所述,吴建平、徐恪、毕军为源地址验证研究领域的重要研究专家,广泛带动了其他计算机网络的专家、学者和科研人员从事源地址验证研究,如刘莹、任罡、李星、徐启建、谭鹏许、史文博、涂睿等.

又通过CNKI 数据库所获取到的研究样本统计得知共有329 所科研院所参与过源地址验证研究,并通过CiteSpace 可视化出重要科研机构共现图谱,见图4.根据图4 可以看出清华大学、中国科学院大学、北京邮电大学、解放军信息工程大学、解放军理工大学、国防科技大学、北京交通大学、工信部研究院等科研机构为重要的研究机构,并且通过节点间的连线粗细、颜色深浅可知它们与其他科研机构合作关系有强有弱.

图4 源地址验证研究的重要科研机构共现图谱

再通过图5 对重要科研机构的发文量统计分析可进一步得知:清华大学、解放军信息工程大学、国防科技大学对源地址验证研究领域的独立发文量高,表明其独立研究能力强,其中清华大学独立发文量最高,可以推测清华大学在这一研究领域领先全国各科研院所,推动了我国在这一研究领域的发展;北京邮电大学虽独立发文量不突出但与其他科研院所的合作发文量最多,据此可推测北京邮电大学与其他科研院所合作联系强、交流最多,如东北大学、西安电子科技大学、解放军信息工程大学等;可以看出大多数研究源地址验证的科研院所为我国双一流、一流院校或教育科研网(CERNET)的重要成员院校,进一步表明源地址验证专题研究的关键性和重要性.

图5 重要科研机构发文量及合作量统计图

而根据图6所示的知识图谱可以形象的看出作者与科研机构的合作程度,其中清华大学的节点最大、节点年轮最多、颜色最深、连线也最多表明其对源地址验证研究时间最长、研究能力最强、与研究作者联系最广泛和关系最密切;毕军的作者节点半径最大,表明在源地址验证研究领域其影响力最广泛;北京信息科学与技术国家研究中心、东北大学等的研究作者抱团最紧,表明合作关系最密集.

图6 基于源地址验证研究的作者及机构合作共现图谱

2.3 重要文献索引分析

本节着重从源地址验证研究的重要文献引用情况进行统计分析,在研究样本中统计到10 篇比较重要且引用数较高的研究论文,具体文献情况见表1.

在表1 中显示由吴建平等发表的文献[2]引用数最高,在文中“从互联网体系结构上找出其安全问题的根源,确保下一代互联网地址及其位置的真实可信,增强下一代互联网应用实体的真实可信,从下一代互联网体系结构上系统地解决互联网安全问题,是下一代互联网研究的另一个重要技术挑战”[2]表明了源地址验证研究是下一代网络安全的基础挑战之一,在文中又有对其做进一步描述“真实地址访问.现有互联网存在的大量安全问题均是由于互联网对用户的源地址不加验证而带来的,我们认为在新一代互联网中必须解决用户的真实地址访问的问题,这将有助于解决安全可扩展和服务可扩展问题”[19].通过上述两段话的描述可以总结出源地址验证研究是下一代互联网安全基础的重中之重,也是国家“973”项目的基础研究课题之一.再从表1 中高索引文献又可知源地址验证研究大部分都是以网络安全为主题,这说明源地址验证与网络安全息息相关,其中10 篇高索引文献中共现作者吴建平、徐恪两人次数最多,是该领域的重要研究专家,进一步印证了前节的预测.

表1 基于源地址验证研究的重要论文统计照

2.4 研究现状总结

(1)研究发展趋势.在研究发展趋势上,成波形曲线型动态平稳发展,有增有降,总体发展趋势平稳向好.基于此,基于源地址验证研究分为了5 个阶段:

第1 个阶段研究混沌期(1997年以前):学习和建设使用互联网阶段,单纯学习借鉴国外网络安全技术,对源地址验证技术没进行过研究;

第2 阶段研究初始期(1998-2002年):开始攻克互联网的关键技术,逐渐意识到源地址验证的重要性,开启源地址验证的研究阶段,进行初级理论和技术研究;

第3 阶段研究发展期(2003-2007年):下一代互联网创新探索期,源地址验证作为其网络安全的基础技术进行共同探索,初步掌握相关技术原理及应用,形成初步研究体系;

第4 阶段研究成熟期(2008-2013年):下一代互联网部署规划期,同时源地址验证研究取得新进展,初步取得阶段性成果,构筑源地址验证体系架构,成为国际IETF 组织认证的现行协议标准,使该研究领域在国际上争得主动权;

第5 阶段研究深入期(2014年至今):下一代互联网建设应用期,为使其网络安全进一步得到保障,因此源地址验证研究步入深水期,逐渐掌握关键技术,在国际网络安全领域中逐渐取得主动权.

值得关注的是源地址验证研究的发展与我国下一代互联网建设的发展势头趋于同向,是因为源地址验证作为下一代网络安全的基础技术应随互联网建设一同发展,因此国内互联网高速发展的各时期源地址验证研究也得到了关注,并与之同向发展,为下一代互联网安全保驾护航.

(2)研究力量分布与研究地位.基于源地址验证研究的不断深入,涌现出大批科研人员及科研院所,比如在源地址验证研究领域中吴建平、毕军、徐恪等人为具有影响力的重要研究专家,刘莹、任罡、李星、徐启建、谭鹏许、史文博、涂睿等人为该领域的重要研究学者;清华大学、中国科学院大学、北京邮电大学、解放军信息工程大学、解放军理工大学、国防科技大学、北京交通大学、工信部研究院等科研机构为该领域重要的研究机构.通过源地址验证研究的文献的高索引统计分析得知,源地址验证为我国“973”国家重点计划项目的研究课题之一,其重要性不言而喻.在计算机网络的基础数据安全中起着举足轻重的作用,因此国内大批双一流、一流院校和教育科研网重要成员院校对此进行跟踪研究,并从未懈怠,就可看出源地址验证研究在网络安全中的重要地位.

(3)研究的作用与意义.计算机网络在发送数据时仅以目的IP 地址进行数据转发,而不对转发数据包的源IP 地址进行校验,由此可能导致源地址欺骗攻击的出现,进而发生诸如洪泛攻击、中间人攻击等的网络攻击行为.为防止此类攻击在计算机网络中蔓延,在当时源地址验证没有一个固定的定义标准,因此出现了五花八门的源地址验证技术,如基于加密验证方式的有网络安全协议(Internet protocol security,IPsec)[25]和防欺骗方案(spoofing prevention method,SPM)[26];基于过滤方法的有入口/出口过滤(IEF)[27,28]、源地址有效性实施协议(SAVE)[29]、基于跳数过滤(hop count filtering,HCF)[30]、基于置信度的过滤(CBF)[31]、基于路由的分布式包过滤(router-based distributed packet fliter,DPF)[32]以及调整跳数过滤(MHCF)[33];基于追溯方法的有基于哈希的IP 追溯(SPIE)[34]、基于概率分组标记(PPM)[35]、基于确定性分组标记(deterministic packet marking,DPM)[36]、灵活确定性包标记(FDPM)[37]和基于确定性流标记(DFM)[38]等,导致上述的源地址验证技术无法做到兼容,且检验效果防御能力不尽如人意,无法大规模有效部署和预防源地址欺骗类型的攻击.为此我国清华大学2008年在IETF 上发表了首个源地址验证体系架构标准(SAVA),采用网络分层结构协同预防源地址欺骗以达到可信网络的程度,分为接入网、AS 域内、AS 域间(含相邻AS 和不相邻AS 两种情况)三部分[16],可以针对网络的不同场景分层治理、协同治理,提升了预防源地址欺骗攻击的综合防御能力.随着互联网技术的不断更新,其SAVA 体系标准也进一步的精炼和补充,添充了一些新的源地址验证防御思路,由此出现了源地址验证改进框架协议标准(SAVI)[17].SAVI 弥补了原有协议标准上的一些不足,并进行了改进,使源地址验证技术体系更加充满了活力,奠定了我国下一代网络建设的安全基石,保障了IPv6 网络的安全,对我国新一代互联网的部署建设起到一定的安全指导意义.

3 研究热点分析

本章首先使用统计方法对关键词做初步分析,再使用CiteSpace 对关键词进行可视化分析.通过关键词、聚类、时区分布、时间线发展的可视化知识图谱进行综合分析,进而研判基于源地址验证的研究热点和相关研究主题的演化趋势.

3.1 基于关键词的研究热点分析

关键词分析能反映出源地址验证研究领域的一般研究热点,利用CiteSpace 对研究样本进行关键词共现、词频统计、中心性、爆发度等分析,分辨出高词频、高中心性的研究热点,并根据爆发度确定研究热点的热点程度,相关图谱及数据见图7、表2.

图7 关键词共现图谱

根据中心性[39]可以判断关键词的中介程度或发散程度,通常表现为节点的中心化程度越高,表明该节点越重要.由此可根据表2 的中心性数据判断出IPv6、网络安全、源地址验证、IPsec、分布式拒绝服务攻击、防火墙、软件定义网络这7 个关键词中心性较大,表明它们是源地址验证研究的中心,是比较重要的研究热点.但从中心性数据上来看与词频分布并不成正比,一般情况下,中心性越大词频出现的程度应该更频繁[40],但从数据来看分布式拒绝服务攻击和防火墙的中心性较大但它们的词频分布并不高,这表明分布式拒绝服务攻击和防火墙虽然是研究热点但关注度不足,应加强在这两个领域的研究.再根据爆发度(又称突现性)[41]可以判断关键词在某个时期突显出来的研究热点,通常可以发现关键词在某一时间范围内兴起的情况.

表2 关键词共现分析统计表

进一步根据表2 中的爆发度、初始和结束时间,可以看出软件定义网络、IPsec 的爆发度位列第一、第二,其强度分别达到16.23 和13.88 的高度,据此可推测IPsec 在2002-2007年、软件定义网络在2013-2021年分别是两个时期的重要研究热点和新兴研究热点.值得注意的是软件定义网络时至今日仍是源地址验证研究的新兴研究热点,其热点程度依然很强.最后根据PageRank 算法的权值排序得出IPv6、网络安全、源地址验证、IPsec、软件定义网络、分布式拒绝服务攻击这6 大研究领域是现在重要的研究热点.

综上所述,下一代互联网(IPv6)、网络安全、源地址验证、IPsec、软件定义网络、分布式拒绝服务攻击是重要的研究热点,其中IPsec、软件定义网络是新兴的重要研究热点,但根据爆发年份判断只有软件定义网络到时至今日仍是新兴的重要研究热点,热度依然很高.

3.2 基于关键词聚类的热点及主题分析

关键词聚类知识图谱[42]可以分析出研究的主题和热点的研究领域.因此在第3.1 节的研究基础上,继续对研究样本进行寻找聚类操作,可以进一步得到关键词聚类的科学知识图谱.为了在聚类分析中得到最好的可视化结果,引用了两个重要的指标来进行评估,分别为模块值(modularity)和平均轮廓值(mean sihouette):

(1)模块值是用来评估聚类效果是否有效的重要指标[43],以Q表示且Q∈[0,1].一般情况下在聚类过程中Q值越大表示图谱的聚类效果越好,越有效.其中Q>0.3,表示图谱的聚类效果显著;Q<0.3,聚类效果不佳直接默认屏蔽.

(2)平均轮廓值是用来衡量网络同质性的重要指标[44],表示聚类内部的同质性,以S表示且S∈[0,1].一般的若聚类内部成员数量少,则平均轮廓值降低;反之若聚类成员数量多则会使轮廓值增加.其中,若S>0.5,则表明聚类合理;若S>0.7,则表示聚类结果高度可信.

因此在完成聚类操作后,得到一个关键词聚类知识图谱,如图8所示.在该聚类图谱中,网络节点N=614,边E=996,网络密度Density=0.0053,其中Q=0.7304,表明聚类的效果很好;S=0.916 2,表明聚类结果是高度可信的.通过关键词聚类可视化知识图谱,可知将关键词共划分为16 类,仅提取出前9 大聚类,分别为网络安全、IPv6、源地址验证、IPsec、分布式拒绝服务攻击、入侵检测、软件定义网络、物联网和加密算法,其聚类强度随聚类颜色越深而越强.这些类别中有涉及源地址验证的专题理论研究,如源地址验证、加密算法;又有涉及源地址验证的关键技术研究,如网络安全,下一代互联网(IPv6)、分布式拒绝服务攻击、软件定义网络和物联网等;也有涉及源地址验证的安全技术应用,如IPsec、入侵检测等;还有涉及源地址验证的一些相关研究,如区块链、多因素认证等.为了能进一步直观看出各个聚类隐含的其他研究方向(或称聚类的内部成员),进行了统计并制成表格形式以进行展示,如表3.其中可以通过各聚类的轮廓值(silhouette)表明各聚类结果真实可信.

图8 基于关键词聚类共现图谱

表3 关键词聚类分析统计表

3.3 基于关键词时区分布的热点演化趋势

关键词时区分析采用关键词时区分布图谱[45](如图9)和关键词时间线分布图谱[46](如图10)进行综合性分析,推断出研究热点和研究主题的演化发展趋势.两大知识图谱能够反映出源地址验证研究的热点分布时期、主题与热点的变迁和演化趋势,并与表2 中关键词突现爆发度一同分析可对每一个演变阶段的研究热点进行剖析.图谱中的节点越多表明文献量越多,则该研究领域处于兴盛期;反之则处于低谷期.同时各节点间的连线及连线粗细分别代表了该研究热点的演化过程和传承关系.

根据图9 和图10 可以分析得到以下内容.

图9 关键词时区分布图谱

图10 关键词时间线分布图谱

1997-2000年出现了6 个研究热点,按节点大小依次分别为网络安全、IPsec、防火墙、互联网、信息安全、封装安全有效载荷(ESP)和认证头(AH),再根据节点年轮的颜色变化判断该研究方向的热点强度,又可看出网络安全、IPsec 是这一时期的重要研究热点,并且其他研究热点均与网络安全息息相关,证明它既是当时的时代主题也是现在的重要研究热点,需要注意的是这一时期的学者只注重于源地址验证技术的应用而不懂其研究原理,无异于缘木求鱼,此时期处于源地址验证研究的混沌期;

2001-2010年出现了下一代互联网(IPv6)、源地址验证、分布式拒绝服务攻击、虚拟专用网、入侵检测共5 个主要的研究热点,同理分析可知前3 个研究热点到目前为止还是重要关注的研究热点,其中下一代互联网(IPv6)可能是时代的研究主题,值得一提的是随着国家对于下一代互联网研究的不断深入,源地址验证作为下一代互联网安全难题之一的基本解决方案,也逐渐引起了学者的关注,与此同时开始了源地址验证的专题研究,搭上了研究下一代互联网的顺风车,由此进入了源地址验证研究的快速发展期;

2011-2021年出现了软件定义网络、物联网、OpenFlow 为当代的研究热点,其中OpenFlow 是一种实现控制软件定义网络的网络通信协议[47],再根据节点大小可知软件定义网络是重要的研究热点,并根据热点突现的爆发度分析又知软件定义网络将是源地址验证未来重要研究方向,此时我国已掌握了部分源地址验证的关键核心技术,开始将其扩展应用到各个研究领域中,进入到源地址验证研究的深入创新应用期.

综上所述,网络安全、IPsec、下一代互联网(IPv6)、源地址验证、分布式拒绝服务攻击、软件定义网络是源地址验证研究的重要研究热点,其中网络安全、下一代互联网(IPv6)、软件定义网络为各个时期最重要的研究主题,软件定义网络将是未来的重要研究方向;其发展趋势从研究混沌期到研究初始期又到研究发展期再到研究深入应用创新期按时代渐变发展,符合科学研究的一般发展规律.因此上述研究热点、研究主题、演化发展趋势的总结与第3.1、3.2 节的分析相对吻合,所以分析结果具有一定的可信性.

4 源地址验证研究进展

大量源地址验证技术的层出不穷导致了不同验证方案各有千秋,出现这种情况的主要原因是:一方面说明没有一种验证方案优于其余方案,不具有明显优势,强调了该研究课题的困难性;另一方面表明在复杂的互联网环境中,研究者需对源地址验证研究的各种网络场景具体分析以采取不同的研究策略和验证方法,再借鉴早期源地址验证方案原理来进行革新,设计出可行的源地址验证技术,如Passport[48]、Base[49]是对SPM[26]验证方案原理的改进;IDPF[50]、SAVE[29]的设计是基于DPF[51]框架思想;RPF[52]是网络入口过滤(network ingress filtering,NIF)[27]的一种扩展方案;SAVA 根据网络层次结构提出协作防御源地址验证架构等等.这些源地址验证方案均借鉴了前人的设计思想,进而研究出相应的验证方案,因此源地址验证研究进展分析对重要验证方案的了解是必要的.

4.1 源地址验证的定义及基本原理

Internet 网络中传输的数据包需经过 TCP/IP 协议栈的处理,由于 TCP/IP 协议栈是“自顶向下、逐层封装”的网络传输协议,因此数据包经每一层传输时都要对其进行封装和解封装,以形成一个包含了源和目的信息的完整数据包,才能在网络上进行传输最后到达目的终端.然而,主机在传输数据包时存在缺陷,即接收数据的目的主机和在传输路径上的各路由器均不对源 IP 地址进行真实性校验,仅依靠目标IP 进行数据转发.攻击者很容易利用这一缺陷在传输的数据包中填入伪造的源 IP 地址,就可冒充他人将非法数据报文发送到目的主机处,进而可以获得目标终端的控制权,为下一步网络攻击的实施奠定基础.从技术上来讲,源地址欺骗威胁来源于传输路径上的路由器只依赖数据报文的目的 IP 进行转发,而忽略了验证发送方数据中源IP 地址的真实可信性,造成了源地址欺骗的网络威胁,如恶意源端发动源地址欺骗、身份伪造等攻击,严重影响网络通信双方的真实性;或数据包在转发过程中易遭到源地址的恶意篡改、恶意劫持和重定向威胁等现象,严重影响网络通信过程的可信性;再或者目的终端缺乏对非法数据的有效识别、过滤等防御能力,导致通信安全性降低等问题.

现有的源地址验证的工作原理主要有源端加密、路径传输验证和目的端校验的方式来提升网络通信双方的真实性、可信性.当数据包的源地址遭到发送源端的恶意伪造或中间路由节点的非法篡改时,下游网络节点、目的端能够及时对数据进行源地址验证,识别并丢弃或过滤非法的数据,保证网络通信双方的真实性、可信性和安全性.

4.2 源地址验证经典技术介绍

为了区分各类验证方案的差异,考查方案的可行性、有效性,早期的研究者根据方案的设计原理一般将之分为加密认证、报文过滤和事后追踪3 类,这3 类验证方案为后人学者提供了参考借鉴[25-65].因此本节将围绕这3 类验证方案来介绍部分重要的验证方案和基于3 类验证原理方案的革新技术.由于这些技术原理的叙述过于繁杂特以图表形式进行概要介绍,可以简洁明了的展示出各种源地址验证方案的技术原理及优缺点,分别见表4、表5 和表6.

表4 早期重要源地址验证方案

表5 基于3 类验证原理方案的革新技术

表5(续) 基于3 类验证原理方案的革新技术

表6 SAVI 接入域源地址验证技术

4.3 源地址验证技术新进展

近些年来由于对源地址验证研究的不断深入,开始逐渐对不同的网络环境、多元的网络应用和多样的网络威胁进行具有针对性、细致性的研究,弥补传统验证技术的缺陷,以使源地址验证的防御效果更加突出,更能抵御复杂多变网络环境上的各类攻击威胁.基于此,产生了众多新型的源地址验证技术,使数据源可信性研究取得新一步进展.针对传统验证技术的存储开销问题,Vijayalakshmi 等人[66]提出了一种新颖的增强分组标记算法,该算法可直接部署在受害端,以提供对单个数据包的回溯,由于该机制不需遍历整个计算机网络或利用带外消息来识别攻击源,使该标记算法易于应用且不具有存储开销的问题;Suresh 等人[67]解决了DPM 验证机制存在的可伸缩性难题,设计出一种基于确定性多分组标记(DMPM)的回溯方案,利用全局标记分发服务器(MOD 按需标记[68])来标记不信任的数据包,防御了DDoS 攻击的威胁;鲁宁等人[69]提出一种基于出口过滤的层次化反匿名联盟构建方法(EAGLE),克服了出口过滤(egress filtering)和基于对等过滤的域间源地址验证方法(MEF)的可扩展性差、难以适应增量部署等难题;而吴波[70]针对分组转发中源地址与路径验证所面临的开销花费大、转发效率低等问题,提出了基于数据包随机标记的源地址与路径高效验证机制PPV,依据数据流验证的角度设计了PPV 验证机制,通过利用数据包随机标识的安全验证,避免了传统方案的逐跳逐包验证,降低了分组转发验证的额外通信和验证时延的开销,提高了分组转发安全验证的效率.

由于软件定义网络具有数据流和控制流分开的特性,研究者一般采用其作为理想网络和验证方案的研究对象,如陈国龙等人[71]提出了基于SDN 混合网络的验证方案(SAVSH),该方案利用SDN 中央控制器和全局的网络拓扑,寻找需替换SDN 交换机的节点并部署相应的过滤规则,动态校验数据以实现地址前缀级的来源验证;刘冰洋等人[72]设计出基于SDN 的OpenFlow协议研究设计出了SDN-SAVI 的应用程序,进而对数据平面中的数据包实施SAVI 以防御源地址欺骗的攻击行为;张超勤等人[73]提出基于SDN 的集成IP 源地址验证架构(ISAVA),依赖SDN 的增量部署,在自治域中的每个AS 边界内部署SDN 控制器,通过同步数据包签名验证协议为联盟AS 控制器间的出站数据建立凭证机制,以实现AS 级验证粒度,具有低部署性高过滤性的优势;为了克服SDN 网络源地址验证绑定表易被伪造AAM 破坏、缺少绑定表更新机制等安全问题,鲁喻[74]设计并实现了基于绑定表安全的保障方案,利用根据主机信息构建的 AAM 验证表,通过AAM 验证表和路由通告对 AAM 报文进行验证,并应用先到先服务策略(first come first serve,FCFS)对报文进行处理.

为了适应网络发展的需要,对于云计算受到DDOS的安全威胁,提出了基于源地址验证的防护技术,如Opeyemi[75]提出了基于主机的主动和被动OS 指纹识别的验证方法,依据欺骗性IP 源的OS 与真实IP 源的OS 进行匹配,实现云计算环境中OS 指纹识别验证传入数据包的真实来源性;由于很难追踪单个数据包的真实来源,陈永红等人[76]依据群集匹配追踪相似数据包群集的思想提出了基于盲目的检测方法来验证云计算的数据包真实来源,进而设计出一种基于K-调和均值聚类方法和改进轮廓值的新型群集匹配检测算法,来跟踪数据包簇的真实来源.

综上所述,源地址验证研究随网络的不断发展而进一步深入,逐渐从传统网络环境转变到现有网络环境中,产生了基于软件定义网、云计算等新型验证防御技术.

4.4 源地址验证方案演进趋势

根据第4.2、4.3 节对源地址验证技术的介绍,通过对各类验证技术的汇总,介绍相关验证方案的最新进展有益于勾勒出源地址验证技术的发展脉络,并绘制出验证方案的演进知识图谱,见图11.在图中可清晰看出在源地址验证研究的发展过程中,验证方案的三类设计理念一直贯穿于该领域的研究中.基于此,大批专家学者致力于这些验证技术的深入研究,希望探寻出更为合理的验证方案,经过不懈努力SAVA、SAVI 协议相继出现,使该研究领域迈入了新时代,能更科学、更微观、更系统的进行研究,设计出更先进的源地址验证技术,为下一代网络的安全发展保驾护航.

图11 源地址验证技术进化导向图

4.5 研究挑战与机会

现有源地址验证为代表的网络安全防御技术能够识别和过滤非法数据包、溯源追踪恶意节点,在一定程度上确保了数据传输过程的安全性,但在高效性、鲁棒性和部署激励等方面具有些许挑战:

(1)基于加密验证的源地址验证方案不可避免地引入了身份验证标识,这毫无疑问会造成极大的网络开销,占用一定的带宽资源,随之会影响数据包的传输效率,并且加密验证方案多数采用端验证方式,缺少在数据传输路径上的验证机制.即使采用了全路径传输的验证机制也势必会产生极大的计算开销和验证开销.因此对于源地址路径传输的验证机制开始逐渐着眼于在网络数据传输路径上的关键节点处进行源地址验证,其中网络数据传输关键节点的识别与关键节点上的源地址验证机制的配合是现在较为棘手的难题.

(2)基于报文过滤的验证方案现在多采用不同的过滤准则作为访问控制列表的准入策略,利用路由器对数据包进行过滤验证.由于该验证方案非常依赖于数据传输过程中的所有全局的网络拓扑信息,因此在网络拓扑发生变化时会过滤掉部分合法数据包,导致误判增多.同时部分验证技术仅具有单向防御能力,而无法及时阻止来自网络内部的非法数据,导致防御能力大大降低,只能做到地址前缀级别的安全防护.

(3)基于事后追踪的验证方案一般使用边界路由器对传输数据包按照概率进行标记,在端系统受到攻击后,利用标记的数据报文和路由器记载的数据传输日志,对攻击端进行溯源定位,以追击攻击者实施攻击的真实位置.但由于溯源定位所需标记数据量极多和溯源追踪算法复杂,容易大量占用网络资源.并且该验证方案易受到中间路由节点的恶意干扰,可能造成溯源定位精度降低、验证机制的可用性变差等,进而无法实现对发动源地址欺骗与路径篡改等网络威胁的攻击位置准确定位,其安全防御能力有待进一步提升.

(4)面临的其他挑战,如源地址验证方案部署的扩展性问题、集中式激励机制的单点故障威胁问题、难以适应拓扑动态变化的灵活性问题、验证方案的实现困难问题等.面对上述的种种问题,在前期部署时应采取“谁部署谁受益”的激励机制和循序渐进的部署原则.在部署验证方案的前期应该采用最少的部署工作量,获得了最大的收益时,而后在进行增量部署,以达到接近百分百的验证防御效果.

为了解决上述难题和挑战,科研人员开始逐渐应用SDN 网络来设计实现源地址验证方案.因为SDN 网络将数据流和控制流分开形成了SDN 网络的数据平面和控制平面,打破了常规网络的体系架构,且实现源地址验证的方案可以基于SDN 的控制器和OpenFlow协议来设计,同时开源了南向和北向的API 接口,为源地址验证方案的实现提供了便利条件.在近5年的源地址验证研究中,大多数科研院所多采用SDN 来设计和实现了源地址验证方案,并对各验证方案进行了对比分析.虽然利用SDN 网络为源地址验证提供便利条件,但也产生了些许难题,如在规模较大的网络拓扑中控制器主动探测发现异常主机时,会对相应的主机端口持续进行源地址验证,导致验证延时过大,致使网络的安全性有所降低;控制器对所有传输设备进行数据采集时,进而对大量数据进行异常检测可能加重控制器的处理负担;通过设定丢包率和流量阈值来判定异常主机时,阈值的设定不好控制等.综上所述,利用SDN 网络对于网络数据地址真实可信性研究起着重要的启程转折作用,为使用传统网络架构进行源地址验证研究提供了一条新的、可行的研究途径.

5 结束语

本文通过对中国知网数据库CNKI 近20年来发表的基于源地址验证研究的论文进行文献统计、可视化分析和归纳整理,旨在帮助科研人员了解源地址验证研究领域目前在国内的研究现状、研究主题及研究热点,并通过文献计量学和科学知识图谱的方法,采用CiteSpace 可视化工具进行科学性分析,挖掘出源地址验证研究的核心力量,包括核心作者及重要科研机构,并勾勒出源地址验证研究热点的热度轨迹,以进一步总结该研究领域的发展演化趋势.为科研人员把握源地址验证研究的未来科研方向提供科学的借鉴依据,进而不断深入探索,为将来网络数据的安全性传输保驾护航.

猜你喜欢
数据包聚类图谱
基于时隙ALOHA与NOMA的通信系统性能分析
“植物界大熊猫”完整基因组图谱首次发布
基于伪谱法的水下航行体快速操舵变深图谱研究
基于数据降维与聚类的车联网数据分析应用
基于模糊聚类和支持向量回归的成绩预测
C#串口高效可靠的接收方案设计
图表
基于密度的自适应搜索增量聚类法
网络数据包的抓取与识别
中国知名官方智库图谱