项朝君 段俊娜 刘倩 罗望东 白洁 魏利朋
摘要:文章针对IPv6流量流向及应用分析进行研究,通过对互联网NETFLOW流量、域名解析数据、BGP路由表、AS号地域对应关系、IDC户籍信息、应用标签数据等信息进行关联建模,给出互联网IPv6流量流向与应用分布的判断方法,并通过对应用域名的cname信息与IDC户籍信息的分析比对,深度挖掘应用实际的CDN内容承载商。
关键词:NETFLOW;DNS;IPv6;互联网应用;数据建模
doi:10.3969/J.ISSN.1672-7274.2024.03.028
中图分类号:TN 929.5 文献标志码:A 文章编码:1672-7274(2024)03-00-04
0 引言
我国计划在2025年末实现IPv6网络规模、用户规模、流量规模全球领先,并面向下一代互联网平滑演进升级[1]。河南联通作为全国用户规模排名领先的运营商,亟须研发一套精准识别全网用户IPv6访问流量流向和热点应用网内网外分布情况的分析系统。本文重点研究IPv6流量分布和应用的识别方法。
1 系统研发思路
随着全行业自上而下大规模地进行IPv6改造,IPv6活跃用户数大幅增长,从国家到集团各个层面均需要掌握IPv6业务的发展情况。因此,为实现对IPv6业务监管以及推进IPv6规模发展,研发IPv6流量的识别分析手段是当前运营商迫切需要的能力[1]。
1.1 项目创新点
本系统通过大数据分析等智能化技术,对全省IPv6流量流向及应用情况进行识别统计。主要研发方向和创新点有以下几点。
(1)IPv6流量识别。河南联通宽带用户规模超
1 000万,移网用户规模超过3 000万,系统从每日产生的海量数据中提取IPv6 FLOW流信息,针对IPv6流量进行单独统计分析。
(2)IPv6应用标记。建立热门应用IPv6域名IP对应库,利用域名CNAME特征进一步识别应用实际承载商并明确IPv6流量的分布情况。
(3)IPv6地址库自动更新。与城域网建立BGP邻居实时获取现网路由信息,通过AS和区域对应关系自动更新IPv6和区域对应关系。
(4)IPv6地址落点快速判断。使用位运算技术将IPv6地址和海量IPv6区域地址段转为大数类型,通过IPv6的大数快速判断落点是否属于该区域。
(5)数据可视化。通过表格和多种图形化方式展现IPv6相关的流量流向、流量组成、流量TOP、应用流量及城域网/IDC流量分析。
1.2 系统工作流程
系统使用通用X86服务器架构,支持物理机和虚拟机部署;使用Hadoop的分布式文件系统进行分布式文件的存储、复制、灾备、提取等操作。
系统资源管理集群接收处理NETFLOW日志、DNS日志、BGP路由表、全网AS号、地域对应关系数据库、IDC户籍信息、应用数据标签库,将日志、计算任务分发至各分析服务器。
分析服务器根据数据算法模型,计算IP地址间流量、IP地址归属、DNS解析数据、匹配应用标签等,分析出区域间流量、应用流量、应用实际承载商,并将结果汇总至资源管理服务器。
资源管理服务器将流量信息汇总,执行过滤和去重分析并下发任务至分析服务器,经计算汇总得到最终去重后的流量数据,完成计算分析后将结果汇总至主资源管理服务器数据库。
2 系统设计原理
2.1 系统逻辑架构
系统通过专有的分布式系统,索引并分析全省NETFLOW数据,并将日志信息采用压缩传输的方式上传到集中节点,结合BGP路由表、全网AS号和地域对应关系数据库对海量的IPv6流量流向进行统计和趋势总体分析,并结合DNS日志、IDC户籍信息、应用数据标签库进行关联匹配,识别出热门应用的IPv6流量情况,同时标记应用的实际承载商。
2.2 系统软件架构
系统通过自行研发的查询引擎和分布式系统架构,提供对IPv6视角下应用的快速识别和IPv6流量流向的详细统计分析展示。
统一数据源处理模块通过探针采集的方式采集全省CR发送的NETFLOW流生成既定格式日志,SFTP方式接收本省DNS日志,手动导入AS号地域信息、应用域名库、IDC户籍信息,与CR建立BGPPEER实时接收全省路由表,将采集到的数据传送给数据存储模块。
数据存储模块将采集到的信息通过数据处理按照统一格式保存在分布式文件系统内。在数据保存前进行去重更新及备份策略制定,并将数据计算模块的分析结果入库保存并提供即席查询,系统根据分析结果的数据量和查询特点存入不同的数据库。
数据计算模块从地市CR采集数据,结合DNS日志和各种关联信息,通过分布式计算平台的任务调度和分析系统查询引擎对核心数据进行检索、分析、数据挖掘和定位等处理,并将分析结果保存到双活CLICKHOUSE数据库。
业务应用将已经完成统计分析的信息数据按照数据类别分别展现在用户界面上,可提供导出多种格式的分析结果。
2.3 系统构成
系统由数据层、数据分析层、结果展示层构成。數据层实现NETFLOW及DNS日志收集、BGP路由信息收集以及关联信息收集,并将AS号地域信息表、应用域名库、IDC户籍信息录入数据分析服务器。数据分析层基于Hadoop大数据分析架构,结合分布式文件系统和分布式计算的优势,建立四种分析场景(支持IPv4、IPv6流量分析,IP协议有IPv4和IPv6两种,通过两种地址的特征进行区分识别[2]):热门应用分析场景、城域网流量分析场景、IDC流量分析场景、违规转售分析场景。结果展示层将数据层的各个数据交叉计算、分析、统计,并通过Browser/Server架构展示给管理员。
3 项目成果展示
本系统已推广至全省18个市分公司使用,成为河南联通宽带网络运营、IPv6流量分析、IDC用户分析、运维稽查等工作中的重要支撑手段。
3.1 系統总览
本项目通过算法设计和数据建模,对河南联通41台路由器的NETFLOW进行分析,日均交叉处理分析约350亿条NETFLOW日志,2 000多个区域组合,100多个热门应用[3]。系统预制的四大分析场景(城域网流量分析、IDC流量分析、热门应用分析、违规转售分析)覆盖了流量分析的各个高频维度,同时提供精细的流量管理模块,可精细到一个端口、一个协议的数据分析,供维护人员按需自定义分析策略。
3.2 城域网流量分析
系统分析显示省内整体IPv6流量占比为15%,各市城域网的IPv6占比8~21%。4G/5G移动业务的IPv6占比高于宽带网,在40%以上。城域网固网IPv6流量占比整体低于20%,还有较大提升空间,需要重点关注家宽光猫、路由器等老旧终端对IPv6的支持情况。
3.3 IDC流量分析
系统分析显示省内IDC主要节点的IPv6流量占比为20%~30%之间,主要集中在快手、抖音、腾讯视频。通过与IPv4流量的比对,今日头条、有道、拼多多、虎牙、华为云、金山云、喜马拉雅等应用流量使用IPv6协议承载较少,政企部门可以加大与这些头部企业的沟通合作,多引入一些IPv6资源来优化IPv6流量占比。在市公司维度上,郑州、洛阳等IDC节点业务发展较好,IPv6流量占比在20%左右,明显高于其他地市。
3.4 热门应用流量分析
本项目对互联网热点应用IPv6与IPv4使用情况进行分析,IPv6流量TOP10为抖音、今日头条、快手、华为、金山云、爱奇艺、拼多多、腾讯视频、微信、天翼云。
TOP10内的大部分应用IPv6流量占比相对较低,哔哩哔哩、华为云、咪咕视频等热门应用IPv6流量占比低于5%,需要深入合作引入更多IPv6资源。
3.5 违规转售业务流量识别
本项目对全省IDC客户承载内容进行了分析,重点识别互联网直签客户违规转售的问题,运营商政企部门可以利用分析数据,与白手套公司进行约谈停止违规行为,有利于规范IDC市场发展,提升IDC业务收入。
4 结束语
IPv6流量流向及应用分析系统通过对运营商骨干网NETFLOW数据、域名解析数据、BGP路由表、全网AS号、地域对应关系数据库、IDC户籍信息、应用数据标签库进行建模关联分析[3],实现了运营商对互联网IPv6流量占比及分布情况精准掌握,并结合各类日志将IPv6地址间的交互流量映射为地区、运营商、应用、IDC客户等具有业务发展指导价值的信息,通过对全省IDC客户承载内容的分析,重点识别互联网直签客户违规转售的问题,协助运营商政企部门规范IDC市场,提升IDC业务收入。项目自上线以来,每周向工信部输出IDC和热门应用维度的IPv6/IPv4流量报表,可视化展现城域网、IDC、热门应用的IPv6流量流向情况,该系统具有可复制性、可推广性良好。
参考文献
[1] 葛监,刘宏洁.我国IPv6流量问题探讨[J].信息通信技术与政策,2019(12):17-20.
[2] 任晓磊.IPv6协议研究及IPv4/IPv6过渡方法和实验[J].电脑开发与应用,2014(10):76-78.
[3] 李春平,王东,张淑荣,叶裴雷,李妍.基于Netflow的网络流量监测与分析[J].现代计算机,2022(4):45-51.