葛艳珍
(淮北矿业股份有限公司财务共享中心 安徽省淮北市 235000)
对于海量的网络数据,传统的数据分析技术明显不足以应对,大数据分析技术具有更强的洞察力和分析能力,可对网络中分散的各种信息进行整合,借助数据挖掘技术,对网络内各要素的关系深入分析,在网络规划、优化、安全保障、流量预测中发挥重要价值。下文结合笔者实践经验,对大数据分析技术在网络领域中的应用展开综述。
大数据分析技术作为一种新时代处理和分析数据的方式,应用的主要技术体现在以下方面:
(1)去除不必要的信息。大数据时代,信息的大爆炸使得企业要处理大量的信息,但是巨量的信息中并非所有的都是有价值的信息。想要在激烈的竞争中抓住市场抓住发展的机会,就需要有效的处理无用的信息,利用大数据分析技术就能很好的实现数据的整合。
(2)数据的处理和提取。网络中充斥着各类的信息,在大量的数据中,找到有用的信息离不开大数据分析技术的高效整合和提取技术。
(3)可视化的数据分析。基于计算机的大数据分析技术能同时处理多项数据,在进行数据的获取和加工时,大数据分析技术能把整个的加工和处理的环节都进行可视化的呈现。对于一些企业需要提取关键的数字信息,这时候就可以在数据的分析环节进行可视化的数据分析技术,让数据的处理结果更加的直观清晰。新时代下进行数据的处理,让大数据分析技术和人工智能进行融合,有利的一点是能使得数据的分析更加的准确和可靠,为网络信息系统的优化提供技术上的发展基础。
在网络信息系统中,由于不同的网络设备数量众多,由此产生的数据量非常大。传统的数据分析技术无法在短时间内快速处理和分析大量的数据信息。鉴于网络信息系统中数据信息的类型不同,并且涉及的业务领域广泛,想要使得工作的效率得到保证,可以利用大数据分析技术从海量复杂的数据中分析提取有价值的数据内容进行处理和整合,从而提高和优化业务管理。现代网络大数据分析技术在社会生活中发挥着重要作用,但是事物都是两面性的,在人们获得良好的联网体验的同时,也因此产生越来越多的冗余数据。为了提高网络安全和信息效率,可以引入大数据分析。完成大数据的采集、过滤、存储、管理和应用,提高网络信息系统效率的技术。
数据汇聚传输基于不同的开发接口协议,采用统一的数据标准规范通过加密服务、SSL 证书、DDoS 防护、传输身份认证等安全措施,实现集成 SCADA 数据、生产经营计划各系统数据、服务资源及第三方数据的准确采集及安全转发。数据汇聚传输形式可以是公司各信息化系统的数据库,可以是各单位上报的报表,也可以是手工导入系统的公司历史档案数据。总之,凡是在公司经营计划管理中产生的数据,均能够成为数据汇聚的组成部分。
在软硬件基础之上,构建企业大数据云存储与应用服务中心,提供大数据下的对象存储、文件存储,采用时空组织框架提供大数据展示与智能分析服务,为各类综合应用提供平台服务插件、功能服务插件、数据服务插件、接口开发插件、可视化展示插件、应用插件和二次开发工具,实现数据资源各核心业务数据集中管理,固化统一数据管理流程。数据中心通过企业服务总线(ESB)、主数据库、主数据管理平台的建设,实现多个业务系统数据统一共享,集中对核心业务数据进行汇总、筛选等管理,最终以服务的形式把统一的、完整的、准确的数据分发给其他需要使用这些数据的业务系统。
主要包含数据浏览、数据标准化、生命周期管理、数据质量管理、元数据管理等功能。数据浏览提供图形化的数据浏览展示,将总体的表数量及各子系统的数据量以图表的形式直观地展示出来; 系统提供数据全生命周期的流动管理(包括从数据到数据过时被删除) ;数据质量管理实现对数据从计划、获取、存 储、共享、维护、应用、失效全生命周期里可能引发的各类质量问题进行识别、度量、监控、预警,采集到数据中心的各类数据经过质量管理、标准化处理后,方可流入业务模型中。
(1)数据存储。数据存储建立并存储通过关联规则和序列模式挖掘基于时间、空间、属性和事件的多维关联关系,实现数据资源管理、塑化剂更新管理、历史数据数据管理及数据传输管理。
(2)数据计算。基于实时接入能力和服务能力扩展的需要,在万兆网络、使用双副本的条件下,对于高效模式单台数据总线服务器支持的业务数据加载速度不低于 300 Mb /s,可以线性扩展。对于可靠模式支持的业务数据加载速度不低于 20 Mb /s,可以线性扩展。高效模式下数据允许有万分之一以内的丢失。可靠模式下加载数据要求与输入数据一致。单集群支持的数据总线服务器总数不少于 100 台。数据从输入到订阅者能够订阅到时延不高于 1 s。
(3)资产分析。资产分析通过图、表等可视化的方式,直观的对资产大数据进行统计分析。
(4)安全管理。采用防火墙、防病毒软件等保护工具,利用磁盘的RAID 机制、容灾备份、软件服务主备自动切换、数据可备份与恢复、数据加密、数据脱敏等安全措施预防和解决系统或应用程序在使用过程中出现计算、传输数据泄漏或数据失窃等问题。
光纤属于重要的网络资源,对其合理分配,是满足用户对网络流量需求的重要措施,也是基本前提。近年来,在光纤网络优化、流量预测中,应用大数据分析技术来解决问题的案例屡屡增多,且均获得了研究成果。其具体应用包括如下方面:
3.1.1 网络优化
在光纤网络优化中,大数据分析技术的应用,主要是可解决路由和波长分配的问题。路由和波长分配算法对光纤网络有重要意义。目前这一算法有多重解决方案,包括快速有效启发式算法、分层图模型、线性规划模型等,而大数据分析技术在其中的应用研究较少。研究人员开发了一个Hadoop 云计算系统,其包含10 台低端桌面,各计算机上能够独立运行路由和波长分配算法,对一定数量需求序列进行分析,从而在短时间内,对一定数量需求序列进行评估。研究人员对各需求序列结果进行评估,选出最佳解决方案,流程见图1。
图1: 需求序列分析流程图
仿真结果发现,对若干混洗需求序列进行评估,可以获得和最优值十分接近的性能。若某一大型网络中,节点数共500 个,链路1000 条,请求4000 个,并行混洗光路需求序列5000 个,运用这一系统,可在3h 之内,为所有序列运行同一个路由和波长分配算法,这和普通的计算机相比,要快30 倍左右。
3.1.2 流量预测
新服务一旦出现,对网络就会提出更高要求,所需的比特率更大,且要为动态状态,这需要网络运营商主动探索以动态方式来解决预期流量问题的系统,而虚拟网络拓扑架构为最佳解决系统。一种方案是,采取网络超供应形式,对预期流量做好应对,不过这会导致总成本升高。另一方案是,在阈值基础上实现容量重配置,节省功耗,这一方案的不足是,不能促使每个IP 路由器需安装光转发器数量减少。利用大数据分析技术,可以构建一种新的方案,对原始目的地通信流展开定期分析,来执行对应VNT 重构,流程见图2。这一方案是借助边际IP 路由器,对流量监控数据展开定期收集,各边际路由器是每个其他目的路由器收集的流量样本,这些信息会在收集数据库中储存。预测模块可借助机器学习技术,为未来时段预测OD 的流量矩阵,此时,决策者可结合这一矩阵,决定是否开展VNT 重构。
图2: 大数据分析技术上的VNT 重配置流程图
相较于静态、阈值的架构方法,大数据分析技术基础上的VNT 重构方案,可节省安装光转发器总数8%至42%,且这一方案可于低流量状态,将转发器停用进行应对,达到节能的目的。同时,还可自光学层来将光路释放,促使成本降低。
和网络领域的其他分领域比较,无线网络对于大数据分析技术的应用更为成熟,且已形成了大量的研究成果。大数据分析技术在其中的应用,主要集中在以下几个方面:
3.2.1 故障检测
故障检测是无线网络应用大数据技术的典型案例。借助大数据分析技术实施故障检测,主要是通过对带宽趋势、用户通话记录、切换成功情况、测量报告等进行分析,来对设备故障、覆盖程度弱、休眠小区、用户异常等网络故障问题加以解决。
很多用户会遇到手机通话突然中断的情况,如用户自某一小区向另一小区移动后(如从5G 基站向4G 基站移动),可能会出现无法接通、通话中断情况,要解决这一类的问题,通常需要应用网络仿真、路测、基于KPI 等方法。其中路测费用较高,耗时较长,而网络仿真和基于KPI 的结果均不精确。国外学者借助大数据提出,可借助5G 网络覆盖的分析方法,对运营商储存的大量网络测试数据,来对现有网络覆盖性能加以优化。这一方案是在Hadoop 平台分析基站系统之上,通过移动交换中心和基站子系统实现信息交换。5G 网络覆盖分析法精度较高,比基于KPI 的方法更为精确。网络运营商可通过运营支撑系统,对网络性能测量的数据进行收集,借助大数据技术,处理运营支撑系统中的相关数据,从而实现高效、自动的网络优化。还有研究人员发现了在大数据分析技术之上的覆盖自由化算法,其是获取、分析数据的基础上,对现阶段无线网络性能情况做好记录,对异常覆盖性能小区加以定位,通过对天线参数适当调整,促使下行覆盖性能提升。对电信运营商而言,覆盖优化算法成本较低、效率较高。
3.2.2 缓存应用
在缓存中大数据分析技术的应用,主要包括优化带宽分配、缓存及热点跟踪、优化缓存节点部署、5G 主动缓存等内容。
移动互联网中的用户数量庞大,在互联网应用不断增多的背景下,为用户分配带宽,提供高质量服务,十分重要。大数据分析技术的应用,能够让用户随时提供互联网的连接,要实现这一目的,可借助动态带宽分配算法,让要下载同一内容的用户,共享基站无线信道。这一算法可自用户设备中,收集网络数据及用户数据,对用户进行划分,放到不同集群中,实现宽带共享,这样能够提升网络资源的利用率,促使内容分发速度加快。
5G 主动缓存中,可在大数据分析、机器学习基础上,形成主动缓存机制,来对5G 中内容流行度进行预测。在对用户流量这一原始数据收集之后,可通过Hadoop 来对有用信息加以提取,如HTTP 请求统一资源标识符、位置区域代码等;之后可用这一信息,对原始数据中内容流行度进行评估。从大城市的基站中获取的移动用户真实数据显示,这一机制能促使缓存性能提升,并对用户体验加以优化。
3.2.3 流量监控
大型蜂窝网络的传输速率较高,可满足用户对移动多媒体应用的需求。这些网络需要通过大容量、高性能服务器,实施流量监视、分析。不过随着人们对数据量、数据速率的需求逐渐提升,这一方法逐渐呈现出局限性。借助Hadoop移动互联网流量监控系统,可在大型蜂窝网络中部署,每日可对123Gbit/s 链路4.2TB 流量数据进行监测,性能较高,成本较低。Ocampo 等人,构建了在Spark 基础上的企业网络流量监控框架,允许批处理和流处理。流处理功能,可对各会话、各端口的带宽应用情况进行分析,在不同时间跨度实现对用户网络活动的监测。这一框架可对存储用户流量进行批量处理,能对用户当前活动和历史应用情况进行比较。流式、批量分析,都可构成异常检测基础,可对错误配置、恶意行为、异常行为进行识别。这一框架可于不同数量用户及工作负载之下,完成扩展。
3.2.4 网络优化
网络大融合背景下,各种通信手段及网络间的互相操作越发频繁,涉及到的优化、协调部署更为复杂,对网络管理系统中各数据处理的能力要求也越发升高。与此同时,业务类型越发多样,入网设备数量增多,这为网络规划、优化造成了一定挑战。对网络规划、网络质量可造成干扰的因素较多,传统因果关系建模难度较大,而通过大数据分析技术,可对数据间有价值的、潜在的关系进行分析,为网络分析工作创造有利条件。目前,大数据分析技术在网络规划、优化中的应用,主要包括表1 中的几个方面。
表1: 大数据分析技术在网络规划、优化中的应用
3.2.5 5G 通信
和4G 网络相比,5 G 网络的容量更大,速率更高,预期连接能力较高,至少可对1000 亿台设备、各用户10gbps高速传输提供支持。借助大数据分析技术,推动新兴通信技术发展十分重要。在5G 网络中,大数据分析技术包括预测分析、规范性分析、诊断分析及描述性分析。
描述性分析,指的是在历史、当前网络数据基础上,展开分析,对过去的事件进行识别,分析测量报告中各决定因素等的方式,在网络管理中应用较多。可构建5G 网在大数据自组织网络基础上的框架,开发端到端网络可见性,这样能够对当前的网络状态形成完整情报,对用户行为可进行预测,且可具备连接网络响应、网络参数的性能。
诊断分析是对历史数据展开分析,提供过去部分结果出现的根本原因。网络运营商可结合诊断结果,采取更好措施来实施网络运维管理,防止过去出现过的负面结果,进而为网络优化、故障诊断提供思路。
预测分析是对预测、未来结果概率展开估算的方法,可对未来机会、风险进行定义,能对用户行为进行预测。如可构建在大数据分析基础上的预测、主动推送、缓存技术互相结合的系统,将用户的需求作为个人兴趣的驱动需求,在大数据分析技术上,对用户需求进行预测,之后构建这一系统基本的框架,结合预测结果,确定缓存、推送策略,应用缓存命中率,对系统性能进行测试。
规范性分析可对未来行动造成的影响进行预测,在组织行动过程中,将“可能发生的事”作为参考,便于用户根据这一结果,采取最合理的决策。典型规范性分析应用,是网络资源的分配。如有一种BDA 基础上的切片准入策略,这一策略可对资源分配的解决方案实现最优化分析,促使基础设施提供商利润明显提升。软件定义网络、网络功能虚拟化,可实现无线电、传输、云资源联合协调,于5G 中占据核心作用。这样,InPs 可于基础物理设施之上,创建一个虚拟的网络,在不同需求用户之间实现资源的共享。InPs 可通过大数据分析,来对切片资源需求变化情况进行预测。
对于网络领域而言,网络安全是重要支柱,是互联网稳定、可靠运行的基础,各网络安全检测措施,能为互联网活动的开展创建安全通信保障。在网络安全领域,大数据分析技术同样可以发挥作用。
3.3.1 检测APT 攻击
在全球网络信息化快速发展背景下,APT 这种针对性、渗透性、隐秘性强的攻击逐渐增多,这导致企业、国家的网络信息系统、数据安全均面临巨大挑战。APT 攻击检测的挑战之一,是在发现检测异常时,筛选出海量的数据,这导致检测任务难度较大。因网络数据数量多、增长快、来源广,传统网络外围防御系统效果不佳。大数据分析技术可在海量数据中发现深度关联,对APT 攻击有明显的防御效果。
借助大数据分析技术检测APT 攻击的具体应用为:可根据攻击树概念,构建概念攻击模型,也即攻击金字塔。在金字塔的顶层,包括可能被攻击的目标,如数据服务器、敏感数据等,通过横向平面表示攻击相关事件环境,如网络平面或用户平面。在检测框架中,将组织内和安全相关的事件分组成若干场景,之后于每个场景、跨场景之中,借助MAPReduce 并行处理,再通过不同算法,对可能恶意活动进行检测。
3.3.2 检测僵尸网络
互联网存在的一些安全问题,如网络钓鱼、垃圾邮件等,均是因僵尸网络引发。僵尸网络指的是攻击者控制的、被恶意软件入侵的机器形成的网络,一次攻击中,僵尸网络可对90000 个IP 形成攻击,这是巨大的安全性挑战。为检测这一类攻击,网络分析师一般会通过网络跟踪、数据包捕获来加强防御,不过这些大型数据集的处理,对普通计算机而言处理难度较大。为解决这一问题,可通过大数据分析技术,构建大数据分析框架P2P 僵尸网络检测系统,包括流量嗅探、机器学习、特征抽取模块。这一系统可借助Dumpcap 来抓包,借助Tshark 提取域内数据,送至HDFS 存储,以Apache Hive 来提取动态的网络特征,最后通过Mahout 并行处理能力,构建决策树模型,用于僵尸网络的检测。
大数据分析技术在网络领域中的应用多种多样,通过这一技术,用户可以对网络中的日志信息、流量信息、系统信号等进行收集,充分挖掘数据背后潜藏的巨大利用价值,来获取更高收益。在日后网络领域应用大数据分析技术过程中,需要特别注意数据安全、最小化处理、人口密集及贫穷地区微型互联网连接、物联网节点部署等内容,促使大数据分析技术在网络领域得到更为有效的应用。