◆周 伟
基于大数据的校园网络安全管理技术研究
◆周 伟
(攀枝花学院 四川 617000)
针对大数据环境下校园网络面临的安全威胁,利用大数据挖掘技术构建校园网络安全管理体系架构。实现数据的采集和深度挖掘,提升校园网数据利用的深度与广度,是大数据时代校园网络安全管理的有效探索。
校园网;安全管理;大数据;数据挖掘
随着高校校园网络规模的不断扩大,校园网络面临的网络安全威胁和安全风险在不断增加,网络病毒、木马和各种网络攻击行为造成的损失越来越大,网络攻击行为向着分布式、规模化、复杂化等趋势发展,传统的网络防火墙、IDS、访问控制技术等网络安全防护技术,已经不能满足网络安全的需求。
随着大数据时代的到来,大数据挖掘技术的应用越来越广泛,数据挖掘技术成为计算机技术发展最快的领域之一,如商场的顾客行为分析、营销策略决策、信用风险评估以及欺诈检测等[1]。因此,校园网络安全管理也应利用大数据技术,提升校园网数据中心数据的利用价值,对大数据时代下校园网络安全管理进行创新式探索,提供更个性化、更有价值的安全服务需求。
大数据(Big Data)是最显著的特征就是“大”。麦肯锡认为:“大数据是指大小超出了典型数据库工具采集、存储、管理和分析能力的数据集,但并不是说一定要超过了特定的TB值得数据集才算是大数据[2]。”维基百科定义为:“大数据是一个复杂而庞大的数据集,以至于很难用现有的数据库管理系统和其他数据处理技术来采集、存储、查找、共享、传送、分析和可视化[2]。” 全球权威的IT研究与顾问咨询公司Gartner认为:“大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[2]。”由此可见,“大数据”并非一个科学、严格的概念,它只是对数据规模爆炸性增长这一现象的归纳,到目前为止,并没有一个确切一致的定义。大数据具有四个特点,简称4V,即数据量大(Volume)、速度快(Velocity)、多样(Variety)、价值密度低(Value)[3]。数据量大是大数据最基本的特征,数据量一般要达到PB级以上才能称为大数据;速度快是指大数据的获取更加高速,大数据处理的实时性要求更高,是大数据区别于传统数据挖掘的最显著特征;多样是指大数据的类型多样,主要包括结构化数据(Structured Data)、半结构化数据(Semi-structured Data)和非结构化数据(Unstructured Data)三类,同时数据来源于不同领域、不同平台与设备;价值密度低是指大数据价值巨大但密度很低,必须通过对大数据进行分析和挖掘,才能够提供以决策支持。大数据的特点表明,传统的数据库技术已经不能从大量的数据中发现数据背后隐藏的关系和规则,从而无法根据现有数据预测未来发展趋势,需要新的数据处理方法和技术来有效地组织和使用大数据。
大数据挖掘是指通过分析每个数据从大量数据中寻找其规律的技术,大数据挖掘的关键技术包括数据采集、导入和预处理、数据存储、数据分析与挖掘和大数据可视化[4]。
(1)大数据采集、预处理与存储
大数据的采集是指对于不同类型(如结构化、半结构化、非结构化)和来源于不同客户端(如移动终端、Web应用、App或者各种传感器形式等)的数据采用多个不同类型的数据库来存储,并且用户可以通过这些数据库来进行简单的查询和处理工作。由于并发量大,在数据采集过程中需要在数据采集端部署大量数据库才能支撑。大数据导入与预处理主要包括数据清洗、数据集成、数据转换和数据归约。数据清洗可以去除数据噪声,填补缺少的属性值,删除无效数据等。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中进行存储,目前常用的有联邦数据库系统、中间件模式、数据库模式等几种数据集成模型。数据转换主要是将数据转换成或统一成适合于数据挖掘的形式,大数据存储的关键技术是分布式文件系统,由于数据量达到PB、EB级别,传统的计算机系统和数据库无法处理大数据,目前常采用基于HADOOP的HDFS、CEPH等分布式存储系统,该系统由一个或多个分布式集群组成,一个分布式集群的底层通常大量商用计算机组成,每台计算机称为一个节点(Node).节点放置在机架上,每一个机架可以包含30-40个节点.节点之间通过高速网络连接,数据分布式地存储在这些节点上,通过分布式数据存储于管理系统统一管理,其具体架构如图1所示。
图1 大数据存储与管理架构
(2)大数据分析与挖掘
目前, 大数据分析与挖掘按处理形式上可以分为静态数据的批量处理、对在线数据的实时处理和对图数据的综合处理,在线数据的实时处理又包括对实时交互计算和流式数据的处理两种[5]。大数据的批处理系统实时性要求不高,一般先对数据进行预处理存储后再计算,对数据的全面性、准确性要求较为重要。批量数据具有数据量大、数据精确度高和价值密度低三个特征,需要合理的算法才能挖据出有用的价值;实时交互式数据处理方式灵活直观且便于控制,操作人员与系统通过人机对话的方式进行,操作人员根据系统向导进行所需操作,从而获得最终处理结果,在此方式下,存储在系统中的数据文件能够根据实际情况被及时处理修正,同时处理结果可以立刻被使用;流式数据是一种来源广、格式复杂和含有时序性的数据序列,会随着时间的推移而不断增长(比如日志服务器的日志实时采集就是流式数据),流式数据包括结构化、半结构化和非结构化数据,数据中含有错误信息、垃圾信息,流式数据处理系统必须能够对数据进行清洗、格式处理、转换等。
(3)大数据处理平台
目前,静态数据的批量处理系统有Hadoop框架实现的HDFS和MapReduce,HDFS是一个分布式文件系统,可以管理大规模分布式存储的文件,同时可以运行在廉价的硬件上,MapReduce负责将计算逻辑分配到各数据节点进行数据计算,但是MapReduce存在缺乏对高层次语言(如SQL)的支持和不适用于某些并行处理任务(如实时计算)的缺点;交互式数据处理系统的典型代表系统是Berkeley的Spark系统,Spark[6]是一个基于内存计算的大数据并行计算框架,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,与MapReduce的批量计算相比,Spark可以带来上百倍的性能提升[6];典型的流式数据处理有Twitter的Storm、Facebook 的Scribe,Linkedin的Samza,Cloudera的Flume,Apache的Nutch[5]。除此之外,国际上还有应用广泛的模块化、集成化的大数据挖掘软件平台,如SQL Server的数据挖掘模块,SAS的Enterprise Miner,SPSS公司的Clementine,IBM的DB Miner等[5]。
(4)大数据可视化
为了从挖掘和分析结果中发现有意义的性质和模式,更好地理解数据,需要对分析结果进行可视化展示。大数据可视化分析工具,必须得有处理海量数据的能力和图形展现和交互的能力,能快速的收集、筛选、分析、归纳、展现决策者所需要的信息,并根据新增的数据进行实时更新。目前,国外的Tableau、Microsoft、SAS、IBM都有支持数据分析和分析结果展示的产品。
(1)数据存储和预处理能力难以满足大数据量要求
目前,校园网的数据存储基本都是采用服务器本身的存储,容量有限,扩展能力差。校园网各个应用系统(如图书借阅系统、教务系统、考试系统等)、网络设备(如路由器、交换机、防火墙等)、上网行为系统、校园网监控等会产生大量的日志信息,同时,图书馆的电子资源、各种期刊数据库也有海量的存储需求,如此庞大的数据量存储不能简单地通过升级原有服务器的方法来解决,需要有可扩展性强和良好的容错能力的大数据存储框架和数据处理平台。
(2)复杂的数据类型对数据融合提出了挑战
校园网络安全因素包括多个方面,有来自校园网内部与外部的攻击、服务器操作系统自身的安全、恶意攻击、病毒、漏洞等。因此需要多方面分析数据:一方面各应用系统产生更多的数据,需要不断的存储,另一方面需要对历史数据进行保存,以便和当前数据进行对比。同时,各系统产生的数据标准不一致,类型多样,对数据融合提出了巨大的挑战。
(3)数据的处理难以满足高实时性要求
不同的应用系统连续、高速的产生异构数据,要求对这些实时数据进行处理,从中发现对校园网络造成安全威胁的异常情况,从而要求大数据分析系统能够快速响应复杂的查询,具有实时处理业务系统数据的能力,传统的数据库处理技术不能适应如此大规模的数据流。
(4)大数据挖掘结果需要有效的可视化手段
大数据挖掘的最终结果是要获取的有价值的信息和知识呈现给最终用户,供最终用户做出决策,但最终用户不一定是既懂网络安全又懂数理统计方面的复合型人才,因此需要一种让普通用户能够看懂的大数据挖掘结构的可视化手段。
基于大数据挖掘的校园网络安全管理主要由数据采集层、数据与处理与集成、数据分析和数据展示层组成,其他如安全平台管理与平台配置与调度则贯穿整个流程,具体架构如图2所示。
图2 基于大数据的网络安全管理架构
(1)数据采集层
数据采集层主要实现大数据的采集工作。通过对校园网各应用系统服务器的日志文件、防火墙、行为监控、交换机和路由器登录记录等,通过数据采集层会收集大量结构化、非结构化和半结构化数据,为下一步数据与处理做好准备工作。
(2)数据预处理层与集成
数据预处理主要是对数据采集层采集到的数据进行适当的处理、去噪、清洗和进一步的分布式存储。数据采集层采集到的数据是各种不同类型的数据,数据类型的种类和结构都非常的复杂,这些数据必须经过处理之后才能进行数据挖掘,通过数据处理与集成,将这些异构数据转换为便于处理的或是单一的数据结构,保证数据的质量和可靠性。可以通过专业的ETL工具(如Kettle)、关联规则或是聚类算法对数据进行分类或过滤,防止对挖掘结果产生不利影响。对处理之后的数据进行存储,由于数据量巨大,可以采用分布式存储系统对数据进行存储,针对不同类型的数据可以建立特定的数据库来进行存放,可以有效减少查询时间和提高存取效率。
(3)数据挖掘层
数据挖掘是大数据处理的核心,通过对预处理和集成后的数据进行挖掘,可以发现隐藏其中的安全威胁。由于校园网络安全具有一定的实时性,从而可以将校园网安全行为日志数据分为实时性和非实时性数据,采用流处理和静态批处理相结合的方式进行挖掘。对于非实时数据,采用NoSQL数据可和Hadoop计算机框架来进行数据处理。对于实时数据,通过实时或流式计算技术如Storm分布式计算框架进行计算。
(4)数据展示层
数据展示层主要是利用数据可视化技术,将挖掘结果利用图形或图象在屏幕上显示出来,将抽象的挖掘结果表现为直观的图形图像,更利于帮助人们发现隐藏在数据的规律,便于决策者或管理员发现潜在的网络安全威胁。
校园网络安全涉及众多的因素和分析方法,数据来源丰富,需要利用大数据挖掘技术来发现与校园网络安全相关的所有关联信息来满足校园网络安全管理要求。随着国家对信息化和网络安全的重视,将大数据挖掘技术和大数据分析技术用于网络安全管理是校园网络安全领域发展方向之一。
[1]蔡丽艳著.数据挖掘算法及其应用研究[M].成都:电子科技大学出版社,2013.
[2]张绍华,潘蓉,宗宇伟.大数据技术与应用:大数据治理与服务[M].上海:上海科学技术出版社,2016.
[3]赵伟.大数据在中国[M],南京:江苏文艺出版社,2014.
[4]熊赟,朱扬勇,陈志渊.大数据挖掘[M].上海:上海科学技术出版社,2016.
[5]程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,http://qikan.cqvip.com/zk/search.aspx?key =J%3d%5b%e8%bd%af%e4%bb%b6%e5%ad%a6%e6%8a%a5%5d&from=zk_search,2014.
[6]高彦杰.Spark大数据处理:技术、应用与性能优化[M].机械工业出版社,2015.
[7]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版), http://qikan.cqvip.com/zk/search.aspx?key=J%3d%5b% e 6%b5%99%e6%b1%9f%e5%a4%a7%e5%ad%a6%e5%ad%a6%e6% 8a%a5%ef%bc%9a%e5%b7%a5%e5%ad%a6%e7%89%88%5d&from=zk_search,2014.
[8]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013.
[9]孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014.