杨洪娇 天津外国语大学
基于Hadoop的高校网络日志分析平台设计与实现
杨洪娇 天津外国语大学
高校网络资源不断增加,大数据分析和应用的不断发展,如何充分利用高校网络环境中的日志增强网络管理水平,提高信息化服务能力成为研究方向,本文对高校网络环境中的日志信息进行分析,设计了网络日志分析平台,对不同类型的日志提出了采集、存储、分析的处理方案,实际部署表明该平台适用场景广泛,可为高校网络日志分析提供良好的基础,为基于大数据的日志应用提供可靠支撑。
Hadoop 网络日志 数据分析
近年来高校信息化建设不断发展,信息系统及校园网流量也日益增长。各类网络设备和信息系统的运行日志、访问日志等数量急剧增加,大量各类日志数据所蕴含的信息如何有效利用,为各种高校管理及信息化建设提供优化成为不得不考虑的问题,构建一个高校网络日志综合分析平台,有助于为日志大数据分析利用提供基础服务,支撑未来资源优化及信息化业务发展。
Hadoop技术是Apache基金会下的一个项目,旨在为大数据集提供一个分布式的计算框架,同时提供了简单易用的可编程模型。Hadoop技术有一系列相关项目实现,包括HDFS文件系统、YARN作业调度系统、MapReduce并行计算系统等。
1.1 HDFS文件系统与Hive数据库
HDFS是Hadoop分布式文件系统,与现有其他分布式文件系统不同的是,HDFS具有高容错率和低成本的优点。HDFS使用master/slave架构,NameNode作为master管理文件系统并控制客户端访问。DateNode作为slave响应用户的读写请求,HDFS文件存储以block为单位,由DataNode存储数据并执行NameNode对block的创建、删除、复制操作。
Hive数据仓库可使用SQL命令管理位于分布式存储上的大量数据,作为Hadoop项目的成员,Hive可集成HDFS文件系统中的文件,同时引入SQL语句高效地支持应用开发,降低了大数据应用的开发难度。
1.2 MapReduce计算框架
MapReduce为快速进行大数据并行计算提供了计算框架,MapReduce将计算任务分为Map阶段和Reduce阶段,Map阶段将并行执行读取数据并计算,Hadoop对Map阶段的输出进行合并和排序,输出给Reduce阶段计算并最终得到并行计算的结果。
MapReduce也 采 用 master/slave架 构,ResourceManager作为master管 理MapReduce计 算,NodeManager作为slave位于各计算节点。用户在使用时只需制定处理的数据并提供Map及Reduce阶段的计算程序即可。
1.3 Flume数据采集
Flume是一个分布式的大量日志采集与管理服务,对异构日志提供多种解决方案。结构上,Flume采用Source、Channel、Sink的设计,由Source响应所配置数据源的日志事件,并将信息发送至Channel中,根据配置,与Channel相连的Sink将处理该Channel中的日志信息。Flume与Hadoop可以方便地进行整合,Sink原生支持将日志信息存储入HDFS中,为数据清洗及分析做准备。
1.4 高校网络日志分类
根据高校校园网络环境及分析需求,高校网络日志类型可分为如下两大类:
(1)IT基础设施日志。包括高校网络中的软硬件设备的运行日志,如服务器硬件日志、服务器故障信息、网络设备运行状态、Windows日志、Linux日志等。
(2)用户行为日志。包括用户使用校园网过程中产生的日志信息,如网站访问日志、校园网连接记录、校园一卡通使用日志等。
针对以上各种日志类型设计合理的日志采集与分析方案,并能整合各类日志,满足日志快速增长的需求,才能为后续日志综合利用、精细化管理提供支撑。
2.1 日志采集
针对以上各类日志信息,日志采集模块主要利用Flume进行日志采集,Flume的Source模块支持多种日志数据源。针对不同日志类型设计不同的采集方案。
对于网站访问日志,可直接在网站服务器操作系统中部署FlumeAgent进行日志采集,可以采用Flume的Exec数据源,使用自定义命令指定网站服务的日志文件,以监听日志文件的变化,实时生成日志事件进行Flume采集。
对于操作系统日志及支持syslog的硬件设备,可以配置操作系统或硬件设备将日志以syslog格式发送至专用的FlumeAgent服务,配置Flume的Source为Syslog模式即可。
对于不支持syslog格式的设备,需要根据情况进行日志格式采集与转换,如对SNMP协议信息采集可将SNMP数据采集后转换为需要的格式通过网络发送给指定的FlumeAgent,实现数据采集。
其他自定义设备和服务,或需要采集特定业务的日志信息的服务,可以采用开发自定义日志采集程序,对接FlumeAgent的模式,Flume支持Netcat数据源,可在指定端口上进行数据监听,对收到的数据进行日志采集。
2.2 日志数据清洗
利用Flume采集的网络日志信息将存储在HDFS中,但日志文件数据源众多,数据格式多样,需要对日志数据按照日志类型进行分类整理并清理其中的错误日志。
对网站访问日志,首先对日志数据进行建模,对需要的字段还需从原始日志中计算生成。然后清理日志数据的错误信息。网站访问日志模型的主要字段包括日志类型、源IP地址、请求日期、请求时间、返回类型、返回长度、访问的页面。数据清洗环节主要使用MapReduce技术,设计程序主要在Map阶段对采集的日志进行筛选和过滤,首先筛选出网站访问日志,然后主要对日志的返回类型字段进行过滤,只有返回类型是200的日志被记录,其他异常类型被清洗掉。
对操作系统及硬件设备日志,其日志模型的主要字段包括日志类型、设备IP地址、事件日期、事件时间、事件级别、事件来源、详细信息。数据清洗环节主要对数据中关键字段内容不全的信息进行过滤,保证日志数据的完整性。
2.3 日志存储分析
日志存储分析主要利用Hive数据库进行日志管理,同时保留HDFS日志文件,以同时支持SQL数据分析和MapReduce自定义程序的多种分析方法。Hive数据库数据存储建立在HDFS存储之上。通过Hive根据日志数据建模的结果进行数据表创建,将不同类别的日志数据存储到对应的数据表中。在将日志导入到Hive数据库的过程中需要程序读取Flume传输到HDFS上的日志文件,对数据清洗后的日志文件进行格式解析,判断日志类型并存储到相应的数据表中。
2.4 分析展示
在网络日志分析系统中最直观的用户呈现方式便是可视化展示,由于日志分析的展示需求在展示时间、展示形式等方面多种多样,本文网络日志分析平台针对便捷使用和定制开发的不同需求,采用Tableau商业化数据可视化方案和Echarts可视化库的方案。通过部署TableauServer服务,对日常日志监控和统计分析可以方便地进行可视化配置,快速发布日志的分析内容。针对需要定制化分析,采用业务程序开发加Echarts可视化库的方式,对业务程序分析的结果定制Echarts展示图表,灵活适用不用网络日志的分析需求。
对本文设计的网络日志分析平台进行部署实现,在校园网数据中心内采用两台服务器部署Hadoop平台,配置采用4核CPU,32G内存,500G存储,两台设备均作为DataNode,其中一台配置为Name Node。在数据采集上,使用Flume1.7版部署于校园网三台网站服务器上,采集的网站访问日志包括Apache和Tomcat服务的网络访问日志,同时采集服务器的操作系统日志。Flume将不同类型的日志文件存储于HDFS不同的目录下,为下一步日志清洗和Hive存储提供便利。
数据可视化方面,通过在服务器上部署TableauServer服务,配置数据源及相关数据表信息,方便地实现大量日志数据的日常汇总和分析展示。
网络日志分析平台支撑的数据分析能力和应用场景较多,在高校校园网管理中,典型的应用场景包括故障监测、网络流量趋势及用户行为分析等方面。网络流量趋势分析主要针对校园网大量二级网站的访问情况,通过统计分析,对不同时间尺度的网络流量趋势进行展现,结合流量分布、时间分布等不同角度的统计分析,对网络管理人员提供网络优化指导。用户行为分析综合用户使用校园网的各种日志数据,包括整合多网站访问日志,网络认证日志等内容,对用户网络访问路径计算分析,利用用户行为分析算法对用户偏好等信息进行展示,为提升用户体验及产品优化提供指导。
本文在在高校信息化建设不断发展及数据应用越来越受到重视的背景下,利用当前流行的Hadoop等大数据分析工具,对高校网络中主要的日志进行分类并提出了相应的日志采集存储分析方案,可为日志分析甚至未来业务数据分析展示提供基础,实际部署实施表明该平台可提升高校网络日志利用效率。下一步的工作主要包括进一步细化网络日志分析的服务内容,尤其是高校网络环境中的用户行为分析进行业务开发,增强用户体验和学生服务等方面的信息化服务水平。
[1]于兆良,张文涛,葛慧,等.基于Hadoop平台的日志分析模型[J].计算机工程与设计,2016,37(2):338-344
[2]张春生,郭长杰,尹兆涛.基于大数据技术的IT基础设施日志分析系统设计与实现[J].微型电脑应用,2016,32(6):49-52
[3]宋梦馨,缪红萍,王溯,等.基于Hadoop平台的网站日志分析[J].信息系统工程,2015(12):35-36