基于校园网Web日志安全事件挖掘系统的相关研究与设计

2018-12-22 07:05徐涌霞淮北职业技术学院
数码世界 2018年8期
关键词:安全事件校园网日志

徐涌霞 淮北职业技术学院

1.引言

高校信息化进程在快速推进,各种攻击事件的发生,使学校的信息安全受到极大的威胁,提高校园网的入侵防护能力就显得尤为重要。学校加强校园网的安全预警及监测能力,具体采用的安全防护机制有WAF、防火墙、防病毒软件等,与国家信息安全等级保护要求相比还差很多。首先,对日志的采集及存储能力不足,日志分布在不同的服务器上,黑客入侵服务器后很容易造成日志的丢失。其次,没有对庞大的日志信息进行挖掘和系统的分析,更没有充分发挥日志的安全价值。虽然校园网采用了Web入侵检测系统,各个网站攻击事件仍时有发生。对Web日志进行系统分析及挖掘可以大大提升校园网的安全防护功能。

2.系统总体架构设计

根据校园网的实际环境设计出了校园网Web日志安全事件挖掘系统;该系统针对攻击方式进行深入研究后,提出了基于Hadoop集群的三种安全事件挖掘方法,解决无法采用传统方式对庞大日志进行挖掘的问题。充分展现了日志的安全价值,为提升校园网安全防护提供极其重要的参考。系统功能模块有校园网流量采集模块、安全事件挖掘模块、安全事件统计模块及可视化模块。

3.校园网流量采集模块的设计及研究

很多的互联网公司都采用分布式Agent技术来采集Web日志,由于校园网服务器众多,且分布比较分散,采集的日志不完整,Web日志格式不统一等特殊性,对校园网日志的采集采用Agent技术并不可行。引入了一种新的流量采集方式,首先从IDC出入口采集用户访问IDC的流量,然后再通过对流量的解析获取Web日志,它并不从各主机上获取Web日志而是从IDC出入口还原出Web日志。这种采集方式从出入口流量中得到入侵者的访问痕迹;且能避免从各台服务器采集数据,统一获取到校内所有网站的访问日志;在采集过程中就可以统一格式,省去了各式转换的步骤。

4.校园网Web日志安全事件挖掘模块的设计与研究

Web日志中包含了丰富的用户访问信息,很多的互联网公司都是通过Web使用数据分析用户们的爱好、及各种行为。同时Web日志也包含着很多的攻击行为。那么从Web日志中挖掘网站扫描、目录遍历攻击、SQL注入攻击、挂马网站及XSS攻击。然后分析这些攻击事件的攻击特点,从而提出相应的挖掘方法。

4.1 SQL注入、XSS、目录遍历攻击的研究及挖掘方法

校园网WAF会利用规则库对SQL注入攻击、目录遍历攻击以及XSS攻击等多种攻击形式进行检测,由于很多高校的WAF,只扫描特定端口的流量,所以无法覆盖全部的网站和域名.对以上攻击方式的攻击特征进行研究,总结出XSS攻击的主要关键字、SQL注入攻击的关键字及目录遍历攻击的主要关键字。根据各关键字本文制定了对于WAF来说较为宽松的正则表达式,使纪录的匹配程度更高,有效防止错过可疑的攻击。针对以上的攻击方式,具体的挖掘步骤为:首先对日志进行预处理,从中截取所有HTTP请求的URL字段;然后逐行读取URL,与库中全部正则表达式进行匹配,若匹配成功则记录下URL与对应的攻击类型。

4.2 挂马网站的研究及挖掘方法

挂马网站挖掘的总体思路是特征匹配,通常会建立特征库来与网页木马的请求进行匹配。本文通过截取访问公网的HTTP日志,从中获取URL,然后与网页木马特征库进行匹配,若匹配成功,则记录该HTTP请求的Referer字段,该字段就记录了校园网可疑挂马网站。

4.3 网站扫描的研究及挖掘方法

目录扫描工具最大的特点是会按照特定的URL库向服务器发出连续的请求,由于大量请求目标网站根本不存在的路径,服务器就会返回很多的404状态码,基于以上特点,提出网站扫描的基本挖掘思路及步骤:首先统计在单位时间段内每一个IP所产生的404状态码及状态码在该Ip请求总量中所占比例。其次利用聚类算法K-Means对前面处理得到的数据进行聚类,由于数据之间存在着太大的差异,采用欧式距离是不行的,采用马氏距离来完成聚类。最后利用聚类的结果,找出404数量大、比例高的一类IP,就是恶意扫描的IP,然后将此类IP加入黑名单。

5.校园网Web日志安全事件统计模块的研究与设计

网络管理员要了解校园网所遭受攻击的实际状况,需要对校园网所遭受的攻击类型、攻击者的地理位置以及攻击次数进行详细统计。

5.1 各种类型攻击次数的统计

根据前面各模块的挖掘结果,分别设置三个变量代表三种攻击类型的攻击次数,从挖掘结果中逐行读取记录,分析攻击类型并给对应的变量加一,最终统计出每一种攻击类型的攻击次数。对网站扫描模块的挖掘结果,则会把黑名单中IP的个数设为攻击次数,读取挂马网站的挖掘结果,统计可疑的挂马网站的数量。

5.2 攻击者地理位置分布的统计

目前在全球企业应用较为广泛的MaxMind GerIP2服务能较为准确识别用户IP的特征及地理位置。所以本系统中就用MaxMind GerIP2所提供的GeoLite2版本,数据库文件为mmdb格式。

6. 校园网Web安全事件可视化模块的研究与设计

本模块需要利用Sqoop工具将存放Web安全事件统计及挖掘结果的HDFS中的数据导入到关系数据库Oralce当中。然后利用Web页面完成以下几个模块的设计:

6.1 查询校园网流量采集结果的模块

本系统通过JDBC连接Hive,搭建Web页面同时设置SQL输入框,当有安全事件发生时,网络管理员能快速定位到可疑日志,同时在Web页面上方便地输入SQL语句来对可疑日志进行查询,分析入侵者的具体攻击过程,就能对校园网存在的安全漏洞进行修复。

6.2 展示常见Web攻击挖掘结果的模块

攻击挖掘结果以Web形式展示给网络管理员,这样管理员可直观从挖掘结果及时了解到校园网遭受攻击的网站,从而对安全隐患较多的网站进行整改。

6.3 展示校园网安全事件统计结果的模块

本系统利用柱状图展示各种攻击对校园网的攻击次数,利用饼形图展示入侵者的地理位置分布,这样网络管理员就可以直观了解学校所遭受的攻击情况,并且可以随时通过该模块来验证校园网实施的新防护措施的有效性。

7.小结

深入研究Web日志采集分析的需求,对校园网的安全建设进行了系统的分析,设计出校园网Web日志安全事件挖掘系统,该系统包含四个主要模块。为了解决校园网日志采集存储能力不足的问题,针对性地提出了一种全新的流量采集方式,同时搭建Hadoop集群来完成日志的存储,为安全事件的分析奠定了良好的基础。

猜你喜欢
安全事件校园网日志
一名老党员的工作日志
2020年度区块链领域安全事件达555起
数字化校园网建设及运行的几点思考
扶贫日志
试论最大匹配算法在校园网信息提取中的应用
网络安全技术在校园网中的应用研究
雅皮的心情日志
雅皮的心情日志
大学生校园网贷风险及干预对策研究
民航不安全事件调查工作的改进措施及建议