徐涌霞 淮北职业技术学院
高校信息化进程在快速推进,各种攻击事件的发生,使学校的信息安全受到极大的威胁,提高校园网的入侵防护能力就显得尤为重要。学校加强校园网的安全预警及监测能力,具体采用的安全防护机制有WAF、防火墙、防病毒软件等,与国家信息安全等级保护要求相比还差很多。首先,对日志的采集及存储能力不足,日志分布在不同的服务器上,黑客入侵服务器后很容易造成日志的丢失。其次,没有对庞大的日志信息进行挖掘和系统的分析,更没有充分发挥日志的安全价值。虽然校园网采用了Web入侵检测系统,各个网站攻击事件仍时有发生。对Web日志进行系统分析及挖掘可以大大提升校园网的安全防护功能。
根据校园网的实际环境设计出了校园网Web日志安全事件挖掘系统;该系统针对攻击方式进行深入研究后,提出了基于Hadoop集群的三种安全事件挖掘方法,解决无法采用传统方式对庞大日志进行挖掘的问题。充分展现了日志的安全价值,为提升校园网安全防护提供极其重要的参考。系统功能模块有校园网流量采集模块、安全事件挖掘模块、安全事件统计模块及可视化模块。
很多的互联网公司都采用分布式Agent技术来采集Web日志,由于校园网服务器众多,且分布比较分散,采集的日志不完整,Web日志格式不统一等特殊性,对校园网日志的采集采用Agent技术并不可行。引入了一种新的流量采集方式,首先从IDC出入口采集用户访问IDC的流量,然后再通过对流量的解析获取Web日志,它并不从各主机上获取Web日志而是从IDC出入口还原出Web日志。这种采集方式从出入口流量中得到入侵者的访问痕迹;且能避免从各台服务器采集数据,统一获取到校内所有网站的访问日志;在采集过程中就可以统一格式,省去了各式转换的步骤。
Web日志中包含了丰富的用户访问信息,很多的互联网公司都是通过Web使用数据分析用户们的爱好、及各种行为。同时Web日志也包含着很多的攻击行为。那么从Web日志中挖掘网站扫描、目录遍历攻击、SQL注入攻击、挂马网站及XSS攻击。然后分析这些攻击事件的攻击特点,从而提出相应的挖掘方法。
校园网WAF会利用规则库对SQL注入攻击、目录遍历攻击以及XSS攻击等多种攻击形式进行检测,由于很多高校的WAF,只扫描特定端口的流量,所以无法覆盖全部的网站和域名.对以上攻击方式的攻击特征进行研究,总结出XSS攻击的主要关键字、SQL注入攻击的关键字及目录遍历攻击的主要关键字。根据各关键字本文制定了对于WAF来说较为宽松的正则表达式,使纪录的匹配程度更高,有效防止错过可疑的攻击。针对以上的攻击方式,具体的挖掘步骤为:首先对日志进行预处理,从中截取所有HTTP请求的URL字段;然后逐行读取URL,与库中全部正则表达式进行匹配,若匹配成功则记录下URL与对应的攻击类型。
挂马网站挖掘的总体思路是特征匹配,通常会建立特征库来与网页木马的请求进行匹配。本文通过截取访问公网的HTTP日志,从中获取URL,然后与网页木马特征库进行匹配,若匹配成功,则记录该HTTP请求的Referer字段,该字段就记录了校园网可疑挂马网站。
目录扫描工具最大的特点是会按照特定的URL库向服务器发出连续的请求,由于大量请求目标网站根本不存在的路径,服务器就会返回很多的404状态码,基于以上特点,提出网站扫描的基本挖掘思路及步骤:首先统计在单位时间段内每一个IP所产生的404状态码及状态码在该Ip请求总量中所占比例。其次利用聚类算法K-Means对前面处理得到的数据进行聚类,由于数据之间存在着太大的差异,采用欧式距离是不行的,采用马氏距离来完成聚类。最后利用聚类的结果,找出404数量大、比例高的一类IP,就是恶意扫描的IP,然后将此类IP加入黑名单。
网络管理员要了解校园网所遭受攻击的实际状况,需要对校园网所遭受的攻击类型、攻击者的地理位置以及攻击次数进行详细统计。
根据前面各模块的挖掘结果,分别设置三个变量代表三种攻击类型的攻击次数,从挖掘结果中逐行读取记录,分析攻击类型并给对应的变量加一,最终统计出每一种攻击类型的攻击次数。对网站扫描模块的挖掘结果,则会把黑名单中IP的个数设为攻击次数,读取挂马网站的挖掘结果,统计可疑的挂马网站的数量。
目前在全球企业应用较为广泛的MaxMind GerIP2服务能较为准确识别用户IP的特征及地理位置。所以本系统中就用MaxMind GerIP2所提供的GeoLite2版本,数据库文件为mmdb格式。
本模块需要利用Sqoop工具将存放Web安全事件统计及挖掘结果的HDFS中的数据导入到关系数据库Oralce当中。然后利用Web页面完成以下几个模块的设计:
本系统通过JDBC连接Hive,搭建Web页面同时设置SQL输入框,当有安全事件发生时,网络管理员能快速定位到可疑日志,同时在Web页面上方便地输入SQL语句来对可疑日志进行查询,分析入侵者的具体攻击过程,就能对校园网存在的安全漏洞进行修复。
攻击挖掘结果以Web形式展示给网络管理员,这样管理员可直观从挖掘结果及时了解到校园网遭受攻击的网站,从而对安全隐患较多的网站进行整改。
本系统利用柱状图展示各种攻击对校园网的攻击次数,利用饼形图展示入侵者的地理位置分布,这样网络管理员就可以直观了解学校所遭受的攻击情况,并且可以随时通过该模块来验证校园网实施的新防护措施的有效性。
深入研究Web日志采集分析的需求,对校园网的安全建设进行了系统的分析,设计出校园网Web日志安全事件挖掘系统,该系统包含四个主要模块。为了解决校园网日志采集存储能力不足的问题,针对性地提出了一种全新的流量采集方式,同时搭建Hadoop集群来完成日志的存储,为安全事件的分析奠定了良好的基础。