文/王佶 单康康
浙江大学电子资源违规使用分析及用户定位研究
文/王佶 单康康
随着互联网的蓬勃发展,高校师生已经开始习惯于使用电子资源检索并获取信息,然而也随之产生了电子资源违规使用的情况,查处电子资源违规使用行为成了高校图书馆和网络管理部门日常工作之一。为了提高电子资源访问速度、改善用户访问体验,国外数据库商开始尝试使用内容分发网络技术(CDN)来加快电子资源的访问速度。目前电子资源访问控制主要以IP授权为主,结合CDN技术原理和国内高校的网络现状,违规行为查处却成为了网络管理部门的难题。本研究基于网络数据,分析用户违规使用CDN电子资源的行为特征和准确查找出违规用户的方法,从而减少因电子资源被封而给高校师生带来的不利影响。
2011至2016期间,浙江大学共计发生电子资源违规行为216次,涉及25种电子资源,均为国外电子资源,其中6种电子资源启用CDN服务。CDN电子资源违规行为106次,其中约70%违规IP并非单一用户独享的IP,而是使用了端口多路复用(PAT)技术的动态NAT转换IP,同一时间段内单个IP地址对应多个用户,电子资源违规次数TOP10如表1所示。
一旦发生违规使用电子资源的事件,数据库商一般会临时封闭违规IP,并通知所属高校,经高校查明违规用户身份并确认其删除已下载文件后才解封该IP。数据库商向所属高校提供的违规行为信息,一般包含时间、违规公网IP和电子资源域名,部分数据库商会附上日志,但是数据库商一般不提供与违规IP通信的服务器IP。对于没有CDN加速的电子资源,短期内IP和域名是对应不变的,只要通过域名解析,就能将域名信息转换成IP信息,从而实现违规用户的定位。而部分电子资源启用了CDN服务,同时国内高校由于公网IP地址有限和多互联网线路等因素都会采用NAT地址转换方式提供上网服务,高校网络管理部门所保存的网络运行数据与CDN电子资源之间无法直接确立域名和IP的对应关系,使违规行为查处变得更为复杂。国内有高校采用“端口镜像+旁路阻断”方式控制电子资源违规使用行为,通过镜像Web80端口数据获取用户访问电子资源域名URL信息,当用户访问量超过一定阈值时实行TCP旁路阻断,获得了不错的效果。然而国内高校网络现状是多出口链路、NAT地址转换、异地设备备份等,使端口镜像变得不那么容易,同时随着高校出口带宽的提升,万兆出口链路已经很常见,旁路阻断技术在高流量的情况下可能会失去对网络的控制管理,另外以浙江大学为例,年均违规次数不足40次,其中涉及CDN加速的电子资源违规事件更少,为此建设及维护一套违规行为管理系统收益并不高,不是所有高校都愿意采用。如何在现有网络日志的基础上利用简单的方法实现电子资源违规用户的准确定位,是本文研究的重点。
表1 2011-2016年浙江大学电子资源违规TOP10
数据采集环境
浙江大学网络运行数据一般包括认证信息、NAT日志和DNS日志等,NAT日志主要是IP信息相关的syslog,里面仅包含时间、用户源IP、NAT转换IP和被访问目的IP四个要素,并不包含域名信息,而DNS日志仅包含用户源IP和访问域名,并不包含该域名解析的返回IP信息。本文通过安装嗅探器(Sniffer)的方法获取电子资源解析返回IP,用于确立电子资源域名和IP对应关系。为了避免对生产系统产生影响,采用交换机端口镜像的方式,将三台主DNS的流量镜像到备用DNS服务器上,在备服务器上抓包,获取DNS报文。不同于DNS日志,DNS报文含有域名解析返回的IP,可用于建立域名和IP对应关系,将DNS报文与NAT日志等统一存储于日志服务器内,用于违规用户的定位,数据采集架构如图1所示。
数据分析
收集启用CDN服务电子资源DNS报文数据,能获得该电子资源IP地址列表。以违规下载最多的ACS数据库为例,单日内共解析出8个不同网段的IP。7日内解析相对稳定,然而半年前解析的该域名的IP不在其中,可见CDN服务商IP变化属正常情况,因此需分析违规事件发生时间内的电子资源解析结果,方能准确分析违规行为。
结合DNS及NAT日志的用户行为分析
以违规行为期间的DNS返回所有CDN电子资源IP为目标,以数据库商提供违规用户的公网IP为NAT IP,在相应时间内筛选NAT日志,定位违规用户。如表2所示,与ACS完整的IP地址列表相比,该时段内,全部用户仅解析获得4个IP,而违规用户仅访问了其中一个IP,如果以传统单次域名解析结果为筛选条件,如果解析返回IP不是违规用户访问的电子资源的IP,将直接遗漏该用户,使违规行为查询陷入无结果或者错误的困境。通过DNS报文数据结合NAT日志,可以筛选该时段内出访问ACS的所有用户,按访问量排序,可以确认违规用户,表2中内10.190段IP 地址NAT转化124段公网IP后访问ACS数据库的其中一个CDN IP,可见只有结合DNS报文和NAT日志,才能准确定位违规用户。
误判分析及排除方法
由于CDN服务商有一定概率为不同的电子资源或者网站提供加速服务且使用相同的对外虚拟IP地址,以ACS为例,ACS与iCast媒体等网站使用同一家CDN服务商的内容分发服务,根据单日DNS数据统计,ACS解析占比为83%,因此存在一定的误判率,有必要进行误判排除。误判排除的方法是筛选疑似违规行为用户IP的域名解析请求数据,如果该时段内对应资源IP对应的不是该电子资源而是其他网站,则排除该用户的违规嫌疑。
此外,为了降低误判率,应将数据库商提供违规下载日志时间明细与筛选结果时间比对,确认时间上的一致性。
本文针对电子资源的特性而产生的违规行为分析,在统计历年电子资源违规情况的基础上,分析了现有网络数据不足,提出了通过采集DNS报文和浙江大学互联网出口链路NAT日志的电子资源违规行为分析方法和误判排除手段,并验证了该方法的可行性。此方法避免了审计高校互联网出口链路的海量数据,仅在现有日志系统下,抓取少量DNS数据,过滤分析获取违规行为数据,是相对低成本的违规行为分析方式。
然而,日志服务器每天接收20亿条400GB的NAT数据和2亿条80GB的DNS数据,长时间储存日志信息会生成海量数据,在单一机器上处理往往耗时很长,现有IT架构在处理和计算能力方面存在瓶颈,如何利用分布式存储等大数据技术构建高效的日志分析系统是下一步继续研究的课题。
(责编:王左利)
表2 网络数据分析违规访问ACS行为示例
图1 数据采集架构
(作者单位为浙江大学信息中心)