一种恶意域名检测系统的设计思路

2022-07-20 05:53严格知周丽娟洪剑珂刘恋
中国教育网络 2022年4期
关键词:域名字符校园网

文/严格知 周丽娟 洪剑珂 刘恋

校园网用户基数庞大,网络应用种类繁多。不良的用户习惯和层出不穷的软硬件安全漏洞使校园网潜伏着多种网络安全威胁。病毒、木马借钓鱼网站、垃圾邮件、恶意软件等进行传播,一旦入侵用户设备,还将伺机向同网段其它设备蔓延,最终目的是攻陷设备以夺取控制权。

监测发现,受害设备将周期性地与C&C服务器(Command & Control Server)建立联系,接收指令以实施勒索、DDoS、垃圾邮件、挖矿等进一步攻击。最初,C&C服务器的域名/IP地址硬编码在恶意软件中,受害设备周期性访问该地址以建立控制信道,安全人员监测到此地址后加入防火墙黑名单以实现阻断。现在,攻击者通常使用域名生成算法(Domain Generation Algorithms, DGA)批量生成恶意域名,其中仅有少部分可解析,受害设备通过访问域名,便可获得C&C服务器地址[1]。

域名生成算法DGA还结合速变服务网络(Fast-Flux)频繁改变域名与IP映射关系,使域名在短时间内多次解析得到不同结果[2]。如图1所示,客户端访问使用Fast-Flux技术部署的域名,返回的域名生存时间TTL为0,迫使客户端每次访问都必须向该域名的权威DNS服务器请求解析,且多次解析同一域名,获取的IP地址都不同。Fast-Flux技术模糊了C&C服务器的地址,使安全人员无法阻止所有可能的地址,成为恶意软件躲避追踪的常见技术手段。因此,访问此类恶意域名成为设备受恶意软件侵害的表征。在校园网中,可通过检测恶意域名定位受害设备,以阻止恶意软件传播。

图1 客户端访问Fast-Flux网络流程

研究现状

域名生成算法DGA通过随机种子,利用多种加密算法生成一系列伪随机字符串。表1所示为部分恶意域名家族及其域名实例。不同域名家族的DGA算法不同,但同一域名家族的各域名的域名长度、字符分布等字符特征具有一定规律。

表1 恶意域名家族及域名实例

目前,关于恶意域名的检测方法主要有三种:

1. 基于域名字符特征的检测

正常域名与恶意域名在字符分布上有明显差异。正常域名一般可读性较好,域名长度较短。恶意域名一般为无意义字符串。研究者使用分词算法分解域名,以一元分词、二元分词频率作为特征[3][4]。除此以外,域名字符串长度、域名字符信息熵分布,元音辅音比、最长有意义子串、域名K-L距离等均被作为特征[5][6]以检测恶意域名。

2. 基于域名流量信息的检测

正常域名与恶意域名的流量信息有很大不同。恶意域名的生存时间TTL很短,访问量在时间轴上呈现明显激增、激减的态势。研究者提取访问时间规律、访问量突变点、域名和IP的多对多关系、域名Whois信息、TTL信息、域名解析NXDOMAIN比率[7][8]等特征检测恶意域名。这一领域的研究重点在于针对时间规律、突变点的有效检测。

3. 使用深度学习方法检测

近年来,大量研究应用深度学习方法,如循环神经网络、长短期记忆网络、卷积神经网络等都被用于恶意域名检测[9][10][11]。深度学习不依赖于人工提取特征,且可从输入信息中提取人工无法发现的深度特征。研究表明,相较于传统的机器学习方法,基于长短期记忆网络和卷积神经网络的分类模型的整体检测效果更佳[12]。

系统设计与实现

域名流量信息提取较为困难,难以在现实网络中应用;域名字符特征获取简便,但误检率较高[13]。本系统综合两者优势,使用长短期记忆网络LSTM基于域名字符特征建立分类模型,根据分类结果结合域名流量行为加以验证。系统每日运行,对华中科技大学校园网(以下简称校园网)用户访问域名进行检测,架构如图2所示,系统包含模型训练、数据收集、域名检测和数据展示四个模块。

图2 校园网恶意域名检测系统架构

模型训练

1.样本收集

为训练分类模型,系统每天共收集100万条有标签的样本作为分类模型的训练数据。其中恶意域名数据来源于Netlab DGA Project[14],该项目收集了50余个DGA家族的100余万条域名并每日更新,每条记录包括域名、家族名、域名有效期信息。由于部分域名家族每天更新的域名样本量很少,系统每日将新更新数据与旧数据合并,不断扩大样本规模,并从中随机取50万域名作为正样本。

正常域名数据来源于Alexa每日统计的全球流量Top 100万域名[15],每日选取前50万条域名作为负样本。由于流量大的域名一般不可能为恶意域名,研究者通常使用此名单作为正常域名样本。

2.训练模型

系统使用基于长短期记忆网络LSTM的分类模型,其结构如图3所示,分为嵌入层(Embedding)、LSTM层、Dropout层和全连接层(Dense)。域名经过编码转换,将数字0-9、字母a-z、中划线、下划线等字符转换为数字序列后输入模型,嵌入层将其映射为长度128的向量;LSTM层包含128单元,用于提取深度特征;Dropout层防止过拟合;全连接层输出分类结果。训练数据被分为训练集、验证集及测试集。每天使用训练集对该模型训练多轮,每轮训练后使用验证集测试分类准确率,直到此准确率不再提升为止,随后生成并保存模型。

图3 基于LSTM 的分类模型

为测试模型分类效果,使用2022-01-11的训练数据和生成的模型,对恶意域名样本中未选取为训练集的2,766,875条域名进行分类。表2描述了这21个家族的域名总数和分类准确率统计。有共20个家族的分类准确率超过80%,16个家族超过90%,其中10个家族超过99%。检测效果较好的家族域名实例如表1所示,其字符特征明显,易于检测。总体而言,2,766,875个恶意域名样本的整体检测准确率为96.57%。

数据收集

1.数据收集

系统每日向校园网DNS日志下载前一日全校用户所访问的域名列表,约包含150万~200万条不同域名。由于恶意域名访问量较少,为减少检测开销,仅对日查询次数低于2000的域名进行分类。

2. 数据预处理

用户查询中存在大量不合法域名,如带“http://”前缀、不符合域名结构等,须使用正则表达式过滤,并去掉从Alexa收集的正常域名样本以节省计算时间(这里只取二级域名,如“www.baidu.com”中的“baidu.com”,所有此后缀域名均分类为正常域名)。经过预处理后约剩下70万~100万条待分类域名。

域名检测

1.数据分类

将过滤后的域名数据经过编码转换后输入分类模型,输出分类结果。

2.分析结果

分类模型基于域名字符特征进行分类,对其中被分类为“恶意域名”者,为避免单凭字符特征造成误分类,系统结合用户访问行为进一步分析。

真实恶意域名中大部分没有映射IP(解析结果为NXDOMAIN)。系统从DNS响应日志中提取每次解析均返回NXDOMAIN的域名列表,从检测结果中排除可解析域名。

访问恶意域名是恶意软件的自动行为,受害设备一般每天定期访问一批同一域名家族的域名。系统对检测结果中的恶意域名按查询源IP汇总,以直观地展示批量访问行为,对访问域名数超过一定阈值的设备判定为存在高危访问行为,根据经验数据设定该阈值为3。

数据展示

1.管理员通知

系统每日将分析结果和运行日志邮件发送给管理员,包括按访问恶意域名数倒序排序的设备列表,每条记录包含设备IP、访问恶意域名数量及域名列表。对存在高危访问行为的设备,还附有设备访问恶意域名的时间序列图示。

2.控制台展示及用户通知

存在高危访问行为的设备可能已感染病毒,并会向其他设备进行传播。系统对高危访问设备列表和访问时间序列图片封装了API,通过控制台前端调用展示每日检测到的恶意域名及其访问设备IP。

系统对接校园网统一通信平台,经管理员人工核对后,通过控制台可选用短信/邮件方式通知相关用户,内容包括设备IP,访问的恶意域名列表和访问时间信息,提醒该设备存在高危访问行为,需即刻采取查杀病毒、重装或关停设备等措施。

应用效果及分析

本系统自2020年11月上线运行,部署在华中科技大学高性能计算公共服务平台,环境配置如表3所示。

运行期间,共发现恶意域名9900个,涉及受害设备73个。对检测出的受害设备,当日通知相关用户并提供修复措施,经管理员确定的受害设备即时断网,未出现高危访问行为大面积传播现象。

分析检测出的恶意域名及相关受害设备,发现校园网网络安全态势存在三点问题 :

1. 恶意域名家族分布极不均衡

表4展示了检测发现的9900个恶意域名的家族分布,其中Conficker域名占9623条,占比为97.20%,表明在现实网络流量中,恶意域名家族分布极不均衡,Conficker域名占绝大多数,成为防范重点。Conficker病毒是以Windows操作系统为攻击目标的蠕虫病毒,利用系统漏洞传播。为避免引入病毒,用户设备须谨防下载不安全的应用软件;为避免被传播病毒,用户设备需保持安装系统更新。

2. 无线设备更易遭到网络攻击

在发现的73个访问恶意域名的设备中,无线设备占59个,占比约为80%,这与校园网总用户数中的无线用户数占比相近。一方面,无线设备携带便捷、应用广泛,在校园网入网设备中占比更大;另一方面,无线设备由于其可移动性,一旦被入侵,有利于恶意软件在移动过程中向新接入子网传播,较有线设备具有更大危害性。

3. 公用设备网络安全缺乏维护

对73个设备追踪其使用场景,其中公用设备占52个,占比约为70%。如表5所示,公用设备包括办公室或实验室中的公用电脑、教学楼教室电脑、自助查询设备、用户自建信息系统服务器等。相当部分公用设备一经建立,长期处于无人维护状态,因疏于安装更新系统或查杀软件而引入病毒。缺乏有效的网络安全维护,会给校园网带来安全风险。目前校园网在分配入网账号时,对需长期在线设备均限制使用特殊网段IP,网段内IP之间无法互通,限制了恶意程序的自动传播。

表5 部分感染设备及属性

本文针对校园网中以恶意域名访问行为为表征的恶意软件传播问题,提出了一种基于深度学习的恶意域名检测方法,即通过长短期记忆网络LSTM基于域名字符特征建立分类模型,并根据分类结果结合域名流量行为加以验证。

根据该方法,华中科技大学在校园网中部署了相应检测系统。每日检测校园网域名访问记录,对访问恶意域名的设备进行定位并通知受害用户。系统在长期运行中发现恶意域名9900条,涉及受害设备73个。对相关用户即时通知并协助修复,避免了恶意软件继续传播。

根据对恶意域名检测结果及相关受害设备的分析发现,校园网中恶意域名家族分布极不均衡,且无线设备及公用设备更易遭到网络安全攻击。因此,在继续培养用户的网络安全意识和良好用网习惯的同时,应持续通过各级网络安全设备和检测手段实现有针对性的网络安全防护,使监控、定位、通知及阻断形成闭环。

猜你喜欢
域名字符校园网
数字化校园网建设及运行的几点思考
论高级用字阶段汉字系统选择字符的几个原则
《江苏教育研究》官方网站域名变更公告
字符代表几
一种USB接口字符液晶控制器设计
图片轻松变身ASCⅡ艺术画
试论最大匹配算法在校园网信息提取中的应用
NAT技术在校园网中的应用
校园网安全问题分析及防护探讨
顶级域名争夺战:ICANN放出1930个通用顶级域名,申请者有上千家