基于信息熵的恶意域名识别技术

2017-11-17 05:04胡建平汪永益许成喜

网络安全技术与应用 2017年11期

关键词：信息熵域名IP地址

◆胡建平汪永益许成喜施凡

（电子工程学院网络工程系安徽 210037）

基于信息熵的恶意域名识别技术

◆胡建平汪永益许成喜施凡

（电子工程学院网络工程系安徽 210037）

域名系统是互联网中的重要资源，是互联网重要的基础设施的，恶意域名识别技术用于发现以域名系统为保护的域名。本文分析研究了现有的恶意域名识别技术，提出一种基于信息熵的恶意域名识别技术。从域名解析记录中提取长时间周期上的动态解析变化特征，包括IP地址波动，ns解析服务器变动以及cname、SOA记录扰动等，针对恶意域名表现出的“伪装”和“跳变”特点，对域名进行信誉评分，最终表征域名性质，实验结果表明，该技术达到了93．86%的识别准确率。

网络安全；恶意域名；信息熵；信誉评分

0 引言

恶意域名是当前的互联网重要的安全威胁之一。域名系统作为互联网中重要的基础建设，提供将域名转换至IP地址的功能，将人从不便于记忆的 IP地址中解放出来，完成正常的互联网访问请求。但是，由于域名系统自身存在的脆弱性问题，常常被恶意人员利用，成为其恶意行为过程中的隐蔽通道，充当跳板作用。在恶意域名的直接或者间接作用下可以完成诸如分布式拒绝服务攻击（DDoS）、网络钓鱼、垃圾邮件分发等行为，或者进一步为后续控制完成后的信息获取、远程控制等提供助力。

根据cncert/cc给出的《2016年中国互联网网络安全报告》[1]中指出，抽样检测中发现2016年约有9.7万个木马和僵尸网络控制服务控制我国境内1699万余台主机，规模在10万台以上的僵尸网络有52个。目前主要的分布式拒绝服务攻击几乎均由僵尸网络导致，并且除了传统的PC和服务器作为僵尸主机外，智能设备逐渐成为新的僵尸节点。Mirai恶意程序正是通过对物联网智能设备漏洞进行入侵渗透形成的庞大僵尸网络，该僵尸网络直接导致了2016年底美国东海岸大规模断网事件。此外我国境内的钓鱼网站数更是达到177988个，涉及IP地址20089个，是用户信息泄露的主要渠道。垃圾邮件所包含的各类宣传、病毒等恶意内容，也是造成用户主机感染的一个重要途径。可见，由恶意域名直接或者间接对互联网造成的危害严重，给互联网以及现实社会带来隐患。

就目前而言，恶意域名中的恶意目的多样，恶意域名类型多样，技术手段多样，分布地区广泛，是时下互联网安全重要的威胁之一。如何有效的识别恶意域名对互联网安全来说有着重要的意义。

1 研究现状

目前，学术界对恶意域名并没有明确统一的定义。一般认为，恶意域名是一种用于网络中、带有恶意目的的域名，就其使用场景而言，恶意域名常常被僵尸网络、钓鱼网站、垃圾邮件等利用；就其应用场景而言，恶意域名主要用作攻击的前期诱导和后期通信，实现对用户进行攻击诱导和对已攻陷并且留有后面的目标进行后续控制。

为了解决域名系统在攻击中的滥用问题，国内外安全研究工作者给出了众多恶意域名识别和预测方案。张永斌等[2]提出基于组行为特征的恶意域名识别技术，通过对分析新域名和失效域名是否存在组特性来判断恶意域名。张洋[3]等人提出基于多元属性特征的恶意域名识别技术，通过对恶意域名多元属性特征的分析进行域名性质判断。Wei wang[4]等人提出了基于词分片的恶意域名识别方式，通过词分片算法分析域名字符分布特征进行恶意域名判断。C Zhou[5]，Leyla Bilge[6]，Antonakakis[7]等人分别采用不同的机器学习算法，提取多种恶意域名特征和属性，建立恶意域名识别模型进行识别。上述方法在对恶意域名特征的总结上做出了重要贡献，并利用不同的机器学习方法达到了不错的识别效果。

本文从长时间跨度上对域名解析记录进行分析，根据恶意域名行为在动态特征上的“伪装”和“跳变”的特点，提出基于信息熵的恶意域名识别技术，该技术可以作为恶意域名识别领域中的新的补充。

2 基于信息熵的恶意域名识别技术

论文引入香农提出的“信息熵”的概念，通过域名在解析记录的基础上建立熵，用来评估域名稳定性。在对域名发起查询时，域名解析记录的结果一般以“.”或者空格进行分隔。在 A记录中，对域名的解析结果返回的是IP地址，IP地址是一个以“.”划分的四个字段，每个字段中是一个范围在 0-255的数值；在ns记录中，对域名的解析结果返回的是DNS解析服务器地址，该地址一般为一个或者多个记录，一般表现为“编号.主域”的形式；在cname记录中，对域名的解析结果返回的也是域名，表示多个域名指向同一个服务器 IP，即表示与查询域名共享一个 IP地址的域名，其形式符合域名的规范；在 SOA记录中，对域名的解析结果返回的是权威 DNS解析服务器中的主服务器名，该记录的格式一般为“DNS解析服务器名版本刷新时间重试时间辅助解析时间 TTL”。论文对上述四个记录类型按照记录返回的格式用“.”或者空格进行分割，并按照时间序列进行排列。引入信息熵的概念，通过对长时间序列上解析记录的分析，针对恶意域名“伪装”和“跳变”的特性，对恶意域名进行识别。根据记录的不同划分情况如图1所示。

图1 记录划分情况

选取域名解析记录中的上述4种记录建立信息熵，分别是A记录信息熵，ns记录信息熵，cname记录信息熵以及SOA记录信息熵。区别于传统信息熵在使用过程中对各个字段信息变动均衡权重的设计，本文在此基础上进行改进，对每一个信息变动对最终的恶意域名识别效果进行权重调节，以达到最好的识别效果。以A记录信息上为例，该信息记录域名对应的IP地址，互联网中IP地址分为5类，并且这五类地址的分布体现出严重的不平衡性，因此，IP地址以“.”划分的四个段中，每个段变动对整个A记录熵的增加权重并不相同。根据图中的每一个序列，论文将信息熵形式化定义如下：

然后计算每个集合中信息的概率：

其中 M表示该序列集合中所有的信息个数。最终将该序列的信息熵定义如下：

最后整个域名的信息熵表示为：

其中，每一个序列中λ的值在实际实验中进行不断调整，直到权重的变动达到最优的恶意域名识别效果。

3 实验与验证

3.1 数据来源

实验数据来自Rapid 7进行的安全研究计划—senor（声呐计划），该计划采集所有可见的公共IPv4上的HTTPS web服务器的 ssl证书，收集所有公共 IPv4的 web服务器中的索引页面的HTML内容以及所有的IPv4地址的反向DNS记录，在上述数据采集的基础上收集到的域名和 TLD区域文件来构建 DNS的“ANY”请求[8]，数据以CSV格式给出，数据每周（初期更新时间较长）进行一次更新，一次数据大小为70G左右，约有5亿条记录。实验采集2014年3月至今的数据集，在此基础上进行时间周期上的解析记录变动性分析。良性样本从alexa[9]网站靠前排名域名中进行获取，alexa公司是一家专门发布网站世界排名的网站，该公司每天在互联网上搜集超过1000GB的信息，不仅给出多达几十亿的网址链接，而且为其中的每一家网站进行排名。目前，alexa是当前拥有URL数量最庞大，排名信息发布最详尽的网站。基于互联网中大量服务为正常服务的判断，业内研究人员常常把alexa排名靠前的域名作为良性样本进行处理。

3.2 实验环境与步骤

实验环境表1所示。基于华为服务器集群，实验使用5个节点，单个节点能力为32核cpu，128g内存，使用ubuntu 14.04LTS操作系统，搭建hadoop 2.6.4与spark 1.6.1平台。

表1 实验环境

为了确保排除cdn（内容分发网络）域名的干扰，实验首先对良性样本集进行筛选，匹配cdn域名列表，确保数据集中不包含cdn域名。这部分域名来自Github上存在的目前知名cdn网站列表[10]，共给出178个cdn服务器域名，实验将有这些服务器提供cdn服务的域名进行剔除。这是由于cdn域名部署的多个分发服务器导致此类域名的域名解析记录变动频繁，扰动过大。实验中发现，不排除cdn域名的影响，该方法的识别效果不佳。以国内外知名cdn提供商Akamai来说，该公司在全球部署150000多台服务器，这些服务器部署在全球90多个国家，800多个城市，1000多个运营商的2500多个节点上，规模庞大，节点众多。因此在对使用该cdn服务的域名进行查询时，得到的都是该cdn提供商的节点信息，并且不断波动。

对数据进行解析记录分类存储，按照解析A记录、ns记录，cname记录以及 SOA记录进行分类存放，将其他的类似 TXT、MX等记录过滤，提高数据集针对性。并根据各个记录类型，按照“.”或者空格进行分割，按照时间序列组成各个基于时间的序列集合。

对于A记录信息熵，实验首先根据经验对IP地址的四个段做如下权重安排，，这主要来源于IP地址的分布不均，此外一个域名为了保证负载平衡，常常会对域名绑定几个IP，这些IP大多每两个分布在同一个C段，变动相对较小。对于 ns记录，编号的变化对于信息熵波动性来说，影响很小，这是由于一个域名常常会有多个dns服务器，导致解析记录中编号段多出现类似ns1、ns2…等变化，这里起关键影响的是主域，恶意域名常常通过改变ns记录，即改变DNS解析服务器位置来对自身进行保护，达到隐藏自己的目的，权重是，这里只取主域信息进行信息熵计算。对于 SOA记录，多属性中取服务器名和 TTL值两个信息内容，其余信息进行舍弃，取权重和。对于cname记录，该记录的结果只有域名一项内容，取权重w别名。实验对这8个信息熵的权重设置初始值，利用spark计算出各个样本的信息熵值。

实验中对malwaredomains.com网站提供的恶意域名样本[11]进行检测，该网站提供的长期活动的恶意域名类别共计3205个，实验在对其检测之前进行了域名存活性检测，发现域名列表中只有1271个仍然存活，其余域名已经失活。实验在多次实验后对信息熵值的权重进行调整，并通过调整分类阈值改善识别效果。

3.3 实验结果与分析

实验对该1271个域名使用基于信息熵的恶意域名识别技术，共检测出恶意域名1193个，达到93.86%的识别准确率。实验发现，恶意域名和正常域名在 ns记录上变动最大，即w主域的权重最大。在域名系统中，ns（Name Server）记录是域名服务器记录，用来指定该域名由哪个 DNS服务器进行解析的，恶意域名常常在解析的 DNS服务器上表现出很大的变动性，即解析该域名的 DNS服务器不固定，一直在变动，相比较于正常良性域名表现出极大地波动性。实验选取了命中malicious.com提供的多个恶意域名的样本，对比良性域名，以每半年时间为周期（样本集一周采集一次）给出样本域名的 ns记录的变动次数折线图，取样本的平均情况，如图2所示。

其次，w别名的权重占据第二位，恶意域名为了防止域名被屏蔽，会使用别名来充当通信地址，这样可以通过频繁的改变cname别名来躲避安全机制的阻断。实验给出典型恶意域名cname记录的别名累计使用个数随时间变化的情况，如图3所示。此外，SOA记录中的DNS服务器名称变动的情况如图4所示。

实验中发现，原本作为主要识别特征的A记录信息熵和TTL值在该恶意域名样本中并没有突出的表现。A记录对应的IP地址变动在该样本中表现并不出色，主要是由于该样本的特殊性，文中使用的恶意域名样本是长期存活的，此类域名生存周期有别于短时间内表现出极大恶意性的域名，在 IP地址解析上相对固定。此外域名信息中的TTL值通常被安全工作者重点关注，这是由于恶意域名在改变其域名状态后，为了使受控制机能够及时访问，需要及时刷新它的域名状态，因此需要将缓存带来的影响降至最小，这就导致了该SOA记录中TTL值需要设置的较小。但是实际实验中发现，文中使用的恶意域名样本并没有在该特征上表现突出，深入分析原因，TTL值较小的恶意域名更多的是僵尸网络域名，为了僵尸主机快速上线而设置，而文中恶意样本并不是此类域名。

图2 ns记录的变动情况

图3 cname记录别名累计个数变动

图4 SOA记录中DNS服务器名变动情况

4 总结

恶意域名作为威胁互联网安全的重要因素之一，已经引起产业界及学术界的高度关注，对恶意域名的准确识别有利于及时阻断恶意行为的实施。本文引入信息熵的概念，并在此基础上进行应用和改进，通过对待测域名的信息熵值评估，对域名性质进行判断，达到了 93.86%的识别准确率。该技术也存在不足之处，基于信息熵的恶意域名识别技术需要依赖历史数据，难以做到实时性检测，对刚出现的恶意域名识别缺乏数据基础。该方法可以有效与互联网安全产品结合，作为恶意域名识别的重要补充，并为恶意域名识别提供了新思路。

[1] cncert/cc．2016 年中国互联网安全报告[EB/OL]，2017，http：//www．cert．org．cn/publish/main/upload/File/2016_cncert_r eport．pdf．

[2] 张永斌，陆寅，张艳宁．基于组行为特征的恶意域名检测[J]．计算机科学，2013．

[3] 张洋，柳厅文，沙泓州等．基于多元属性特征的恶意域名检测[J]．计算机应用，2016．

[4] Wang W,Shirley K．Breaking Bad：Detecting malicious domains using word segmentation[J]．Computer Science，2015．

[5] Zhou C， Kai C,Gong X,et al．Detection of Fast-Flux Domains Based on Passive DNS Analysis[J]．ActaScientiarumNaturaliumUniversitatisPekinensis，2016．

[6] Bilge L,Kirda E,Kruegel C,et al．EXPOSURE： Finding Malicious Domains Using Passive DNS Analysis．[C]// Network and Distributed System Security Symposium,NDSS,2011,SanDiego,California,Usa,February,Februa ry．DBLP，2011．

[7] Antonakakis M,Perdisci R,Lee W,et al． Detecting malware domains at the upper DNS hierarchy[C]// Usenix Conference on Security,2011．

[8] Rapid7 Labs,Forward DNS[EB/OL],http：//scans．io ，2014．

[9] amazon,top-1m．csv．zip,http：//s3．amazonaws．com/alexa-s tatic/top-1m．csv．zip，2017．

[10] github,cdn list, https：//github．com/WPO-Foundation/webpagetest/blob/master/agent/wpthook/cdn．h[EB/OL]

[11] long live malware domains,malwaredomains．com ，http：//mirror1．malwaredomains．com/files/immortal_domains．txt．