抗混淆的恶意代码图像纹理特征描述方法

2018-12-19 06:59刘亚姝王志海严寒冰侯跃然来煜坤
通信学报 2018年11期
关键词:集上准确率家族

刘亚姝,王志海,严寒冰,侯跃然,来煜坤



抗混淆的恶意代码图像纹理特征描述方法

刘亚姝1,2,王志海1,严寒冰3,侯跃然4,来煜坤5

(1. 北京交通大学计算机与信息技术学院,北京 100044;2. 北京建筑大学电气与信息工程学院,北京 100044; 3. 国家计算机网络应急技术处理协调中心,北京 100029;4. 北京邮电大学网络技术研究院,北京 100876; 5. 卡迪夫大学计算机科学与信息学院,英国 卡迪夫,CF24 3AA)

将图像处理技术与机器学习方法相结合是恶意代码可视化研究的一个新方法。在这种研究方法中,恶意代码灰度图像纹理特征的描述对恶意代码分类结果的准确性影响较大。为此,提出新的恶意代码图像纹理特征描述方法。通过将全局特征(GIST)与局部特征(LBP或dense SIFT)相融合,构造抗混淆、抗干扰的融合特征,解决了在恶意代码灰度图像相似度较高或差异性较大时全局特征分类准确性急剧降低的问题。实验表明,该方法与传统方法相比具有更好的稳定性和适用性,同时在较易混淆的数据集上,分类准确率也有了明显的提高。

恶意代码可视化;图像纹理;特征描述符;恶意代码分类

1 引言

执行恶意的行为或攻击的软件简称为恶意代码。由于代码自动生成工具的出现和大量攻击代码的公开,恶意代码制作者大量使用可重用模块及自动化变形技术,使得恶意代码数量呈爆发式增长的势头,人们普遍认为恶意软件的增长速度远远超过合法应用程序的增速[1]。面对层出不穷的恶意代码威胁和攻击,安全分析人员和研究者已经提出了许多恶意代码的检测技术,但是如何快速、准确地识别、分类恶意代码仍然是这个领域的研究热点。

恶意代码分析技术主要分为静态分析与动态分析两类方法。静态分析是指恶意代码不被实际运行,通过分析恶意代码文件,识别恶意代码的种类和可能造成的危害。动态分析是指在受保护的虚拟环境(如VMware)中实际运行需要分析的恶意样本,在恶意代码执行过程中分析记录其动态行为特性,针对这些代码表达出来的行为,分析和判断恶意样本的危害级别,为恶意代码样本的识别和清除提供依据。动态分析技术不仅受模拟环境和触发条件等限制,而且随着恶意代码技术的发展,恶意代码的反调试能力不断增强,这大大增加了动态分析的难度。

研究人员已经提出了许多静态分析的方法。其中,基于特征码的分析技术[2-3]被广泛应用到病毒查杀工具中。但是随着技术的改进,出现了具有多态变种能力的恶意代码,能够躲避静态特征码的扫描。因此为了对抗恶意代码的变化,出现了基于行为的分析技术[4]、基于语义分析的方法[5-6]、基于操作码的分析[7-9]等。

在众多研究方法中,恶意代码可视化是一个非常重要的分支。Bonfante[10]提出基于控制流图(CFG, control flow graph)的恶意代码特征表示;Cesare[11]提出一种快速流图分析方法,可以检测加了分组或者多态的样本;Kinable[12]提出了基于调用图(CG, call graph)的方法,能够聚类相似样本,从而快速检测到恶意代码的变体;Trinius[13]将动态分析与树图和线索图相结合来判断样本的恶意性。

随着技术的发展,恶意代码可视化与图像处理技术相结合产生了一个全新的研究视角。但是恶意代码样本产生的图像与普通的图像不同,仅简单地应用现有图像处理的方法,在复杂样本情况下很难得到好的分类结果。

因此,本文提出了一种恶意代码可视化与多特征相融合的分析方法,能够更好地描述恶意代码类别特征,本文主要工作与创新点如下所示。

1) 将恶意代码样本转化为灰度图像,实现了恶意代码的可视化。

2) 提出了将全局特征与局部特征相融合的特征描述新方法,使得新特征更具有抗混淆性。同时,实现了恶意代码的分类问题。

3) 分析了传统方法在复杂数据集分类准确率急剧降低的原因。

4) 通过大量的实验,对比验证本文方法的抗干扰性、抗混淆性和适用性。

2 相关工作

2010年,Conti[14]提出了将任意二进制文件映射成灰度图像的方法。随后2011年Nataraj等[15]将该思想首次应用于恶意代码的分类中,为恶意代码可视化提出了一种全新的研究方向。

图1为某个去掉了PE头的十六进制恶意代码“.byte”文件的部分内容。

图1 恶意代码“.byte”文件示例

根据Nataraj[15]提出的方法,一个恶意代码样本按照每8位二进制串对应1位十进制数的规则进行转换,得到[0, 255]之间的无符号整数向量。“0”对应黑色、“255”对应白色,因此转换二进制串得到的无符号整数向量能够对应到灰度图像上。但是因为图像是有高和宽的,而无符号整数向量是没有宽度和高度的,因此需要将一维向量转换为二维向量。一般的做法是预先按照样本文件的大小设定图像的宽度,而图像的高度则随着文件大小而变化。本文按照表1所示的方式设置图像的宽度,将一个二进制恶意代码可执行文件转化为对应的灰度图像。

表1 图像宽度的设定标准

图2为按照上述方法得到的5个恶意代码家族灰度图像实例。

图2 恶意代码家族灰度图像实例

图2显示出恶意代码同一家族的图像纹理相似度高、不同家族间的纹理差异大的特点。Nataraj[15]用GIST方法提取图像特征、K-近邻方法(KNN, K-nearest neighbor)分类恶意代码图像,取得了非常好的分类效果。

2015年,Han等[16]在Nataraj方法的基础上通过熵图判断恶意代码的相似性,改进了恶意代码灰度图像纹理特征提取方法以及相似度度量策略。

2018年Yan等[17]基于LBP算法提出了改进的恶意代码图像特征提取办法,提高了分类准确性。

不同于上述已有工作,本文提出了一种恶意代码图像特征融合的办法——在全局特征(GIST)的基础上融合局部特征(LBP或dense SIFT),构造更健壮的特征描述符,从而解决Nararaj方法在某些相似度过高或者差异性较大的家族上分类准确率急剧降低的问题。

3 融合特征的表示

3.1 恶意代码全局特征提取

GIST方法[18-19]是常用的图像全局特征提取办法之一,它是基于Gabor滤波器组进行的。Gabor滤波器组由多个不同方向和角度的Gabor滤波器组成。通过控制尺度和平移因子对Gabor函数进行伸缩和平移变换,可以得到一组Gabor滤波器组,如式(1)所示。

随后,每一个网格块分别用个尺度和个方向的Gabor滤波器进行卷积滤波,则每个网格块经过各通道的滤波后,将卷积结果级联,得到该网格块图像的局部 GIST特征,如式(2)所示。

3.2 恶意代码局部特征提取

局部二值模式(LBP, local binary pattern)是一种用来描述图像局部纹理特征的算子。它首先由Ojala等[20]在1994年提出。LBP算子有旋转不变性的特点,但是由于恶意代码图像不涉及到旋转不变的问题,因此本文采用原始的LBP算子定义:在3×3的窗口内,以窗口中心像素为阈值,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则标记为1,否则为0。因此,3×3邻域内的8个点经比较可产生8位二进制数,转换为十进制数即LBP码,即得到该窗口中心像素点的LBP值。每个区域的特征值计算方法如式(4)所示。

其中,g是邻域内中心点的灰度值,g是邻域内第个像素点的灰度值,为邻域内像素点个数。()函数定义如式(5)所示。

尺度不变特征变换(SIFT, scale-invariant feature transform)特征描述算子由David Lowe[21]于1999年提出。SIFT描述算子是关键点邻域高斯图像梯度统计结果的一种表示。通过对关键点周围图像区域分块,计算块内梯度直方图,生成具有独特性的向量,这个向量是该区域图像信息的一种抽象,具有唯一性。dense SIFT也是SIFT方法的一个变化,它提取图像块中每个位置的SIFT特征。

本文采用8×8固定大小的窗口作为掩模,以1为步长在图像上自左向右、从上到下提取图像的dense SIFT的特征,可以得到每一个位置的SIFT 描述符。每个掩模内按照4×4的尺度空间、8个方向获取梯度信息,所以获得图像块每个位置的dense SIFT特征为128维向量。

3.3 全局特征与局部特征相融合

从恶意代码家族的灰度图像(如图2所示)中可以看到,每个家族的全局相似程度很高而差异体现在局部。因此,在提取恶意代码图像的全局特征的前提下,突出局部特征将能够更好地反映恶意代码的家族特征、更具可分性。因此,本文将GIST特征分别与LBP特征、dense SIFT特征实现全局与局部特征相融合,如式(7)所示。

由于LBP特征是一维向量,可以直接参与计算,但是按照3.2节dense SIFT方法获取的特征是二维矩阵为

为了获取局部特征参与计算,需要将dense SIFT特征离散化,即建立字典。本文方法是随机选取训练集中个行特征向量作为标准词汇,将dense SIFT特征矩阵中的行都映射到与选定的个行特征向量中欧氏距离最近的标准词汇上,得到对应的标号,则有

3.4 算法设计

根据3.3节,本文设计了算法1和算法2以获得融合特征的分类结果。分类方法采用了KNN和随机森林(RF, random forest)。

算法1 GIST与LBP特征融合分类算法

输入 恶意代码图像数据集

输出 恶意代码分类准确率

1) 提取恶意代码图像GIST特征

3) 选取融合参数,得到融合特征

4) 训练KNN、RF分类器,获得分类参数

5) 分类恶意代码,输出分类准确率

算法2 GIST与dense SIFT特征融合分类算法

输入 恶意代码图像数据集

输出 恶意代码分类准确率

1) 提取恶意代码图像GIST特征

2) 提取恶意代码图像dense-SIFT特征

4) 选取融合参数,得到融合特征

5) 训练KNN、RF分类器,获得分类参数

6) 分类恶意代码,输出分类准确率

4 实验与结果分析

按照算法1和算法2,本文在3个数据集上完成了实验。数据集分别来自文献[15]中使用的数据集(简称为NDA,包括25个家族9 458张恶意代码灰度图像)、文献[15]——Nataraj个人网站发布的数据集(简称为NDB,共有32个家族,12278张恶意代码灰度图)以及Antiy实验室提供的数据集(简称为Antiy,共有11个家族,11 000个恶意代码“.byte”文件)。

文献[15]是最早提出将二进制文件可视化方法应用于恶意代码分类的,将本文方法与文献[15]方法相比也可起到追根溯源的目的;此外,为了验证本文方法的有效性和可适应性,也与其他改进的可视化方法[16-17]以及常见的非可视化方法——基于操作码(OPCode)的恶意代码分析[9]做了对比。

后续实验安排为:首先对比了GIST特征(文献[15]采用的方法)在NDA和NDB上的分类准确性并分析原因,随后给出应用融合特征的分类结果,证明本文方法与文献[15]方法相比更具有抗干扰的能力。本文方法同时应用到Antiy数据集上,与文献[9, 15-17]的结果做了对比,证明本文方法更具有一般性。

4.1 在NDA与NDB上的实验结果

文献[15]在NDA数据集上提取GIST特征并进行KNN分类,可以得到0.971 8的正确率。本文按照该文献中的方法,采用KNN与RF两种分类方法实现了该文献的实验过程。在实验中,每个参数都进行了10次实验并取平均值,实验结果如表2所示。随后,在NDB数据集上,提取GIST、dense SIFT以及LBP特征,同样采用KNN和RF两种分类方法,结果如表3所示。

表2中结果显示在NDA数据集上采用GIST特征,KNN分类器获得最高的分类准确率为0.98(=2);RF分类器平均准确率为0.988。这与文献[15]中的结果是一致的。

表2 在NDA数据集上GIST特征的分类结果(KNN、RF)

表3中KNN分类器的分类准确率随着近邻数目的递增逐渐降低。当=1时采用GIST特征的分类准确率最高为0.910,远远低于表2中的结果。同样采用RF分类器分类准确率也只有0.901。

表3 不同特征描述方法在NDB数据集上分类准确性的比较(KNN、RF)

此外,表3也给出dense SIFT与LBP特征的分类结果。

经仔细对比NDA与NDB数据集,可以发现NDA是NDB的子集,并不包括如图3和图4所示的恶意代码家族。图3为Luder.B家族灰度图像,该家族样本文件大小差异较大,因此产生的图片宽度也是大小不一,而且图像纹理特征差异也较大。而图4所示Benign家族样本图像中带有图片、图标等图案。NDA中排除了这些易于混淆和干扰信息较多的恶意代码家族,而NDB中包含这些样本。因此,有理由假设这些易于混淆的恶意代码家族影响了NDB的分类准确性。

图3 Luder.B家族图像

图4 Benign家族图像

4.2 假设检验

为了验证4.1节的猜测,本文首先从NDB中选择了一个包括9个家族2 545张恶意代码图像的特殊数据集(简称为NDB-sub数据集)。NDB-sub数据集包括家族间特征相似的和家族内特征差异较大的数据,具体信息如表4所示。

表4 NDB-sub数据集信息

在NDB-sub数据集上提取GIST特征,采用RF分类方法(分类参数为15),采用十折交叉验证,进行了10次实验,结果如表5所示。

表5 GIST特征在NDB-sub数据集上的分类结果

对比表3与表5可以看到,采用GIST方法在NDB与NDB-sub数据集上的分类准确率基本上是相符的,说明表4所示的NDB-sub数据集中的数据是影响NDB数据集分类准确性的主要家族。

表6为分类准确率为0.914时的混淆矩阵。从此时的混淆矩阵可以看到,测试数据主要在Benign与Luder.B家族中发生较严重的分类错误问题,这两个家族相互之间以及与Virut.AK家族间会发生分类错误的现象。此外, Virtut.A家族错分到Virut.AC类的数据错误率也达到了0.118,Fakerean家族也有0.026的错误率。

接下来,按照算法1进行了测试。在GIST特征的基础上增加了70%的LBP特征得到融合特征。当分类参数设置为25时,在NDB-sub数据集上RF的分类结果最好可以达到0.953,此时的混淆矩阵如表7所示。

对比表6与表7的混淆矩阵可以看到,Fakerean、Virtut.A家族已经全部分类正确;Benign与Luder.B家族的分类正确率也有了提高。这说明本文提出的恶意代码图像融合特征的方法更具抗混淆和抗干扰能力。

4.3 本文方法在NDB数据集上的实验

在4.2节中已经说明了本文方法的有效性,为了进一步验证其稳定性和有效性,本文在数据集NDB上设计了以下实验。

表6 GIST特征在特殊数据集分类中的混淆矩阵

表7 抗混淆新特征在特殊数据集分类中的混淆矩阵

实验1 按照算法1,构造GIST特征与随机取得10%、30%、50%、70%、100%的LBP特征作为融合特征,采用RF分类方法、十折交叉验证分别进行了实验,结果如表8所示。

实验中RF的分类参数分别选取了10、15、20、25,每个参数都进行了10次实验,取平均准确率。对比本文方法与仅采用Gist、LBP特征的分类准确率,可以看到增加了LBP特征后,分类准确率有明显的提高。例如,增加100%LBP特征,20棵树时平均准确率为0.964,而GIST特征的分类准确率只有0.899。

实验2 按照算法2,构造GIST特征与随机取得10%、30%、50%、70%、100%的dense SIFT特征作为融合特征,RF分类结果如表9所示。

从表9可以看到GIST融合了dense SIFT特征后分类准确率得到了明显地提高。而且也可以看到,dense SIFT特征不同的选取比例对分类结果的影响较小。

图5为Gist特征融合70% dense SIFT特征与仅采用GIST与dense SIFT的分类结果曲线图。这里采用RF分类器,参数为10、15、20及25,分别进行了10次实验。

图5中可以清楚地看到GIST特征融合了dense SIFT特征后每一次的分类结果都是三者中最好的。

从以上实验结果可以看到,本文提出的恶意代码图像特征描述方法在大规模的数据集上也具有较高的分类准确性和稳定性。

4.4 对比与分析

为了进一步验证本文方法的稳定性和适应性,将文献[9, 15-17]以及本文方法分别用于Antiy数据集,并对比分类结果。

表8 Gist特征与LBP特征相融合的实验结果

表9 Gist特征与denseSIFT特征相融合的实验结果

图5 GIST联合dense SIFT特征分类结果

实验3 恶意代码可视化方法在Antiy数据集上的对比。如前所述,文献[15]将恶意代码二进制文件转换为位图后提取GIST特征。文献[16]是在文献[15]的基础上提出的恶意代码图像特征表示的新方法。在该文献中将二进制恶意代码文件转换为位图后,并没有采用常规的图像特征描述方法,而是计算位图图像每行的熵值,并将熵值表示为熵图。将熵图作为判断二进制恶意代码文件相似性的特征。文献[16]中所表述方法与文献[15]具有相似的准确率,但是与文献[15]相比具有更少的计算量、更快的判别速度。文献[17]改进了文献[15]对恶意代码图像的特征提取方法——采用改进的LBP方法(PRICoLBP)以提高特征的辨识性。文献[16]和文献[17]都是针对恶意代码图像特征表示方法的改进,这与本文方法具有相同的研究方向,因此,更具有可比性。

为了对比本文方法与上述文献方法的适用性,本文在Antiy数据集进行了实验。实验中,本文方法采用的是GIST与100%LBP特征相融合以表示恶意代码图像特征。表10中文献[15-17]以及本文方法的准确率均是采用RF分类方法,分类参数为15时的实验结果。文献[16]的准确率是按照该文献提供的熵图相似性比较公式得到的结果,阈值设为0.75。从表10中可以看到,本文方法相对于其他恶意代码可视化方法而言具有更好的分类效果。

表10 不同文献方法在Antiy数据集上分类准确率的比较

实验4 本文方法与恶意代码非可视化方法的比较。如前所述,从恶意代码分类方法上看,针对恶意代码反汇编文件的分析也是静态分析技术的重要研究方向之一。文献[9]是在常用的恶意代码OPCode操作码相似性比较的基础上做的改进,取得了很好的恶意代码同源性比较结果。为此,也将本文方法与这种非可视化方法进行了对比。文献[9]需要分析恶意代码的反汇编文件,提取3-gram的Opcode操作码,获得simHash值并配合函数跳转图能够快速判断恶意代码的相似性,并在该文献提供的数据集上溯源准确率可以达到0.959 9。但是将该方法用于Antiy数据集上结果并不理想。

在实验中,需要将Antiy数据集中的恶意代码“.byte”文件反汇编,得到对应的11 000个“.asm”文件。首先在20个样本的实验中(随机选取家族9中10个样本,另外10个样本从其他家族中随机抽取),判别得出7个样本属于家族9,但这7个样本中仅有3个是真的属于家族9,误报误判率都很高。随后在Antiy数据集全部11 000个文件上的实验中发现分类准确率仅有0.573(这说明在Antiy数据集上文献[9]的方法几乎是不可分的)。从表10中可以看到本文方法在Antiy数据集上也获得了0.949 8的分类准确率。因此,本文方法与文献[9]相比更具有适应性。

经过上述实验可以得出以下结论:本文提出的恶意代码图像的全局特征融合局部特征的方法是可行的,能够产生更抗混淆性和抗干扰性的特征向量,对数据集具有更好的适应性和健壮性。

5 结束语

本文主要研究了恶意代码可视化图像的特征描述方法,对比文献[15]中提到的方法,分析其存在的问题,提出了全局特征与局部特征相融合的特征表示方法。此外,本文也与其他方法进行了对比,实验结果表明,在更一般性的数据集上,本文的方法具有更好的适应性、抗干扰性和抗混合性,可以得到更好的分类结果。

[1] 杜敬凯. 二进制恶意代码的同源性分析[D]. 北京: 北京航空航天大学. 2016. DU J K. Homology analysis of binary malicious code[D]. Beijing: Beihang University. 2016.

[2] SATHYANARAYAN V S, KOHLI P, BRUHADESHWAR B. Signature generation and detection of malware families[C]//Proceedings of Australasian Conference on Information Security and Privacy. 2008:336-349.

[3] ABBAS M F B, SRIKANTHAN T. Low-complexity signature-based malware detection for IoT devices[C]//Proceedings of Applications and Techniques in Information Security. 2017:181-189.

[4] FIRDAUSI I, LIM C, ERWIN A, et al. Analysis of machine learning techniques used in behavior-based malware detection[C]//IEEEInternational Conference on Advances in Computing.2010: 201-203.

[5] 王蕊,冯登国,杨轶,等.基于语义的恶意代码行为特征提取及检测方法[J].软件学报,2012, 23(2):378-393.

WANG R, FENG D G, YANG Y, et al. Semantics-based malware behavior signature extraction and detection method[J]. Journal of Software, 2012, 23(2): 378-393.

[6] 任李,潘晓中.基于对象语义的恶意代码检测方法[J].计算机应用研究,2013,30(10):3106-3113.

REN L, PAN X Z. Object-semantics based malware detection method[J]. Application Research of Computers. 2013, 30(10): 3106-3113.

[7] SANTOS I, BREZO F, NIEVES J, et al.Idea: opcode-sequence based malware detection[C] //International Conference on Engineering Secure Software and Systems. 2010: 35-43.

[8] O’KANE P, SEZERAND S, MCLANGHLIN K. Detecting obfuscated malware using reduced opcode set and optimized runtime trace[J]. Security Informatics, 2016, 5(1):2-13.

[9] QIAO Y C, YUN X C, ZHANG Y Z, et al. Fast reused function retrieval method based on simHash and inverted index[C]//The 15th IEEE International Conference on Trust, Security and Privacy in Computing and Communications.2017: 937-944.

[10] BONFANTE G, KACZMAREK M, MARION JY. Architecture of a morphological malware detector[J]. Computer Virology. 2009, 5(3): 263-270.

[11] CESARE S, XIANG Y. A fast flow graph based classification system for packed and polymorphic malware on the end host[C]//Proceedings of the 24th IEEE International Conference on Advanced Information Networking and Applications. 2010: 721-728.

[12] KINABLE J, KOSTAKIS O. Malware classification based on call graph clustering[J]. Computer Virology. 2011,7(4): 233-245.

[13] TRINIUS P, HOLS T, GOBEL J, et al. Visual analysis of malware behavior using treemaps and thread graphs[C]//the 6th International Workshop on Visualization for Cyber Security. 2010: 33-38.

[14] CONTI G, BRATUS S, SHUBING A, et al. Automated mapping of large binary objects using primitive fragment type classification[J]. Digital Investigation: The International Journal of Digital Forensics and Incident Response, 2010, 7: S3–S12.

[15] NATARAJ L, KARTHIKEYAN S, JACOB G, et al. Malware images: visualization and automatic classification[C]//The 8th International Symposium on Visualization for Cyber Security. 2011: 21-29.

[16] HAN K S, LIM J H, KANG B J, et al. Malware analysis using visualized images and entropy graphs[J]. International Journal of Information Security. 2015, 14(1): 1-14.

[17] YAN H B, ZHOU H, ZHANG H G. Automatic malware classification via PRICoLBP [J]. Chinese Journal of Electronics, 2018, 27(4): 852-859.

[18] OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision. 2001,42(3):145-175.

[19] TORRALBA A, MURPHY A, FREEMAN K P, et al. Context-based vision systems for place and object recognition[C]//International conference on Computer Vision.2003: 273.

[20] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000, 24(7):971-987.

[21] LOWE D G. Object recognition from local scale-invariant features[C]//International Conference on Computer Vision. 1999: 1150-1157.

Method of anti-confusion texture feature descriptor for malware images

LIU Yashu1,2, WANG Zhihai1, YAN Hanbing3, HOU Yueran4, LAI Yukun5

1. School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China 2. School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture,Beijing 100044, China 3. National Computer Network Emergency Response Technical Team/Coordination Center of China,Beijing 100029, China 4. Institute of Network Technology, Beijing University of Posts and Telecommunication,Beijing 100876,China 5. School of Computer Science and Informatics, Cardiff University, Cardiff CF24 3AA, UK

It is a new method that uses image processing and machine learning algorithms to classify malware samples in malware visualization field. The texture feature description method has great influence on the result. To solve this problem, a new method was presented that joints global feature of GIST with local features of LBP or dense SIFT in order to construct combinative descriptors of malware gray-scale images. Using those descriptors, the malware classification performance was greatly improved in contrast to traditional method, especially for those samples have higher similarity in the different families, or those have lower similarity in the same family. A lot of experiments show that new method is much more effective and general than traditional method. On the confusing dataset, the accuracy rate of classification has been greatly improved.

malware visualization, image texture, feature descriptors, malware classification

TP393

A

10.11959/j.issn.1000-436x.2018227

刘亚姝(1977−),女,吉林大安人,北京交通大学博士生,主要研究方向为信息安全、数据挖掘。

王志海(1963–),男,河南安阳人,博士,北京交通大学教授、博士生导师,主要研究方向为数据挖掘、机器学习、计算智能。

严寒冰(1975–),男,江西进贤人,博士,国家计算机网络应急技术处理协调中心教授级高工、博士生导师,主要研究方向为信息安全。

侯跃然(1994–),男,内蒙古呼和浩特人,北京邮电大学硕士生,主要研究方向为信息安全、机器学习。

来煜坤(1978–),男,浙江萧山人,博士,英国卡迪夫大学副教授,主要研究方向为计算机视觉、图像处理。

2017–10–12;

2018–10–26

王志海,zhhwang@bjtu.edu.cn

国家自然科学基金资助项目(No.U1736218,No.61672086);国家重点研发计划基金资助项目(No.2018YFB0803604)

The National Natural Science Foundation of China (No.U1736218, No.61672086), The National Key Research and Development Program of China (No.2018YFB0803604)

猜你喜欢
集上准确率家族
实数集到时标上的概念推广的若干原则
GCD封闭集上的幂矩阵行列式间的整除性
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
HK家族崛起
《小偷家族》
高速公路车牌识别标识站准确率验证法
家族中的十大至尊宝
师如明灯,清凉温润