基于融合感知哈希算法的代码特征分类研究

2021-07-19 02:31张士董李明东卢彪

锦绣·下旬刊 2021年8期

张士董李明东卢彪

摘要：基于卷积神经网络CNN的恶意代码检测技术。利用Cuckoo沙箱系统来模拟运行环境并提取分析报告;首先，通过感知哈希算法对恶意代码灰度图样本进行检测，快速划分出具体恶意代码家族和不确定家族的样本，实验测试得约有67%的恶意代码能够通过感知哈希算法检测出来。然后，对于不确定家族样本再进一步提取局部特征局部二值模式（LBP）与全局特征Gist，并利用二者融合后的特征通过机器学习算法对恶意代码样本进行分类检测。最后，对25类恶意代码家族检测，实验结果表明，相较于仅用单一特征，在LBP与Gist的融合特征下，检测准确率更高，并且所提方法与仅采用机器学习的检测算相比，分类检测效率更快，检测速度提高93.5%。

关键词：感知哈希;恶意代码可视化;机器学习

随着网上支付和网上银行的全面普及，计算机已经成为人们日常生活的重要部分;同时，由于普遍缺乏有效的安全屏障，物联网设备也成为网络攻击者觊觎的目标。在特征提取阶段，提取的特征主要有静态特征和动态特征，相应的提取手段分别为静态特征提取技术和动态特征提取技术。

1.输入层词向量生成

在生成词向量的过程中，本实验选择两种模型进行比较，一种是Word2vec中的Skip-gram模型，一种是One-Hot编码。

（1）Skip-gram模型本实验选用了基于Word2vec提供的Skip-gram语言模型来建模，将文本的各特征之间的联系以词向量形式展现。在实验中，我们输入预处理过程中提取出的API序列，通过Skip-gram将其数值向量化。Skip-gram模型是一种无监督训练算法，用来实现词向量的分布特征表示，通过映射关系实现词与词之间的位置关系来反映他们在语义层面的联系。

（2）One-Hot编码One-Hot编码使用N位状态寄存器来对N个状态进行编码，并且只有一位有效。使用One-Hot编码，可以将离散特征的取值扩展到了欧式空间，在分类过程中，特征之间距离的计算或相似度的计算通常都是在欧式空间进行。

2.感知哈希算法和特征融合的恶意代码分类算法。

特征信息库建立模块中，将数据集中全部恶意代码灰度图样本通过感知哈希算法，计算DHash并存入DHash库;此外提取恶意代码样本的Gist特征与LBP特征，并分别存入Gist库与LBP库。样本信息提取模塊过程中，提取待分类检测的样本的DHash、Gist特征和LBP特征。提取样本的Gist特征与LBP特征，并进行融合通过随机森林（RandomForest，RF）算法进行检测分类。

基于感知哈希与特征融合的恶意代码分类算法步骤如下：

Step1通过感知哈希算法计算待分类恶意代码灰度图的DHash;

Step2通过相似性判断公式筛选与检测样本相似的恶意代码图像;

Step3若能通过阈值判断出检测样本的家族类别则结束，否则继续Step4;

Step4提取恶意代码图像Gist特征;

3.感知哈希检测模块

通过感知哈希算法将灰度图转化成哈希序列，通过将恶意代码待分类样本与DHash库中的25类家族样本进行图像的哈希序列对比，并通过设置阈值对待分类样本进行判断。感知哈希算法的步骤如下：

Step1缩小图片。将图片缩小为9*8的像素。

Step2计算相邻像素间的差异值。

Step3比较差异值。若前一个像素的颜色强度大于第

二个像素，那么差异值就设置为“True”，即1;如果不大

于第二个像素，就设置“False”，即0。

Step4：构造hash值。生成16位DHash值。

4.特征的提取与处理

在恶意代码检测中，样本的特征提取和处理是后续建模检测的关键，本文主要将样本的API调用函数作为特征提取的对象。API函数是恶意代码实现其恶意行为并与系统交互所必须的函数，虽然API本身是没有恶意性的，但是恶意代码通过某些API函数的组合，可使其所表示的行为构成恶意性，而这些行为在正常文件中是不常见的，如进程的注入操作、关键系统文件的更改和删除等。

5.结语：

为解决传统恶意代码灰度图特征的局限性并为进一步提高检测效率，本文提出了基于感知哈希算法和特征融合计算机应用7的恶意代码检测方法。首先，通过感知哈希检测模块判断恶意代码样本的所属家族，对于无法通过感知哈希模块判断的样本再进一步提取全局特征Gist与局部特征LBP，根据Gist与不同比例的LBP融合后的特征进行测试，准确率可达98.2%，此外本文提出的方法相较于机器学习检测，检测速度提高了93.5%。将本文实验结果也与其他采用单一特征的文献进行了对比，实验结果表明本文所采用的融合特征的准确率更高。在下一步的工作中，将继续研究恶意代码的方法与特征，进一步提高恶意代码的分类准确率。

参考文献

[1]张景莲，彭艳兵.基于特征融合的恶意代码分类研究[J].计算机工程，2019，45（08）：281-286，295.）

[2]李翼宏，刘方正，杜镇宇.一种改进主动学习的恶意代码检测算法[J].计算机科学，2019，46（05）：92-99.

[3] 傅依娴，芦天亮，马泽良.基于 One-Hot 的 CNN 恶意代码检测技术[J].计算机应用与软件，2020，37（1）：304-308，333.

基金项目：2020年安徽省教育厅关高等学校省级质量工程项目，课程思政项目（编号：2020szsfkc1004）;

2020年校级质量工程线下课程（编号：szxy2020xxkc07）;2020年宿州学院专创融合重点课程建设项目（编号：szxy2020zckc22）.