(青海师范大学成人教育学院,青海 西宁 810008)
USB移动存储设备中异常病毒数据检测技术研究
郭道军
(青海师范大学成人教育学院,青海西宁810008)
对USB移动存储设备中的异常病毒数据进行检测,可以延长USB移动存储设备寿命,提高数据利用率,减少系统运行时间;当前方法利用轨迹点片段异常对USB移动存储设备中的异常病毒数据进行检测,将几个独立的USB移动存储设备中的异常病毒数据属性进行结合,针对现有的异常病毒数据点的异常轨迹进行检测,以病毒数据的位置、速度以及方向为检测对象;该方法对USB移动存储设备中的异常病毒数据检测效率低,不适用于大规模的USB移动存储设备中的异常病毒数据检测;为此,提出一种基于PATRICIA树的USB移动存储设备中异常病毒数据检测方法;该方法利用K-means算法将USB移动存储设备中的数据划分为K个类,并利用欧几里德距离对各个类间的相似度进行衡量,然后在独立分量分析的基础上加入遗忘因子,对USB移动存储设备中异常病毒数据检测时含噪进行测量估计,最后利用小波分析法,通过设置USB移动存储设备中异常病毒数据判定阈值,以及标准化以后的小波系数内绝对值,与判定阈值的比较完成病毒数据的检测;实验结果证明,所提的检测方法可以高精度地对USB移动存储设备中异常病毒数据进行检测,更加符合该领域发展实际意义。
USB移动存储设备;异常病毒数据;检测技术
随着互联网的不断发展和普及,网络安全形势不容乐观,敏感部门内网在理论上对其进行了安全性比较高的隔离,在现实中,U盘的滥用、USB移动设备的非法接入以及木马的滥用等,威胁着各个组织单位的信息安全[1]。随着移动硬盘的广泛应用,系统中经常感染轮渡木马等异常软件,所以USB移动存储设备中异常病毒数据检测成为计算机发展的重中之重[2]。从数据自身的安全性看,数据所构成的破坏威胁主要为文件型病毒,它的特点是在网络文件系统中。一般除了静态策略查杀病毒以外,最需要的是实时地检测以及防范病毒[3]。可以看出,最终数据的破坏或者失泄密主要根源都与主机信息安全的防护有关系。如果利用筑高墙,堵漏洞,防侵入等方式来解决现存的安全问题,会使问题多样化,由此就需要用一些更加底层的手段,对计算机系统实现高效地防护[4]。而基于PATRICIA树的USB移动存储设备中异常病毒数据检测方法,可以对USB移动存储设备中异常病毒数据进行高效率地检测,有扩展性好、透明性好、自我防护性能强等特点,是解决上述问题的有效手段[5]。由于互联网和科学技术的驱动,USB移动存储设备中异常病毒数据的检测受到了有关人士的广泛关注和高度重视,并对其进行深度研究[6],得到许多成果,为该领域后续的研究深造提供了坚实基础,具有较好的应用价值[7]。
文献[8]提出一种基于支持向量机的USB移动存储设备中异常病毒数据检测方法。该方法通过支持向量机的回归估计模型,不倾向于除掉个别比较大的回归误差,从整体上对回归曲线平滑程度进行考虑,利用对回归估计值和实测值间残差的比较,识别测量数据内的异常数据。该方法较为简单,但检测误差大。文献[9]提出一种基于投影追踪的USB移动存储设备中异常病毒数据检测方法。该方法利用广义的似然比检验模型,组建二元检测算子,通过观测数据对算子内表示背景的未知参数进行估计,算子关键参数和目标参数是采用投影追踪算法,对USB移动存储设备中的异常病毒数据点,进行搜索得到的。该算法不仅消除目标检测法对先验信息数据的依赖,而且增强检测法的实用性,但是该算法利用投影追踪法对目标参数的提取效率低,USB移动存储设备中的异常病毒数据检测过程繁琐。文献[10]提出一种基于DBSCAN的USB移动存储设备中异常病毒数据检测方法。该方法先根据DBSCAN获取包括单类数据的球形边界,且该球形边界是最小的,其次利用该边界,对未知的USB移动存储设备中的异常病毒数据分类,依据最小闭包球算法,对DBSCAN分类器优化求解。该方法检测准确率较高,但是存在运行时间较长的问题。
针对上述产生的问题,提出一种基于PATRICIA树的USB移动存储设备中异常病毒数据检测方法。实验证明,所提方法可以高精度、高效率地对USB移动存储设备中的异常病毒数据进行检测。具有较强地可行性和通用性。
利用多尺度核函数对USB移动存储设备中异常病毒数据检测,通过数据过滤的形式将USB移动存储设备中的病毒数据进行检测以及清除。
(1)
下面根据统计学方法过滤含有噪声的USB移动存储设备中异常病毒数据。假设一个光滑似然函数L,这个函数反映一个点:x∈R3隶属于USB移动存储设备中异常病毒数据P,采样之后的曲面S表面上点的概率。通过均值漂移跟踪算法的增强迭代模式,将置于似然函数L上的USB移动存储设备中异常病毒数据点漂移至极大的似然位置。
定义似然函数L,就要对每个异常病毒数据采样点pi∈P中的局部似然函数Li聚类。对某个特定点x似然值Li(x)进行计算,运算过程中要考虑x至pi空间域,拟合最小的二乘平面的平方距离。pi最小二乘平面能够利用对权重协方差的计算来拟合,可表示为:
(2)
(3)
综上所述,对椭圆球的权重函数局部邻域以及最小二乘拟合的平面进行计算时,采取的是恒定核尺度h,但是,恒定核尺度也许并不适用于USB移动存储设备中异常病毒数据采样密度的变化,针对这种情况,可以利用每个采样点pi中的K-邻域对PCA进行分析,从而实现椭圆球核Ei的运算。因为函数L极大值比较偏离采样的表面,导致病毒数据检测中的噪声没有被大范围地过滤掉,但通过自适应尺度h,可以将USB移动存储设备中大规模的异常病毒数据检测出来并清除。
本文利用K-means算法对USB移动存储设备中的异常病毒数据进行分析。具体过程如下:
将USB移动存储设备中异常病毒数据对象划分成K个类,随机在样本中选择出K个点,作为假设的中心点。把这些数据向离自己本身最近的中心点移动,一直到每组中的相似度都较高,而组和组间相似度最低。一般利用欧几里德距离对其相似性进行衡量,评级划分质量目标函数可定义为:
J= ∑i = 1k∑i = 1bidij(aj,zi)
(4)
其中,zi代表bi类聚类中心,是类的数据点,dij(aj,zi)代表a1与z1间的距离。所以J就表示各簇内点至该簇的中心距离和。当J越小,USB移动存储设备中的数据聚类就越密集。
在K-means算法中,选择初始点代表聚类中的假定中心,将要被聚类的USB移动存储设备中数据样本进行分类,依据假定中心调整输出聚类结果。假设对每个样本Xi找到离它本身最近的中心簇,公式为:
k=argmink∈{1,…,k}d(bk,Xi)
(5)
对每个数据簇中的数据点均值进行计算,这个均值的向量成为该数据簇新的中心。公式为:
bk= ∑i = 1nkXi(k)
(6)
其中,nk代表第k簇中包含的USB移动存储设备中异常病毒数据样本数。
从USB移动存储设备数据中,得到两个特征对象间的距离,利用欧几米德距离当作距离度量标准,对数据簇中的中心点进行计算,以簇中全部对象平均距离计算中心点。得到算法中的准则函数值。当新旧函数值之间的差小于1,也就是准则函数值没有明显变化时,终止算法,遍历所有USB移动存储设备中异常病毒数据特征对象,把该对象加入至离它最近的数据簇中。特征对象加入后,更新每个数据簇中心点,找到最终合适中心点,由此对USB移动存储设备中异常病毒数据进行成功分类。
根据2.1中所得分类结果,利用独立分量分析,对USB移动存储设备中异常病毒数据检测的噪声值进行测量。
假设从USB移动存储设备异常病毒数据中选取去噪样本,作为去噪的测量值,将测量值分为一维五层的分解,并在其中提取出比较高频的成分当作测量噪声,由此解决测量噪声失真问题。另外,加入遗忘因子进一步对测量噪声估计进行优化。假设,在长度为M滑窗内,小波变换提取的测量噪声值为m1,m2,…,mM,那么M+1时刻噪声测量值为:
(7)
其中,εω=(1-ε)/(1-εω)代表ω时刻,测量噪声εω加权遗忘因子,ε∈(0,1)。
综合2.1与2.2中的数据信息,为提高检测效率,在K-means算法分类的基础上,利用小波分析法对USB移动存储设备中异常病毒数据进行检测,具体方法如下:
按照自变量升序重新排列USB移动存储设备中异常病毒数据样本,经过重排的序列样本集能够作为离散的序列处理。
选取适当的Marr小波函数,通过数据样本构成特点,对所有尺度参数集进行确定,参数集表达式为:
A={dμ,μ=1,2,…,n}
(8)
其中,μ代表对应的样本编号,不同尺度参数dμ可以凸显出不同类型的异常病毒数据,比较小的d有利于观察到数据比较密集位置的异常病毒数据,比较大的d有利于观察到数据比较稀疏位置的异常病毒数据,通过一种尺度对小波进行分析,经常没有办法观察到所有USB移动存储设备中异常病毒数据,所以需要根据不同尺度dμ对小波进行分析。假设:
(9)
其中,e代表数据样本平均间距,Ov代表小波函数运算区间长度,该长度为6.2,η代表待定系数,该待定系数反映了,小波变换积分的区间可以覆盖的样本数。假设μ=1,dμ=d,通过修正算法对各个数据样本所对应的,小波系数进行计算。按照式(10)将小波系数标准化:
(10)
其中,I代表基准值,此时为0,W代表标准偏差:
(11)
通过设置的USB移动存储设备中异常病毒数据判定阈值,把标准化之后的小波系数内绝对值大于判定阈值的标,称为异常病毒数据,对应的数据样本代表异常病毒样本。如果μlt;n,那么设定μ=μ+1,则通过修正算法对各个数据样本所对应的,小波系数进行计算,如果μ≠μ+1,则USB移动存储设备异常病毒检测结束。
为了证明基于PATRICIA树的USB移动存储设备中异常病毒数据检测方法的有效性,需要进行一次实验。在Simulink的环境下搭建USB移动存储设备中异常病毒数据检测实验平台。实验数据取自于10部小米4手机存储磁盘,利用本文所提方法对这10部小米4手机存储磁盘中异常病毒数据进行检测,观察本文所提方法的实用性。表1是不同方法USB移动存储设备中异常病毒数据漏检数(个)对比。
表1 不同方法异常病毒数据漏检数对比
分析表1可知,文献[9]所提方法利用广义的似然比检验模型,组建二元检测算子,没有设置检测指标,导致漏检数比较多。文献[10]所提方法根据DBSCAN获取包括单类数据的球形边界,但是该球形边界并不光滑,使USB移动存储设备中异常病毒数据的漏检数较多。本文所提方法在对USB移动存储设备中异常病毒数据检测之前,利用了K-means算法,对USB移动存储设备中的异常病毒数据进行了分析,所以漏检数较少。该分析证明了本文所提方法具有较强的实际应用价值。表2是不同方法USB移动存储设备中异常病毒数据误检数(个)对比。
表2 不同方法异常病毒数据误检数对比
由表2可知,文献[8]所提方法利用对回归估计值和实测值间残差的比较,识别测量数据内的异常数据,但是比较效果并不理想,导致USB移动存储设备中异常病毒数据误检数较多。文献[9]所提方法根据观测数据对二元检测算子内表示背景的未知参数进行估计,估计的误差大,导致USB移动存储设备中异常病毒数据误检数较大。本文方法利用独立分量分析,对USB移动存储设备中异常病毒数据检测的噪声值进行测量,大大减少了误检数。图1是不同方法USB移动存储设备中异常病毒数据检测运行时间(s)对比。
图1 不同方法检测运行时间对比
在图1中,本文所提方法利用小波分析法,按照自变量升序重新排列USB移动存储设备中异常病毒数据样本,减小USB移动存储设备中异常病毒数据检测运行时间,明显优于文献所提方法。说明本文方法具有优秀的整体可行性。图2是不同方法USB移动存储设备中异常病毒数据检测时含噪测量效率(%)对比。下式为含噪测量效率(%)计算公式。
(12)
图2 不同方法检测时含噪测量效率对比
分析图2可知,文献[10]所提方法依据最小闭包球算法,对DBSCAN分类器优化求解,期间并没有专门对分类过程中所含噪声进行很好地测量和去除,导致USB移动存储设备中异常病毒数据检测含噪测量效率低。本文所提方法从USB移动存储设备中异常病毒数据中选取去噪样本,作为去噪的测量值,将测量值分为一维五层的分解,并在其中提取出比较高频的成分当作测量噪声,解决测量噪声失真问题,提高USB移动存储设备中异常病毒数据检测含噪测量效率。进一步证明所提方法的可实践性。
实验证明,所提方法可以安全快速地对USB移动存储设备中异常病毒数据进行检测,增加计算机安全性,降低异常病毒数据误检率,是一种切实可行的USB移动存储设备中异常病毒数据检测方法。
采用当前方法对USB移动存储设备中异常病毒数据进行检测时,由于检测方式单一,检测范围小,导致USB移动存储设备中异常病毒数据检测效率低,精度低。提出一种基于PATRICIA树的USB移动存储设备中异常病毒数据检测方法,该方法可以有效可靠地对USB移动存储设备中异常病毒数据进行检测,成为该领域发展的奠基石。
[1]于红岩,岑凯伦,杨腾霄.云计算平台异常行为检测系统的设计与实现[J].计算机应用,2015,35(5):1284-1289.
[2]胡春雨,陆 翌,李 翔,等.充电设备移动检测平台的研究与设计[J].电源技术,2016,40(3):697-699.
[3]姜 滨,杨杰明.关于航空器异常数据检测仿真研究[J].计算机仿真,2015,32(12):72-75.
[4]马智远,崔晓飞,黄裕春,等.辨识谐波电流监测数据中异常数据的一种方法研究[J].电力系统保护与控制,2016,44(21):96-102.
[5]张 锐,李留青.大型多媒体网络数据库异常数据高效检测方法[J].科技通报,2015,31(10):163-165.
[6]陈佳俊,陈玉峰,严英杰,等.基于时空联合聚类方法的输变电设备状态异常检测[J].南方电网技术,2015,9(11):65-72.
[7]石 震,杨志强,马 骥.基于双位置的磁悬浮陀螺异常数据检测[J].测绘科学,2015,40(10):102-105.
[8]杨宏波.物联网环境下的差异网络数据库异常数据检测[J].计算机测量与控制,2015,23(3):1008-1010.
[9]汤 义,黄建军,赖勉力,等.基于积分通道特征的异常行为检测算法[J].科学技术与工程,2016,16(21):284-288.
[10]何高攀,杨 桄,孟强强,等.基于图像融合的高光谱异常检测[J].电子设计工程,2016,24(2):165-168.
AbnormalVirusDataDetectionTechnologyResearchinUSBMobileStorageDevice
Guo Daojun
(Aduit Education College,Qinghai Normai University,Xi'ning 810008,China)
The detection of abnormal virus data in the USB mobile storage device to can extend the life of USB mobile storage device, improve the data utilization and reduce the running time of the system. Segments of current method using trajectory point anomalies of USB removable storage device detect virus data, several independent USB removable storage device when the virus data attributes, in view of the existing exception virus detect abnormal data points of trajectory, virus data position, speed and direction as test object. This method is less efficient in detecting abnormal virus data in USB mobile storage devices, and does not apply to the detection of abnormal virus data in a large number of USB mobile storage devices. To this end, an abnormal virus data detection method is proposed in a USB mobile storage device based on the PATRICIA tree. The method using the K - means algorithm to data in USB removable storage device is divided into K classes, and by using Euclidean distance to measure the degree of similarity between the classes, and then on the basis of the independent component analysis to join the forgetting factor, abnormal data virus detection of USB removable storage device when the measured signals with noise estimation, the use of wavelet analysis, by setting the USB removable storage device in abnormal virus data to determine the threshold, and standardized the wavelet coefficient absolute value, compared with the decision threshold to complete the data of the virus. The experimental results show that the proposed detection method in this paper can accurately for USB mobile storage devices, abnormal virus data for testing, more in line with the development of practical significance in this field.
USB mobile storage devices; anomalous virus data; detection technology
2017-05-16;
2017-06-12。
郭道军(1967-) ,男,山东济南人,讲师,主要从事计算机基础方向的研究。
1671-4598(2017)09-0005-03
10.16526/j.cnki.11-4762/tp.2017.09.002
TP393
A