数据挖掘技术的应用

2012-07-13 05:12罗成怀
决策与信息·下旬刊 2012年4期
关键词:数据挖掘算法

罗成怀

摘 要:随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。本文试对数据挖掘技术的应用进行分析介绍。

关键词:数据挖掘 分类规则 算法

中图分类号:TP393 文献标识码:A

一、数据挖掘在市场营销的应用

数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。

通过收集、加工和處理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。

就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。

二、入侵检测中数据挖掘技术的引入

入侵检测技术是对(网络)系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性与可用性。

根据数据分析方法(也就是检测方法)的不同,我们可以将入侵检测系统分为两类:(1)误用检测(Misuse? Detection)。又称为基于特征的检测,它是根据已知的攻击行为建立一个特征库,然后去匹配已发生的动作,如果一致则表明它是一个入侵行为。(2)异常检测(Anomaly Detection)。又称为基于行为的检测,它是建立一个正常的特征库,根据使用者的行为或资源使用状况来判断是否入侵。

将这两种分析方法结合起来,可以获得更好的性能。异常检测可以使系统检测新的、未知的攻击或其他情况;误用检测通过防止耐心的攻击者逐步改变行为模式使得异常检测器将攻击行为认为是合法的,从而保护异常检测的完整性。

三、算法在入侵检测中的具体使用

(一)基于误用的检测型。

首先从网络或是主机上获取原始二进制的数据文件,再把这些数据进行处理,转换成ASCII码表示的数据分组形式。再经过预处理模块将这些网络数据表示成连接记录的形式,每个连接记录都是由选定的特征属性表示的。再进行完上面的工作后,对上述的由特征属性组成的模式记录进行处理,总结出其中的统计特征,包括在一时间段内与目标主机相同的连接记录的次数、发生SYN错误的连接百分比、目标端口相同的连接所占的百分比等等一系列的统计特征。最后,就可以进行下面的检测分析工作,利用分类算法,比如RIPPER 、C4.5等建立分类模型。只有这样才能建立一个实用性较强、效果更好的分类模型。

(二)基于异常的入侵模型。

异常检测的主要工作就是通过构造正常活动集合,然后利用得到的一组观察数值的偏离程度来判断用户行为的变化,以此来觉得是否属于入侵的一种检测技术。异常检测的优点在于它具有检测未知攻击模式的能力,不论攻击者采用什么样的攻击策略,异常检测模型依然可以通过检测它与已知模式集合之间的差异来判断用户的行为是否异常。

在异常检测中主要用到的两个算法就是模式比较和聚类算法:(1)模式比较。在模式比较算法中首先通过关联规则和序列规则建立正常的行为模式,然后通过模式比较算法来区别正常行为和入侵行为。(2)聚类算法。聚类分析的基本思想主要源于入侵与正常模式上的不同及正常行为数目应远大于入侵行为数目的条件,因此能够将数据集划分为不同的类别,由此分辨出正常和异常行为来检测入侵。数据挖掘中常用的聚类算法有K-means、模糊聚类、遗传聚类等。基于聚类的入侵检测是一种无监督的异常检测算法,通过对未标识数据进行训练来检测入侵。该方法不需要手工或其他的分类,也不需要进行训练。因此呢功能发现新型的和未知的入侵类型。

四、结论

入侵检测中数据挖掘技术方面的研究已经有很多,发表的论文也已经有好多,但是应用难点在于如何根据具体应用的要求,从用于安全的先验知识出发,提取出可以有效反映系统特性的属性,并应用合适的算法进行数据挖掘。另一技术难点在于如何将数据挖掘结果自动应用到实际IDS中。

入侵检测采用的技术有多种类型,其中基于数据挖掘技术的入侵检测技术成为当前入侵检测技术发展的一个热点,但数据挖掘还处于发展时期,因此有必要对它进行更深入的研究。□

(作者单位:湖北工业大学 计算机学院)

参考文献:

[1]. 范明,孟小峰.数据挖掘——概念与技术.机械工业出版社,2001。

[2].Mehta M,Agrawal R,Rissanen J,SLIQ:A Fast Scalable Classifier for Data Mining.Lecture Notes in Computer Sci.Proc.of the 5th Int.Cord.on Extending Database Tech. 1996:18-33.

[3].方金城.分类挖掘算法综述.沈阳工程学院学报(自然科学版),2006,(1):75~76.

猜你喜欢
数据挖掘算法
国际主流轧差算法介绍:以CHIPS的BRA算法为例
数据挖掘技术在内河航道维护管理中的应用研究
Travellng thg World Full—time for Rree
数据挖掘综述
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
比比谁的算法妙