◆孙兴文
(永州职业技术学院 湖南 425100)
基于特征加权与特征选择的数据挖掘算法研究
◆孙兴文
(永州职业技术学院 湖南 425100)
数据挖掘作为一门迅速发展的研究领域,面临着越来越多新的问题和挑战。数据挖掘在科技、航空、军事等多个领域得到了广泛应用,甚至直接决定了行业的发展速度和先进性,但是在实践当中,同样存在许多的问题。本文根据数据挖掘的特性展开分析,以特征加权与特征选择的方法进行计算。
特征加权;特征选择;数据挖掘;算法
特征加权算法也被称为knn算法,就是在挖掘数据的计算当中,集合数据样本权重和特征权重来确定其真实性和准确性。在一定的条件下,能够极大地提高数据分类准确率,但是却改变不了计算机信息技术中的主页和恶意软件问题,也无法进行查验。
数据挖掘的应用范围较广,不仅是实现数据库知识发现的重要步骤,还能从众多的数据库当中快速、自动搜索隐藏在庞大数据中非常有价值的规律信息,数据挖掘也是一种对某种决策的支持过程。但随着科技的发展,数据挖掘面临着诸多的挑战,首先是数据的挖掘规模越来越大,庞大的数据无法采用有效的办法进行归纳梳理,也不能更好地管理和运用;其次是随着数据特征的维数不断增加,呈现出许多的维数灾难问题;最后是数据挖掘,特别是计算机信息技术的数据挖掘当中,更多的是强调由学科交叉产生的综合性,在挖掘过程中不仅要求工程技术人员能够设计出具有灵活运用统计、计算机、数学的建模技术,还需要具有生物、医学、证劵金融等学科的知识背景。这些交叉性、多样化的学科数据挖掘,不仅需要更为科学有效的管理,还需要对庞大的数据流精确的分析方法,尤其是针对高维数据的特征加权和特征选择方法上,同时也要对生物信息学点的交叉性较强的学科的数据挖掘方式加以提升,提高其数据准确性和科学性,精确数据内容。
本文中主要利用特征加权软、硬空间聚类方式进行计算,并将特征选择应用到实践当中。尤其是因为数据交叉性强,数量庞大,甚至出现高维数据的现象,以此探讨特征加权和选择的问题,以及对多学科交叉进行研究探讨。
软子空间聚类算法主要是将挖掘数据的原始特征空间分为不同的子区域,站在不同的角度考察各个数据的分类,在分类的过程中找到相对应的特征子空间。运用软子空间聚类算法对挖掘数据进行计算,实际上就是将传统的特征选择技术和聚类算法进行有机结合,让每个数据簇都能得到对应的特征子集或者权重,以下进行具体分析。
2.1 自底向上子空间聚类算法
所谓自底向上子空间聚类算法主要是依照网络e构建密度设定,利用网络的自底向上的搜索策略将子空间中的数据簇聚拢合算。这种方式能够将挖掘数据最原始的特征空间分成若干个小网格,按照不同的特性将数据簇落到相应的网格样本点,能够准确落到相应网格中的概率,就表示这个子空间的密度状况。当某个网格中的密度超过一定阈值后,需要将子空间作为密集单元保留,对不密集的网格空间直接舍弃,在自底向上的子空间聚类算法当中是利用熵理论作为密度度量,再通过静态网格进行计算,动态网格查找策略,这样才能够得到更加稳定的划分结果。
2.2 自顶向下子空间聚类算法
自顶向下的聚类算法运用的是数据投影技术的迭代搜索策略进行挖掘计算,首先是将整个挖掘数据划分为多个不同的数据簇,比如生物学一类、医学一类,每个数据簇都有相同的权值及不同类型的特征权重。划分好后就能够采用迭代策略对这些初步数据不断更新改良,重新定义数据簇的权重和聚类。当然庞大数据的迭代计算复杂度相当高,所以在计算时通常采用采样以提高其准确性,比如PROCLUS(普罗克洛斯)、FINDIT等。运用以上计算方式在初始、迭代、改良等阶段的计算有所不同。在初始数据阶段的计算就是随机抽样,运用数据的探析策略寻找网格潜在中心集合的超集,只要保证挖掘数据簇中都有一个超集中心点即可。而在迭代阶段则是从超集当中随机选一个聚类中心,以此替代当前集合中不好的样本点,以此循环得到更为优质的中心点集,直到每个聚类中心点的集合达到稳定后,再以子空间样本点对聚类中心平均距离做数据簇半径,找到对应特征子集。在改良极端就是将每个数据簇聚类中心再次扫描确定特征子集,并计算出样本点到中心的曼哈顿距离,去除孤立点后重新划分。
2.3 模糊加权软子空间聚类算法
上述两种方式是软子空间聚类,而模糊加权空间聚类算法属于硬子空间聚类计算,在计算时具有更好的适应性和灵活性。具体来说就是将挖掘数据集,由软子空间计算出聚类中心V={v1,1≤i≤C},C是获得的数据簇的聚类中心数量,j则表示样本x是属于第j个聚类中心vi的模糊隶属度,要计算出整个数据集的模糊隶属度矩阵U={uij|l≤i≤C,l≤j≤N|}。当然为了更好地挖掘每个数据集子空间结构,聚类计算方法会在聚类当中,都会赋予每簇数据特征加权系数。在计算当中用wik表示与某个特征对应的数据簇的重要性,以w来表示数据集特征加权系数,将相应的特征加权系数和模糊加权指数引入函数计算公式当中:。在计算的过程中,只要给定m和t相应的数据,就能计算出初始、迭代、改良等阶段的数据。比如当m大于1和t大于1时,最小化的FWSC算法的目标函数计算出的模糊隶属度。
特征选择是数据挖掘和机械领域的关键,在挖掘数据数量庞大及高维特征时,原有的特征选择方式不能更精确数据。要获得有效的数据,就需要在计算的框架内有针对性的选择,这就是特征选择。特征选择主要是通过对原始特征空间数据簇进行筛选,生成策略,然后形成特征子集,对选择的数据进行评价,停止条件选择,最后得出结论等几个步骤。
3.1 过滤型特征选择方式
过滤型特征选择最大的优势是不会依靠相应的分类器材,确定时仅靠数据本省的特征,在选择时先假设每个特征都是独立存在的,采用某种搜索方式选择出合理的特征子集。在选择算法当中,过滤型是最为简单的,常见的计算方式有FOCUS、Relief和分数方程。在选择期间,选用一组具有代表的特征作为数据的子集,这是有利于提高计算的准确率,具体方式如图1所示: