张本文
摘要:取樣是一种非常通用的近似技术。取样方法在数据挖掘研究中能显著减小数据处理规模,使数据挖掘算法更加大规模的作用到数据流中。对数据结构的研究也成为了数据挖掘取样方法的中心。本文主要阐述了数据挖掘领域中取样方法的灵活性,并且对数据挖掘取样方法的发展和面临的挑战做出了展望。
关键词:数据挖掘 取样方法 数据结构
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)12-0106-01
正是由于数据库技术的广泛应用和快速的发展,数据库所能储存的数据也顺应时代潮流越来越大。如何采用适当的技术来降低数据流的规模成为一个重要的问题,特别是最近的某些领域广泛应用数据流信息,比如通信管理和网络监测,为了维护数据结构的动态稳定性,取样成为了最通用的近似技术。取样在保证一定的精确度下,使得数据挖掘算法广泛应用到数据流中去。目前常用的概要结构设计方法有小波方法、直方图方法、Hash等。
1 数据挖掘中的取样方法
1.1 A/R Sampling
A/R Sampling算法主要是通过挖掘算法从数据流中不定向抽选一个候选元素,然后通过把此元素与所要求的条件作出对比,只有符合条件的元素才会接受,作为样本集,不符合的拒绝,重复此循环。
1.2 精确取样方法
精确取样用元素代码表示在样本集中仅仅出现一次的元素,而用value,count来表示重复出现的元素,当中的value是表示元素所对应的代码,count则表示元素出现的次数数量。一般情况,元素是否放入样本集是有条件的,假如元素没有在样本集里出现过则就可以直接放入样本集,但是如果元素已经存在于样本集中了,那么就在数量count上加1。这样,当样本集容量已满时,样本集中的每个元素数据都会按照原始对应参数来进行对比然后删除,保持数据的存放性。
1.3 计数取样方法
计数取样是在精确取样方法基础上转变过来的,在处理样本集溢出情况时,在删除数据之前要和原数据进行比较,然后通过新参数分之一来判断数据时候要减1。当数据的数量值为0时,就不再对该数据进行操作。
1.4 分出取样方法
分层取样实际上是将数据信息曾经分布的情况用作参考来对目前的数据进行分层的,这样,对于那些分布多的层就会采取更多的取样点,大大提高了数据挖掘算法的准确性。同时对于每一层的数据而言,则采用均匀的取样技术进行随机的采取点。
1.5 国会取样方法
国会取样可以说是是均匀随机取样方法的基础上结合了偏倚取样技术,因为对于每个分组都会独立取样,不同的是取样的概率是不同的。比如,对于某些较大的分组,就会对元素的取样率大大增加,反过来说,对于某些较小的分组,对元素的取样率就大大减少,这种兼顾性就突破了均匀取样的局限性。
1.6 Distinct Sampling
Distinct Sampling相当于取样方法的综合说法,从按类型方面来看,属于聚集流的搜索处理查询中的唯一值取样方法。通过对数据中的唯一的元素进行逐一的扫描再逐一的加入的样本集的方法进行取样,这样就大大提高了对于唯一的个体数目的评估正确性。
2 数据挖掘在取样方法中的发展
取样方法在统计计算、数据处理和挖缺信息中普遍存在,在某些知识发展的方面扮演着无法替换的功能角色。在数据挖掘取样方法中的应用案例非常之多,比如房地产的数据分析和用户需求统计中一般采用均匀随机的抽样方法来搜集大数据。在对数据结构的构建中采用的数据挖掘算法也很多。例如CURE和CLARANS,通过算法再加上取样方法的预处理能力,在专业人士的分析统计下,算法和取样方法都得到了最大化的发挥。
自适应取样是针对有穷非负数数据的一种评估方法,我们可以任意调节取样样本的大小,通过数据挖掘方面的整理,可以实现用最小的样本解决更小的误差遗留问题。为了顺应需求节约取样的成本,二阶段取样的评估方法出现了。大概含义如下:在挖掘样本对象时,有时候会出现一些大成本的取样对象,为了解决这种烦恼,可以寻找一种辅助的取样对象来减少成本的代价。通过这个辅助对象的比例来推断出原来那个大成本的取样对象。这样不但解决了成本问题,而且目标精确度也会提高。
取样技术在数据集中的主要方面就是管理和挖掘:(1)针对数据集的处理模型中数据结构的需要里需要均匀取样方法和计数取样方法。(2)针对数据流在某些近似的查询过程中需要国会取样方法和Distinct Sampling等。(3)针对数据集运用的偏倚取样技术,这样能够解决一些应用过程中的数据管理、分配、评判问题的分析。
3 数据挖掘取样方法面对的挑战
通过研究发现,传统的取样方法在数据挖掘领域中得到了深远的发展,取样技术在数据库的搜查处理、关于频繁元素的挖掘和数据挖掘算法的提前处理等方面有比较成熟的研究,不过在取样技术的某些方面挑战性还有很大的存在,比如数据集管理方面上,具体包括:
(1)怎样在小的样本集上获取尽可能的精确结果,克服空间局限,满足相应的要求下解决取样复杂情况。(2)关于滑动窗口的一些模型取样技术方法还是不够成熟,很多限制的存在造成了制约,比如说内存界限的不确定性、滑动窗口较小、成本高等问题。(3)当前的算法大多数对于插入删除情况有局限,对于用户性的插入和频繁删除数据情况问题是数据流动态维护所必要解决的问题。(4)如何设计出好的偏倚取样算法是未来发展研究的方法之一。
4 结语
数据挖掘在社会经济的发展中展现了独特的魅力,然后,取样方法则是制约数据挖掘发展精确性的重要因素。在未来的发展空间中,只要运用合适的取样方法就可以大大提高数据挖掘的效率。企业在大量的数据中能够迅速发现对自己有价值的信息,这样就促进了企业的竞争发展,在促进企业健康发展的同时,正确的取样方法也完善了数据挖掘的算法。随着研究的深入,一定会在原有的基础上取得更高的成就。
参考文献
[1]张成叔关于数据挖掘取样方式的若干分析[J].赤峰学院学报(自然科学版),2014(9).
[2]胡文瑜.数据挖掘取样技术与算法研究[D].东南大学,2011.
[3]胡文瑜,蔡文培.数据挖掘取样方法的衡量与选用研究[J].福建工程学院学报,2011(4).