赵燕萍
摘要:针对传统的压缩图像数据挖掘方法中由于频繁项集过多造成的方法复杂性增加的问题,提出基于关联规则的压缩图像数据挖掘方法研究。以压缩图像数据库作为基础,利用完全项集前缀树获得所有频繁项集,根据计算的置信度和支持度,从频繁项集中提取出强关联规则,考虑压缩图像数据的安全性,对强关联规则集合进行进一步的处理,获得候选规则集合,扫描集合中的每个规则,选择最少错误的规则,形成分类器,利用分类器实现数据挖掘。实验结果表明:设计的基于关联规则的压缩图像数据挖掘方法的计算时间和通信时间所需较少,数据挖掘效率高,该方法适合应用在实际项目中。
关键词:关联规则;压缩图像;数据挖掘;压缩数据集
中图分类号:TP309.2 文献标识码:A
文章编号:1009-3044(2021)03-0055-02
作为在互联网和商业系统中诞生出的新的研究领域,数据挖掘技术有广泛的研究方向,但是其核心从未改变,其核心就是将大量数据中的有价值的数据提取或挖掘出来,为决策者提供重要的知识或信息,帮助经济效益增长[1]。数据挖掘技术逐步被社会各领域所应用,以数据挖掘分析行业数据,便于行业发展决策确立,当前,数据挖掘技术已成为重要的数据分析工具[2]。
考虑现阶段网络中数据规模和其安全性,当前多通过数据压缩技术来管理海量数据,可以在一定程度上提升数据管理效率,但是在数据挖掘中,对此类数据的挖掘有一定的困难,特别是压缩图像数据[3]。国外对于数据挖掘技术的发展取得了不错的成果,如美国斯坦福大学智能数据库系统实验室开发的商用化数据挖掘系统,应用范围十分广泛,可以在多种平台上运行,并且还引入了在线分析挖掘技术[4]。相比之下,国内对于数据挖掘技术的研究稍稍落后一点,目前主要集中数据挖掘算法的研究,由此看出,数据挖掘的研究与应用已经越来越受到各界人士的重视。目前,比较成熟数据挖掘方法有基于神经网络的数据挖掘方法和基于遗传算法的数据挖掘方法,这两种挖掘方法主要依赖其内部的算法,在实际应用中,会产生大量无用数据,生成过多的频繁项集,增加数据挖掘负担,使得数据的计算时间和通信时间增加,影响数据挖掘的效率[5-7]。因此,将关联规则应用与压缩图像数据挖掘中,以解决当前数据挖掘中存在的问题。
1 基于关联规则的压缩图像数据挖掘方法设计
1.1 获取所有频繁项集
基于关联规则的压缩图像数据挖掘方法主要是通过数据获得所有频繁项集,从中获得强关联规则,利用关联规则实现数据挖掘。获取频繁项集具体流程如下图所示。
为了能够高效地对压缩图像数据进行关联规则挖掘,使用完全项集前缀树结构,产生频繁项集。假设压缩图像数据集合为[Q=q1,q2,…,qn],对应的属性集合为[E=E1,E2,…,Em],属性[Ei]的值域为[domEi]。将压缩数据集合看作是(属性,值)对的集合,将(属性,值)称为项,其中的值为[q],记为[q=c1,c2,…,cm],其中[ci]的值域与属性的值域相同。将具有[β]个项的集合称为[β-]集合。压缩数据集合中共有[i=1,mdomEi]个[1-]项集。
在获取所有频繁项集过程中使用的完全项集前缀树是一个项集枚举树,由节点标签项和扩展项集组成了树中的节点。扩展项集中按照1~m的排位顺序,根节点内的标签为空,扩展项集为所有的[1-]项集[8]。
对于树上任意节点,假设其扩展项集数与子节点个数相同,将项集内的所有相都看作树的子节点,由此,每一个经过由根节点到子节点路径上的节点都从属于子节点的集合。每一个根节点的子节点共同组成了项集前缀树,在前缀树内的第一层,每一个节点长度都为1,第二层项集内所有长度均为2,以此类推,项集前缀树共有[m]层。
确定完全项集前缀树层数后,建立一个可容纳[β]层的项集前缀树,把前缀树设置于内存中。对图像数据库进行扫描,将数據库内的所有数据进行项集前缀树处理,假如节点所在项集属于当前数据库,则在节点计数上加1,遍历压缩图像数据库中所有数据,完成后,以预设的最小支持度阈值为对比依据,将每一个长度小于[β]的数据进行项集。
1.2 量化强关联规则
在获得所有频繁项集后,从中提取出关联规则并量化,用于后续的数据挖掘中。定义一个事务数据库为[T=T1,T2,…,Tn],其中包含[N]个事务,每个事务都是项的集合,一个事务中包含有项集为[W]当且仅当[W?T],获得的频繁项集为[β-]项集。从频繁项集中提取出强关联规则,其表现形式为[W?R],并且[W?R=?]。定义的关联规则[W?R]的支持度表示为:
支持度主要是数据库中既包含[W]又包含[R]的数据所占数据库总事务数的百分比,相应的关联规则[W?R]的置信度公式表示为:
[confW?R]表示的是既包含[W]又包含[R]的事务占包含[W]的事务的百分比。获得的频繁项集为所有大于最小支持度的项集集合,从中获取关联规则主要是挖掘出所有值为1的属性值之间的关联规则,在关联规则的作用下,数据库中事务对应一个数据元组,每个项对应一个属性域。如果属性域的值为1,则表示数据元组中,对应的事务中包含属性域对应的项。当数据库中只存在量化属性值域比较小时,每个属性在映射后的关系数据库中所占的列数和其值域大小是相同的,当某一元组在属性[x]的取值为value1时,在映射的数据库中,此条数据上的属性域的取值为1,属性[x]的其余列则为0。此时,就可以利用关联规则挖掘压缩图像数据库中的数据了。
1.3 实现数据挖掘
通过上述过程得到的强关联规则,需要再进一步选择出用于挖掘压缩图像数据的高质量规则集。以支持度为标准,将集合中的关联规则按照从高到低进行排列,并以此排序顺序作为扫描顺序,将所有数据库元组进行扫描处理,找出首个符合[W?R]规则,并且正确判别的规则[rule1],同时找到第一个满足[W?R],但是判别错误的规则[rule2],判断两者的大小,哪一方支持度更高,则表示该规则,并将规则加入候选规则集中,否则加入错误子集中。
以支持度为排列依據,对将所有候选的规则进行排序,在排序前需要对规则集合内的所有规则进行简单处理:
若集合内的所有规则[u]在其所在属类别上的覆盖计数为零,说明规则[u]至少正确判别出一个压缩图像数据实例,对于集合中的每一个元素,需判定以dID为标识的数据是否已经被规则[u]前面的规则覆盖住。假设判定结果为覆盖,需对覆盖计数减小1;假设判断结果显示还没被覆盖,则规则[u]对应的属性类别上的覆盖技术不变,获得当前的默认属性类别,将规则[u]加入分类器中。重复以上过程,处理完候选规则集合中的每一个规则,把所有排序在规则[u]之后规则进行删除,把[u]的所属类别看作是规则分类器的默认类别。
将压缩图像数据库中的数据作为输入,利用包含高支持度、高质量关联规则的分类器挖掘出用户所需数据。至此,设计的基于关联规则的压缩图像数据挖掘方法设计完成。
2 压缩图像数据挖掘方法实验研究
2.1 实验数据准备
对于压缩图像数据,数据挖掘需要解决好图像自身的表示问题,因此对于压缩图像数据的挖掘往往需要更多的计算时间和通信时间,影响数据挖掘效率。因此,在压缩图像数据挖掘方法研究中,以数据挖掘时间为衡量标准,结合传统的基于遗传算法的数据挖掘方法和基于神经网络的数据挖掘方法,设计对比实验。实验中使用的数据集为UCI公共数据库中的Breast cancer数据集,因为第一个属性是编号,去除第一个属性,保留其中的第2-11个属性,将最后一个属性设置为类别属性,基数为2。在实验之前,将数据集中缺失属性值的记录删除,同时扩大数据集整体20倍,最终得到13660条数据记录。
2.2 数据挖掘时间实验与分析
在实验中,采用VC++开发环境,以C语言作为宿主语言,嵌入MPI消息传递函数库,实现数据挖掘方法的运行与计算。实验中的机群环境为6台普通的计算机作为工作站,1台DELL服务器,计算机之间网络通过以太网交换机连接,结合MPI消息传递机制特点,在每个计算机看作信息节点,并在所有节点建立统一的登录账户,在机群内确定一个相同路径的共享空间,存放实现不同数据挖掘算法的程序。将三种不同的数据挖掘方法应用在局域网内构建的机群中,基于上述中的数据集对算法进行测试,主要计算出不同数据挖掘算法的通信时间和计算时间。其计算时间主要通过MPI提供的MPI_Wtime函数获取。则数据挖掘时间实验结果如下表所示。
观察表中结果,从整体上看,设计的基于关联规则的压缩图像数据挖掘方法在工作过程中所需时间最少,并且效率更高,再结合非频繁项集分布实验结果可知,设计的数据挖掘方法非频繁项集分布满足压缩图像数据挖掘的需求,需要的时间较少,效率更高。
3 结束语
互联网随着人类的使用,产生了越来越多的信息,其中包含了大量无用信息,用户及时从中获得自己所需的有效的信息十分困难。因此,本文利用压缩图像数据作为基础,以关联规则为主,提出一种基于关联规则的压缩图像数据挖掘方法。经过深入研究与探讨,在原有的关联规则基础上,做了更深层次的处理,实现了基于关联规则的压缩图像数据挖掘。通过设计的对比实验证明了,设计的基于关联规则的压缩图像数据挖掘方法效率更高,解决了传统的压缩图像数据挖掘方法中由于频繁项集过多造成的复杂性过高的问题。但是研究过程中受到技术和实验环境的限制,方法中存在不足之处,对压缩图像数据挖掘研究还处于初期阶段,在后续研究中,可就其适应范围进行更深入的探讨与分析。
参考文献:
[1] 王丹.基于数据挖掘的三维图像无损恢复研究[J].现代电子技术,2018,41(7):67-70.
[2] 孙红,李存进.融合遗传算法和关联规则的数据挖掘方法改进[J].数据采集与处理,2019,34(5):863-871.
[3] 孙丰杰,王承民,谢宁.面向智能电网大数据关联规则挖掘的频繁模式网络模型[J].电力自动化设备,2018,38(5):110-116.
[4] 毛晓菊.基于模糊关联规则的海量数据挖掘方法研究[J].微电子学与计算机,2018,35(2):89-93.
[5] 顾广华,曹宇尧,崔冬,等.基于形式概念分析和语义关联规则的目标图像标注[J].自动化学报,2020,46(4):767-781.
[6] 曹蒙蒙,郭朝有.面向动力监测数据挖掘的关联规则算法改进研究[J].船舶工程,2018,40(S1):355-357.
[7] 于超,王璐,程道文.基于图像降阶的纹理特征挖掘方法在医学上的应用[J].东北师大学报(自然科学版),2018,50(3):53-57.
[8] 张定祥,张跃进.基于改进多层次模糊关联规则的定量数据挖掘算法[J].计算机应用研究,2019,36(12):3619-3622.
【通联编辑:张薇】