项集
- Top-k高模糊效用项集挖掘算法
据挖掘中,高效用项集挖掘算法是一项重要的研究课题[1-6]。然而,高效用项集挖掘算法的输出结果中,只包含项集的组成项及效用信息。决策者很难从中获取到其它信息,例如高效用项集中每个项的数量区间,导致无法做出精确的决策。为解决这一问题,模糊集理论引入到了高效用项集挖掘中,产生了高模糊效用项集挖掘算法。HFUI-GA[7]将进化计算方法引入了高模糊效用项集挖掘中。EFUPM[8]算法提出了紧密的模糊效用上界模型,有效减少了搜索空间。上述高模糊效用项集挖掘算法,均
计算机工程与设计 2023年11期2023-12-04
- 电力大数据并行关联规则挖掘算法
(支持度):存在项集X,该项集在事务数据库中出现的概率定义为支持度,记为Sup(X)。负关联规则表示的是关联规则的否定集合[3]。如果存在正关联规则X→Y,其负关联规则包括以下X→¬Y、¬X→Y和¬X→¬Y共3 种。Sup(¬X)为项集X 的否定规则支持度,计算如公式(1)所示。式中:Sup(¬X)表示在事务数据库中项集X未出现的概率,使用已知项集X出现的概率Sup(X) 计算得到。1.2 正负关联规则的评判标准定义2(置信度):项集X与项集Y的执行度记为
中国新技术新产品 2023年14期2023-09-07
- 基于邻接表存储与哈希表的频繁项集挖掘算法
)0 引 言频繁项集[1]是从数据资源中挖掘具有潜在价值的信息,频繁项挖掘的经典算法是Apriori算法,但是该算法存在明显的不足:算法的计算时间花费较大和内存空间占用较高。近年来,研究者们根据Apriori算法不足之处提出了改进方法。例如,文献[2]提出了利用数据结构优化预剪枝步骤,结合Spark支持的细粒度计算模型的特征,将事务数据库水平划分为n个块,分配到m个节点,在m个节点上运行IAP算法n次,找到所有频繁项集,利用剪枝的方法有效地减少了频繁项集的
计算机应用与软件 2023年7期2023-08-10
- 挖掘意外高效用项集的有效方法
点,提出了高效用项集挖掘(High Utility Itemstes Mining,HUIM)[5]。HUIM是一种流行的数据挖掘方法,用于发现客户事务数据库中的有用模式。它包括发现产生高效用(高利润)的项集,即高效用项集(HUIs)。除了客户交易分析外,HUIM在其它领域也有应用,如点击流分析和生物医学[6]等。HUIM可以看作是频繁项集挖掘问题的扩展,其中单位利润可以分配给每一个项目。然而传统的高效用项集挖掘在计算上具有很大的挑战性,这是由于其缺乏传统
计算机仿真 2023年4期2023-06-01
- 基于哈希表与十字链表存储的Apriori算法优化
,导致在计算频繁项集的过程中时间效率和空间效率比较低。针对传统Apriori算法在时间复杂度和空间复杂度上的不足,文献[1]提出了使用优化的链表数据结构进行存储,并提高支持计数效率,同时采用了候选生成方法来减少匹配候选项目集。文献[2]提出了一种基于MapReduce的频繁项集挖掘方法,在云计算中引入了MapReduce模型来实现Apriori算法并行化。文献[3]提出了一种基于标记事务压缩改进的Apriori算法,该算法优化了关联规则的参数,减少标签比较
计算机应用与软件 2022年7期2022-08-10
- 闭项集挖掘算法研究综述
0)1 引言频繁项集挖掘算法和高效用项集挖掘算法是数据挖掘关联规则领域非常重要的两个分支,可以从数量和效用角度出发发现项之间隐藏的关联性。频繁项集挖掘旨在挖掘频繁地同时出现在数据库中的项,假定事务中每个项的价值都相同并且仅考虑项集在交易事务中出现的总次数。但在现实中,项集的出现次数并不能完全表达出数据的所有有用信息。高效用项集挖掘是在频繁项集挖掘的基础上发展而来的,其不仅考虑项集的出现次数,还考虑用户偏好、重要性、利润等因素对项集“有效性”影响。然而,频繁
大众标准化 2022年8期2022-05-20
- 基于共现结构的频繁高效用项集挖掘算法
主要内容包括频繁项集挖掘、高效用项集挖掘、序列挖掘等.频繁项集指的是在数据库中的支持度不低于用户指定的最小支持度阈值的项集.频繁项集挖掘算法[1-5]的意义在于发现数据库中大量出现的项集,其主要可分为2大类:基于水平层级机制和基于模式增长机制,前者以Apriori算法[1]为代表,后者以FP-Growth算法[2]为代表.在实际应用中,频繁项集挖掘算法基于所有项都具有相同“利润”的假设是不能完全满足实际需求的,因此高效用项集的概念和模型在文献[6]中开始被
辽宁大学学报(自然科学版) 2022年1期2022-04-26
- 一种基于交叉熵的top-k频繁项集挖掘算法
究问题之一,频繁项集[3-4]旨在发现那些支持度不低于用户指定阈值的所有项目。如何设置合适的阈值,一直是频繁项集挖掘面临的难题之一。为解决这一问题,学者们提出了挖掘top-k频繁项集[5-6]的问题,即发现支持度最高的k个频繁项集。这类问题通过设置更易理解的结果项集数量k,来取代最小支持度阈值,更适合于非领域专家的用户使用,并已在若干领域得到了应用[7]。TopKRules[6]是一种挖掘top-k关联规则的方法,挖掘top-k频繁项集可以看作是TopKR
郑州大学学报(理学版) 2022年4期2022-04-25
- Sp-IEclat:一种大数据并行关联规则挖掘算法
联规则挖掘;频繁项集;Spark弹性分布式数据集;MapReduce框架DOI:10.15938/j.jhust.2021.04.015中图分类号:TP399文献标志码:A文章编号:1007-2683(2021)04-0109-10Abstract:Aiming at the problem of inefficient data mining of association rules in a big data environment, the Ecla
哈尔滨理工大学学报 2021年4期2021-10-07
- 基于散列技术的多层关联规则算法的改进
此算法有较多冗余项集、很大的I/O负载的缺点做了不断改进,如周发超等[2]针对Apriori算法中的I/O过载大的问题,提出了一种I_Apriori算法来提高算法效率;孙学波等[3]基于Hadoop平台,采用HBase文件存储系统对海量数据分布式存储以及MapReduce框架进行分布式计算,来实现Apriori数据挖掘算法。随着数据量的增加,在分析分类特征数据时,发现不同层之间也存在关联规则,而Apriori算法只适合对单层数据挖掘关联规则,针对这一需求,
计算机工程与设计 2021年9期2021-09-16
- 含负项top-k高效用项集挖掘算法
关注。其中,频繁项集挖掘是数据挖掘的重要组成部分之一。频繁项集[1]的目标是发现满足最小支持度阈值的所有项集。但是,在实际应用中,频繁项集挖掘算法具有一定的局限性。它假定所有项具有相等的价值,并且每个项在每次事务中出现的次数不超过一次。但是,这两个假设在现实生活中不是普遍存在的。例如,客户购买6袋面包和1台电脑,客户购买多个相同的商品非常普遍,而出售面包和电脑的利润却有所不同。为了解决这一问题,研究人员提出了高效用项集挖掘算法。高效用项集(High Uti
计算机应用 2021年8期2021-09-09
- 最大可删除项集快速挖掘算法
061挖掘可删除项集(Erasable Itemset)是Deng等人在2009年提出的[1],用于解决在企业资金紧张的情况下,停产哪些产品损失的利润较小,并据此制定新的产品计划。在此基础上国内外多位学者提出了多种挖掘可删除项集的算法,比如Deng等人在先后提出了VME[2]算法、MERIT[3]算法,Le等[4]在2014年提出了MEI算法,这些算法都能在产品数据库中有效挖掘可删除项集。但是当阈值较大时,这些算法在挖掘过程中都会产生大量的项目集,占用了较
宿州学院学报 2021年3期2021-06-22
- 基于Spark框架的大数据局部频繁项集挖掘算法设计
的大数据局部频繁项集的挖掘算法愈发重要。近年来形成了巨大规模的非结构化数据和半结构化数据,这些数据被称为大数据,而如何自动、充分地利用这些大数据,顺利地解决大数据中存在的数据庞大、无切入点的问题,成为了目前国内外迫切需要解决的一个难题,而数据挖掘技术也在此时应运而生[1]。频繁项集挖掘技术是目前数据挖掘技术的基础,最初国内外主要采用的关联规则分析、序列项集、相关性分析等数据挖掘技术,它们都是以频繁项集挖掘技术作为核心基础的,而近几年来,随着大数据处理引擎S
微型电脑应用 2021年4期2021-04-29
- 基于AO算法的数据流频繁项集挖掘*
3]。数据流频繁项集挖掘已成为当前数据挖掘中的一项重要任务,并随着大数据实时分析的发展变得越来越重要。相较于国内,国外在数据流频繁项集挖掘方面的研究开始得比较早。在数据流处理模型中主要有3种不同的窗口模型[4]:界标窗口、衰减窗口和滑动窗口,目前使用最多的是滑动窗口模型。滑动窗口模型由Mozafari等[5]引入,并且提出了SWIM(Sliding Window Incremetal Miner)算法,它能够根据数据流调节滑动窗口的大小,因此算法具有良好的
计算机工程与科学 2020年12期2021-01-06
- 基于哈希树的并行关联规则挖掘算法研究∗
算法,其本质是在项集的幂集中利用统计学的基本原理,通过多次扫描数据库找出频繁项集,再根据已找到的频繁项集生成关联规则[6]。近年来,国内外许多学者对关联规则挖掘算法进行了大量的研究,其主要工作是提高挖掘算法的效率。如Savasere 等提出的基于数据分割的Partition 算法,Park 等提出的基于散列的哈希算法以及国内学者于守健等提出利用前缀项集的存储方式,通过哈希表快速查找来提高查找效率[1]。这些算法都在一定程度或不同侧重点上对Apriori算法
计算机与数字工程 2020年7期2020-10-09
- 基于排序树的Node-Apriori改进算法
新的操作完成频繁项集的挖掘。本文在文献[10]和文献[11]的基础上进行了改进,通过二进制编码的方式,提出了一种改进的Node-Apriori算法。1 Apriori算法1.1 基本概念Apriori算法[12]有两种方式统计候选项集的支持度:对于每个候选项集遍历事务记录统计;对于每个事务记录统计对该事务记录包含的候选项集的支持事务数加1[13]。假如匹配到trie树中的某个节点,该节点有n 个孩子节点,还需要匹配的事务记录为t′,下一步需要做的就是如何在
青岛大学学报(自然科学版) 2020年3期2020-09-30
- Apriori算法的压缩二进制编码改进
陷:一是生成候选项集和频繁项集的效率低;二是要多次扫描数据库,I/O 负载大;三是候选项集与未处理的事务集对比占用大量时间和空间.不少学者对此从各个方面进行研究改进.Bhandari 等[2]采用并行算法和聚类算法的思想对算法进行改进. Vasoya 等[3]提出将数据库划分为各个簇,再用基于矩阵的Apriori 算法对每个簇进行处理. 张岩庆[4]、陈兴蜀等[5]针对大数据集使用分布式的方法对算法进行改进. 徐哲炜等[6]通过增加约束条件减少候选集的想法
宜宾学院学报 2020年6期2020-07-14
- 基于差异点集的频繁项集挖掘算法
繁琐的一步是频繁项集的挖掘,频繁项集挖掘算法可分为两种:①水平逐级搜索,例如崔馨月等[1]提出的Eclat改进算法,该算法采用位存储结构,减少了进行交集运算的项目所占内存;宋文慧等[2]提出基于矩阵的Apriori算法(M-Apriori),该算法将数据库用上三角矩阵表示,可直接获取频繁1、2-项集,减少大量项候选项集的产生。②分而治之,例如何晴等[3]提出新的FP-Growth算法,该算法采用改进的哈希头表代替传统FP-Growth头表,通过合并最小支持
计算机工程与设计 2020年3期2020-04-24
- 不确定数据频繁项集挖掘算法研究
要分支之一,频繁项集挖掘的主要目的是以频繁出现的项目集的形式发掘嵌入在海量数据中的隐式的、先前未知的、潜在的有用知识[1-4]。当前,频繁项集挖掘在各领域应用广泛,如银行数据分析、市场营销、医疗诊断、气象数据分析等[5]。上述应用中广泛存在不确定数据,造成数据不确定性的原因主要有:对现实世界的有限感知和理解能力;感知监测设备的局限性;用于收集、储存、转换或数据分析的可用资源的限制;无线传输错误或网络延迟;数据粒度或隐私保护。因此,针对不确定数据的频繁项集挖
计算机技术与发展 2019年7期2019-07-23
- 一种基于Top-K查询的加权频繁项集挖掘算法
重要的角色。频繁项集挖掘作为数据挖掘最活跃的研究领域之一,是指发现事务数据中频繁出现的模式的过程,是发现大型事务数据集中关联规则的重要手段,在精准营销、个性化推荐、网络优化与管理、医疗诊断等领域均有广泛的应用[1]。当前,针对确定性数据的频繁模式挖掘理论日趋成熟,然而随着信息采集技术和数据处理技术的快速发展,各种形式复杂的数据逐渐出现在人们面前,不确定数据就是其中之一。不确定数据是指每一条事务中项目的存在不再是百分百确定的,而是依据某种相似性度量或是概率形
计算机技术与发展 2019年7期2019-07-23
- CFMoment:挖掘数据流频繁闭项集算法
模型,数据流频繁项集挖掘算法大致可以分为3 类:界标窗口模型、滑动窗口模型、衰减窗口模型.在界标窗口模型中,用户将一个开始时间指定为界标,挖掘范围是从界标时间到当前时间的所有数据;在滑动窗口模型中,窗口大小由用户指定,并且挖掘范围是该窗口中最近的事务;在衰减模型中,根据流动顺序对每个事务执行递减授权,先前流动的事务权重较小,而最近流动的事务权重最大.文献[4]基于界标窗口模型提出了sticky-sampling 和lossy-counting 两种数据流频
应用科学学报 2019年3期2019-06-22
- 一种基于倒排索引的频繁项集挖掘方法
两步:(1)频繁项集的识别(2)从频繁项集中挖掘隐含关联规则[1]。其中频繁项集的识别是整个挖掘过程的主要部分,频繁项集的规模也决定了数据挖掘性能。目前,已有众多学者针对频繁项集挖掘的经典算法进行改进,他们分别从“事物:项集合”和“项目:事务集合”两种方式展开研究,前者被称为“水平数据格式”,后者被称为“垂直数据格式”。文献[2]利用了二维数组的结构来对算法进行了改进,大大减少了输入输出操作,使查找速度得到提高,但随着数据库中数据量不断增大,导致了数据库中
长春理工大学学报(自然科学版) 2019年2期2019-04-25
- 滑动窗口中FP-Tree的频繁项集挖掘算法的研究
为数据流中的频繁项集又是数据流挖掘中最基本的问题之一,所以近十几年得到许多学者的研究,但是由于数据流具有连续、无限、快速、随着时间变化且不可预知的等特性,从而在数据流环境下挖掘频繁项集带来了很大的挑战.近几年来大量的数据流频繁项集挖掘算法被学者们陆续提出[2-5].其中最典型的是Han等人提出的FP-Growth算法[6],Manku等人提出的estDec算法[7],Leung等人提出的DSTree算法[8]和Giannella等人提出的FP-stream
小型微型计算机系统 2019年1期2019-01-24
- 元组级不确定数据库的Top-K概率频繁项集挖掘
意义[2].频繁项集挖掘,也称为频繁模式挖掘是关联规则挖掘的第一步,也是最关键的步骤,它能找出数据库中出现次数大于用户给定的最小阈值的所有模式,称为频繁项集或频繁模式.在不确定数据库中挖掘概率频繁项集能发现不确定数据库中出现次数大于某个阈值的所有模式,但是,由于数据不确定性的存在,使得挖掘工作比确定数据库中的频繁模式挖掘更为复杂.由于挖掘概率频繁模式时,需要用户提供最小频繁概率的阈值,增加了挖掘难度,因为,阈值的设置没有统一的标准.当阈值设置过高时,挖掘到
赤峰学院学报·自然科学版 2018年10期2018-11-14
- 基于关联规则挖掘Apriori算法的改进算法
关联规则挖掘频繁项集的Apriori算法,用由下到上逐层搜索的迭代方法查找频繁项集[3-5]。由于数据库本身的数据量较大,会存在多次扫描数据库以及多次迭代后产生大量候选集两个主要问题,最终导致算法效率不高。国内外学者对挖掘频繁项集算法进行了大量的研究:于守键等[6]利用前缀项集的存储方式,通过哈希表快速查找来提高查找的效率。赵龙等[7]提出Apriori算法中会出现同一属性的不同属性值进行连接的情况,通过比较能提前判断是否有这种情况发生,这样避免重复连接的
陕西理工大学学报(自然科学版) 2018年5期2018-11-06
- 基于矩阵相乘的Apriori改进算法
为布尔矩阵,通过项集向量“与”的操作来代替扫描数据库,通过对矩阵的操作实现对候选集的剪枝大大提高了算法效率[4~6]。文献[7~9]中通过一次性扫描数据库得到的Tid表(项、事务、支持度),这个表格维护在内存中,通过直接操作此表,这样就不用反复扫描数据,在用频繁项集连接生成候选项集时,直接把项的事务向量求交集。但是没有在算法运行中删除一些不必比较的事务,有大量的候选集生成频繁集时非常耗时。Apriori算法就是通过反复多次扫描事务数据库来计算候选集的支持度
计算机与数字工程 2018年10期2018-10-23
- Apriori算法在数据挖掘中的应用
是寻找数据中频繁项集的有力武器,落实Apriori算法是对数据挖掘的应用夯实。由此,本文对数据关联规则作出了详细的介绍,给出了关于Apriori算法的应用实例。1.数据挖掘的基本概念通过大量数据的收集和存储,运用关联规则挖掘出数据各项之间的联系或关联,得到相关信息,从而得出数据也是生产力。因此,我们需要了解关于数据挖掘的几个基本概念。(1)项、项集与事务项(Item)是数据中的最小单位;某几个项的集合称为事务(T),每个事务有一个关键字属性,称为事务号(或
电子世界 2018年19期2018-10-23
- 一种改进的基于N-List的频繁项集挖掘算法
)0 引 言频繁项集挖掘是数据挖掘研究中最为突出的任务之一,也是数据挖掘中最为耗时的部分,一旦挖掘出所有的频繁项集,关联规则即可通过简单的数学计算得到,可以说频繁项集挖掘算法的效率直接影响着整个数据挖掘的效率,因此十分有必要深入研究频繁项集挖掘算法。传统数据频繁项集挖掘算法主要分为两类: 一类是以Apriori算法为代表的产生候选频繁项集的挖掘算法,Apriori类算法具有需要重复扫描数据库及产生大量候选项集等缺陷;另一类是FP-growth为代表的采用分
计算机应用与软件 2018年9期2018-09-26
- 不确定数据的约束频繁闭项集挖掘算法
要找到需要的频繁项集[2].在实际情况中,很多数据的产生都带有不确定性,导致原有的频繁项集挖掘算法无法直接应用于不确定数据中.目前,关于不确定数据库的频繁项集挖掘已有许多研究,如由确定数据挖掘算法 Apriori、FP-growth发展而来的 U-Apriori,UF-growth算法,以及基于此的一系列改进算法.然而,随着数据的大量增加,挖掘所得频繁项集有过多冗余项集,有些甚至是毫无意义的.最大频繁项集虽然在很大程度上减少了冗余项集,然而其并不包含项集支
天津科技大学学报 2018年4期2018-08-22
- 基于FP-tree的支持度计数优化策略
挖掘过程中,频繁项集的挖掘是最关键的步骤。最大频繁项集是最常用的频繁项集简化表示。基于FP-tree的最大频繁项集挖掘算法多数都需要自底向上地搜索FP-tree来计算项集的支持度。而已有的支持度计算方法在计算当前项集的支持度时没有考虑已完成的支持度计算过程所获得的信息,因而造成了不必要的开销。针对该问题,提出了基于FP-tree的支持度计数优化策略(Support Count Optimization Method on FP-tree,SCOM),在付出
计算机技术与发展 2017年10期2017-10-23
- 事务约简和2项集支持度矩阵快速剪枝的Apriori改进算法
1)事务约简和2项集支持度矩阵快速剪枝的Apriori改进算法张健, 刘韶涛(华侨大学 计算机科学与技术学院, 福建 厦门 361021)在Apriori算法的改进算法M-Apriori基础上,为了进一步减少不必要的数据库扫描,引入事务约简技术,提出一种改进的MR-Apriori算法.考虑到M-Apriori算法会产生大量候选项集,为了实现对候选项集快速剪枝,加入一个自定义的2项集支持度矩阵,提出第2种改进的MP-Apriori算法.将事务约简和2项集矩阵
华侨大学学报(自然科学版) 2017年5期2017-10-11
- 一种垂直结构的高效用项集挖掘算法
垂直结构的高效用项集挖掘算法黄 坤*1, 吴 玉 佳2( 1.中国舰船研究设计中心, 湖北 武汉 430064;2.武汉大学 计算机学院, 湖北 武汉 430072 )挖掘高效用项集已成为关联分析中的热点问题之一.多数高效用项集挖掘算法需要产生大量的候选项集,影响了算法性能.HUI-Miner是一个不需要产生候选项集就能发现事务数据库中所有高效用项集的算法.但其需要产生大量效用列表,不仅消耗了过多的存储空间,而且影响了算法的运行性能.针对此问题,提出一个新
大连理工大学学报 2017年5期2017-09-20
- 一种自底向上的最大频繁项集挖掘方法
底向上的最大频繁项集挖掘方法赵 阳,吴廖丹(江南计算技术研究所,江苏 无锡 214083)频繁项集挖掘是关联规则挖掘中最关键的步骤。最大频繁项集是一种常用的频繁项集简化表示方法。自顶向下的最大频繁项集挖掘方法在最大频繁项集维度远小于频繁项数时往往会产生过多的候选频繁项集。已有的自底向上的最大频繁项集挖掘方法或者需多次遍历数据库,或者需递归生成条件频繁模式树,而预测剪枝策略有进一步提升的空间。为此,提出了基于最小非频繁项集的最大频繁项集挖掘算法(BNFIA)
计算机技术与发展 2017年8期2017-09-01
- 不确定数据中的代表频繁项集近似挖掘
数据中的代表频繁项集近似挖掘陈凤娟1,2(1.辽宁对外经贸学院 大连 116052)(2.大连海事大学信息科学技术学院 大连 116023)不确定数据的频繁项集挖掘作为很多数据挖掘任务的基本步骤,引起了很多学者的关注。但是当不确定数据集的规模很大时,会产生数目巨大的频繁项集,给后续挖掘工作带来难题。为解决这一问题,论文提出不确定数据集中的代表频繁项集概念,并利用VC维的概念,确定抽样空间,提出一种基于随机抽样的代表频繁项集近似挖掘算法,在保证挖掘效果的前提
计算机与数字工程 2017年2期2017-03-02
- 基于前缀项集的Apriori算法改进
600)基于前缀项集的Apriori算法改进于守健 周羿阳(东华大学计算机学院 上海 201600)关联规则的挖掘是数据挖掘中一个重要内容,主要目的是找到事务数据库中的有趣的模式。Apriori算法是关联规则挖掘的最经典算法之一,但是它本身存在着效率上的瓶颈。在深入了解Apriori算法前提下,提出基于前缀项集的候选集存储结构,并利用哈希表在快速查找上的优势,大大提高了经典Apriori算法在连接步骤和剪枝步骤中的效率。实验证明改进后的Apriori算法在
计算机应用与软件 2017年2期2017-02-27
- 不确定数据流中频繁模式的并行挖掘算法
以挖掘到全部频繁项集,并且能按数据量大小均匀地把数据分配到各个节点上。实验验证了该算法的时间效率能提高1个数量级。不确定数据频繁模式数据挖掘并行算法0 引 言由于数据的不确定性普遍存在于现实世界各个领域中,例如根据对电子商务网站页面的访问记录,只能获得潜在客户对特定商品购买倾向的一个估计(即一个概率性指标);并且随着数据量快速的增加,而频繁模式挖掘是数据挖掘中一项重要技术,因此不确定数据流频繁模式挖掘算法研究成为数据挖掘领域的研究热点之一。数据流上的频繁模
计算机应用与软件 2016年9期2016-11-09
- 基于回溯的最大频繁项集挖掘算法
于回溯的最大频繁项集挖掘算法张心静,于嘉威,王红梅(长春工业大学 计算机科学与工程学院,吉林 长春 130012)针对Apriori类算法多次扫描数据库和FP-tree类算法需要构建大量条件模式树的问题,文中提出了挖掘最大频繁项集的GBMFI算法。采用垂直格式存储事务数据库,以枚举树为基础,利用子集非频繁性质和父子节点支持度信息在搜索过程中对枚举树进行剪枝,最终得到最大频繁项集。通过实验对比,结果证明了算法的有效性,尤其适用于稀疏数据集。数据挖掘;最大频繁
电子科技 2016年8期2016-09-19
- 改进的多数据流协同频繁项集挖掘算法
多数据流协同频繁项集挖掘算法存在内存占用率高以及发现频繁项集效率低的问题,提出了改进的多数据流协同频繁项集挖掘(MCMDStream)算法。首先,该算法利用单遍扫描数据库的字节序列滑动窗口挖掘算法发现数据流中的潜在频繁项集和频繁项集;其次,构建类似频繁模式树(FPTree)的压缩频繁模式树(CPTree)存储已发现的潜在频繁项集和频繁项集,同时更新CPTree树中每个节点生成的对数倾斜时间表中的频繁项计数;最后,通过汇总分析得出在多条数据流中多次出现的且有
计算机应用 2016年7期2016-07-19
- 一种改进的AprioriTid算法*
裁剪方法减少无效项集的产生,减少候选项集的数量,从而提高算法的效率.仿真实验表明,在支持度相同但数据量不同,以及数据量相同但支持度不同这两种条件下,AprioriTid_M算法在性能上和运算时间上都比Apriori算法有很大程度的改善.Apriori算法; AprioriTid算法; AprioriTid_M算法; 关联规则; 置信度; 项集; 支持度; 性能数据挖掘关联规则中相当经典的算法就是Apriori算法,该算法具有反单调性的特点.Apriori算
沈阳工业大学学报 2016年3期2016-07-08
- 基于矩阵约简的Apriori 算法改进
描数据来获取频繁项集,然后根据得到的频繁项集生成关联规则。但Apriori 算法自身存在2 个主要缺陷[1]:1)Apriori 算法需要多次地重复扫描数据库,当有海量数据信息时会造成严重的输入输出负载;2)在查找频繁项集时会生成很多无实际操作价值的候选项集,占据大量存储空间。许多学者针对Apriori 算法的现有缺陷提出了诸多改进思路,以提高Apriori 算法的执行效率。在文献[1]中,提出了基于数组的挖掘方法,降低了扫描数据库的次数,将多维数据存储在
计算机与现代化 2015年9期2015-11-26
- 基于试验任务相关的并行化关联挖掘研究
,仅对任务相关的项集进行连接合并与向量内积运算,提升了Apriori算法的关联挖掘效率。关联规则挖掘也称为频繁项集挖掘,旨在发现海量数据项集之间的相互关联关系。在诸多的关联挖掘算法中,Apriori算法是比较经典的算法之一。该算法结合一定的先验知识,采用逐层迭代的方法搜索频繁项集。传统的Apriori算法中,若要生成频繁项集,就要执行连接和剪枝,而这些连接和剪枝操作带有一定的机械性和盲目性,会有大量冗余的候选项集生成,需要进行多次扫描数据库操作,导致算法运
中国科技信息 2015年22期2015-11-26
- 基于MapReduce的频繁闭项集挖掘算法改进
duce的频繁闭项集挖掘算法改进付婷婷1,杨世平1,2 (1.贵州大学 计算机科学与技术学院,贵州 贵阳 550025;2.贵州大学 明德学院,贵州 贵阳 550004)挖掘频繁闭项集(CFI)在许多实际应用中起着重要的作用。传统的数据挖掘算法中常用FP增长算法和Apriori算法来挖掘频繁项集。然而,内存需求和计算成本成为CFI挖掘算法的瓶颈,尤其是在从大型数据集中挖掘频繁闭项集时,是一个重要和具有挑战性的问题。针对上述问题,提出一种基于云计算的MapR
网络安全与数据管理 2015年24期2015-10-18
- 基于FP树的极大频繁项集的挖掘方法
FP树的极大频繁项集的挖掘方法石芹芹(四川大学计算机学院,成都610065)0 引言数据挖掘是20世纪90年代兴起的一项新技术,是知识发现的关键步骤。数据挖掘是多门学科和多门技术相结合的产物,是指从数据库中抽取隐含的、潜在的、先前未知的、有用的信息(如知识、规则、约束和规律等)的一个非平凡过程[1]。其中挖掘关联规则是一个非常重要的研究内容,而挖掘频繁项集是研究关联规则的基本和关键步骤。频繁项集导致发现大型事务或关系数据集中项之间有趣的关联或相关性,发现的
现代计算机 2015年36期2015-09-28
- 关联规则挖掘频繁项算法的应用
种算法在挖掘频繁项集中的区别,分析算法的优劣,从而确定算法的应用。关联规则;频繁项;Aprior算法;FP-Growth算法关联规则挖掘是在海量数据上进行的。频繁项集的产生需要访问数据库中所存储的大量数据,用什么算法迅速高效地在数据集中找出所有的频繁项集是数据挖掘的核心问题。现给定一个任务用两种算法举例对比:例:事务数据库中,包含有十个事务,已知最小支持度为30%,根据支持度的定义得到,最小支持数=事务数×最小支持度=10×30%=3。1 Apriori法
电子测试 2015年19期2015-03-25
- 基于矩阵的apriori算法的改进
据库得到频繁1-项集,然后频繁1-项集组合候选2-项集,然后对候选项2-项集剪枝,通过扫描数据库得到支持度计数来生成频繁2-项集。以此类推,直到没有频繁项集产生,然后将频繁项集生成关联规则[1]。这样一来,这个算法中有两个重要的问题:大量的候选项集产生和多次扫描数据库。针对以上两个问题,文献 [6]中使用的是基于矩阵的apriori算法,此算法将事务集以矩阵的形式保存到内存中,通过计算矩阵列向量中1出现的个数然后与最小支持度计数比较从而得到频繁1-项集,在
电子设计工程 2015年13期2015-01-29
- 一种基于FP-growth的并行SON算法的实现
的巨大挑战。频繁项集是数据挖掘中一个非常重要的概念,Apriori算法[1]和 FP-growth算法[2]是挖掘频繁项集最为著名的算法,但其串行计算的复杂度较高。SON算法[3]为并行化发现频繁项集提供了解决思路。谷歌于 2004年提出了 MapReduce编程模型[4],为并行处理和分析大规模的数据提供了重要的参考。根据MapReduce编程模型涌现出了众多的开源项目,其中A-pache基金会下的Hadoop[5]是其中比较有代表性的分布式并行编程框架
网络安全与数据管理 2014年8期2014-11-10
- 基于不确定性数据的频繁闭项集挖掘算法
定性数据的频繁闭项集挖掘算法章淑云,张守志(复旦大学计算机科学技术学院,上海 200433)对于不确定性数据,传统判断项集是否频繁的方法并不能准确表达项集的频繁性,同样对于大型数据,频繁项集显得庞大和冗余。针对上述不足,在水平挖掘算法Apriori的基础上,提出一种基于不确定性数据的频繁闭项集挖掘算法UFCIM。利用置信度概率表达项集频繁的准确性,置信度越高,项集为频繁的准确性也越高,且由于频繁闭项集是频繁项集的一种无损压缩表示,因此利用压缩形式的频繁闭项
计算机工程 2014年3期2014-06-02
- 基于矩阵的Apriori改进算法与实现
思想就是找出频繁项集,算法的主要工作就是寻找K-项集。根据相关性质,频繁项集的子集必是频繁项集,非频繁项集的超集一定是非频繁的。利用上一步产生的频繁项集来生成长度更大的项集,并将其称之为候选频繁项集。候选频繁项集是指那些有可能成为频繁项集的集合。算法先计算所有的候选1-项集C1;从C1中找出所有的频繁1-项集L1;然后,再将L1与自身做连接运算,生成候选2-项集的集合C2;从C2中找出所有的频繁2-项集L2;再将L2与自身做连接运算,生成候选3-项集的集合
长春师范大学学报 2013年6期2013-12-29
- 一种不确定性数据中最大频繁项集挖掘方法
孤立点检测、频繁项集挖掘等方面,其中频繁项集挖掘是重点研究的问题之一.文献[2]在Apriori算法的基础上提出了适用于不确定数据挖掘的U-Apriori算法,文献[3]在FP-growth算法的基础上提出了基于树结构的不确定数据频繁项集挖掘算法UF-growth,文献[4-6]进一步在此基础上提出了包含约束条件的频繁项集挖掘算法,文献[7]综述了不确定性数据中的频繁项集挖掘算法,文献[8]在基于约束的频繁项集挖掘算法U-FPS的基础上,提出了一种不确定性
山东理工大学学报(自然科学版) 2013年5期2013-12-18
- 高效用项集挖掘算法
式的挖掘仅仅考虑项集在多少个事务项集中出现,而没有考虑项在一个事务中对应的数量和项的权重值,如在一个购物单中,同一个商品的购买的数量和商品的价格或利润;但这些信息对于商务数据分析等应用却很重要。针对该问题,提出了高效用项集的挖掘,并且也成为近来一个新的研究方向[1-9],其研究的焦点主要是提高算法的时间和空间效率。目前,高效用项集的挖掘算法主要采用两阶段方法[1-5,7,10,11]和项集枚举[8,9]办法。本文主要对基于两阶段方法的算法进行了研究;两阶段
计算机工程与设计 2013年12期2013-11-30
- 一种从高维向低维扫描的Apriori改进算法
数据库,找出频繁项集,然后通过最小支持度和最小置信度进行剪枝,最终得到关联规则。该算法简单易懂且挖掘结果能很好地表示数据库中不同项集之间的关联关系,但该算法在性能上存在着一定的缺陷。本文提出了一种对Apriori算法的改进方法,并且证明了该算法可以有效提高传统的Apriori算法的运算效率。1 传统Apriori算法1.1 关联规则挖掘的相关概念和步骤设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得T包含于I。每一个事务有一个标识符,称
中国人民公安大学学报(自然科学版) 2012年4期2012-01-25
- 使用垂直数据格式挖掘频繁项集
s),也称为频繁项集(Frequent Itemsets,简称频繁集),然后再利用这些频繁集创建描述关联规则的过程。1 关联规则挖掘算法关联规则挖掘算法——Apriori算法是使用候选项集找频繁项集的过程。Apriori算法通过对数据库D的多趟扫描来发现所有的频繁项目集。在第一趟扫描数据库时,对项集I中的每一个数据项计算其支持度,确定出满足最小支持度的频繁1项集的集合L1,然后,L1用于找频繁2项集的集合L2,如此下去……在后续的第k次扫描中,首先以k-1
网络安全与数据管理 2011年18期2011-11-27
- 关联规则挖掘Apriori算法的研究与改进
据库中挖掘出频繁项集,本文依据Apriori算法的思路加以改进,将事务数据库转换成0-1矩阵,通过0-1矩阵可很快计算出各个候选集的支持度计数,省去了 Apriori算法中的连接步骤和删除步骤这样避免了传统Apriori算法频繁扫描数据库的操作,从而提高了算法的效率。1 关联规则Apriori算法Apriori算法是R.Agrawal和R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创性算法。Apriori使用一种称作逐层搜索的迭代方法,
网络安全技术与应用 2011年4期2011-10-17
- 基于数组的关联规则挖掘算法的研究
步:一是寻找频繁项集;二是利用频繁项集产生有价值的规则.第二步比较容易实现,当前大部分研究是针对第一步.所以,如何采用合适高效的算法找出全部的频繁项集是核心问题,是衡量关联规则挖掘算法的标准.传统的算法是经典的Apriori,之后还有其改进算法AprioriTid和AprioriHybrid.但这些算法存在以下两个缺点:1)多次扫描事务数据库,I/O时空开销大;2)可能产生庞大的候选项集,内存执行时间面临严峻挑战,整个数据库装入内存是不现实的[2].因此相
哈尔滨商业大学学报(自然科学版) 2011年5期2011-06-08
- 基于前缀的Apriori算法
事务数据库挖掘的项集格空间理论[2],并提出了著名的Apriori算法,后其成为基本的关联规则挖掘算法。其核心原理是频繁项集的子集是频繁项集,非频繁项集的超集是非频繁项集。关联规则挖掘算法的设计可以分解为两个子问题:(1)找到所有支持度大于最小支持度的项集(itemset),称之为频繁项集(frequent itemset);(2)由频繁项集和最小可信度产生规则。其中,提高整个过程效率的关键在于提高问题(1)的效率。针对问题(1),本文对Apriori算法
网络安全与数据管理 2011年4期2011-05-11
- 一种新的改进Apriori算法*
现大规模数据集中项集之间有趣的关联关系或模式。频繁项集的挖掘是关联规则挖掘的核心,如何高效地从海量数据库中找出频繁出现的项集是世界范围内的热门研究课题。1 相关概念[1]设 I={I1,I2,…,Im}是项的集合,称为项集,包含 k 个项的项集称为k项集。D是数据库事务的集合,数据库中的每个事务T是项的集合,T⊆I,TID是事务 T的标识符。设A是一个项集,事务T包含A,当且仅当A⊆T,一个包含k个项的事务T可以产生2k个非空的子项集。规则A⇒B的支持度s
网络安全与数据管理 2010年1期2010-05-18
- 一种改进的Apriori算法
1 关联规则简述项集I={i1,i2,…,im}是m个不同项目的集合,项目ik(k=1,2,…,m)称为数据项,m为数据项集的长度,长度为k的数据项集称为k-项集。一个事务T(Transaction)是数据项集中的一组项目的集合,即I的一个子集T⊆I。每个事务赋予一个唯一的标志符TID,所有事务的全体就构成一个事务数据库D。一个关联规则是形如X⇒Y的蕴涵式,其中各项满足X⊂I,Y⊂I且X∩Y=Φ。定义1: 规则X⇒Y在事务数据库D中的支持度(support
河南城建学院学报 2010年6期2010-02-08
- 分布式数据库的精简频繁模式集及其挖掘算法*
一,其中最大频繁项集和频繁闭项集的挖掘更是最近研究的一个热点问题.现有的最大频繁项集和频繁闭项集的挖掘算法大多局限于单机环境,从单机的事务数据库中直接挖掘,一般需要维护大量侯选项集并进行超集检测,具有较高的时间和空间复杂度[2-3].挖掘分布式数据库压缩的频繁模式集算法目前尚不多见,可用的分布式系统的关联规则挖掘算法主要有PDM[4],CD[5],FDM[6],FPM[7]和FMAG[8],它们的目标是求解出存在于本地的全局大频繁项集和全局频繁项集.这些算
浙江师范大学学报(自然科学版) 2010年2期2010-01-11