张小军+金志伟+张浩
摘 要:在当前信息化的时代背景下,数据和信息成为决定企业市场竞争力的关键措施,企业要想获得良好的发展,必须从海量的数据中迅速找出有用信息,为自身的运营和生产决策提供科学合理的服务。针对这种需求,数据挖掘学科应运而生,并且迅速发展,形成了一套较为完整的理论体系。而在计算机网络技术不断发展的推动下,数据挖掘算法有了新的变化,需要相关科研人员的重视。文章结合现代云环境下,数据挖掘算法的并行化措施进行了分析和探讨,以提高数据挖掘工作的效率和质量。
关键词:现代云环境;数据挖掘算法;并行化
1 数据挖掘算法概述
数据挖掘,又称知识发现,是计算机科学与统计学的一个交叉点,主要是指从不同的角度,对数据进行分析和整理,从海量的数据中总结出有用信息。换言之,就是从大量繁杂模糊的数据中,提取出有效信息的过程。从某种程度上讲,数据挖掘属于一种企业数据处理技术,通过对企业在商业活动中产生的业务数据进行抽取、转换以及分析和模型化处理,提取出关键性的数据信息,为企业经营管理决策的制定提供科学的参考依据。
从目前的发展情况看,数据挖掘的内容可以分为以下几个方面:
1.1 分类分析
分类分析,是指对数据信息进行分类处理,为数据信息的区分和处理提供便利,从而实现对未知数据类型的预测。分类的主要概念在于训练集,可以结合特定的数据模型,对数据进行分类。当前应用最为广泛的数据分类模型是朴素贝叶斯模型和决策树模型。
1.2 关联分析
在关联分析中,主要是利用数据之间的相互关联,结合已知数据对未知数据或者模糊数据进行推导和预测。在关联分析中,应用最多的是Apriori算法,在对关联规则进行研究时,通常也是在该算法的基础上进行修改和扩展。但是,Apriori算法在对支持度进行计算时,需要对数据库进行多次全面扫描,生成的候选集存在较多的冗杂项,因此存在一定的性能瓶颈,需要进行改进和解决。
1.3 聚类分析
聚类分析是一种具有良好实用性的数据挖掘技术,可以对无规律的数据进行有效分析,并从数据中找出有用的信息,在市场分析、信息检索、卫生医疗等领域得到了广泛的应用。聚类分析,实际上是通过观察以及非示例性的学习,完成对于数据对象的分类,以K-means算法为常用算法,但是该算法同样存在一定的性能瓶颈,K值的准确性受使用者自身知识水平的英系那个,可能造成算法性能的不稳定或者聚类结果的偏差,因此在利用时需要格外注意。
2 云环境下数据挖掘算法的并行化
在当前的大数据时代,面对海量的数据处理问题,绝大部分传统数据挖掘算法其实都存在一定的性能瓶颈,很难准确高效地完成大数据环境下的数据挖掘工作。因此,在这样的情况下,提出了将云计算技术与数据挖掘技术相互结合的方法,可以有效解决这些问题,针对算法的性能瓶颈进行改进,使其更好的适应当前的云环境,具有一定的现实意义。
云计算是随着计算机网络技术的发展而产生和发展起来的,是一种基于互联网的计算方式,能够结合用户的实际需求,对于服务器、存储、软件、服务和网络等资源进行动态分配,通过合理有效的设计和调整,使得资源的利用率达到最高。在云计算背景下,可以提供高效的并行化计算能力,从而提高数据挖掘的高效性和实用性,方便对于海量数据的处理。
这里主要针对MC-Apriori算法的并行化改进进行分析和探讨。
2.1 并行关联规则挖掘算法
在不断的发展过程中,相关研究人员提出了多种关联规则算法,但是从本质上来说,都是在Apriori算法的基础上,进行改进和创新,这些算法主要是针对原有算法中存在的问题的改进,属于一种串行算法。这些改进后的算法虽然能够提升算法的性能,但是在当前大数据背景下,单机算法对于大数据的处理很有些力不从心,因此需要采用并行计算,对数据挖掘算法进行改进。描述如下:
设计算机集群中n台计算机节点N1,N2…,Nn,相互之间只有网络通信,则每个节点存放子事务数据库Dk(1≤k≤n),包含TCk条业务,则总交替数据库为
总事务条数为
关联规则的并行化,主要可以分为两种形式,即基于内存共享和基于存储共享。关联规则的挖掘模型如下:
基于并行计算理论,对现有的关联规则算法进行改进,可以实行多种新的算法,这些算法的并行点多在候选集和频繁集计算。主要包括以下几种:
(1)CD算法:这种算法是对Apriori算法的简单并行,主要是将事务数据库分到n个节点,然后在单个节点,运行Apriori算法,每一个节点的候选集支持度计算,最后,进行全局同步以及共享计数。这种算法具有较高的并行性,但是数据的输出和输出成本高,没有对内存进行有效利用。
(2)DD算法:DD算法是通过循环的方式,将候选集分配到多个节点,之后在单个节点上对候选集的支持度进行计算,需要使用其他节点的数据集时,可以通过网络进行数据传输。因此,不需要全局同步候选集计数,但是,在实用性方面存在一定的不足,不仅网络需求高,而且事物处理存在一定的冗余。
2.2 并行MC-Apriori算法
关联规则并行化算法的核心,是将数据集划分为多个数据块,然后扫描数据块,挖掘其中存在的关联规则。MC-Apriori算法可以实现并行化运算,主要是在单机的情况下,结合计算项的个数,对1-频繁集进行计算,生成相应的k-1-候选集,并通过对候选集的修剪,得到k频繁集。在对候选集的支持度进行计算的过程中,可以并行化处理,在多个节点对本地候选集的本地支持度进行计数,之后合并成为全局候选集的支持度技术,并由此得出频繁集。在并行关联规则挖掘算法中,数据划分的方式不同,则算法的挖掘效率也存在很大的差异。有效的数据划分,最好是让一个频繁项集对应的事务处于最少的数据块上,在MC-Apriori算法中,由于需要将事务数据转化为矩阵,因此一个事务数据最好可以保存在单个数据块中。
3 结束语
总而言之,在当前的大数据背景下,传统数据挖掘算法无法满足海量数据的挖掘和处理要求,因此需要对其进行改进。本文针对现代云环境下的数据挖掘算法的并行化进行了分析和探讨,希望能够为相关数据挖掘算法的研究提供一定的参考。
参考文献
[1]胡善杰.在云环境下的数据挖掘算法的并行化研究[D].电子科技大学,2013.
[2]丁岩.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,(1):77-80.
作者简介:张小军(1980,1-),男,籍贯:河南,研究方向(从事的什么研究)云计算,数据挖掘,通信技术,职称:讲师。endprint
摘 要:在当前信息化的时代背景下,数据和信息成为决定企业市场竞争力的关键措施,企业要想获得良好的发展,必须从海量的数据中迅速找出有用信息,为自身的运营和生产决策提供科学合理的服务。针对这种需求,数据挖掘学科应运而生,并且迅速发展,形成了一套较为完整的理论体系。而在计算机网络技术不断发展的推动下,数据挖掘算法有了新的变化,需要相关科研人员的重视。文章结合现代云环境下,数据挖掘算法的并行化措施进行了分析和探讨,以提高数据挖掘工作的效率和质量。
关键词:现代云环境;数据挖掘算法;并行化
1 数据挖掘算法概述
数据挖掘,又称知识发现,是计算机科学与统计学的一个交叉点,主要是指从不同的角度,对数据进行分析和整理,从海量的数据中总结出有用信息。换言之,就是从大量繁杂模糊的数据中,提取出有效信息的过程。从某种程度上讲,数据挖掘属于一种企业数据处理技术,通过对企业在商业活动中产生的业务数据进行抽取、转换以及分析和模型化处理,提取出关键性的数据信息,为企业经营管理决策的制定提供科学的参考依据。
从目前的发展情况看,数据挖掘的内容可以分为以下几个方面:
1.1 分类分析
分类分析,是指对数据信息进行分类处理,为数据信息的区分和处理提供便利,从而实现对未知数据类型的预测。分类的主要概念在于训练集,可以结合特定的数据模型,对数据进行分类。当前应用最为广泛的数据分类模型是朴素贝叶斯模型和决策树模型。
1.2 关联分析
在关联分析中,主要是利用数据之间的相互关联,结合已知数据对未知数据或者模糊数据进行推导和预测。在关联分析中,应用最多的是Apriori算法,在对关联规则进行研究时,通常也是在该算法的基础上进行修改和扩展。但是,Apriori算法在对支持度进行计算时,需要对数据库进行多次全面扫描,生成的候选集存在较多的冗杂项,因此存在一定的性能瓶颈,需要进行改进和解决。
1.3 聚类分析
聚类分析是一种具有良好实用性的数据挖掘技术,可以对无规律的数据进行有效分析,并从数据中找出有用的信息,在市场分析、信息检索、卫生医疗等领域得到了广泛的应用。聚类分析,实际上是通过观察以及非示例性的学习,完成对于数据对象的分类,以K-means算法为常用算法,但是该算法同样存在一定的性能瓶颈,K值的准确性受使用者自身知识水平的英系那个,可能造成算法性能的不稳定或者聚类结果的偏差,因此在利用时需要格外注意。
2 云环境下数据挖掘算法的并行化
在当前的大数据时代,面对海量的数据处理问题,绝大部分传统数据挖掘算法其实都存在一定的性能瓶颈,很难准确高效地完成大数据环境下的数据挖掘工作。因此,在这样的情况下,提出了将云计算技术与数据挖掘技术相互结合的方法,可以有效解决这些问题,针对算法的性能瓶颈进行改进,使其更好的适应当前的云环境,具有一定的现实意义。
云计算是随着计算机网络技术的发展而产生和发展起来的,是一种基于互联网的计算方式,能够结合用户的实际需求,对于服务器、存储、软件、服务和网络等资源进行动态分配,通过合理有效的设计和调整,使得资源的利用率达到最高。在云计算背景下,可以提供高效的并行化计算能力,从而提高数据挖掘的高效性和实用性,方便对于海量数据的处理。
这里主要针对MC-Apriori算法的并行化改进进行分析和探讨。
2.1 并行关联规则挖掘算法
在不断的发展过程中,相关研究人员提出了多种关联规则算法,但是从本质上来说,都是在Apriori算法的基础上,进行改进和创新,这些算法主要是针对原有算法中存在的问题的改进,属于一种串行算法。这些改进后的算法虽然能够提升算法的性能,但是在当前大数据背景下,单机算法对于大数据的处理很有些力不从心,因此需要采用并行计算,对数据挖掘算法进行改进。描述如下:
设计算机集群中n台计算机节点N1,N2…,Nn,相互之间只有网络通信,则每个节点存放子事务数据库Dk(1≤k≤n),包含TCk条业务,则总交替数据库为
总事务条数为
关联规则的并行化,主要可以分为两种形式,即基于内存共享和基于存储共享。关联规则的挖掘模型如下:
基于并行计算理论,对现有的关联规则算法进行改进,可以实行多种新的算法,这些算法的并行点多在候选集和频繁集计算。主要包括以下几种:
(1)CD算法:这种算法是对Apriori算法的简单并行,主要是将事务数据库分到n个节点,然后在单个节点,运行Apriori算法,每一个节点的候选集支持度计算,最后,进行全局同步以及共享计数。这种算法具有较高的并行性,但是数据的输出和输出成本高,没有对内存进行有效利用。
(2)DD算法:DD算法是通过循环的方式,将候选集分配到多个节点,之后在单个节点上对候选集的支持度进行计算,需要使用其他节点的数据集时,可以通过网络进行数据传输。因此,不需要全局同步候选集计数,但是,在实用性方面存在一定的不足,不仅网络需求高,而且事物处理存在一定的冗余。
2.2 并行MC-Apriori算法
关联规则并行化算法的核心,是将数据集划分为多个数据块,然后扫描数据块,挖掘其中存在的关联规则。MC-Apriori算法可以实现并行化运算,主要是在单机的情况下,结合计算项的个数,对1-频繁集进行计算,生成相应的k-1-候选集,并通过对候选集的修剪,得到k频繁集。在对候选集的支持度进行计算的过程中,可以并行化处理,在多个节点对本地候选集的本地支持度进行计数,之后合并成为全局候选集的支持度技术,并由此得出频繁集。在并行关联规则挖掘算法中,数据划分的方式不同,则算法的挖掘效率也存在很大的差异。有效的数据划分,最好是让一个频繁项集对应的事务处于最少的数据块上,在MC-Apriori算法中,由于需要将事务数据转化为矩阵,因此一个事务数据最好可以保存在单个数据块中。
3 结束语
总而言之,在当前的大数据背景下,传统数据挖掘算法无法满足海量数据的挖掘和处理要求,因此需要对其进行改进。本文针对现代云环境下的数据挖掘算法的并行化进行了分析和探讨,希望能够为相关数据挖掘算法的研究提供一定的参考。
参考文献
[1]胡善杰.在云环境下的数据挖掘算法的并行化研究[D].电子科技大学,2013.
[2]丁岩.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,(1):77-80.
作者简介:张小军(1980,1-),男,籍贯:河南,研究方向(从事的什么研究)云计算,数据挖掘,通信技术,职称:讲师。endprint
摘 要:在当前信息化的时代背景下,数据和信息成为决定企业市场竞争力的关键措施,企业要想获得良好的发展,必须从海量的数据中迅速找出有用信息,为自身的运营和生产决策提供科学合理的服务。针对这种需求,数据挖掘学科应运而生,并且迅速发展,形成了一套较为完整的理论体系。而在计算机网络技术不断发展的推动下,数据挖掘算法有了新的变化,需要相关科研人员的重视。文章结合现代云环境下,数据挖掘算法的并行化措施进行了分析和探讨,以提高数据挖掘工作的效率和质量。
关键词:现代云环境;数据挖掘算法;并行化
1 数据挖掘算法概述
数据挖掘,又称知识发现,是计算机科学与统计学的一个交叉点,主要是指从不同的角度,对数据进行分析和整理,从海量的数据中总结出有用信息。换言之,就是从大量繁杂模糊的数据中,提取出有效信息的过程。从某种程度上讲,数据挖掘属于一种企业数据处理技术,通过对企业在商业活动中产生的业务数据进行抽取、转换以及分析和模型化处理,提取出关键性的数据信息,为企业经营管理决策的制定提供科学的参考依据。
从目前的发展情况看,数据挖掘的内容可以分为以下几个方面:
1.1 分类分析
分类分析,是指对数据信息进行分类处理,为数据信息的区分和处理提供便利,从而实现对未知数据类型的预测。分类的主要概念在于训练集,可以结合特定的数据模型,对数据进行分类。当前应用最为广泛的数据分类模型是朴素贝叶斯模型和决策树模型。
1.2 关联分析
在关联分析中,主要是利用数据之间的相互关联,结合已知数据对未知数据或者模糊数据进行推导和预测。在关联分析中,应用最多的是Apriori算法,在对关联规则进行研究时,通常也是在该算法的基础上进行修改和扩展。但是,Apriori算法在对支持度进行计算时,需要对数据库进行多次全面扫描,生成的候选集存在较多的冗杂项,因此存在一定的性能瓶颈,需要进行改进和解决。
1.3 聚类分析
聚类分析是一种具有良好实用性的数据挖掘技术,可以对无规律的数据进行有效分析,并从数据中找出有用的信息,在市场分析、信息检索、卫生医疗等领域得到了广泛的应用。聚类分析,实际上是通过观察以及非示例性的学习,完成对于数据对象的分类,以K-means算法为常用算法,但是该算法同样存在一定的性能瓶颈,K值的准确性受使用者自身知识水平的英系那个,可能造成算法性能的不稳定或者聚类结果的偏差,因此在利用时需要格外注意。
2 云环境下数据挖掘算法的并行化
在当前的大数据时代,面对海量的数据处理问题,绝大部分传统数据挖掘算法其实都存在一定的性能瓶颈,很难准确高效地完成大数据环境下的数据挖掘工作。因此,在这样的情况下,提出了将云计算技术与数据挖掘技术相互结合的方法,可以有效解决这些问题,针对算法的性能瓶颈进行改进,使其更好的适应当前的云环境,具有一定的现实意义。
云计算是随着计算机网络技术的发展而产生和发展起来的,是一种基于互联网的计算方式,能够结合用户的实际需求,对于服务器、存储、软件、服务和网络等资源进行动态分配,通过合理有效的设计和调整,使得资源的利用率达到最高。在云计算背景下,可以提供高效的并行化计算能力,从而提高数据挖掘的高效性和实用性,方便对于海量数据的处理。
这里主要针对MC-Apriori算法的并行化改进进行分析和探讨。
2.1 并行关联规则挖掘算法
在不断的发展过程中,相关研究人员提出了多种关联规则算法,但是从本质上来说,都是在Apriori算法的基础上,进行改进和创新,这些算法主要是针对原有算法中存在的问题的改进,属于一种串行算法。这些改进后的算法虽然能够提升算法的性能,但是在当前大数据背景下,单机算法对于大数据的处理很有些力不从心,因此需要采用并行计算,对数据挖掘算法进行改进。描述如下:
设计算机集群中n台计算机节点N1,N2…,Nn,相互之间只有网络通信,则每个节点存放子事务数据库Dk(1≤k≤n),包含TCk条业务,则总交替数据库为
总事务条数为
关联规则的并行化,主要可以分为两种形式,即基于内存共享和基于存储共享。关联规则的挖掘模型如下:
基于并行计算理论,对现有的关联规则算法进行改进,可以实行多种新的算法,这些算法的并行点多在候选集和频繁集计算。主要包括以下几种:
(1)CD算法:这种算法是对Apriori算法的简单并行,主要是将事务数据库分到n个节点,然后在单个节点,运行Apriori算法,每一个节点的候选集支持度计算,最后,进行全局同步以及共享计数。这种算法具有较高的并行性,但是数据的输出和输出成本高,没有对内存进行有效利用。
(2)DD算法:DD算法是通过循环的方式,将候选集分配到多个节点,之后在单个节点上对候选集的支持度进行计算,需要使用其他节点的数据集时,可以通过网络进行数据传输。因此,不需要全局同步候选集计数,但是,在实用性方面存在一定的不足,不仅网络需求高,而且事物处理存在一定的冗余。
2.2 并行MC-Apriori算法
关联规则并行化算法的核心,是将数据集划分为多个数据块,然后扫描数据块,挖掘其中存在的关联规则。MC-Apriori算法可以实现并行化运算,主要是在单机的情况下,结合计算项的个数,对1-频繁集进行计算,生成相应的k-1-候选集,并通过对候选集的修剪,得到k频繁集。在对候选集的支持度进行计算的过程中,可以并行化处理,在多个节点对本地候选集的本地支持度进行计数,之后合并成为全局候选集的支持度技术,并由此得出频繁集。在并行关联规则挖掘算法中,数据划分的方式不同,则算法的挖掘效率也存在很大的差异。有效的数据划分,最好是让一个频繁项集对应的事务处于最少的数据块上,在MC-Apriori算法中,由于需要将事务数据转化为矩阵,因此一个事务数据最好可以保存在单个数据块中。
3 结束语
总而言之,在当前的大数据背景下,传统数据挖掘算法无法满足海量数据的挖掘和处理要求,因此需要对其进行改进。本文针对现代云环境下的数据挖掘算法的并行化进行了分析和探讨,希望能够为相关数据挖掘算法的研究提供一定的参考。
参考文献
[1]胡善杰.在云环境下的数据挖掘算法的并行化研究[D].电子科技大学,2013.
[2]丁岩.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,(1):77-80.
作者简介:张小军(1980,1-),男,籍贯:河南,研究方向(从事的什么研究)云计算,数据挖掘,通信技术,职称:讲师。endprint