基于数据挖掘的自动化推荐系统改进ART算法探究

2019-09-10 07:22:44彭文惠
现代信息科技 2019年8期
关键词:数据挖掘

摘  要:随着网络的深度普及,人们对于互联网的使用越来越频繁,随之而来的是庞大且分散的各式各样的数据。面对海量的数据,用户在查询时往往難以高效地获取到对自己有价值的信息。为了向用户提供更精准的信息,提高用户获取有效信息的效率,自动化推荐系统适时而生。不管是通信领域还是其他领域,繁杂的数据都需要一种优异的处理算法或者机制来进行处理,本文通过把自适应共振理论(ART)和数据挖掘技术两者结合,形成一个自动化在线推荐系统,并对用于用户聚类的ART算法进行改进,提升了通信领域中推荐系统推荐的合理性与有效性。

关键词:数据挖掘;自动化推荐系统;ART算法;通信领域

中图分类号:TP311.13;TP391.3      文献标识码:A 文章编号:2096-4706(2019)08-0044-03

Abstract:With the popularization of the internet,people become more and more dependent on the use of the internet. Faced with massive data,it is often difficult for users to efficiently obtain valuable information for themselves when querying. In order to provide users with more accurate information and improve the efficiency of users to obtain effective information,the automatic recommendation system is timely born. Both communication and other areas,complex data needs to be an excellent processing algorithms or mechanism to deal with,in this paper,the adaptive resonance theory(ART) and a combination of data mining technology,forming an automated online recommendation system,and for users to improve the ART of clustering algorithm,improved communication in the field of recommendation system recommended by the rationality and validity.

Keywords:data mining;automated recommendation system;ART algorithm;communication field

0  引  言

互联网的发展带动了许多领域的进步,包括通信领域也发生了天翻地覆的变化。人们的生活已经越来越依赖于互联网,网络中的信息量增长迅速,信息种类也越来越多。用户想要从互联网上获取需要的资料,就会花费很多的时间。为了解决这一问题,相关的信息推荐系统便被研发设计出来。在通信领域,数据就是根本,通信行业数据的流量和维度远远高出了其他行业,做好对数据的收集整理、分析工作,有助于企业掌握客户的质量,直接决定了企业与客户之间的黏性,这在企业的发展中也是核心的影响因素。利用数据挖掘技术,可以帮助通信行业增强信息的提取能力,让其能够及时对数据进行分析然后做出判断,为营销策略提供科学的依据。

1  数据挖掘技术在通信领域的应用分析以及相关算法设计

数据挖掘技术,顾名思义是指通过采取一定的行为方法,对指定范围的信息数据等进行提取,从而实现进一步的分类整理和分析汇总,为数据应用、存储共享和科学预测等提供基础支持的一种技术。如果将数据挖掘技术运用到商业领域,其可以搜寻有价值以及有潜力的商业信息,然后通过相应的方法进行分析处理,最后整理出来,从而将相关的数据信息转变成相关的策略,运用到商业的操作中去。可以看出,数据挖掘技术能够显著提高企业的信息化水平。通信企业一旦信息资源不足,对业务的开展就会失去具体的方向,也不利于通信行业的发展。

通过将分类、回归和时间序列三种分析方法结合在一起,可以强化数据挖掘技术相关功能的实现。该技术经过了长期的发展,加上互联网技术的发展,促使数据挖掘技术也得以应用到实际的工作上[1]。对于通信领域而言,对不同客户销售数据利用数据挖掘技术进行分析,就可以很好地预测客户的行为,从而做出相应的措施。

在当今社会中,许多领域的数据信息都呈现出暴涨的态势,也就是所说的信息爆炸和数据爆炸。数据信息越来越多,可是对信息数据的使用率却没有很快的提升上去,在数据的海洋里无法搜寻到有效、有价值的数据。而聚类相似性度量与量纲分析的网络通信数据挖掘的出现,让这些数据都能够变废为宝,逐渐成为一项越来越重要的技术。目前,很多企业都越来越重视基于互联网的通信数据挖掘算法的设计,通过这一技术的应用,让工作更加的准确和有效率。通过下面对表1和图1的分析,对数据挖掘技术中的聚类算法进行分析。

由表1的信息可以看出,不同组别的数据集因为簇的个数的不同,而得到了不同的结果。在A1数据集中,簇的个数较少,其函数运算的时间以及簇合并的时间都比较短;在A2数据组里面,簇的个数相应增加,函数计算和簇合并时间也相应地增加;在A3数据集中,和A2数据集的情况差不多;同样地再看A4数据集,情况和其他三种都不相同,当簇的个数变成了27,与A3相比个数减少时,它的函数运算的时间和簇合并时间却增加了不少。

根据图1的数据信息图我们可以得知,在实际的运用中,有些企业也通过聚类算法取得了一些效果,但事实上结果都不是很乐观,有的企业在算法完成分析工作后就认为达到了目的,从而对相关的分析工作就松懈了下来,导致得到的效果不理想。

综上所述,该算法能够对数据进行有针对性的相似性度量和量纲分析,充分发挥数据挖掘的重要作用。我们在总结了这一类算法后,也相应地对其他聚类算法进行了研究,其中ART聚类算法就是重点研究之一。

2  关于相关自动化推荐系统以及ART算法的研究分析

2.1  目前自动化推荐系统的主要技术

目前在互联网上的自动化推荐系统其主要推荐技术可以分为非个性化的推荐技术、基于属性的推荐技术、物品关联推荐技术以及人物关联式推荐技术。[1]对于这些推荐技术来说,其主要推荐方式分为基于内容的过滤方式和合作过滤方式。每一种方式都有着自身独特的功能。以内容为基础的过滤方式具有简单、有效的优点,能够利用用户兴趣和信息的相似性来过滤信息,但是其存在着过滤关键字库容易过时,不能够及时挖掘出有用的、最新的信息的问题;合作过滤方式可以弥补上一种方式的短板,让用户之间的信息互联,仅仅依靠其中一个用户的数据就可以推荐新的信息给其他用户。但是,在实际运行的过程中,还是存在着一些难以处理的问题。

2.2  基于ART算法的推荐机制总体框架

运用ART神经网络技术,能够预处理用户的个人信息,提取出用户的个性化属性信息并加以分析,根据分析结果再对用户进行相应的分类,从而为用户提供个性化的推荐信息[2]。该自动推荐机制的处理流程包括预处理阶段和在线阶段。图2列出了在线自动化推荐机制的框架图。

在线自动化推荐机制运用了相关技术预处理用户的个人信息资料,当有用户在线发起相应的服务请求时,系统会识别用户的类型信息,从而进行分析并挖掘出用户的兴趣度信息,展现给用户个性化的推荐信息。预处理阶段的主要任务是对用户的属性以及历史交易数据等信息进行分析,在提取数据的操作过程中,可能会发生一些问题,比如出现格式不相容的问题,需要及时处理。预处理的同时推荐信息被存储进知识库,便于系统重复利用。

2.3  关于ART算法的现状分析

对于ART算法来说,其目前的情况是,虽然被广泛用来进行用户聚类,但其本身也存在着一些不足,主要表现在以下两个方面。

(1)属性向量“同或”状态。ART算法进行相似度比较,涉及到最大匹配度节点j*的外权向量Wj*和输入向量x,比较两者和“1”的数量关系,其表達如式(1):

此公式中没有考虑外权向量中“0”的作用,但在实际运用中,0和1两种状态在判断中都是有用的信息,该方法因此不能有效的做出反应[3]。

(2)ART算法中输入属性相对应的权重问题。输入属性是多个属性的集合,每个因子都会对聚类的结果产生不同的影响,为了处理在聚类过程中属性重要性的问题,ART算法仍然需要通过改进才能得到合理的结果。

3  在自动化推荐系统中应用ART网络进行聚类的设计以及改进该算法的研究

自适应共振理论(ART)来源于人工神经网络,人工神经网络(ANN)是一种应用较好的集群技术,其理论基础来源于生物学,是一种模仿生物神经网络的信息处理系统[4]。对于自适应共振理论(ART),其是一位美国学者在1987年提出的一种神经网络模型。通过整合ART以及数据挖掘技术,可以帮助用户在浩大的信息流中找到真正需要的、有用的关键信息。

3.1  在数据挖掘中关于ART算法的聚类设计

ART算法网络的结构包括输入层、输出层和网络连接层。在应用ART算法处理时,第一步要设置好用户属性和其对应的输入向量,其初始向量的范围在(0,1)间;第二步设定其开始时只有一个初始输出点;第三步利用权重矩阵表示出输入向量和第j个输出集的匹配度,然后找到相对应的输出集,计算出两者之间的相似度。

3.2  目前ART聚类算法存在的不足

对于ART聚类算法,目前的情况是虽然被广泛用来进行用户聚类,但其本身也存在着一些不足,主要表现在以下两个方面:对于属性向量“同或”状态的问题,对于典型的相似度比较的问题,没有能够全面的考虑,因此需要进行相关的改进优化。通过整合ART和数据挖掘技术,针对自动化推荐系统的特性进行相应的改进,这时MART算法便应运而出。

3.3  将ART算法改进为MART算法

根据ART算法的相关分析,发现其存在着明显的不足,我们将相似值计算公式修改如式(2)所示:

在改进后的MART算法中,M[i]为输入属性的权重,即第i个节点重要性。ART算法改进后得到的MART算法能够公平比较两个向量,其算法的执行步骤和ART算法类似,根据用户的个人属性,通过相应的算法对用户进行分组,进而达到数据挖掘的目的。

通过相关的实验我们可以得到两种算法经过计算分析后的结果,然后进行相关的分析我们可以发现以MART算法来进行聚类,判断出用户属性的重要性,从而自动化推荐系统可以设置每一个属性节点的权重。把以这样的方式计算出的结果与传统的ART算法得到的结果进行比较,输出的结果更加合理和灵活。

4  结  论

互联网的快速发展使得网络的信息量迅速增长,如何在浩大的数据海洋里搜寻到有价值、有效的数据信息,是各个注重信息价值领域的企业所应该关注的问题。对于数据挖掘技术而言,其主要的价值就是在海量的数据资源里进行分析比较,然后发现有价值的数据信息,再通过一定的自动化推荐系统,把这些有用的数据呈现到用户的面前,从而为用户制定相关的发展策略提供有用的参考。在通信领域采用优质的自动化推荐系统对企业的发展具有至关重要的作用。

参考文献:

[1] 陈庆章,汤仲喆,王凯,等.采用数据挖掘的自动化推荐技术的研究 [J].中文信息学报,2012,26(4):115-121.

[2] 张军.试分析数据挖掘在通信行业营销中的应用 [J].信息通信,2018(7):254-255.

[3] 刘鑫.聚类相似性度量与量纲分析的网络通信数据挖掘算法研究 [J].计算机产品与流通,2018(3):48-49.

[4] 朱文忠.基于数据挖掘的自动化推荐系统算法 [J].四川理工学院学报(自然科学版),2012,25(2):55-59.

作者简介:彭文惠(1981-),女,汉族,湖南宁乡人,讲师、高级工程师,硕士,主要研究方向:大数据、数据库、Web开发。

猜你喜欢
数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
数据挖掘技术在中医诊疗数据分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
河南科技(2014年23期)2014-02-27 14:18:43
数据挖掘技术综述与应用
河南科技(2014年19期)2014-02-27 14:15:26
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议