程军锋
(陇南师范高等专科学校物理与信息技术系,甘肃陇南 742500)
计算机网络的高速发展,使得Web数据呈快速的增长,如何在这些异构的海量Web数据中发现有价值的数据和知识,特别是当前随着新的数据对象不断出现,在大量Web数据中发现有用的知识,已经成为数据挖掘技术面临的一个新的挑战.
Web数据挖掘指从Web网页文本、图像、音频、视频、用户使用数据和活动日志等中挖掘出有用的、隐含的、感兴趣的知识和模式的过程,Web数据挖掘是一项综合的技术,涉及网页知识、数据挖掘、语言学、数理统计论等领域.Web数据挖掘的目标是从Web的链接结构、网页内容和使用日志中探寻有用的信息[1].在发现权威页面和潜在的用户,垃圾邮件的处理,针对性的营销活动等方面有着重要的应用价值.随着网络技术的发展,Web数据挖掘内容和技术也在不断的发展,又出现了Web空间数据挖掘等领域,文献[2]对Web空间数据挖掘的相关技术进行了研究.
对于Web数据挖掘,根据挖掘过程中的任务,可将Web数据挖掘划分为三种类型.
指从Web文本、图像、音频、视频等内容中发现有价值的信息和抽取知识的过程.Web内容挖掘分为文本数据挖掘(包括文本和网页文件格式)和多媒体数据挖掘(图像、声音等多媒体数据),涉及对文档的重构使得文档结构化,对文本和多媒体数据的挖掘,对挖掘结果的处理和优化.在文献检索系统,垃圾邮件的处理,信息过滤,电子资源检索中都有着一定的应用.
Web结构挖掘是对页面间相互的链接进行分析和处理,对网页进行分类,发现网站的结构,获取不同网页相似度和网站的关联度,从相互链接中发现权威页面和有价值的页面,对页面和网站进行评级、分类等.对Web结构挖掘已经有PageRank和HITS算法,是两种经典的挖掘算法.PageRank是超链接结构分析中最成功的代表之一,是评价网页权威性的一种重要工具,搜索引擎google就是利用PageRank算法和其他统计因素相结合的方法,对检索出来的大量结果进行相关度的排序,将最有可能相似和最权威的页面排到检索结果的最前面.文[3]对Web结构挖掘PageRank算法进行了研究,针对PageRank算法对外链接权值平均和不考虑链接的重要程度,结果存在主题漂移现象不足的情况,提出了一种改进的算法.由j.kleiberg提出的HITS算法中引入另一种称为Hub的网页,Hub网页是提供指向权威网页链接集合的网页,它本身可能并不重要,但是Hub网页却提供指向权威网页的某个主题而言最为重要的链接站点的集合,j.kleiberg认为,网页的重要性应该依赖于用户提出的检索主题,把每个网页将其Authority和Hub权值分开考虑,最后得到Authority和Hub值较大的页面.
Web使用挖掘就是通过对计算机机上的日志文件,如在服务器的Log文件和cookies文件等,涉及关联规则的挖掘,从中发现频繁模式.如购买计算机的用户过一段时间购买打印机的概率,或者买计算机同时买电脑包的概率等.通过挖掘用户的访问模式,发现日志记录中的规则,如在经常访问的路径,对网站的结构进行改进.通过聚类把不确定形式的用户和数据进行归类,发现潜在的客户和隐含群体,针对用户进行相关的营销等策略,提供针对性的活动,从而提高服务的质量.
包括数据的建模,数据的清洗和转化,通过把日志文件、无结构的文件和半结构化的Web文件转化成数据挖掘阶段使用的数据,在这过程中把无用的、噪声数据清除掉,填充缺失值,检测并去掉离群点数据,保留挖掘价值比较高,并对数据进行聚合和归约,使挖掘结果是更加精确的数据.文[4]就对Web日志挖掘中的数据预处理技术进行了研究,并提出了一些相关的处理方法.
利用计算机语言学、统计学知识,使用数据挖掘的分类、聚类、频繁集挖掘和预测等技术和手段,应用数据挖掘的各种算法,挖掘出有价值的信息和隐含的知识.
通过数据挖掘算法发现的模式并不一定是有趣的,必须对挖掘出来的结果进行分析和评价,发现用户感兴趣的模式和规则,扔弃一些不符合要求的模式,使得Web挖掘结果更加精确和符合用户的要求.
分类是根据现有训练集构造一个分类器来预测未知数据的类标号,在针对营销,网络欺诈,网络入侵等方面有着广泛的使用.如垃圾邮件的处理,可根据主题把邮件归到已有的类中.目前,已经出现许多分类算法,ID3、CS5、CART、BAYES、KNN等.其中KNN(K-最近邻)是一种消极学习的方法,通过找出与测试样本相对接近的所有样本,然后利用这些最近邻类标号来确定测试样本的类标号.文[5]针对支持向量机的Web文本算法分类效率低的问题,提出了一种基于支持向量机Web文本的快速增量分类FVI-SVM算法.算法通过计算支持向量的共享最近邻相似度,去除冗余支持向量,克服了在增量学习过程中不断加入相似文本特征向量而导致增量学习的训练时间消耗加大、分类效率下降的问题.文[6]对非结构化数据集的处理进行了相关的研究和优化,提出了蚁分类算法Ant_M iner3,提高了分类的效率.
聚类可用来对Web上的文档进行分类,它是一种无监督学习方法,是将物理或抽象对象的集合分成相似对象类的过程称为聚类[7]251-305.聚类要求同一簇中数据尽可能相似,簇间数据尽可能相异,聚类在Web使用挖掘中可根据用户和页面进行聚类.常见的聚类算法有k-means、二分k-means、BIRCH、CURE、POCK等算法.文[8]对Web文本聚类模型进行了研究,讨论Web文本聚类的分词、特征表示、特征选择和K-means算法等关键技术,实现了该文本聚类系统,证明有很好的聚类结果.文[9]中对Web用户聚类进行了研究,提出基于用户访问路径以及节点高度的相似性评价函数,建立相似矩阵,通过矩阵研究用户的关系.而[10]对基于短语特征的Web文档聚类方法进行了研究.
关联规则是通过分析事物间的相互联系,挖掘出数据间频繁出现的模式,找出相关联的数据,如发现权威页面,找到用户的购买兴趣和偏好等,在改变网页导航和购物营销中有着重要的应用价值[11].Apriori算法是通过计算最小支持度的一种发现频繁项集的方法,但需要频繁的扫描大量的候选项.Fp-grow th算法是使用一种模式频繁树结构组织数据,首先通过扫描数据项集构造树,并直接从该树结构中得到频繁项集,对于事务序列数据的挖掘.文[12]对日志挖掘中的用户序列模式进行了相关研究,并提出IAx算法.对于动态Web点击流中频繁访问序列,文[13]提出一种基于False-Negative方法和时间敏感滑动窗的算法FTS-Stream.文[14]在传统经典算法Apriori基础上,克服了对于候选项扫描过多的问题,根据利用弱关联规则的向上关闭特性设计了一个改进的高效算法.
预测是根据现有的知识,对事物或对象的未来趋势和数据做出预测,比如顾客的未来购买行为和意向等.K-最近邻分类器KNN是一种简单有效的协同过滤算法,既可以用做分类,也可以用做预测,通过计算机当前用户模型和过去用户模型的相关性,预测用户的未来行为,如购买意向、偏好和其他相似特性.而在进行预测时,模型之间的相关性通过Pearson相关系数计算.研究的不断深入,有理由相信数据挖掘技术在Web数据挖掘中有广阔的前景.
网络技术的高速发展使因特网一个分布式的巨大资源服务中心,Web上的数据量以指数级的形式在增长,数据类型也越来越丰富.巨大的信息资源空间在为数据挖掘提供宽广的应用空间的同时,也提出了一些挑战,特别是多媒体和流数据等新的数据形式的出现,传统的数据挖掘技术在处理这些Web数据时已经遇到一定的困难.但随着Web数据
[1]刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.
[2]刘正涛,王建东.Web数据空间技术研究[J].计算机工程与应用.2012(7):12-17.
[3]范聪贤,刘秋菊,徐汀荣.应用Web结构挖掘的PageRank算法的改进研究.计算机工程与应用,2010(9):127-129.
[4]赵伟,何丕廉,陈霞,等.Web日志挖掘中的数据预处理技术研究[J].计算机应用,2003(5):62-67.
[5]丁文军,薛安荣.基于SVM的Web文本快速增量分类算法[J].计算机应用研究,2012(4):1275-1279.
[6]吴林旭,姚跃华,黄晶.基于蚁群优化在Web数据挖掘分类模型的实现[J].计算机工程与科学,2009(3):89-91.
[7]范明,孟小峰.数据挖掘概念与技术:第二版[M].北京:机械工业出版社,2007.
[8]贾丙静,吴长勤,葛华.Web文本聚类的研究与实现[J].长春师范学院学报,2011(6):26-30.
[9]周宽久,王艳萍,李瑶.Web用户聚类算法[J].计算机工程与应用,2006(16):184-186.
[10]杨瑞龙.基于短语特征的Web文档聚类方法研究[D].重庆大学,2010.
[11]鄢沛,郭皎,应宏.Web可用性设计方法研究[J].重庆三峡学院学报,2010(3).
[12]李明星,衡萍,董沛武.Web日志挖掘中的用户序列模式识别[J].哈尔滨工业大学学报,2005(11):1570-1572.
[13]张啸剑,邵超,张亚东.动态Web点击流中频繁访问序列的挖掘[J].计算机工程,2009(14):58-62.
[14]陈晓红,秦杨.基于Web数据挖掘的高效关联规则研究[J].计算机工程与科学,2005(11):48-51.