杨冰
摘 要 Web信息聚类分析是这些年来新兴的方向,尽管是新的概念,但是使用传统的聚类算法就可以取得很好的效果。文章对web信息聚类分析与算法进行了探讨,研究认为,web信息聚类首先要经过预处理,将复杂多样的web信息转化为简洁统一的形式,便于算法处理。在算法的选择上使用经典的K-means或凝聚层次聚类能够达到很高的精度,若能将算法进一步优化,其聚类结果会更加准确。
关键词 数据挖掘;聚类分析;web信息;大数据
中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)06-0053-01
伴随着信息技术水平的高速发展,因特网蕴含的信息量越来越大,互联网已经成为信息传播的主流平台。与此同时,由数据量过大引起的问题开始凸现出来,人们淹没在数以亿计的web页面中而难以快速制定合适的决策。即使是通过搜索引擎有的放矢的搜索,得到的往往也是无序的结果,难以令人满意。如何在海量的web数据中产生层次结构,让信息分门别类地展示在用户面前,从而令用户提取自己需要的信息成为一个亟待解决的热门问题。
1 数据挖掘技术与聚类分析概述
1)数据挖掘概述。简而言之,数据挖掘是用于将海量的原始数据转化为简洁直观的信息的一种技术。它结合了传统数据分析方法和大数据处理算法的优点,可以进行聚类分析、分类预测、关联规则分析等工作。一般步骤包括预处理、数据挖掘、后处理。能够用于处理各种高维和海量的数据。高维海量正是web信息所具有的两个特点,故而数据挖掘技术对于web信息处理具有良好效果。
2)聚类分析概述。聚类分析是数据挖掘中的方法之一,它可以将数据自动划分为有联系的组或者簇,而且使得同一组中对象间的相似度最大化,不同组中对象间的相似度极小化,换言之,一个簇就是由彼此相似的一组对象所构成的集合,不同簇中的对象通常不相似或相似度很低。
聚类又可被称作非监督分类 ,它与监督分类的区别在于监督分类的类标号已知,通过已知类标号的训练集建立模型并预测新数据对象的类标号,而聚类则不需要事先知道训练集的类标号,在聚类过程中会自动导出类标号。
2 聚类分析算法
常用的聚类算法包括基于原型的、划分的K-means算法、基于图和原型的凝聚层次聚类算法、基于密度的DBSCAN算法。
1)K-means。K-means聚类算法以距离值的平均值对聚类成员进行分配。如果一个对象属于一个类,则该数据一定比较靠近类的中心,距离可以通过使用欧几里得距离进行度量。算法的基本步骤是:首先选取K个初始质心,K由用户自行指定,代表的是最终得到的簇的个数。每个点根据距离大小分配到离自己最近的质心所在的簇中。然后根据每个簇内点的分布情况重新计算质心,指派每个簇新的质心。重复上述两个步骤直到质心不再改变为止。
K-means聚类算法原理简单,对于很多数据类型都具有良好效果。但是它无法处理非球形簇和密度不均匀的簇
2)凝聚层次聚类。凝聚的层次聚类采取的是自底向上的方法,首先将每个对象单独作为一个簇,然后每一步都按照某种标准合并最近的两个簇,直到所有的对象都在一个簇中,或者达到某个终结条件。比起K-means算法,层次聚类算法最大的优势就是不需要事先指定簇的个数,簇的个数是根据对象的分布情况动态生成的,这样使得簇的个数更加灵活,最终的结果也具有说服力。
层次聚类尽管更加灵活,但是时间复杂度和空间复杂度都很高,故而不太适合处理数据量太大的数据集。
3)DBSCAN。DBSCAN是一种有效的基于密度的聚类算法,假定聚类对象是点,根据点集密度的大小,我们可以将点分为三类:稠密区域内的点是核心点;稠密区域边上的点是边界点;稀疏区域内的点是噪声点。在这三种点的定义的基础上我们可以对算法作如下描述:任意两个核心点的距离若在给定的范围之内,则二者属于同一个簇;任意与核心点距离足够近的边界点和该核心点属于同一个簇;噪声点不属于任何簇,在聚类过程中被丢弃。
DBSCAN比K-means的抗噪能力强,它可以处理任意形状和大小的簇(包括K-means不能处理的球形簇)。但是对于密度不均匀的簇DBSCAN效果也不能令人满意。
3 Web信息聚类过程
1)数据预处理。互联网上的web页面格式各种各样,无法直接用于聚类,首先必须对它们进行预处理,构建特征向量。预处理的过程一般包括分词、特征降维、相似度计算等。分词是为了构建特征集,但是容易导致维度过高,影响聚类效果。此时需要进行特征降维,选取原始特征集的子集进行聚类,这样不仅能够提高算法运行速度,还可以提高聚类精度。经过预处理之后,web页面信息量得到简化,同时改善了页面表示效果,提高了页面间的区分度,更有利于聚类。
2)聚类。选用合适的聚类方法如K-means或凝聚层次聚类,利用第一步构建的特征向量进行聚类。页面之间的距离可以通过余弦相似度进行度量。聚类的结果具有层次结构,比如,如果原始网页集合是关于电影的网页,那么聚类之后会把这些网页分别归类。影评类网页属于一类,电影视频网页属于一类,影星介绍属于一类。这些类均可以进一步细分,最终达到用户想要的效果。
4 总结
综上所述,在21世纪的今天,计算机信息技术更新速度加快。特别是最近几年,针对web信息处理的研究越来越火热,由于web信息的复杂性,简单的聚类算法效果也许并不理想。另外,由于网络信息资源的迅速膨胀,网络文本规模也越来越大,对于聚类算法在空间复杂度上的要求也越来越高。而以上三种聚类算法都有各自的优缺点,因此,如何进一步优化聚类算法,降低算法的时间和空间代价,提高算法对于不同数据集的适应能力,提升算法的抗噪性,最终提高对web信息的聚类效果还需要进行更加深入的分析研究。
参考文献
[1]Tan,Pang-Ning, Michael Steinbach, and Vipin Kumar.数据挖掘导论,2006.
[2]张树魁.网络文本信息聚类算法研究与应用[D].北京:北京交通大学,2009.
[3]邱韬奋.基于聚类算法的Web信息抽取技术研究[D].暨南大学,2011.
[4]张世博,周义明.一种优化初始化中心的k均值web信息聚类算法[J].北京石油化工学院学报,2012:55-58.
[5]孙学刚,陈群秀,马亮.基于主题的Web文档聚类研究[J].中文信息学报,2003:21-26.endprint