链接分析技术中Web聚类算法及归类的应用研究

2018-09-10 03:22许晓燕
河南科技 2018年14期
关键词:聚类算法

许晓燕

摘 要:链接分析技术是优化信息搜索速度与利用价值的网络结构优化发展途径,在以往更加倾向于关键内容的数据信息特征归类,而对于Web信息内容的特征属性要求较低,因此会产生搜索主题不鲜明、搜索内容针对性差等问题。基于此,本文针对链接分析技术提出了聚类算法的应用模式,以便为Web信息内容的归类推荐提供理论参考。

关键词:链接分析技术;Web;聚类算法;归类应用;子集特征

中图分类号:TP393.07 文献标识码:A 文章编号:1003-5168(2018)14-0024-03

Application of Web Clustering Algorithm and Classification in

Link Analysis Technology

XU Xiaoyan

(Sanmenxia Polytechnic,Sanmenxia Henan 472000)

Abstract: The link analysis technology is the optimal way to optimize the network structure of information search speed and use. In the past, the characteristics of the data information which were more inclined to the key content were classified, and the characteristics of the Web information content were low, so the problem of the search theme was not distinct and the content of the search was poor. Based on this, this paper put forward the application mode of clustering algorithm for link analysis technology, so as to provide a theoretical reference for the classification and recommendation of Web information content.

Keywords: link analysis technology;Web;clustering algorithm;categorization application;subset feature

1 鏈接分析技术概述

1.1 链接分析技术简介

链接分析是源于对Web结构中超链接的多维分析。其分析目标是强调网络信息检索、数据挖掘、网络统计、Web结构建模等方面的技术优化方案。长期以来,拥有高质量的外部链接都是搜索引擎必要的技术支撑[1]。在此方面,链接分析技术Google、百度、雅虎和搜狗等搜索引擎平台提供了关键词索引的技术方案。当反向链接或导入链接对关键词汇的采集频次较高,且达到了全网搜寻的效果之后,并不代表其中的索引信息都能呈现在Web页面中,而是需要积极调取其中的特征属性,继而通过聚类分析算法明确具体的排名,才能将关联度更高的信息、网址、域名进行归类和排列。因此,链接分析技术所呈现的链接构建开辟了网络终端收集信息的便捷性,而网站被搜寻到的概率也会相对更高且更为合理。因此,链接分析技术是关键词查询后影响搜索信息排名的关键因素,也决定了搜索引擎的常规应用效率与性能。

1.2 链接分析的基本原理

搜索引擎对网页关联度的排序,是基于链接分析技术支持完成的具体搜索操作。这一流程,既需要对关键词本身的出现密度加以衡量,同时需要对比链接本身的流行度。当该网页被浏览的频次较高,其链接分析技术则会将该页面推送到排名靠前的位置,相反,排名则较为靠后。通过链接分析,能让搜索内容更为精准。一个Web页面的反向链接越高,其可应用价值也会越大,基于这种原理支持其链接靠前便是链接分析技术的基本运行原理。因此,链接分析技术不仅提供了关于搜索信息的普遍解答[2],而且优化了信息价值定位后所呈现出关联度更高、应用价值更高及使用频次更高的Web页面,是最大限度优化搜索信息权威性的技术支持。

2 应用链接分析技术的优势

链接分析技术在Web页面的数据挖掘过程中具有极为广泛的应用价值,分别为提升信息检索质量、扩大网络主题空间。

2.1 提升信息检索质量

链接分析技术对于改善网络信息检索的速度及时效性具有重要作用。以Web页面信息的检索为对象,在采用了链接分析技术之后,其核心算法可以借助聚类分析模式弥补网络信息关联度不足的弊端,进而剔除线性存储的局限性,并为终端用户扩大搜索范围,集中检索空间。此外,在搜索引擎中的网络浏览速度也会随之加速,节省用户的网络浏览时间。在搜索引擎检索到的信息中建立评价等级,从排序优化条件中开发超链分析的推荐选项,进而加强信息检索的排序效果。

2.2 扩大网络主题空间

网络主题是设置Web页面信息时所融入的基础元素,这一元素并不会由关键词直接显现。当关键词不同时,部分Web页面信息仍然传递出类似的结论、结果或研究内容,实质上也是对网络信息的转载或解释。这种并不具备检索要求的信息,反而有助于用户逐步明确搜索方向,是认知网络主题空间的引导。借助链接分析技术检索Web页面中的隐含信息,提供更加权威的质量评价,有助于逻辑性更强、权威性更高、主题更为鲜明的Web页面被快速发掘。由此,数据发掘的价值得以保障,是扩大网络主题空间检索范围的技术支持[3]。

3 链接分析技术中Web聚类算法及归类的应用

3.1 链接分析技术中的归类模式

在搜索Web页面信息时,多数关联主题并不鲜明,存在模糊查询的现象。运用链接分析技术,实质上也是逐步消解模糊状态的方式,需要将关联度较高的信息进行归类,进而推送应用价值更高的Web页面信息。此时,传统的关键词索引模式并不足以分析用户的实质需求,因此关联数据并未被快速发掘。例如,当关键词为“蛟龙”时,其作为古代神话中的神兽并非用户搜索意图,而由我国自主研发的“蛟龙号载人潜水器”反而可能是用户所需查询的主题。如果搜索引擎无法满足所有用户对关联主题的信息需求,实质上所呈现出的Web页面应用价值也会相对较低。因此,搜索引擎首先需要加强关联主题的归类统计,然后将归类内容分别呈现给用户,才能达到预期的搜索与查询效果。利用链接分析技术归类其中的关联主题,通过划分Web页面的归类,从中计算出网络信息的比例权重,这样才能进一步提升查询结果的针对性。

3.2 聚类算法的分析流程

首先,需要定义搜索范围的有向图[G=V,E],其中[V]代表了文档集合,E为关系集合。假设P与Q的关联主题均符合从P链接到Q,或从Q链接到P的条件。那么,G集合则涵盖了[P,Q]无限趋向于E的特征表现。其节点[Iv]和 [Ov]也在不断接近于节点集合。因此,在每个节点中都会明确具体的出度和入度,并保持相对的稳定性。在G中存在n个节点,在得到[R0a,b=0]或1的情况下,[Rk+1a,b=RkIia,Ijb],[Limk→∞],则代表[Rka,b=Ra,b],那么[Ra,b]的链接相似度也会满足用户需求,并得到支持Web信息归类的最终数据集合。

3.3 构建网页集合

聚类分析的特点是将Web关联信息中较为抽象的内容划分为统一的属性集合,在分组之后才涉及归类应用。这种近似为智能行为的算法为链接分析提供了基础条件,因此能依据描述信息的逐步清晰最终明确数据源分类。这一分类也是加强网页集合构造的基础条件,将突出关联主题的鲜明度。在构建网页集合的过程中,首先需要确定如下条件:网络信息的出现频次、集合信息的整体权威性、搜索范围的明确度。当相关参数构筑了网页信息的集成效果后,根集合R的Web信息集合条件也更为清晰,是诸多子集合满足搜索条件的重要表现,也是快速发掘用户搜索需求规律的内容归类[4]。

3.4 Web页面信息归类

当用户所需的搜索范围被界定,其中的字符串内容也会集中于网页集合内,并表示出具体的链接强度关系。真正的链接强度是Web聚类算法得以支持予以分析结果明确的主要条件,是为了更为精准地调取网页子集信息而设定的搜索条件。因此,网页归类的Web聚类算法也能快速建立页面集合的特征,为用户提供更为精准的搜索服务。通过分析页面内容信息的关联度,划分集合属性,使其达到归类需求。一方面,需要生成初始类,并在网页信息中随机设定一个相似度较高的类,计算其中的相似度。将相似度最小的Web页面信息作为第二个类,计算其余Web页面信息与两个网络集合的关联性,取二者之和中最小的参考值作为第三个类。以此类推,便产生了K个类,且每个类的特征属性都并不相同,查询其中的信息对比,或者关键词内容,终端用户便可以优化网页信息的主题特征鲜明度,令用户了解每一类集合的主题特征。另一方面,需要针对网络信息的迭代过程加以描述,参考网页信息的隶属度和关联度,取其平均值作为聚类算法的终止条件,并将网页信息聚集,呈现出不同意图或特征的Web页面信息以供用户参考。

3.5 信息权重计算

在得到分类网页特征数据之后,用户可以在自己所需的主题中选择子集合,并在归类内容中查找契合度最高的信息内容。因此,聚类结果在用户选择的子集合中具有再利用价值,是链接分析技术得以实现的根本。在此基础上,完成对网页子集权重的设定,是进一步优化排列效果的支持条件。聚类算法之所以能加强信息关联度,是因为在相关信息中提取可量化的标准之后,优化子集信息的特重度。例如,“百度快照”中将关联词通过不同颜色呈现给用户,便是逐一显现文档内容信息的应用价值排列。这样的内容推荐效果可以让终端用户快速识别关键信息的价值取向,从而明确所选主题内容的适应度。其计算信息权重主要为5个步骤。第一,需要设定所选内容信息的子集合邻接图为N,并以H[n]代表关联度,以A[n]代表权威度。第二,需要初始化关联度与全维度子集合的相关信息,设定其阈值为1。第三,需要在向量H和A并未收敛时进入计算流程,否则需要退出。第四,需要对N集合的所有节点阈值,得到[A=n,n,nHn,×auth_wtn,,n]。第五,需要对集合中的节点进行再次阈值,得到[H=n,n,nAn,×hub_wtn,,n],进而最终得到H与A的规范化结构,为Web页面信息的搜索依据权重比例进行排序。相关研究表明,这种以聚类算法为核心的链接分析技术能满足模糊主题的相关信息搜索需求,进而为用户提供兴趣度更高的Web页面内容,是进一步优化Web信息内容聚类条件和归类应用的发展结果,能支持终端用户在最短时限内完成对模糊信息的搜索,优化搜索内容的精准度与时效性,并达到加快搜索速度的应用效果。

4 结语

Web页面信息在利用了聚類分析算法之后,能将诸多特征子集充分提取和调集,并最终归类为不同的主题内容以便为终端用户提供数据信息的对比与参考。借助链接分析技术,能优化Web页面信息的归类应用条件,从而提高快速查询搜索结果的精准度,扩大适用范围。基于此,可以利用聚类算法优化链接分析技术的应用效果,并在归类属性中达到预期的搜索精度,为优化Web页面的信息整合度提供技术支持。

参考文献:

[1]赵蓉英,魏绪秋.时空维度下的我国链接分析研究现状分析[J].情报科学,2017(4):3-8.

[2]高翔,吴万琴.异质信息网络中基于聚类及链接分析的多样性挖掘技术[J].工业仪表与自动化装置,2014(6):11-14,46.

[3]屈玉阁.基于谱聚类与改进WEB链接分析HITS算法的多属性群决策方法[J].统计与决策,2014(19):13-17.

[4]孙建军.链接分析:知识基础、研究主体、研究热点与前沿综述——基于科学知识图谱的途径[J].情报学报,2014(6):659-672.

猜你喜欢
聚类算法
一种基于词嵌入与密度峰值策略的大数据文本聚类算法
基于关联规则和复杂系统熵聚类方法分析张学文治疗肝热血瘀证用药规律
数据挖掘算法性能优化的研究与应用
K—Means聚类算法在MapReduce框架下的实现
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
基于改进的K_means算法在图像分割中的应用
大规模风电场集中接入对电力系统小干扰稳定的影响分析
基于弹性分布数据集的海量空间数据密度聚类
基于MapReduce的DBSCAN聚类算法的并行实现
基于暂态特征聚类的家用负荷识别