生态学视角下主题网站群发现算法的研究

2014-03-26 02:20全立新

重庆科技学院学报（自然科学版） 2014年1期

全立新

(湖南财政经济学院信息管理系，长沙 410205)

互联网是当今世界上最大的信息资源库，在世界上很多国家的信息化进程中处于国家战略资源地位，如何充分利用这些信息资源是各国都无法回避的重大问题。

主题资源自动采集是目前Web资源自动采集的重要技术手段之一，它是将互联网看作是一个有向图，让网络蜘蛛智能地判断爬行的路线和采集信息资源。但是，互联网内容和规模呈现几何级数的增长，这种主题爬行方法很容易受到“Web孤岛［1］”和“蜘蛛陷阱”等问题的制约，导致信息采集效率低下甚至失效。本文设想解决上述问题的一种方案是让网络蜘蛛在有效范围内进行爬行，因此，面对海量的Web信息资源，如何确定有效的采集范围是主题爬行技术亟待解决的问题。

互联网是当今人类社会活动的主要网络空间。由此诞生了新型社会:网络社会，它的实质是人类社会生活的另一种社会形态［2］。互联网正如人与自然环境所构成的生态系统一样，网络主体与网络环境构成了网络生态系统。网络生态系统不仅仅是一个网络技术的系统，更是一个与网络发展有关的社会环境、信息与信息主体，人与人交互而组成的庞大网络社会系统。如果把信息的产生、加工处理、传递与共享等视为人与人交互的结果，那么网站的构建、运营、竞争等在某种程度上反映了人的思想活动，因此，网站之间的关联关系变化也就蕴含了生态学的特征。

从网络生态学视角下，可得出网站的主题相对于特定内容表现出某些特殊的关联关系，且主题相关度较高的网站将形成网络空间的网站群落(即“抱团”现象)，其分布呈现显著的生态学特性。本文以此观点作为理论依据，以广度优先为原则设计主题网站群发现算法。

1 国内外研究现状

目前，国内外对网站信息资源有多种评价方法，不同的研究者或研究机构根据不同的研究目的，提出了不同的评价指标。文献［3］、［4］从信息内容、用户服务、网站结构、技术支持、使用情况等方面，建立分类指标评价体系对网站资源进行评价;CNNIC每年发布的中国互联网发展调查报告中也包含了很多评价指标;1991年Betsy Richmond提出“10C”原则;1994年David Stoker等提出8条标准;1999年Robert Harris提出了“CARS检验体系［5］”等，这些方法中的大多数评价标准是基于人工分析方法，以定性评价为主。

对网站资源的定量分析一般采用链接分析法［6］，其中 PageRank 算法［5］和 HITs 算法［6］是定量评价网站信息资源的典型代表。PageRank算法由Google的创始人Page提出，通过网页间相互的链接关系来确定网页的重要性和等级，是Google搜索引擎的关键算法之一。HITs是由康奈尔大学的Kleinberg提出，是从图论的角度出发分析网页的重要性。HITS算法的设计目标是查找最符合用户查询的网页。这2种算法虽然都能较好地对网页的重要性给予定量评价，但是它们并不关心网页的主题内容。通过这2种算法得到的权威网站只能说明网站具较大的影响力，但并不能说明网站具有权威的主题特性。此外，这2种算法的迭代运算对于普通规模的主题信息资源采集系统缺乏完整的链接推荐关系，将影响算法的效率和效果。

2 相关概念的定义

定义1 链接:本文特指不同网站之间，通过传统意义上的超链接而形成的2个网页间的指向连接关系。

定义2 网站入链:指其他网站的任何网页指向某一网站内任何网页的链接。

定义3 网站出链:指某一网站的任何网页指向其他网站的任何网页的链接。

定义4 主题网站群:在互联网中，一些内容相关度较高的网站，因生存，发展和竞争等需要，通过链接存在一定的交叉和联结关系，形成彼此抱团的现象，从而形成特定的互联网上的网站群。

3 主题网站的评价指标

当前对网站的评价方法很多，评价指标也各不相同。通常可以通过点击率、下载次数、在线评价等指标能够对网站进行有效评价［9］，但是，资源自动采集系统一般无法实时地获取这些指标数据，从而不可能实时地对某一网站按上述方法进行有效评价。本文基于生态学视角，通过链接分析法［10］给出网站相关评价指标，可能这种评价指标存在一定的缺陷，但是，它能完全满足自动化信息资源采集的工作需要。

式中:Us—某一网站的实用性;Tp— 它的主题网页数;Ti—它的网站入链数;T—它的总网页数。

主题网站的实用性与它所包含的主题信息资源数量和信息质量成正相关。主题网站的实用性在某种程度上体现了它在主题网站群中的地位。一般而言，网站的信息资源数量在一定程度上反映了网站的知名度，规模大的网站信息资源丰富，知名度通常比较高;相反，信息资源规模较少的网站知名度相对也较低。例如，搜狐、新浪、网易等门户网站几乎是家喻户晓，而一些个人网站和专业性很强的网站，知道它存在的人相对较少。但是，网站的信息资源数量并不一定代表它具有某一主题的信息资源数量多。实用性较强的网站大多是专业型网站，不是领域外的大型综合型网站。比如，网易教育频道的信息数量较多，但是，有效的教育资源并不多，实用性有限。由此可见，主题网站的实用性还取决于它的主题信息资源质量。如果一个网站的信息资源被其他网站引用较多，即网站入链数较大，则说明它的资源被其他网站广泛认同，这在一定程度上说明它的信息资源质量较高。

对于关心主题信息资源的用户而言，网站的实用性既取决于网站的信息资源质量，同时，也取决于主题信息资源的数量。如果网站的主题信息资源数量较少，类别不全，信息资源的质量一般，那么，满足用户需求的机会较少，则它的实用性就较低。

式中:Cs—某一网站的相似度;Tp— 它的主题网页数;T—它的总网页数。

主题网站的相似度直接反映了网站的主题特征。主题网站的相似度越高，其包含的主题信息资源比例就越高，其主题特征越明显，相反，它的主题特征越模糊。主题网站的信息资源主要是以主题信息资源为主，如果它具有鲜明的主题特征，可能它在专业领域外的影响并不大，但是，在专业领域内往往被很多人认同。

式中:Ds—网站的递减度;l—网站的层级。

从生态学角度考虑，某一物种距离种群核心的距离越近，其对整个种群影响越大。由此可以设想，一个主题网站距离核心主题网站的距离越近，则它的主题特征越明显，它在整个主题网站群中的影响力相对较大，反之，它的主题特性就较弱，在整个主题网站群中影响力也就越小。

设主题网站WS={WS1，WS2，…，WSn}，其中，核心主题网站的l=0。假设某一网站有核心网站发出的入链，则此网站的层级l=1，如果此网站还有与其他非核心网站的网站出链，则这个网站的层级l=1+1=2，依次类推。

定义8 影响力:Fs=α×Us+β×Cs+δ×Ds式中:Us—实用性;Cs—相似度;Ds—递减度;α，β，δ — 经验调节系数，α =0.9，β =0.35，δ=0.4。

本文将以影响力这个指标来评判一个网站是否是某一类型的主题网站。评判方法是设定一个阀值，如果某网站的影响力指标没有超过阀值，则此网站不是该类型的主题网站，如果超过阀值，它就被认为是某一主题的主题网站。按此方法认定的主题网站，如果网站的影响力指标越高，则该网站在此类型主题网站群中的影响力越大，反之，越小。

4 主题网站群的发现算法

本文研究的假设之一是主题信息资源的采集活动在一定的采集规模范围之内。同时，还认为，面对海量的互联网信息，主题信息的自动采集应该追求信息的查准率而不是查全率。下文将给出基于以上原则设计的主题网站群的发现算法。

为了提高主题信息资源的采集效率，非常有必要在采集之前确定有效的采集范围。如果把主题爬行路线限定在有限规模且有效的区域内，这样就可以避免主题爬虫以网络漫游的方式采集资源，导致效率低下或者错失优质资源等问题。

根据定义8，能够从互联网中有效地发现某一主题的主题资源网站群，并能确定核心主题信息资源网站。具体算法如下:

Step 1:人为选取某一个或几个网站为某一主题网站群的核心主题网站。

Step 2:以这些网站为种子网站，利用这些网站的网站出链获取与之关联的所有外围网站。

Step 3:对获取的外围网站计算影响力分值，设定一个网站影响力阀值，如果某外围网站的影响力分值大于等于设定的阀值，则认为此网站是该主题的网站群成员;相反，如果某网站的影响力分值小于设定的阀值，则认定此网站不是该主题网站群成员。

Step 4:按一定比例选择影响力分值高的网站为核心网站，并对新获取的网站群成员继续利用它们的网站出链获取新的外围网站。

Step 5:重复Step 3，直到没有再发现新的网站群成员为止。当然，也可以设置主题网站群成员规模，当达到一定规模时，可人工中断外围网站的发现工作。

这里需要说明2点:

(1)通过此算法得到的某一主题的网站群属于预判。在这里只能说明它们属于某一主题资源的机率较大，较准确的判断需要通过对这些网站进行实际采集活动后才能确定。对网站主题信息资源的判断方法在此不作讨论。

(2)由于互联网上的网站存在生命周期，因此，主题网站群的成员，网站的信息资源，以及核心主题网站都是在不断变化。在实际操作过程中，需要通过定期的迭代计算，确定在某一个时间范围的主题网站群落和核心网站。

该算法已应用在《主题信息采集原型系统》中，试验表明此算法在一定范围内是可行和有效的。

5 结语

如何从互联网上发现主题信息资源网站群是本文给出的主题网站群发现算法的目标。本文的算法把预测对象定位为网站，试图通过对网站主题的影响力判断来决定主题爬行路线。该算法通过计算关联网站的评价指标(实用性、相似度、递减度和影响力等指标)值，确定某一网站是否是主题网站群成员，再通过迭代计算，发现更多的主题网站群成员，这些成员的集合构成了某一主题的网站群落，这个群落可以作为具体有限信息资源采集活动的设想采集范围。

［1］乔建忠.需求驱动的主题爬行技术研究［J］.图书情报工作，2011(13):108-111.

［2］周兴茂，汪玲丽.人类学视野下的网络社会与虚拟族群［J］.黑龙江民族丛刊，2009(1):128-132.

［3］王知津，李明珍.网站评价指标体系的方法与过程［J］.图书与情报，2009(3):45-52.

［4］吕静，邹小筑.国内网络信息资源评价研究综述［J］.图书馆学研究，2010(8):8-10.

［5］高凌云.网络信息资源评价研究综述［J］.情报探索，2010(9):31-33.

［6］邱均平，李娇翠.网络链接分析论文的计量研究［J］.情报科学，2008(8):1130-1134.

［7］Page L.The PageRanK Citation Ranking:Bringing Order to the Web［R］.Stanford DigitalLibraries Working Paper，1999.

［8］王宇新，刘海峰，郭禾.一种有效的专题信息集中和检索策略［J］.计算机应用研究，2009(6):2106-2108.

［9］张洋.网络影响因子研究综述［J］.中国图书馆学报，2010(1):63-79.

［10］文庭孝，王尧，杨雅惟.网络链接分析应用研究综述［J］.图书情报知识，2011(4):84-90.