分布式产品数据采集动态任务调度模型研究

2014-08-08 03:24余凡程虹王超余红伟许伟
现代情报 2014年4期
关键词:数据采集

余凡+程虹+王超+余红伟+许伟

基金项目:本文系国家社科基金重大项目“我国质量安全评价与网络预警方法研究”(项目编号:11&ZD158)、科技部质检公益性行业科研专项“质量监管技术及安全风险信息系统支撑研究”(项目编号:201210117)的研究成果之一。

作者简介:余凡(1985-),男,博士后,研究方向:知识管理、网络评论与预警。·理论探索·

〔摘要〕网络数据采集是大数据时代进行数据挖掘和分析的基础性工作。本文尝试着以任务在不同节点上采集过程中产生的信息作为调度指标制定动态任务调度策略,分别从任务调度策略、任务修改策略和任务回收策略3个角度构建任务调度模型,最后通过实验分析其可行性。实验结果表明,动态任务调度模型能够提高数据采集的效率。

〔关键词〕数据采集;动态任务调度;任务调度策略;任务修改策略;任务回收策略

DOI:10.3969/j.issn.1008-0821.2014.04.002

〔中图分类号〕F0625〔文献标识码〕A〔文章编号〕1008-0821(2014)04-0007-06

Distributed Products Data Crawling System

Based on Dynamic Task Scheduling ModuleYu FanCheng HongWang ChaoYu HongweiXu Wei

(Wuhan University Institute of Quality Development Strategy,Wuhan 430072,China)

〔Abstract〕Web data crawling is a basic work for data mining and analyzing in big data era.This paper attempted to construct task scheduling module based on dynamic task scheduling strategy.Dynamic task scheduling strategy included task scheduling strategy,task modifying strategy,and task recalling strategy.Dynamic task scheduling strategy was made by scheduling index,which was based on information of different nodes in the process of crawling.Experimental results showed that dynamic task scheduling strategy should improve the efficiency of data crawling.

〔Keywords〕date crawling;dynamic task scheduling;task scheduling strategy;task modifying strategy;task recalling strategy

大数据时代,互联网已经成为知识产生、传播、传承的最主要渠道。2013年7月发布的第32次《中国互联网发展状况统计报告》显示,截至2013年6月底,我国网民规模达到591亿,较2012年底增加2 656万人。互联网普及率为441%,较2012年底提升2%[1]。互联网不仅已经成为我们生活中不可或缺的一部分,而且还逐渐成为科学研究最有价值的数据提供平台,例如:针对网络社区的社区发现、社区结构演化方面的研究[2],基于机器学习的大数据实体关系挖掘方法研究[3]。利用互联网上的数据以消费者为对象进行不同领域的研究逐渐成为研究的范式[4],通过网络消费者数据的分析,能够有效降低消费者、企业、政府之间信息不透明,提高产品质量安全性[5-6]。数据采集是数据分析的基础,面对浩瀚的网络数据,利用简单的数据采集方法无法适应网络大数据的需求,如何利用先进的算法和策略高效地采集网络数据成为大数据时代的研究热点之一[7]。

1研究现状

网络初步兴起时期,网页数量不大,采用集中式方法采集数据。预先设定初始URL种子,采集URL对应的HTML页面和链接页面即可。随着网络的蓬勃发展,集中式方法采集效率低下的缺点逐渐暴露出来,分布式数据采集方法应运而生。分布式数据采集方法在成本控制、信息吞吐量、网络负载量等方面存在集中式无法企及的优势,但采集任务如何调度等新的问题随之出现。任务调度是分布式数据采集的核心,调度策略的好坏直接影响到采集的效率[8]。任务调度是通过一定的算法把合适的任务分配给合适的节点进行数据采集[9]。

任务调度策略分为静态任务调度策略和动态任务调度策略[10]。如果在系统运行之前能够确定将任务分配到具体的采集节点,这种策略是静态任务调度策略。如果只能在系统运行过程中确定任务的采集节点,这种策略是动态任务调度策略。影响任务调度策略制定的因素有很多,具体可分为以下2个方面:

11以采集节点的位置为核心实施任务调度策略

任务调度的目的是将任务分配到采集节点上,采集节点是任务调度策略制定时必须考虑的因素。以采集节点位置为核心的任务调度策略又可细分为3类。

111根据网络域名进行任务调度

具体而言,网络域名都有特定的规范和含义,例如:“cn”表示中国,“us”表示美国,“com”表示公司等等。每一种域名都把具有相同属性的网页聚集成一类,系统根据域名对采集的网页进行归类,将域名相同的网页采集任务分配到相同的节点。这种任务分类策略是易于实现的,系统只需要对URL进行简单的解析就可以完成任务的分配。当然这种策略的缺点也比较明显。并不是所有的URL都完全遵守域名规范,以“com”结尾的网页可能不是公司网页,以“edu”结尾的网页也可能不是学校网页。相同域名的网站包括的文件数量不一样,会引起采集节点的负载失衡[11]。

112根据节点的地理位置进行任务调度

采集节点只采集距离其最近的网站。中国的节点只采集中国范围内的网站。美国的节点只采集美国范围内的网站。这种任务调度策略只能在理想状态下才能实施。首先,地理信息只能从网站中提取,一方面需要消耗资源对地理信息进行分析处理,一方面地理信息不一定能够明确标明网站的实际位置。其次,网站的地理信息与网站服务器的位置并不一定是统一的。一般的小型企业更加愿意租用服务器,大多数网站会集中在少数大型服务器租用公司上,网站与实体的地理信息大相径庭[12]。

113根据IP分类进行任务调度

利用互联网服务提供商公开的信息对IP地址进行分类。不同的IP地址块对应到不同的国家和地区,相应国家和地区的采集节点负责IP对应网站的采集。相对于域名和网站地理信息,IP地址能够更加准确地反映出网站的实际位置,因此任务调度更加合理,可行性更高。但是互联网服务提供商公开的信息并不完整,并且更新速度太慢,因此使用起来不太方便[13]。

2以采集节点协同为核心实施任务调度策略

endprint

与集中式数据采集相比,分布式数据采集提高效率的基本手段之一是节点协同机制。以采集节点协同为核心进行任务调度策略也可细分为3类。

121各节点相互独立的任务调度

每个节点在采集数据之前,系统会预先分配到URL种子。各节点在数据采集过程中只负责下载分配的URL,节点之间并不交互任何信息。这种策略非常简单,并且不同的节点可以根据当地的风俗习惯制定个性化的采集方法。这种策略的缺点在于没有充分利用分布式采集过程中产生的信息,并且可能出现重复下载的现象。

122中心节点控制的任务调度

采集节点由中心节点统一控制。当采集节点发现新的URL后,会把新的URL发送到中心节点,中心节点发送到合适的节点。中心节点控制的任务调度策略能够全面掌控系统各节点的情况,对节点出现的问题做出及时处理。但其缺点也非常明显,中心节点控制着整个系统的节点,各节点的信息都会发送到中心节点,会造成中心节点极大的负担。如果中心节点出现问题,整个系统将直接崩溃[14]。

123基于分布式哈希表的节点协同任务调度

分布式哈希表具有无中心特性,能够避免中心节点的问题。但是哈希表的拓扑结构并没有存储节点的网络位置信息,可能出现哈希表值非常近的节点,其网络位置非常远的情况,从而增加网络通信负载。将分布式哈希表与网络位置建立对应关系是解决以上问题的一种思路[15-16]。

从研究现状中不难发现,分布式数据采集任务调度策略研究主要集中在依据采集节点的外部特征宏观分配任务上,分配的指标多集中在吞吐量、延时等网络特性上。相反,对于利用任务本身的微观信息优化采集效率的研究相对较少。事实上,任务在采集过程中产生的信息非常有价值,可以作为后续任务参数的调整及调度的重要参考指标。本文将沿着这条思路,尝试研究以任务自身信息为调度指标的动态任务调度策略,以优化分布式任务调度策略,提高任务采集效率。

2分布式产品数据采集动态任务调度框架

21总体框架

图1分布式产品数据采集动态任务调度总体框架图

总体框架包括三大块:虚拟采集任务集合、动态调度平台、分布式节点采集平台。虚拟采集任务集合负责抽象描述采集任务,发送给动态调度平台。动态调度平台负责接收虚拟任务,将其转换为实际任务,并根据实际任务的优先级、实际任务运行时产生的信息以及采集节点信息将合适的实际任务动态发送到合适的采集节点。分布式节点采集平台负责接收实际任务,将采集到的信息存入数据库,并将采集任务过程中产生的信息反馈到动态高度平台。

211虚拟采集任务集合

虚拟采集任务是对采集数据范围的抽象描述。具体而言,虚拟采集任务描述了采集产品的名称和关键词。通过产品名称和关键词描述产品的信息。抽象的虚拟任务不便于程序的理解和执行,因此需要将虚拟任务转换成实际任务。

212动态调度平台

动态调度平台又可细分为3个子模块:任务切分模块、任务调度模块和节点运行控制模块。任务切分模块通过制定切分规则,将接收的虚拟任务切分成若干个实际任务。切分的方法多种多样,可根据采集的对象特点针对合适的切分规则。任务调度模块是动态调度平台的核心,综合分析任务的内外部信息以及采集节点的信息,制定任务分配策略,动态地完成任务的分派。模块根据任务运行时的信息修改未采集完毕的任务,优化任务采集参数。如果采集节点出现错误,则启动回收机制回收无法采集的任务。节点运行控制模块是动态调度平台的主要数据支撑。模块记录了采集节点数据以及任务在采集节点上运行的全部参数的数据,为制定任务分配策略、任务修改策略、任务回收策略提供数据支持。

213分布式节点采集平台

由于网络数据量庞大,来源和结构繁多,采用单一的纵向节点采集方式速度太慢,无法满足需求,因此需要采用分布式的横向节点采集架构。如果条件允许,可以采用一台中心服务器加上多台子服务器的架构,中心服务器负责任务的调度,子服务器负责单一任务的采集。如果条件不允许,可以采用虚拟服务器的方式,虚拟多个IP同步采集。

22任务切分模块流程

图2任务切分模块框架图〖〗

任务切分模块是将虚拟任务切分成实际任务。任务切分算法非常多,系统采用基于数据来源的切分算法,将虚拟任务切分成产品关键词+站点的组合URL。切分后的任务将进入任务调度模块。

根据数据来源的任务切分流程包括以下几个步骤:

确定产品检索关键词。利用分词工具对产品名称进行分词,然后把切分的词汇用布尔逻辑与符号“&”连接起来,表示要搜索同时出现所有词汇的网页。例如:要搜索乳制品“光明高钙牛奶”,首先对产品名称切分,得到“光明”、“高钙”和“牛奶”。利用逻辑与连接被切分的词汇,得到“光明&高钙&牛奶”为待搜索关键词。

确定采集站点。并不是所有的网站都是关注产品质量的,许多站点可能只是提到产品的新闻。为了提高系统采集的效率,通过人工的方法筛选出产品质量相关度高的站点作为采集对象。相关度不高的直接剔除。表1列出了部分产品质量相关度高的站点。表1部分产品质量相关度高的站点

站点域名站点域名站点域名12315.comcca.org.cnjs315ccn.com12365hn.comccn.com.cnnettiger.cn12365ts.netcfqn12315.comnfqs.com.cn21315.com.cncfqn315.comqs315.org315.e0570.comcgcr.com.cnsczl315.com315chn.comchina12315.com.cnsd315.org.cn315cx.com.cnchina315.comsdq365.com.cn315ok.comchinatt315.org.cnshzj.gov.cn315online.comcjwq.cnsp.chinadaily.com.cn315rx.comcq315.orgszs12365.com

虚拟任务转换成实际任务。根据不同搜索引擎的关键词转换策略将产品检索关键词转换成搜索引擎可识别形式的URL。以百度搜索引擎为例,虽然检索关键词不同,但URL的格式相同,“百度的域名”+“关键词的十六进制代码”+“网页编码”等其他参数。系统使用编码转换函数将关键词转换成十六进制,替换“关键词的十六进制代码”部分,得到系统可执行任务的URL。“光明&高钙&牛奶 ”转换后的URL为“http:∥www.baidu.com/s?wd=%E5%85%89%E6%98%8E+%E9%AB%98%E9%92%99+%E7%89%9B%E5%A5%B6&ie=utf-8”。

合并URL和采集站点。正如上文所说,利用百度等搜索引擎检索出来的网址并非都与产品质量相关,系统在上一步URL的基础上加入站点的限制,缩小采集的范围。还是以“光明&高钙&牛奶”为例,如果要搜索其在“cca.org.cn”上的数据,URL增加站点的信息改为“http:∥www.baidu.com/s?wd=%E5%85%89%E6%98%8E+%E9%AB%98%E9%92%99+%E7%89%9B%E5%A5%B6+site%3Acca.org.cn&ie=utf-8”,这就是实际采集任务的URL。

切分任务。将最终URL集合按一定数量切分,切分的多个URL子集合作为采集任务的种子。

endprint

23任务调度模块流程

图3任务调度模块流程图〖〗

任务调度模块包括以下几个步骤:

231任务调度模块接收到实际任务后,对任务进行优先级计算

系统采用先进先出算法计算任务优先级,即系统随机抽取任务,先进入队列的任务优先级高,后进入队列的任务优先级低。优先级高的任务优先发送到采集节点。

232带有优先级的任务按照级别高低进入等待任务队列

将等待任务发送到爬取任务队列之前,需要制定任务分配策略。任务分配策略的分析数据由节点运行控制模块提供,具体包括采集节点的类型、任务的检索数量、任务的采集时间、任务的采集数量和任务采集数量占检索数量的比例等方面。通过对以上参数的综合分析,将任务发送到爬取任务队列。

任务分配策略流程描述:

判断采集节点的类型。系统把采集节点分为两大类,0表示元搜索,1表示微博搜索。如果任务是元搜索,则发送到类型为0的采集节点,否则发送到类型为1的采集节点。

统计任务在各节点的采集完成率。每一个任务的URL都包括产品关键词和站点,任务采集过程中会统计出搜索到的结果数量。采集完成后,通过实际任务采集数量和检索数量的比值得到任务采集完成率。系统根据节点运行控制模块记录下的每一个任务的采集数量和检索数量,得到每一个站点在每一个采集节点的任务采集完成率列表。此列表将作为后续任务分配的依据。任务将被调度到完成率高的节点。同时列表也会根据后续任务的数据进行实时修正。

统计任务在各节点的采集效率。系统根据节点运行控制模块记录下的每个任务采集的起始时间和终止时间,结合上一步的任务采集数量,可以计算出任务中每一个网页所需的采集时间,得到各产品在各站点的采集效率列表。对于特定的产品和特定的站点,如果采集节点效率太低,则后续类似任务不再调度到此节点。任务始终被调度到效率高的节点。列表同样会根据后续任务的数据进行实时修正。

233爬取任务队列将任务具体分配到采集节点上

采集节点在采集任务数据时,将产生的各类信息发送到节点运行控制模块。一个任务包括多个子任务,为了防止任务在采集过程中长时间出现异常影响整体采集效率的现象发生,系统以子任务为单位分多次采集。子任务采集完成后,存在两种情况。如果采集成功,则进入休眠任务队列。休眠任务队列的作用是根据已采集子任务的时间、采集数量等信息制定任务修改策略,对后续子任务的采集参数进行动态调整。

任务修改策略流程描述:

调整任务采集数量。调整任务收集采集任务繁多,不可能在一个节点无时间上限地采集一个任务。系统根据采集完成率对未采集的任务参数进行调整。如果完成率偏低,则减少任务的数量。反之则增加任务的数量。尽量发挥各节点的采集效用。

调整任务采集时间。调整任务下载数量能够调节节点间的负载,使之达到平衡。同样,对采集时间的调整也能够起到平衡负载的作用。系统根据采集效率对未采集的任务参数进行调整。如果效率非常高,说明节点采集的速度非常快,可以减少后续任务的采集时间。相反则可以增加任务的采集时间。

任务的采集完成率和采集效率成反比。采集完成率越高,说明采集数量越多,采集时间也越长,采集效率越低。因此在修改任务参数时,应该同时考虑两个变量,求得最优解。

如果采集失败,则进入爬取任务失败队列。任务采集过程中发生的错误会导致任务爬取失败。系统启动任务回收策略处理任务爬取失败队列,把失败任务重新分配到其他节点运行。如果多次回收分配均无效,则采取人工干预的方式,查看采集失败的具体原因,制定修改策略,重新分配采集,直至采集成功。

任务回收策略流程描述:

设定回收时间阈值。系统设定1分钟为回收时间阈值。如果1分钟后任务仍然没有采集,则将其设定为回收对象。

设定回收次数阈值。系统设定5次为回收次数阈值。如果任务已经回收5次,则交由人工处理。如果低于5次,则执行回收机制。

回收失败任务。终止采集工作,将任务回收。

恢复节点运行。根据任务调度策略将后续任务分配到节点,节点采集工作恢复正常。

重新分配失败任务。失败的任务在进行重新分配时,也会按照任务调度的流程,经历任务调度策略,将任务分配给其他节点。

234节点运行控制模块

节点运行控制模块主要用于存储任务在采集过程中产生的各类信息,包括任务的检索数量和采集数量、任务的采集开始时间和结束时间等,结合任务对应的产品关键词和站点数据,为任务分配策略、任务修改策略和任务回收策略提供数据支持。

任务调度模块利用优先级算法对任务本身的特点进行优先级排序,同时在等待任务队列、任务爬取队列、任务休眠队列、爬取任务失败队列分别采取任务分配策略、任务修改策略、任务回收策略。由于3个策略都是基于节点运行控制模块制定的,而节点运行控制模块的数据是任务采集过程中的实时信息,因此任务的调度是一个闭环的动态实时任务分配系统。通过对任务全方位多维动态的调度分配,任务参数会随着采集节点的性能适时调整,系统最终将在合适的时间把合适的任务发送到合适的采集节点上,形成一个高效的产品数据采集系统。

3结果检验与分析

31数据来源及说明

乳制品中的牛奶和奶粉作为人们日常生活的必需品,如果质量出现问题,会对人们特别是婴幼儿产生非常严重的影响。因此,本文将对光明高钙牛奶、特仑苏、蒙牛早餐奶和雀巢中老年奶粉4种乳制品进行数据采集测试,为后续的研究作铺垫。采集时间段为2013年5月。需要说明的是,采集平台和数据均由依托于武汉大学质量发展研究院的深度网提供。

32数据检测方法

采用数据对比方法检测本文模型的可行性。具体而言,系统使用本文的动态任务调度策略采集数据,记录利用动态任务调度策略改变任务采集节点的任务,计算调度前后任务采集的效率,对比分析哪种方法采集的效率更高。

33结果分析

331虚拟任务列表表2虚拟任务列表

产品名称搜索关键词光明高钙牛奶光明&高钙&牛奶特仑苏蒙牛&特仑苏蒙牛早餐奶蒙牛&早餐奶雀巢中老年奶粉雀巢&中老年&奶粉

系统利用切词工具对4种乳制品名称进行切分,得到搜索关键词。关键词之间用逻辑与连接。

332实际任务列表

表3部分实际任务列表

虚拟任务实际任务光明&高钙&牛奶http:∥www.baidu.com/s?wd=%E5%85%89%E6%98%8E+%E9%AB%98%E9%92%99+%E7%89%9B%E5%A5%B6+site%3A315tousu.org&pn=0&cl=0&ie=utfhttp:∥weibo.yunyun.com/Weibo.php?p=1&q=site%3Aweibo.com+%E5%85%89%E6%98%8E%26%E9%AB%98%E9%92%99%26%E7%89%9B%E5%A5%B6%26%E6%8A%95%E8%AF%89&wbts=1蒙牛&特仑苏http:∥www.baidu.com/s?wd=%E8%92%99%E7%89%9B+%E7%89%B9%E4%BB%91%E8%8B%8F+site%3A315tousu.org&pn=0&cl=0&ie=utf-8&lm=1http:∥weibo.yunyun.com/Weibo.php?p=1&q=site%3Aweibo.com+%E8%92%99%E7%89%9B%26%E7%89%B9%E4%BB%91%E8%8B%8F%26%E6%8A%95%E8%AF%89&wbts=1蒙牛&早餐奶http:∥www.baidu.com/s?wd=%E8%92%99%E7%89%9B+%E6%97%A9%E9%A4%90%E5%A5%B6+site%3A315zj.com%2F&pn=0&cl=0&ie=utf-8&lm=1http:∥www.baidu.com/s?wd=%E8%92%99%E7%89%9B+%E6%97%A9%E9%A4%90%E5%A5%B6+site%3Ahd315.gov.cn&pn=0&cl=0&ie=utf-8&lm=1雀巢&中老年&奶粉http:∥www.baidu.com/s?wd=%E9%9B%80%E5%B7%A2+%E4%B8%AD%E8%80%81%E5%B9%B4+%E5%A5%B6%E7%B2%89+site%3Anettiger.cn&pn=0&cl=0&ie=utf-8&lm=1http:∥weibo.yunyun.com/Weibo.php?p=1&q=site%3Aweibo.com+%E9%9B%80%E5%B7%A2%26%E4%B8%AD%E8%80%81%E5%B9%B4%26%E5%A5%B6%E7%B2%89&wbts=1

endprint

表3列出了虚拟任务转换后的实际任务。实际任务实质上是可以检索的URL。

333基于动态任务调度的节点采集完成率和效率

图4展示了4个不同节点同时采集相同5个站点时的完成率变化趋势。按照第3节描述的任务调度流程,系统统计不同站点任务采集的各项指标参数,为后续任务分配图4不同节点的任务采集完成率变化趋势

做参考。从图中不难发现,不同站点的任务完成率随着时间的变化实时变动。随着时间的推移,任务在不同站点、不同节点的采集数据逐步累计起来。数据越多,变化越明显。经过5个小时的实时动态任务调度,节点1、节点2、节点3和节点4中的“12315.com”和“315tousu.org”站点、“12315.com”和“t.163.com”站点、“315tousu.org”和“t.163.com”站点、“cca.org.cn”和“weibo.com”站点的完成率越来越高,剩下的站点完成率越来越低。虽然节点1、节点3和节点4中的“t.163.com”、“12315.com”和“t.163.com”在任务采集初始阶段的完成率相对较高,但最后完成率下降得很快,说明该站点并不适合在对应的节点上采集任务。相反,对于完成率越来越高,最后趋于稳定的站点是非常适合在对应的节点上采集任务的。图5不同节点的采集效率

图5从任务调度策略、任务修改策略和任务回收策略对应的任务调出数量、任务调入数量、任务修改数量、任务回收数量4个指标计算任务采集效率提高的百分比。从图中不难看出,任务调度策略的贡献度最大,通过任务调出和调入的调整,有效地优化了采集系统。其次是任务修改策略,通过对任务采集时间和采集数量的控制提高任务的自适应性。任务回收策略的贡献度最小,但也起到了一定的作用。总的来说,4个节点通过任务调度模块都不同程度地提高了采集效率。

4结论

网络数据采集是大数据时代进行数据挖掘和分析的基础性工作。然而数据采集的效率不够理想。本文尝试着从任务自身信息入手,提出以任务在不同节点上采集过程中产生的信息作为调度指标的动态任务调度策略,分别从任务调度策略、任务修改策略和任务回收策略3个角度构建任务调度模型,以优化分布式任务调度策略,最后以4种乳制品为检测数据,在百度等搜索引擎上进行数据采集测试。实验证明,利用动态任务调度策略能够提高数据采集的效率。采集数据是为了研究分析,高效地数据采集模型为更加透彻地分析问题提供了保障。数据采集工作完毕后,接下来需要利用这些数据分析出消费者最关注的产品以及衡量产品质量包括哪些因素,形成网络产品质量预警模型,为广大消费者提供高质量的服务。

[1]CNNIC.中国互联网发展状况统计报告[EB/OL].http:∥www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201307/t2013071740664.htm,2013-07-28.

[2]Shen,HW.,Chen,XQ.,Guo,JF.Quantifying and identifying the overlapping community structure in networks[J].Journal of Statistical Mechanics,2009,(7).

[3]Zelenko,D.,Aone,C.,Richardella,A.Kernel methods for relation extraction[J].Journal of Machine Learning Research,2003,(7):1083-1106.

[4]程虹.2012年中国质量状况——消费者感知与模型构建[J].宏观质量研究,2013,(1):33-48.

[5]罗英.共享与善治:质量公共服务对质量监管效果的影响——基于我国宏观质量观测数据的实证分析[J].宏观质量研究,2013,(1):59-67.

[6]李酣.中国政府质量安全责任的消费者评价及影响因素——基于2012年全国调查问卷的实证研究[J].宏观质量研究,2013,(1):118-128.

[7]吕实诚,宋晓波,王晶.基于网络的高精度数据采集卡设计[J].哈尔滨理工大学学报,2012,(2):22-26.

[8]杨际祥,谭国真,王凡,等.一种大规模分布式计算负载均衡策略[J].电子学报,2012,(11):2226-2231.

[9]Kale,LV.Comparing the performance of two dynamic load distribution methods[C].Proceedings of the 1988 International Conference on Parallel Processing,August,1988,The Pennsylvania State University.University Park,PA,USA:Pennsylvania State University Press,8-12.

[10]Shu,WW.,KALE,LV.A dynamic scheduling strategy for the Chare-Kernel system[C].Proceedings of the 1989 ACM/IEEE Conference on Supercomputing,June 5-9,1989,Crete,Greece.New York,NY,USA:ACM Press,389-398.

[11]张聪萍,尹建伟.分布式文件系统的动态负载均衡算法[J].小型微型计算机系统,2011,(7):1424-1426.

[12]Cambazoglu,BB.,Karace,E.,Kucukyilmaz,T.,et al.Architecture of a Grid-Enabled Web Search Engine[J].Information Processing and Management,2007,(3),389-398.

[13]Exposto,J.,Macedo,J.,Pina,A.,et al.Geographical Partition for Distributed Web Crawling[C].2005 Workshop on Geographic Information Retrieval,ACM Press,2005:55-60.

[14]Papapetrou,O.,Samaras,G.Ipmicra:An Ip-Address Based Location Aware Distributed Web Crawler[C].The 5th International Conference on Internet Computing(IC 2004),Las Vegas,2004:694-699.

[15]石慧,刘晓平.协同设计中的任务调度算法及实现[J].中山大学学报:自然科学版,2008,(6):104-108.

[16]陈曦,曾华遷,吴涛.基于分布式哈希表的协作式Web服务组合[J].计算机应用,2012,(5):1197-1202.

(本文责任编辑:孙国雷)

endprint

猜你喜欢
数据采集
Web网络大数据分类系统的设计与改进
基于大型嵌入式系统的污水检测系统设计
基于开源系统的综合业务数据采集系统的开发研究