当前位置:文档之家› 分布式爬虫的动态负载均衡方法研究

分布式爬虫的动态负载均衡方法研究

目录

摘要 .......................................................................................................................... I ABSTRACT ................................................................................................................ II 第1章绪论 . (1)

1.1 研究背景和意义 (1)

1.2 国内外相关研究和综述 (2)

1.2.1 网络爬虫 (2)

1.2.2 负载均衡的实现机制 (3)

1.2.3 负载均衡的实现技术 (3)

1.2.4 存在的问题 (5)

1.3 本文研究内容 (6)

1.4 本文的结构安排 (6)

第2章分布式爬虫系统的相关技术 (8)

2.1 引言 (8)

2.2 分布式系统 (8)

2.2.1 分布式系统的优点 (8)

2.2.2 分布式系统的缺点 (9)

2.2.3 分布式系统的任务调度 (9)

2.3 网络爬虫 (10)

2.3.1 通用Web爬虫 (10)

2.3.2 聚焦Web爬虫 (11)

2.4 爬行策略 (12)

2.4.1 广度优先策略 (13)

2.4.2 深度优先策略 (13)

2.4.3 最佳优先策略 (14)

2.5 布隆过滤器 (14)

2.6 本章小结 (15)

第3章基于在线反馈的站点规模动态预测算法 (16)

3.1 引言 (16)

3.2 站点规模 (16)

3.3 站点增长比 (17)

3.4 在线反馈信息 (20)

3.5 站点规模预测模型训练 (21)

3.5.1 损失函数 (21)

3.5.2 模型的参数训练 (21)

3.5.3 训练数据及方法 (24)

3.6 实验及结果分析 (26)

3.7 本章小结 (29)

第4章基于站点规模预测的分布式爬虫动态负载均衡方法 (30)

4.1 引言 (30)

4.2 动态负载均衡算法的权衡因素 (30)

4.2.1 任务负荷的评估 (30)

4.2.2 任务迁移的代价 (30)

4.2.3 系统的鲁棒性和可扩展性 (30)

4.3 爬行器负荷当量的计算 (31)

4.4 负载均衡的衡量——负载系数 (32)

4.5 任务调度的策略 (33)

4.6 通信开销问题 (34)

4.7 对比实验及结果分析 (35)

4.7.1 实验环境 (35)

4.7.2 实验结果及分析 (35)

4.8 本章小结 (42)

第5章分布式爬虫系统设计与实现 (43)

5.1 分布式爬虫的整体架构 (43)

5.2 分布式爬虫系统模块功能设计与实现 (44)

5.2.1 爬行模块 (44)

5.2.2 服务器模块 (45)

5.2.3 负载均衡模块 (46)

5.2.4 系统的鲁棒性和扩展性模块 (47)

5.3 本章小结 (48)

结论 (49)

参考文献 (50)

哈尔滨工业大学学位论文原创性声明和使用权限 (54)

致谢 (55)

第1章绪论

1.1 研究背景和意义

随着互联网技术的高速发展,网页信息正以指数级的速度高速膨胀,人们对于能够从互联网上准确且高效地查找出自己想要的信息提出了越来越高的要求。网络爬虫作为搜索引擎的核心组件之一,负责采集互联网上的信息。而今随着大数据时代的来临,信息爆炸式地增长,对网络爬虫的性能提出更高的要求。

目前,单节点爬行器不论从CPU的运算能力,还是从硬盘的I/O速率及存储容量,都难以应对大规模数据量的采集。因此,采用分布式处理技术的网络爬虫系统成为提升网络数据采集能力的必然选择。在信息抓取的进程中,节点性能的不一致性和采集任务量的不确定性,都使得分布式爬虫在并行采集页面时存在着不均衡的现象,该现象主要体现在节点之间的负载失衡。应对失衡的现象,任务调度的策略方案应运而生,系统的通信开销和合理地将任务进行分割是任务调度中两个核心的问题。对于任务调度的研究,不同的分布式系统具有不同的特点,因此需要针对的制定不同的任务调度方案。

目前,分布式爬虫系统在互联网信息采集中广泛应用,但是从负载均衡设计的角度来看,均存在不足,因而造成了系统性能的瓶颈。负载均衡问题本身与系统自身和实际需求紧密关联,没有统一的标准,因此对于不同的分布式爬虫系统而言,需根据实际的需求情况设计不同的负载均衡策略。

对于分布式系统而言,系统的鲁棒性和可扩展性具有非常重要的意义,一般采用动态可配置的形式,当系统新增节点或节点发生故障时,可以快速作出响应,使系统恢复到平衡状态,这给分布式系统的稳定性提供了一个有力的保证。

设计优秀的动态负载均衡策略能够极大提升集群的性能,能及时采集更新的页面,因此对获取更新、更全的信息具有重要意义。负载均衡对于分布式爬虫系统的整体性能至关重要,近年来,对分布式系统负载均衡方面的研究已经取得了不少进展。

本课题研究采用动态负载均衡算法在分布式爬虫系统的各个节点之间,如何动态、合理地划分网页的下载任务,保证各集群节点间获得适当的任务量,从而避免节点负载失衡的现象。

基于以上,本课题将在以下三个方面展开研究:

相关主题
文本预览
相关文档 最新文档