当前位置:文档之家› 分布式网络爬虫设计文档

分布式网络爬虫设计文档

分布式网络爬虫设计文档
分布式网络爬虫设计文档

分布式网络爬虫设计文档

刘祎睿陈蔚瀚李嘉一、实验目标:

本次实验目标为设计一个分布式网络爬虫实现一下功能:

1.从一个给定的网址中分析其所包含的URL并爬取对应的网页,直到爬取完全部不重复的

网页为止。

2.支持分布式爬取,同时记录输出每一个网页的大小。

3.采用多线程结构设计,实现高性能的网络爬虫。

二、整体架构设计:

本系统整体架构如下图,由主线程、异步抓取线程、网页解析线程三类线程构成,其中,网页分析线程由网页分析线程池统一分配调度。线程间的通信由网页结果队列和URL人任务队列负责,两个消息队列由轻量级消息队列Nanomsg创建采用Pipeline模式。主线程主要负责异步抓取线程和网页解析线程池的创建。异步抓取线程主要负责从URL任务队列中获取网页网址,然后完成网页的Socket抓取,并将得到的网页存入网页结果队列中。网页解析线程池主要负责分配网页解析线程从网页结果队列提取网页进行分析。网页解析线程主要负责从网页内容中提取出有效的URL并存入URL任务队列。

三、架构实现要点:

完成本爬虫系统主要需要实现两个核心线程,分别是异步抓取线程和网页解析线程。

1.异步抓取线程设计

抓取线程主要靠Libevent库来实现,Libevent库是一个基于Reactor模型的一个网络库,支持异步的调用函数。只需在初始化的时候在相应时间上一个函数,程序就会在该事件发生时调用对应的函数库。

为了实现通过Libevent完成网页的连接和抓取,需要注册两个事件receiveResponse_cb 和eventcb,其中receiveResponse_cb负责读取,eventcb负责设置判断是否发生建立连接事件,超时事件读取结束事件等。

线程的整体逻辑如下图,首先完成相关事件注册,然后让线程处于循环查询状态,判断相关事件是否发生,如果定时事件被触发,爬取线程就会从URL任务队列中读取URL,然后通过Socket建立网络连接,并将连接事件加入队列。如果连接建立时间被触发,则爬取线程会向服务器发送HTTP请求。当连接数据事件到达事件被触发,爬取线程会读取HTTP响应,并将网页内容放入网页结果队列。

2.网页解析线程设计

网页解析线程主要负责解析HTML语言,通过使用有限状态自动机提取HTML中出现的有效连接,并将URL链接存入URL任务队列中。其整体流程如下:

(1)从网页结果队列中读取抓取HTML

(2)识别匹配网页字符集

(3)提取网页中的有效URL

(4)将提取出的URL放入URL队列中

从HTML中提取链接所使用的有效状态自动机如下图:

HTML链接中的URL主要放在标签中的href属性中,我们采用的状态机的方式提取出标签中的URL。分析时也需要去除href=”#”、href=”javascript::void(0)”等这样的无效链接,对于href=”a.html#a1”这样的锚点链接,我们要将后面的锚点去掉,只留下a.html。这样在去重的时候,能够保证不将a.html#a1和a.html#a2视为两个链接。同时我们需要把相对URL 地址转化为绝对地址。并将URL中无效的部分剔除掉,如某些URL后会包含?XXXXXXX,这些对于URL地址都是无效的。

在提取过程中我们还要完成URL的去重工作,避免反复抓取同一个URL地址。在本次实验中,使用的是实验一大规模字符串查找中的TRIE树来进行查重。在使用TRIE树的时候,需要注意进行线程的同步。由于上一个实验的代码是单线程的程序,所以TRIE树的插入、查找的操作也是单线程的。所以在使用时需要用pthread_mutex_t来进行线程间的同步与互斥操作。

3.消息队列设计

消息队列采用的是Nanomsg库,这是一个使用C语言编写的一个消息队列,可以轻松完成跨线程、跨进程、跨机器的通讯。Nanomsg的通讯模式有NN_PAIR、NN_REPREQ、NN_PIPELINE等通讯模型。本程序采用的通讯模型主要是NN_PIPLINE的通讯模型,它是一种单向的通信,其通信模型如下图:

4.线程池

进程池线程主要采用的是threadpool.c和threadpool.h这两个文件。其中,create_threadpool函数新建了一个线程池,并将线程池进行初始化操作。在实际需要调用线程的时候,只需要使用dispatch函数,将要调用的函数指针、参数传递进去。线程池会自动给你调用执行并回收资源。通过线程池可以很好的控制分析线程运行的个数,做到按需来分配线程,避免了因频繁生成和销毁线程造成的线程开销。

四、实验结果:

经过多次运行,该程序总共分析出了个153596链接地址,总共文件大小为10458295052字节

山东建筑大学计算机网络课程设计基于Python的网络爬虫设计

山东建筑大学 课程设计成果报告 题目:基于Python的网络爬虫设计课程:计算机网络A 院(部):管理工程学院 专业:信息管理与信息系统 班级: 学生姓名: 学号: 指导教师: 完成日期:

目录 1 设计目的 0 2 设计任务内容 0 3 网络爬虫程序总体设计 0 4 网络爬虫程序详细设计 0 4.1 设计环境和目标分析 0 4.1.1 设计环境 0 4.1.2 目标分析 (1) 4.2 爬虫运行流程分析 (1) 4.3 控制模块详细设计 (2) 4.3 爬虫模块详细设计 (2) 4.3.1 URL管理器设计 (2) 4.3.2 网页下载器设计 (2) 4.3.3 网页解析器设计 (2) 4.4数据输出器详细设计 (3) 5 调试与测试 (3) 5.1 调试过程中遇到的问题 (3) 5.2测试数据及结果显示 (4) 6 课程设计心得与体会 (4) 7 参考文献 (5) 8 附录1 网络爬虫程序设计代码 (5) 9 附录2 网络爬虫爬取的数据文档 (8)

1 设计目的 本课程设计是信息管理与信息系统专业重要的实践性环节之一,是在学生学习完《计算机网络》课程后进行的一次全面的综合练习。本课程设计的目的和任务: 1.巩固和加深学生对计算机网络基本知识的理解和掌握; 2.培养学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力; 3.提高学生进行技术总结和撰写说明书的能力。 2 设计任务内容 网络爬虫是从web中发现,下载以及存储内容,是搜索引擎的核心部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 参照开放源码分析网络爬虫实现方法,给出设计方案,画出设计流程图。 选择自己熟悉的开发环境,实现网络爬虫抓取页面、从而形成结构化数据的基本功能,界面适当美化。给出软件测试结果。 3 网络爬虫程序总体设计 在本爬虫程序中共有三个模块: 1、爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况 2、爬虫模块:包含三个小模块,URL管理器、网页下载器、网页解析器。 (1)URL管理器:对需要爬取的URL和已经爬取过的URL进行管理,可以从URL 管理器中取出一个待爬取的URL,传递给网页下载器。 (2)网页下载器:网页下载器将URL指定的网页下载下来,存储成一个字符串,传递给网页解析器。 (3)网页解析器:网页解析器解析传递的字符串,解析器不仅可以解析出需要爬取的数据,而且还可以解析出每一个网页指向其他网页的URL,这些URL被解析出来会补充进URL管理器 3、数据输出模块:存储爬取的数据 4 网络爬虫程序详细设计 4.1 设计环境和目标分析 4.1.1 设计环境

基于python的网络爬虫设计

基于p y t h o n的网络爬虫 设计 Last updated on the afternoon of January 3, 2021

基于python的网络爬虫设计 【摘要】近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网上爬取数据的手段。网络爬虫,即WebSpider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。那么,既然网络爬虫有着如此先进快捷的特点,我们该如何实现它呢?在众多面向对象的语言中,首选python,因为python是一种“解释型的、面向对象的、带有动态语义的”高级程序,可以使人在编程时保持自己的风格,并且编写的程 序清晰易懂,有着很广阔的应用前景。 关键词python爬虫数据 1前言 本编程设计的目的和意义 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(例如传统的通用搜索引擎AltaVista,Yahoo!和Google等)作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(generalpurposewebcrawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 编程设计目及思路 学习了解并熟练掌握python的语法规则和基本使用,对网络爬虫的基础知识进行了一定程度的理解,提高对网页源代码的认知水平,学习用正则表达式来完成匹配查找的工作,了解数据库的用途,学习mongodb数据库的安装和使用,及配合python的工作。 (1)以世纪佳缘网为例,思考自己所需要的数据资源,并以此为基础设计自己的爬虫程序。 (2)应用python伪装成浏览器自动登陆世纪佳缘网,加入变量打开多个网页。 (3)通过python的urllib2函数进行世纪佳缘网源代码的获取。 (4)用正则表达式分析源代码,找到所需信息导入excel。

课程设计实验报告

竭诚为您提供优质文档/双击可除 课程设计实验报告 篇一:课程设计(综合实验)报告格式 课程设计报告 (20XX--20XX年度第一学期) 名称:题目:院系:班级:学号:学生姓名:指导教师:设计周数: 成绩:日期:《软件设计与实践》课程设计计算机系软件设计与实践教学组 20XX年1月14 日 《软件设计与实践》课程设计 任务书 一、目的与要求 1.了解网络爬虫的架构和工作原理,实现网络爬虫的基本框架;2.开发平台采用JDK1.60eclipse集成开发环境。 二、主要内容 1.了解网络爬虫的构架,熟悉网页抓取的整个流程。

2.学习宽度优先和深度优先算法,实现宽度crawler应用程序的编写、调试和运行。 3.学习主题爬行及内容分析技术。 4.实现网络爬虫的基本框架。 三、进度计划 四、设计成果要求 1.要求按时按量完成所规定的实验内容; 2.界面设计要求友好、灵活、易操作、通用性强、具有实用性; 3.基本掌握所采用的开发平台。五、考核方式 平时成绩+验收+实验报告。 学生姓名:于兴隆指导教师:王蓝婧20XX年1月2日 一、课程设计的目的与要求1.目的: 1.1掌握crawler的工作原理及实现方法;1.2了解爬虫架构; 1.3熟悉网页抓取的整个流程及操作步骤; 1.4掌握宽度优先,深度优先算法,并实现宽度crawler 应用程序的编写、调试和运行;1.5掌握主题爬行及内容分析技术;1.6实现一个最基础的主题爬虫的过程;1.7理解pageRank算法,并编程验证;二、设计正文 网络爬虫研究与应用 [摘要]:本文通过对网络爬虫研究的逐步展开,讨论了爬虫的相关概念与技术,并通过实验设计了简单的基于宽度

分布式爬虫实验设计文档

分布式网络爬虫实验 五组赵成龙、黄莹 一、需求分析 (2) 二、实验架构及原理 (2) 三、模块设计及代码实现 (3) 爬取网页模块设计 (3) < DNS解析 (4) Socket连接 (4) 发送HTTP请求头并获得相应 (6) 网页解析模块设计 (7) 正则表达式的设计 (8) 测试用例的设计 (8) 利用Regex库提取网页URL (8) 利用Pcre库提取网页URL (10) 》 四、心得体会 (12)

一、需求分析 随着国际互联网的迅速发展,网上的信息越来越多,全球网页数量超过20亿,每天新增加730万网页。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。在实际生活中我们经常会使用像百度、Google这些搜索引擎检索各种信息,搜索引擎正是为了解决这个问题而出现的技术,而网络爬虫正是搜索引擎所需要的关键部分既然百度、Google这些搜索引擎巨头已经帮我们抓取了互联网的大部分信息,为什么还要自己写爬虫呢因为深入整合信息的需求是广泛存在的,在企业中,爬虫抓取下来的信息可以作为数据仓库多维展现的数据源,也可以作为数据挖掘的来源,甚至有人为了炒股,专门抓取股票信息。这些实际问题的解决所需要的根本技术就是分布网络爬虫。 本次实验主要的内容就是利用IO复用抓取网页,并多线程的分析每个抓取到的网页所包含的URL信息,通过消息队列将抓取网页的部分和分析网页部分进行通信,最终记录下160000网页中所包含的所有URL,实现分布式网络爬虫。 》 二、实验架构及原理 本实验分为两个模块:爬取网页模块、网页分析模块。实验架构如图所示

图分布是网络爬虫框架 爬取网页模块采用socket通信方式实现客户端与服务器的通信:首先将客户端与服务器进行三次握手后建立连接,客户端发送HTTP请求头,服务器端收到客户端请求后,进行HTTP响应,发送相应的网页信息,客户端收到服务器的响应后将所获得网页文件交给网页分析模块进行处理并提取URL。流程图如图所示: 图爬取网页模块流程图 网页分析模块主要工作如下图流程图所示。而本模块的网页分析处理主要在于对抓取到的HTML文件的内容进行URL的提取,我们主要运用正则表达式进行字符串的匹配操作。通过采用Regex正则表达式库和Pcre正则表达式库进行了两种尝试,并根据网页的情况设计了测试用例,进行程序的检验。 !

JAVA基于网络爬虫的搜索引擎设计与实现

本科毕业设计 题目:基于网络爬虫的搜索引擎设计与实现 系别: 专业:计算机科学与技术 班级: 学号: 姓名: 同组人: 指导教师:教师职称:协助指导教师:教师职称:

摘要 本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地住,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络蜘蛛的程序,对其运行结果做了分析。 关键字:爬虫、搜索引擎

Abstract The paper,discussing from the application of the search engine,searches the importance and function of Web spider in the search engine.and puts forward its demand of function and design.On the base of analyzing Web Spider’s system strtucture and working elements.this paper also researches the method and strategy of multithreading scheduler,Web page crawling and HTML parsing.And then.a program of web page crawling based on Java is applied and analyzed. Keyword: spider, search engine

网络爬虫工作原理

网络爬虫工作原理 1 聚焦爬虫工作原理及关键技术概述 网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: (1) 对抓取目标的描述或定义; (2) 对网页或数据的分析与过滤; (3) 对URL的搜索策略。 抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。 2 抓取目标描述 现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。 基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为: (1)预先给定的初始抓取种子样本; (2)预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等; (3)通过用户行为确定的抓取目标样例,分为: a) 用户浏览过程中显示标注的抓取样本; b) 通过用户日志挖掘得到访问模式及相关样本。 其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。现有的聚焦爬虫对抓取目标的描述或定义可以分为基于目标网页特征,基于目标数据模式和基于领域概念三种。 基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的方法根据种子样本的获取方式可以分为:(1)预先给定的初始抓取种子样本;(2)预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;(3)通过用户行为确定的抓取目标样例。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。 基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

网络爬虫的设计与实现(完整版)

网络爬虫的设计与实现

摘要 网络爬虫将下载的网页和收集到的网页信息存储在本地数据库中以供搜索引擎使用,它是一个专门从万维网上下载网页并分析网页的程序。随着网络的快速发展,人们对搜索引擎的要求也越来越高,而网络爬虫的效率直接影响着搜索引擎的质量。 本课题研究的是通用网络爬虫,它是从一个或若干个初始网页的链接开始进而得到一个链接队列。伴随着网页的抓取又不断从抓取到的网页中抽取新链接放入到链接队列中,直到爬虫系统满足了停止条件。该课题主要涉及到了缓冲池技术,多线程技术,套接字技术,HTTP和SSL协议,正则表达式,Linux网络编程技术,PHP+Apache的使用等相关技术。 本说明书叙述的网络爬虫是以Linux C实现的,加以PHP语言编写的界面使用户更加方面的操作,利用Shell脚本和Apache服务器使得爬虫系统和界面很好的结合在一起。 关键词:网络爬虫缓冲池正则表达式 SSL协议多线程

目次 1 引言 (1) 1.1 课题选题背景 (1) 1.2 课题研究的意义 (2) 2 需求分析 (3) 2.1 功能需求分析 (3) 2.2 系统性能分析 (4) 3 系统设计 (5) 3.1 系统工作流程图 (5) 3.2 数据结构设计 (6) 3.3 系统各功能流程图 (7) 4 系统实现 (10) 4.1 相关技术分析 (10) 4.2 系统功能模块的实现 (11) 5 测试与结果 (17) 结论 (23) 致谢............................................................................................ 错误!未定义书签。参考文献. (24)

网络爬虫详解

网络爬虫详解 一、爬虫技术研究综述 引言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如: (1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。 (2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 (3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。 (4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。 为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 1 聚焦爬虫工作原理及关键技术概述 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,如图1(a)流程图所示。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,如图1(b)所示。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: (1) 对抓取目标的描述或定义; (2) 对网页或数据的分析与过滤; (3) 对URL的搜索策略。 抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

网络爬虫课程设计文档

网络爬虫 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 简单来说,网络爬虫的基本工作流程可以分为如下几步: 1.首先选取一部分精心挑选的种子URL; 2.将这些URL放入待抓取URL队列; 3.从待抓取URL队列中取出待抓取URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。 4.分析已抓取URL队列中的URL,并且将URL放入待抓取URL队列,从而进入下一个循环。 对URL的认识 爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它进行进一步的处理。因此,准确地理解URL对理解网络爬虫至关重要。 URL:统一资源定位符,是Internet 上描述信息资源的字符串。URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL 的格式由三部分组成:第一部分是协议(或称为服务方式)。 第二部分是存有该资源的主机IP地址(有时也包括端口号)。 第三部分是主机资源的具体地址,如目录和文件名等。 第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。 1.HTTP 协议的URL 示例

使用超级文本传输协议HTTP,提供超级文本信息服务的资源。 例:https://www.doczj.com/doc/fa8316194.html,/channel/welcome.htm。其计算机域名为https://www.doczj.com/doc/fa8316194.html,。超级文本文件(文件类型为.html)是在目录/channel 下的welcome.htm。这是中国人民日报的一台计算机。 例:https://www.doczj.com/doc/fa8316194.html,/talk/talk1.htm。其计算机域名为https://www.doczj.com/doc/fa8316194.html,。超级文本文件(文件类型为.html)是在目录/talk 下的talk1.htm。 2.文件的URL 用URL表示文件时,服务器方式用file表示,后面要有主机IP 地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名,但“/”符号不能省略。 例:file://https://www.doczj.com/doc/fa8316194.html,/pub/files/foobar.txt。代表存放在主机https://www.doczj.com/doc/fa8316194.html, 上的pub/files/目录下的一个文件,文件名是foobar.txt。 例:file://https://www.doczj.com/doc/fa8316194.html,/pub。代表主机https://www.doczj.com/doc/fa8316194.html, 上的目录/pub。 例:file://https://www.doczj.com/doc/fa8316194.html,/。代表主机https://www.doczj.com/doc/fa8316194.html, 的根目录。 通过URL抓取网页 1.抓取单个网页 所谓网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,然后读取服务器端的响应资源。 Java网页抓取 Java 语言把网络资源看成是一种文件,它对网络资源的访问和对本地文件的访问一样方便。它把请求和响应封装为流。因此我们可以根据相应内容,获得响应流,之后从流中按字节读取数据。例如,https://www.doczj.com/doc/fa8316194.html,.URL 类可以对相应的Web服务器发出请求并且获得响应文档。https://www.doczj.com/doc/fa8316194.html,.URL 类有一个默认的构造函数,使用URL 地址作为参数,构造URL 对象:URL pageURL = new URL(path);接着,可以通过获得的URL对象来取得网络流,进而像操作本地文件一样来操作网络资源:InputStream stream = pageURL.openStream()。 HttpClient Get方法 在实际的项目中,网络环境比较复杂。因此,只用https://www.doczj.com/doc/fa8316194.html, 包中的API来模拟IE客户端的工作,会产生很大的代码量。需要处理HTTP返回的状态码,设置HTTP代理,处理HTTPS 协议等工作。为了便于应用程序的开发,实际开发时常常使用Apache 的HTTP客户端开源项目——HttpClient。它完全能够处理HTTP 连接中的各种问题,使用起来非常方便。只需在项目中引入HttpClient.jar 包,就可以模拟IE 来获取网页内容。例如: //创建一个客户端,类似于打开一个浏览器 HttpClient httpclient=new HttpClient(); //创建一个get 方法,类似于在浏览器地址栏中输入一个地址

分布式网络爬虫技术分析与实现

1990年以前,没有任何人能搜索互联网。所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage,Peter Deutsch.BillWheelan发明的Archie(Archie FAQ)。一个可以用文件名查找文件的系统,于是便有了Archie.Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。1995年12月,Altavista永远改变了搜索引擎的定义。AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND,OR,NOT等)。用户可以用Altavista搜索Newsgroups新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveX objects.许多关于网络爬虫的论文都在第一届和第二届World Wide Web conferences被发表。1998年,Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。至2005年4月21为止,Google中所收集的Web页面数量已经达到8,058,044,651张。现阶段,出现了Ask Jeeves,https://www.doczj.com/doc/fa8316194.html,,https://www.doczj.com/doc/fa8316194.html,,MySimon,Dito等内容类别不同的搜索引擎。 2搜索引擎的发展现状与趋势 目前,大多数的搜索引擎都是基于关键词的搜索引擎。基于关键字匹配的搜索技术有较大的局限性:首先,它不能区分同形异义。其次,不能联想到关键字的同义词[9]。 Web商业化至今,搜索引擎始终保持着网络上被使用最多的服务项目的地位,然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。这表现在以下几个方面: (1)搜索引擎对自然语言提问没有理解能力。 (2)搜索引擎收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。 (3)搜索引擎无法与电子商务紧密结合。 (4)搜索引擎对多媒体内容的处理尚不成熟。 搜索引擎的发展面临着两大难题:一是如何跟上Internet的发展速度,二是如何为用户提供更精确的查询结果。所以,传统的引擎不能适应信息技术的高速发展,新一代智能搜索引擎作为一种高效搜索引擎技术的在当今的网络信息时代日益引起业界人士的关注。搜索引擎己成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向。 1.自然语言理解技术 自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言。以自然语言理解技术为基础的新一代搜索引擎,我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而这种搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为它们提供更方便、更确切的搜索服务。 2.十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法: (1)是通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代

网络爬虫的系统实现

简述网络爬虫的系统实现 网络爬虫常常被人所忽略,特别是和搜索引擎的光环相比,它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而,爬虫其实是非常重要的一个系统,特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者项目,没有任何原始的数据积累,那么通过爬虫去Internet上找到那些有价值的数据再进行数据的清洗和整理,是一个可以快速得到数据的重要手段。 本文侧重于爬虫的系统设计和实现的部分细节,内容来源于两方面,一是我这一个多月做爬虫的心得体会,但我做的爬虫规模不至于太大,对于性能的要求达不到诸如百度那么高的要求,第二则是来源于阅读的几篇文献。我找到的大部分关于爬虫的系统方面的文献都是2000年左右的,此后寥寥无几,说明关于爬虫的系统设计在10年前已经基本解决了(2000年不就是Baidu刚开始的时候么,说不定它家的爬虫也参考了这些文章^-^)。 此外,既然本文侧重于系统方面的问题,那么某些内容就不会涉及,比如如何抓取那些隐藏的web数据,如何抓取ajax的页面,如何动态调整抓取频率等等。 正文 一个正规的,完整的网络爬虫其实是一个很复杂的系统:首先,它是一个海量数据处理系统,因为它所要面对的是整个互联网的网页,即便是一个小型的,垂直类的爬虫,一般也需要抓取上十亿或者上百亿的网页;其次,它也是一个对性能要求很好的系统,可能需要同时下载成千上万的网页,快速的提取网页中的url,对海量的url进行去重,等等;最后,它确实是一个不面向终端用户的系统,所以,虽然也很需要稳定性,但偶然的当机并不会是灾难,而且,不会出现类似访问量激增这样的情况,同时,如果短暂的时间内出现性能的下滑也不算是个问题,从这一点来看,爬虫的系统设计在某些部分又变得简单了许多。

Python网络爬虫实习报告总结归纳

Python网络爬虫实习报告

目录

一、选题背景 二、爬虫原理 三、爬虫历史和分类 四、常用爬虫框架比较 Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。 Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。 Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。 newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。 Python-goose框架:Python-goose框架可提取的信息包括:<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo视频;<4>元描述;<5>元标签

五、数据爬取实战(豆瓣网爬取电影数据)1分析网页 # 获取html源代码 def __getHtml(): data = [] pageNum = 1 pageSize = 0 try: while (pageSize <= 125): # 'Referer':None #注意如果依然不能抓取的话,这里可以设置抓取网站的host # } # = [headers] pageNum) pageSize += 25 pageNum += 1 print(pageSize, pageNum)

山东建筑大学计算机网络课程设计基于Python的网络爬虫设计范文

山东建筑大学计算机网络课程设计基于Python的网络爬 虫设计

山东建筑大学 课程设计成果报告 题目:基于Python的网络爬虫设计课程:计算机网络A 院(部):管理工程学院 专业:信息管理与信息系统 班级: 学生姓名: 学号: 指导教师: 完成日期:

目录 1 设计目的 0 2 设计任务内容 0 3 网络爬虫程序总体设计 0 4 网络爬虫程序详细设计 (1) 4.1 设计环境和目标分析 (1) 4.1.1 设计环境 (1) 4.1.2 目标分析 (1) 4.2 爬虫运行流程分析 (2) 4.3 控制模块详细设计 (3) 4.3 爬虫模块详细设计 (3) 4.3.1 URL管理器设计 (3) 4.3.2 网页下载器设计 (4) 4.3.3 网页解析器设计 (5) 4.4数据输出器详细设计 (6) 5 调试与测试 (6) 5.1 调试过程中遇到的问题 (6) 5.2测试数据及结果显示 (7) 6 课程设计心得与体会 (7) 7 参考文献 (8) 8 附录1 网络爬虫程序设计代码 (8)

9 附录2 网络爬虫爬取的数据文档 (15)

1 设计目的 本课程设计是信息管理与信息系统专业重要的实践性环节之一,是在学生学习完《计算机网络》课程后进行的一次全面的综合练习。本课程设计的目的和任务: 1.巩固和加深学生对计算机网络基本知识的理解和掌握; 2.培养学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力; 3.提高学生进行技术总结和撰写说明书的能力。 2 设计任务内容 网络爬虫是从web中发现,下载以及存储内容,是搜索引擎的核心部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 参照开放源码分析网络爬虫实现方法,给出设计方案,画出设计流程图。 选择自己熟悉的开发环境,实现网络爬虫抓取页面、从而形成结构化数据的基本功能,界面适当美化。给出软件测试结果。 3 网络爬虫程序总体设计

网络爬虫工具如何爬取网站数据

https://www.doczj.com/doc/fa8316194.html, 网络爬虫的基本原理是什么 目前网络爬虫已经是当下最火热的一个话题,许多新兴技术比如VR、智能机器人等等,都是依赖于底层对大数据的分析,而大数据又是从何而来呢?其中最常用的手段即是使用网络爬虫工具去获取。提起网络爬虫工具,很多小伙伴还可能没这么接触过。本文将解决以下问题:网络爬虫是什么,基本原理是什么;网络爬虫工具是什么;八爪鱼采集器是什么;三者的关系是什么。 先上重点:八爪鱼是一个网页采集器,网页采集器是一种专门的爬虫工具。 爬虫、网页采集器、八爪鱼关系图

https://www.doczj.com/doc/fa8316194.html, 一、网络爬虫是什么,原理是什么 爬虫是什么:网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。又被称为网页蜘蛛,聚焦爬虫,网络机器人。在FOAF社区中间,更经常的称为网页追逐者,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 爬虫工作原理:网络爬虫系统一般会选择一些比较重要的、出度(网页中链出超链接数)较大的网站的URL作为种子URL集合。以这些种子集合作为初始URL,开始数据抓取。 其基本工作流程如下: 1)将这些种子URL集合放入待抓取URL队列。 2)从待抓取URL队列中,取出待抓取URL,解析DNS,并且得到主机的ip,并将URL 对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。3)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL 队列,从而进入下一个循环。如此反复进行,直到遍历了整个网络或者满足某种条件后,才会停止下来。

https://www.doczj.com/doc/fa8316194.html, 爬虫工具原理 二、网页采集器是什么八爪鱼采集器是什么 网页采集器:这里讲的网页采集器,专门指会根据用户的指令或者设置,从指定的网页上获取用户指定内容的工具软件。严格来讲,这里说的网页采集器也是爬虫的一种。 八爪鱼采集器:八爪鱼采集器就是一种网页采集器,用户可以设置从哪个网站爬取数据,爬取那些数据,爬取什么范围的数据,什么时候去爬取数据,爬取的数据如何保存等等。 八爪鱼采集的核心原理是:模拟人浏览网页,复制数据的行为,通过记录和模拟人的一系列上网行为,代替人眼浏览网页,代替人手工复制网页数据,从而实现自动化从网页采集数据,然后通过不断重复一系列设定的动作流程,实现全自动采集大量数据。 八爪鱼采集器可应对各种网页的复杂结构(AJAX页面、瀑布流等)和防采集措施(登录、

高性能网络爬虫系统的设计与实现

2019年4月 件实力较强的大型企业,应该在这方面做出更多的努力和贡献,推动小基站的发展走向成熟。 3总结 目前,各厂商相继推出了自家第一代或第二代小基站产品,系统也日渐完善,预计后续将会有更丰富的产品形态面市。运营商深度覆盖将在2015年逐步展开,2016年开始增量,2017年完成大部分场景的覆盖。小基站是深度覆盖的有效发展方案,针对这一工程项目的建设发展,还需要解决一些关键性问题,才能推动小基站建设的有效实现,切实提升通信质量和效率。 参考文献 [1]唐耀生.LTE数字直放站在深度覆盖中的施工方案研究[J].江苏通信,2017,33(03):48-50+54. [2]袁康鹏,赵霞,王业通,俞沁璐.网络数据在数字直放站中融合传输 的设计[J].系统仿真技术,2015,11(01):57-62+68. [3]梁长松.基于MIMO的LTE数字直放站技术研究及系统应用[J].电 子世界,2013(17):14-15. [4]李学易,郝禄国,杨建坡,马绍轩.同频数字直放站回波干扰消除器 的设计[J].电视技术,2010,34(07):16-19. [5]李莉金,梅顺良.数字直放站锁相源的杂散问题解决方案[J].微计算 机信息,2008(15):1-2+8. [6]任姝婕,吴泽民,都明,郑军.3G数字直放站传输接口标准的分析[J].现代电子技术,2005(23):7-9+13. 收稿日期:2019-3-11 高性能网络爬虫系统的设计与实现 宗靖芯(西安交通大学附属中学,陕西省西安市710043) 【摘要】随着互联网的迅速发展,网络承载着大量的信息,但在这些信息里如何有效的提取并利用它们成为技术发展的关键点。因为用户在使用互联网的时候经常有不同的检索要求,但是检索引擎所返回的结果中往往含有许多用户不关心的网页及信息,所以定向抓取相关网页的爬虫系统应运而生。但是现在网络上的主流爬虫系统有的配置复杂,用户难以上手如Heritrix,或有的只能爬取特定字段,限于个别浏览器使用。所以为了优化爬虫系统,本文提出了一套高性能的定向网络爬虫系统,意在提高爬取数据的效率和准确度,并在初步实验中取得了较好成果。 【关键词】分布式;高可用;网络爬虫 【中图分类号】TP391.3【文献标识码】A【文章编号】1006-4222(2019)04-0078-02 1引言及研究背景 随着互联网技术的迅速发展,网络承载了大量的信息,如何有效地提取并利用这些信息成为一个巨大的挑战。在众多传统的搜索引擎如Google Yahoo Alta Vista等,这些常用辅助人们检索信息的工具作为访问互联网的渠道和入口,也有一定的局限性。比如:①检索引擎所返回的结果中往往含有许多用户不关心的网页及信息;②在进行网络检索时,我们希望的是尽可能大的网络覆盖率,但是在有限的搜索引擎服务器资源和无限的网络数据资源之间由于资源配置的不同,所以他们之间的矛盾进一步加深。为了解决以上问题,定向抓取相关网页资源的爬虫系统应运而生。 爬虫系统可以自动下载相关网页,根据相应的信息及人们发出的指令制定所要抓取目标。它可以有选择性的访问互联网上的网页与相关的链接,然后再解密出所需要的信息数据。在经过了实践研究以及用户上手的市场调研后,网络爬取逐渐从通用爬虫转变到聚焦爬虫。在不断进化的过程中,爬虫系统起先并不那么追求较大的网络发概率,而是将目标定为爬取与某一特定主题内容相关的信息,并为主体的用户准备查询的数据资源。 从爬虫技术发展的历史来看,第一个爬虫程序诞生于1993年,是由麻省理工学院的学生马休·格雷所编写。此时爬 虫只是一种自动抓取网页信息的机器人的简称,但格雷在写爬虫程序时,起初目的却并不是为了做搜索引擎,但是却为搜索引擎发展提供了坚实的基础。在搜索引擎技术发展中爬虫的算法越来越复杂,在设计中逐渐向多策略、负载均衡及大规模增量抓取等方面来发展。爬虫算法的优化成果,可以涉及到整个互联网中。而且有些被删除的网页也可以通过爬虫程序内的“网页快照”功能实现访问及恢复。 爬虫的应用前景也十分广阔。比如将爬虫应用到数据挖掘中,来获取数据背后隐藏的价值信息;高性能的爬虫技术在处理海量的数据时往往发挥十分重要的作用。而且分布式技术的应用也能帮助处理海量数据,并当数据存储较散不能集中到一起时发挥重要的集群及搜寻作用。未来爬虫也将在人工智能、模式识别和机器学习等领域大展身手。 2现有爬虫系统的分析 现有的网络爬虫系统有很多如Watij、JRex、JSoup再到后来的Htpp Client和目前的Html Unit,这些系统各有优劣,其中用来评判的标准大多为同一网页的获取时间、解析时间、存储信息时对内存和CPU的占用,及是否支持脚本等。爬虫系统可以应用在大规模的数据爬取,可以从网页中抓取各式各样自己需要的数据,相当于能够自动访问互联网并将网站内容下载下来的程序或脚本,也相当于一个没有图形页面的独立浏览器。 但是因为爬虫系统运行时间过长,所以如果它没有良好的框架结构,就会影响到后续数据的存储。主流爬虫系统的缺点有:①系统严重依赖XPath,不能判别所爬取信息的重要度和价值;②爬虫采用插件模式,系统在每个站点都设置了一个插件,可以用此来保证爬取数据的准确性,但是由于爬取广度小所以系统缺乏在大规模的网络中爬取的能力;③系统不支持集群化的数据处理;④在爬取时由于采用关系型数据库,所以没有使用NOSQL固定的数据库;⑤系统不支持robots协议可能侵犯信息所有人权益所以基于以上缺点,我提出了一种高性能的分布式网络爬虫模型。 3实验思路 3.1模板爬虫的框架策略 通信设计与应用78

基于P2P的分布式主题爬虫系统的设计与实现

情报学报  ISSN1000-0135 第29卷第3期402-407,2010年6月 JOURNALOFTHECHINASOCIETYFORSCIENTIFICANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.3,402-407June 2010 收稿日期:2008年12月18日 作者简介:朱学芳,男,1962年生,毕业于北京大学应用数学专业、博士,南京大学博士后,教授,博士生导师。主要研究领域:计算机图像桙信号处理、模式识别、信息检索自动化理论与技术及应用、信息资源管理等。E-mail:xfzhu@nju.edu.cn。韩占校,男,1981年生,毕业于河北大学信息管理与信息系统专业,硕士生,主要研究领域:网络信息检索技术、图像处理应用技术等。doi:10.3772桙j.issn.1000-0135.2010.03.003 基于P2P的分布式主题爬虫系统的设计与实现 朱学芳 韩占校 (南京大学信息管理系、多媒体信息处理研究所,南京210093) 摘要 本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本 上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求。实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息。 关键词 网络爬虫 对等网络 分布式计算 信息检索 主题爬虫 DesignandImplementationofDistributedTopicCrawlerBasedonP2PforImageRetrieval ZhuXuefangandHanZhanxiao (InstituteofMultimediaInformationProcessing,Dept.ofInformationManagement,NanjingUniversity,Nanjing210093) Abstract Topicalcrawlersorfocusedcrawlersadaptingtothespecificthemeandpersonalizedsearcharerequiredinorderto meettheneedsoftherapidgrowthofwebinformation,whichsuppliesmoreaccurateandmorecomprehensiveinformationandservicesintheshortesttime.Thedesignandimplementationofadistributedwebcrawlerisproposedinthepaper.Itisbasedon P2P-distributedarchitectureandmakesfulluseofP2P-styledynamiccharacteristicsofaddingnewnodestoincreasethescaleandimprovetheoverallcapacity.Theexperimentsshowedthatthissystemcouldefficientlyprovideuserswithrelevantfilesorwebpagesaccordingtothetopic(s)theydefined. Keywords Webcrawler,peertopeer,distributedcomputing,informationretrieval,topicalcrawler 1 引 言 众所周知,Web应用日益趋于多样化,其中的数 据规模越来越庞大,使得海量数据的检索处理变成了研究者关注的问题。如何在存储和处理海量数据以及传递给用户更直接有效的结果三者之间达到平衡,成为未来Web应用要解决的一个难点问题。目前大多数搜索引擎都是将世界上的各个网站的数据 汇集到一起再进行处理,这种方式要求拥有大量的 计算机和网络资源,一般单位或部门难以负担得起这种运行成本 [1] 。考虑到网络数据的分布式特性, 人们希望利用分布于全球的其他普通PC来获取网络数据,即借助于普通PC用户提供的空闲运算能力,形成比较经济的运行方式。更为重要的是,爬虫系统之间的资源共享,可以大量减少网络的负载,可以获得比较高的更新频率,并且不对网络造成负担 [2,3] 。提高检索效率的另一方面考虑是,有效确定 — 204—

相关主题
文本预览
相关文档 最新文档