第二章_Web搜索引擎的原理与结构

格式：ppt
大小：1.12 MB
文档页数：52

下载文档原格式

/ 52

网络搜索引擎工作原理

网络搜索引擎工作原理网络搜索引擎是如何运作的？这是很多人都感兴趣的问题。

随着互联网的迅猛发展，搜索引擎在我们的日常生活中扮演着重要的角色，我们几乎每天都要使用搜索引擎来获取各种信息。

那么，搜索引擎是如何找到我们需要的信息的呢？本文将深入探讨网络搜索引擎的工作原理。

一、数据收集与建立索引搜索引擎的第一步是收集互联网上的信息。

搜索引擎会通过爬虫程序，按照一定的规则自动地浏览互联网上的网页，收集网页上的文本、图片、视频以及其他相关信息。

爬虫程序会递归地从一个页面跳转到另一个页面，不断地扩展搜索引擎的索引范围。

收集到的数据需要经过整理和处理，然后建立索引。

索引是由一系列关键词和相应的网页链接组成的数据库，类似于一本关键词目录。

当我们在搜索引擎上输入关键词时，搜索引擎会根据索引中的关键词找到相关的网页链接，以便后续的搜索。

二、关键词匹配与排序当用户输入关键词进行搜索时，搜索引擎会根据输入的关键词从索引中找到相关的网页链接。

搜索引擎会通过算法对这些网页进行排序，以便将最相关的网页排在前面，提供给用户最有价值的搜索结果。

关键词匹配是搜索引擎中的一个重要环节。

搜索引擎会根据用户输入的关键词在索引中找到包含这些关键词的网页链接。

在匹配时，搜索引擎会考虑关键词的权重、位置和频率等因素，以确定一个网页的相关性和排序。

排序算法是搜索引擎的核心之一。

搜索引擎会使用各种复杂的算法来确定网页的排名，以满足用户的需求。

其中，PageRank算法是当前广泛使用的排名算法之一，它通过计算网页的链接数量和质量来评估网页的权重。

三、搜索结果展示搜索引擎在搜索结果页面中展示匹配用户输入关键词的相关网页链接。

搜索结果一般分为有机搜索结果和广告搜索结果两部分。

有机搜索结果是根据用户输入的关键词和搜索引擎的排序算法得出的，它们是根据网页的相关性进行排序的。

而广告搜索结果则是一些广告主根据关键词向搜索引擎投放的广告。

搜索结果页面通常会显示若干条网页链接，以及每个链接的标题和简介。

搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于在互联网上查找和获取信息的工具。

它通过收集、索引和排序互联网上的网页内容，并根据用户的查询提供相关的搜索结果。

搜索引擎的工作原理可以分为以下几个步骤：1. 网页抓取：搜索引擎会使用称为"蜘蛛"或"爬虫"的程序，自动地在互联网上抓取网页内容。

蜘蛛程序会按照一定的规则遍历网页链接，并将抓取到的网页保存到搜索引擎的数据库中。

2. 网页索引：抓取到的网页内容会经过处理和分析，提取出其中的关键词和关键信息。

搜索引擎会根据这些关键词建立索引，以便后续的搜索查询能够快速地找到相关的网页。

索引通常包括关键词、网页标题、摘要等信息。

3. 搜索查询：当用户在搜索引擎中输入查询关键词时，搜索引擎会根据索引中的信息进行匹配，并找到与查询关键词相关的网页。

搜索引擎会根据一定的算法对网页进行排序，以便将最相关的网页排在前面。

4. 搜索结果展示：搜索引擎会将排序后的搜索结果以列表的形式展示给用户。

搜索结果通常包括网页的标题、摘要和网址等信息，以及可能的相关图片、视频等多媒体内容。

用户可以根据搜索结果点击进入相应的网页查看详细内容。

搜索引擎的工作原理主要依赖于网页的抓取、索引和搜索查询三个关键步骤。

通过不断抓取和更新网页内容，搜索引擎可以保持其搜索结果的实时性和准确性。

同时，搜索引擎会根据用户的搜索行为和反馈信息进行优化，以提供更好的搜索体验。

为了提高搜索结果的质量和准确性，搜索引擎还会考虑一些其他因素，如网页的权威性、相关性和用户体验等。

搜索引擎会根据网页的链接数量、质量和用户的点击行为等因素来评估网页的权威性。

同时，搜索引擎还会根据用户的搜索历史和地理位置等信息，提供更加个性化的搜索结果。

总结起来，搜索引擎的工作原理包括网页抓取、网页索引、搜索查询和搜索结果展示等步骤。

通过不断的抓取和更新网页内容，并根据用户的查询提供相关的搜索结果，搜索引擎可以帮助用户快速、准确地找到所需的信息。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是我们在日常生活中经常使用的工具之一，它能够帮助我们快速找到所需的信息。

然而，由于其复杂的工作原理，很多人并不清楚搜索引擎是如何实现这一功能的。

本文将深入介绍搜索引擎的工作原理，以帮助读者更好地了解这一技术。

一、搜索引擎的概述搜索引擎是一种以关键词搜索为基础的信息检索系统。

它通过自动化程序（即“蜘蛛”或“爬虫”）对互联网上的网站进行持续的抓取和索引，然后根据用户的搜索关键词，展示与之相关的网页或其他资源。

简单来说，搜索引擎的目标是根据用户的需求，提供最相关和最有价值的信息。

二、爬虫的工作原理爬虫是搜索引擎的核心组成部分，它负责抓取互联网上的网页并提取其中的信息。

爬虫程序首先从一个种子URL开始，通过URL解析获取网页内容，并在页面中查找超链接。

一旦发现新的链接，爬虫就会将其添加到待抓取队列中，然后继续抓取其他页面。

这个过程会一直持续下去，直到抓取队列为空。

爬虫在抓取过程中还会注意一些规则，例如robots.txt文件。

这个文件位于网站的根目录下，用于指示搜索引擎哪些页面可以被抓取，哪些页面不应该被抓取。

三、索引的建立当爬虫抓取到一个网页后，搜索引擎会将其存储在索引中。

索引是搜索引擎的另一个核心组成部分，它将网页的内容和相关信息进行结构化存储，以便后续的搜索和排名。

索引的建立过程可以分为三个步骤：分词、建立倒排索引和权重计算。

首先，搜索引擎会将网页的内容进行分词，将文章划分为一个个词语。

然后，根据这些词语进行倒排索引的建立。

倒排索引是指建立一个词语到包含该词语的网页的映射关系。

最后，搜索引擎会根据一些算法和规则，对每个词语的重要性进行权重计算，以确定网页的排名。

四、搜索的过程当用户输入关键词进行搜索后，搜索引擎会根据索引进行检索，并返回与关键词相关的网页列表。

搜索的过程主要分为两个步骤：查询处理和排序。

查询处理是指将用户输入的关键词进行处理，例如分词、去除停用词和词形还原等，以便更准确地进行检索。

搜索引擎基本原理及实现技术

意义
允许收录，允许从页面中扩展链接
禁止收录，禁止从页面中扩展链接
禁止收录，允许从页面中扩展链接允许收录，禁止从页面中扩展链接
爬虫质量的评价标准 1、覆盖率 2、抓取网页的时新性 3、抓取网页的重要性大型商业搜索引擎一般至少包含两套不同目的爬虫系统，一套（fresh bot）主要考虑网页的时新性，一套（deep crawl bot）针对更新不那么频繁的网页。

抓取顺序：1,2,3,4,5,6,7,8,9
深度优先策略

从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接.

抓取顺序：1,2,5,6,3,7,4,8,9
PageRank简介
1）在初始阶段：网页通过链接关系构建起Web图，每个页面设臵相同的PageRank值，通过若干轮的计算，会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行，网页当前的PageRank值会不断得到更新。 2）在一轮中更新页面PageRank得分的计算方法：在一轮更新页面PageRank得分的计算中，每个页面将其当前的 PageRank值平均分配到本页面包含的出链上，这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和，即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值，就完成了一轮 PageRank计算。

用户体验策略
假设：用户往往只查看前3页的搜索内容。原理：保存网页的多个历史版本，根据过去每次内容变化对搜索质量的影响，得出一个平均值，作为判断爬虫抓取该网页时机的参考依据，对质量影响越厉害的网页，越优先调度重新抓取。

3 搜索引擎基础

2014-1-17 22
2.1.3 搜索引擎工作原理
深度优先
广度优先
2014-1-17
23
2.1.3 搜索引擎工作原理—— spider；Google —— Googlebot；
MSN —— MSNbot；
Yahoo —— Slurp。大概一次最多能抓走120KB的信息，谷歌大约能带走100KB左右的信息，因此，如果想你的网站大部分网页信息都被搜索引擎带走的话，那么就不要把网页设计得太长，内容太多。

导出链接数量：控制导出链接数量，以不超过10个为宜。搜索引擎收录网站的页面数量：被收录页面越多（比值），主页PR越
高。查询网站收录页面数量：在搜索引擎中输入：site: （/siteindex/default.htm）
2014-1-17
3
2.1 搜索引擎
2.1.1.搜索引擎的定义
第一阶段（1994-1997）——将网站免费提交到主要搜索引擎代表：Yahoo 第二阶段（1998-2000）——技术性搜索引擎
代表：Google
第三阶段（2001-2002）——从免费向付费方式的转变代表：关键词广告
第四阶段（2003年之后）——从关键词定位到网页内容定位
网站导入链接的质量
（1）加入搜索引擎分类目录与已经加入目录的网站交换链接；（2）获得来自PR值不低于4并与你的主题相关或互补的网站的链接（3）你的链接出现在流量大、知名度高、频繁更新的重要网站上（如新闻源）；（4）与你交换链接的网站具有很少导出链接；（5）与内容质量高的网站链接（PR值上升潜力大）
代表：Yahoo 定向推广 Google AdSense
2014-1-17
4

搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于帮助用户在互联网上查找信息的工具。

它通过收集、索引和排序互联网上的网页内容，以便用户可以根据关键词或短语进行搜索并获取相关的结果。

搜索引擎的工作原理可以分为以下几个步骤：1. 网页抓取：搜索引擎使用称为“爬虫”或“蜘蛛”的程序来抓取互联网上的网页。

这些爬虫程序会从一个网页开始，然后通过链接跳转到其他页面，并不断重复这个过程，直到抓取到足够多的网页。

2. 网页索引：一旦网页被抓取，搜索引擎会将其内容进行索引。

索引是一个包含关键词和网页相关信息的数据库。

搜索引擎会分析网页的内容，提取其中的关键词，并建立一个包含这些关键词的索引。

3. 查询处理：当用户在搜索引擎中输入关键词进行搜索时，搜索引擎会接收到查询请求。

搜索引擎会对查询进行处理，包括去除停用词（例如“的”、“是”等常用词语）和进行词干化（将单词还原为其原始形式）等操作。

4. 搜索算法：搜索引擎会使用一种称为“搜索算法”的方法来决定哪些网页与用户的查询最相关。

搜索算法会根据多个因素来评估网页的相关性，例如关键词的匹配程度、网页的质量和权威性等。

5. 结果排序：一旦搜索算法确定了网页的相关性，搜索引擎会对搜索结果进行排序，以便用户可以看到最相关的网页排在前面。

搜索引擎会根据一定的规则和算法来确定网页的排序顺序，这些规则可能包括网页的质量、关键词的位置和密度等。

6. 结果展示：最后，搜索引擎会将排序后的搜索结果展示给用户。

搜索结果通常以列表形式呈现，每个结果包含网页的标题、描述和URL链接。

用户可以点击链接来访问他们感兴趣的网页。

搜索引擎的工作原理可以说是一个复杂而庞大的系统，涉及到大量的技术和算法。

为了提供准确、相关的搜索结果，搜索引擎需要不断地更新和改进自己的索引和算法。

同时，搜索引擎还需要处理大量的数据和用户查询，以确保能够在短时间内返回准确的搜索结果。

总结起来，搜索引擎的工作原理包括网页抓取、网页索引、查询处理、搜索算法、结果排序和结果展示等步骤。

Web 的搜索引擎

基于Web 的搜索引擎综述学院：人民武装学院专业：计算机科学与技术导师：丁红发老师姓名：龚丽萍学号：1120070530时间：2012年11月08日摘要：近年来，随着互联网用户数量的增加，网上的信息迅速膨胀，在纷繁复杂的网络信息中要找到用户关心的信息极为困难。

在这种背景下搜索引擎诞生并迅速发展。

本文致力于说明基于Web 的搜索引擎的当前发展现状，简述了搜索引擎的分类和工作机制，重点分析了搜索引擎的检索技术及页面排序方法。

最后简单介绍了搜索引擎的性能评价。

关键词：搜索引擎信息检索排序算法Abstract: Recently, with the growth of users on the internet, the information is flooding everywhere. It ecomes more and more difficult to get what we want from all kinks of information. Based on this henomenon, search engines are introduced and develop rapidly. This article introduces the lassification and operation mechanism, stresses on retrieval techniques and ranking algorithms, in the nd the evaluation of performance is presented.Keywords: search engine, information retrieval , ranking algorithms1 引言互联网上庞大的数据量给用户的信息查询带来的极大的困难，鉴于此，搜索引擎应运而生。

搜索引擎的主要功能是迅速从互联网上浩如烟海的信息中筛选出符合用户需求的信息，起到了网络导航的作用。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于在互联网上搜索和查找信息的工具。

它通过索引互联网上的网页内容，并根据用户的搜索关键词返回相关的搜索结果。

搜索引擎工作原理可以分为以下几个步骤：1. 网页抓取和索引搜索引擎首先需要从互联网上抓取网页内容。

它使用称为爬虫（crawler）的程序来自动访问网页，并将网页的内容下载下来。

爬虫从一个起始网页开始，然后通过网页中的链接跳转到其他网页，不断地抓取新的网页内容。

抓取下来的网页内容会被搜索引擎进行处理和分析，提取出网页中的关键信息。

这些信息包括网页的标题、正文内容、链接、图片等。

搜索引擎还会分析网页的结构和语义，以便更好地理解网页的内容。

2. 网页索引搜索引擎将抓取下来的网页内容存储在一个称为索引（index）的数据库中。

索引是搜索引擎的核心组成部份，它类似于一本巨大的目录，记录了互联网上所有网页的关键信息。

在建立索引时，搜索引擎会对网页内容进行分词处理。

分词是将网页内容切分成一个个独立的词语或者短语的过程。

搜索引擎会去除一些常见的停用词（如“的”、“是”、“在”等），并对词语进行归一化处理（如将单复数、时态等变形统一成基本形式）。

分词后的词语会被存储到索引中，并建立倒排索引（inverted index）。

倒排索引是一种将词语和包含该词语的网页进行关联的数据结构。

它可以加快搜索引擎在索引中查找相关网页的速度。

3. 用户查询处理当用户在搜索引擎中输入关键词进行搜索时，搜索引擎会对用户的查询进行处理。

首先，搜索引擎会对查询进行分词，将查询分成一个个独立的词语。

然后，它会根据分词结果在索引中查找包含这些词语的网页。

搜索引擎会根据一定的算法对索引中的网页进行排序，以便将最相关的网页排在前面。

常用的排序算法包括PageRank算法、TF-IDF算法等。

这些算法会考虑诸如网页的权重、链接的质量、网页的相关性等因素。

4. 搜索结果展示搜索引擎会根据排序结果将最相关的网页展示给用户。

第二章网络检索

2.1.3、网络信息资源的特点
(一)优点： 1.数量巨大,增长迅速 2.内容丰富,形式多样 3.结构灵活,分布广泛 4.开放互动,共享性强 5.传播快速,利用方便 6.更新速度快,动态性强
网络信息资源的特点
(二)缺点: 1.网络信息质量参差不齐,良莠不一 2.分散无序,缺乏管理
2.2 网络信息检索的方法

2、网上出版物
网上出版物是指在网络环境中编辑、出版、发行的出版物以及印刷型出版物的网络版，包括网上图书、网上期刊、网上报纸等。如今，通过Internet浏览、订阅电子期刊、报纸、图书等已成为一种时尚，网络出版物的数量正急剧增加。如在中国科技期刊网上可以免费查找《中国学术期刊》的题录。其中网
上参考工具书更是独树一帜，像一些百科全书、辞典、指南、
手册、文摘索引、目次表、名录等，这些网络版参考工具书使用起来方便、快捷。目前因特网上有上万种电子期刊向网上用
户提供服务，其中很多是免费提供。
主要网上书店

中国图书网（/）中华图书网（/）
短短的两年多时间内，设在北京大学的项目管理中心联合各参建
单位，建设了文理、工程、农学、医学四个全国文献信息中心，华东、华中、华南等七个地区中心和一个东北地区国防信息中心，建立了一系列国内外文献数据库，并开展了公共目录查询、信息检索、馆际互借、文献传递、网络导航等网络化、数字化文献信息服务，对保障"211工程"各高校的重点学科建设、培养高层次人才、支持科研创新等发挥了重要的作用。
CALIS面向读者的服务功能主要有：（1）公共检索：可以在网上查找全国性或地区性的书刊联合目录数据库，了解所需文献是否有及在哪里收藏。也可以联机检索CALIS国内外各种类型的文献数据库。（2）馆际互借（3）文献传递（4）电子资源导航：对网上的电子资源进行收集、加工和整序，形成虚拟图书馆资源，提供用户浏览和查询。

搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于帮助用户找到互联网上相关信息的工具。

它通过收集、索引和排序互联网上的网页内容，以便用户可以通过关键词搜索来获取相关的信息。

下面将详细介绍搜索引擎的工作原理。

一、网络爬虫搜索引擎的第一步是使用网络爬虫（也称为蜘蛛或机器人）来收集互联网上的网页内容。

网络爬虫会从一个起始网页开始，然后通过网页上的链接不断地跳转到其他网页，以此类推，直到爬取到互联网上的大部分网页。

爬虫会将爬取到的网页内容保存到搜索引擎的数据库中，以备后续的索引和排序。

二、网页索引搜索引擎的第二步是对收集到的网页内容进行索引。

索引是一个包含关键词和网页相关信息的数据库。

搜索引擎会对每个网页的标题、正文、URL等进行解析，并提取出其中的关键词。

然后将这些关键词和网页的相关信息存储到索引数据库中，以便后续的搜索查询。

三、搜索算法搜索引擎的第三步是使用搜索算法来对索引数据库中的网页进行排序。

搜索算法会根据用户输入的关键词，从索引数据库中找到包含这些关键词的网页，并根据一定的规则和权重来确定每个网页的相关性。

相关性较高的网页会在搜索结果中排名较靠前，以便用户更容易找到相关的信息。

四、搜索结果展示搜索引擎的最后一步是将排序后的搜索结果展示给用户。

搜索引擎会根据用户的搜索查询，从索引数据库中获取相关的网页，并将这些网页的标题、摘要和URL等信息展示给用户。

用户可以通过点击搜索结果中的链接来访问具体的网页，以获取更详细的信息。

除了上述的基本工作原理外，搜索引擎还会考虑其他因素来提高搜索结果的质量和准确性。

例如，搜索引擎会根据网页的信誉度、页面质量、用户反馈等因素来调整搜索结果的排序。

此外，搜索引擎还会根据用户的搜索历史和地理位置等信息来个性化搜索结果，以提供更符合用户需求的搜索体验。

总结起来，搜索引擎的工作原理包括网络爬虫的收集、网页索引的建立、搜索算法的排序以及搜索结果的展示。

通过这些步骤，搜索引擎能够帮助用户快速、准确地找到所需的信息。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

本书认为搜索引擎（Search Engine）是以Web相关技术为基础，对网页等网络信息资源进行抓取与采集，建立索引数据库，并对搜索结果进行排序，能依据用户需求查找相应信息的在线搜索系统。或者说搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，并对采集的信息进行组织和处理，然后依据用户的查找需求检索网络信息并将结果显示给用户，是为用户提供在线检索服务的web查找系统。
开始
URL 库
图4-4采集器的工作流程示意图
DNS 解析
DNS 缓存
抓取web网页信息
原始网页库
提取URL No URL是否被爬行？ Yes 已爬行的 URL 库 No 是否结束？ Yes 结束
2.3.1采集器的工作流程 2. Robots协议 Robots协议是搜索引擎开发商自觉遵守的一个标准，其主要内容是Robots.txt文档。 robots.txt是搜索引擎访问网站时要查看的第一个文件，它必须放置在站点的根目录下。其主要作用是告知搜索引擎采集器哪些文件是可以被爬行的，哪些是禁止的。当采集器访问某站点时，它会首先检查该站点根目录下是否存在 robots.txt，如果存在，采集器就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
搜索引擎是伴随web技术、网络技术、人工智能等各类IT 技术的发展而发展并不断进步的。就其应用而言，搜索引擎正渗透到不同领域、不同行业、不同终端产品之中，以满足不同人员的信息搜寻需求；就其功能和服务而言，搜索引擎正朝着个性化、垂直化方向发展。总体而言，搜索引擎的发展趋势可归纳如下几点： 1. 向智能化方向发展 2. 向垂直化方向发展 3. 向基于内容的多媒体搜索方向发展 4. 向移动化方向发展 5. 向个性化方向发展
2.2搜索引擎的体系结构
2.2.1搜索引擎的基本结构 2.2.2 搜索引擎的结构类型
2013-10-24
7
2.2.1搜索引擎的基本结构
一方面，搜索引擎系统可以根据工作时效性的不同划分为两大组成部分——离线子系统和在线子系统。另一方面，还可以依据具体功能的差别将搜索引擎分解成三个关键模块：信息搜集模块、标引处理模块和信息检索模块。通常情况下，前两个模块属于离线子系统的范畴，而第三个模块则属于搜索引擎的在线子系统。信息搜集和标引处理模块一般需要一段较长的处理时间如1周或几周，才能完成一次Web页的抓取和标引处理，而信息检索模块则必须能够满足大量用户的分布式且实时访问，并需要严格控制响应时间。搜索引擎的各功能模块是相互联系、相互依赖、相互协作、密不可分的。其中采集器是获取资源的核心和关键，是自动收集网页和其他web文件的非常重要的应用程序，也是索引器分析、提取网页信息并创建网页索引数据库的基础。而索引器创建的索引数据库又是检索器检索文档的对象和数据基础。因此，对于搜索引擎系统而言，各功能模块之间是相互依存、缺一不可且的，它们共同构成了如图4-1所示的搜索引擎体系结构。
2.1.2搜索引擎的分类
1. 按搜索内容分按搜索引擎的内容划分实际上就是内容归并法，它是指基于搜索引擎所搜集信息的内容状况（如覆盖程度、所属专业或学科等），将现有的搜索引擎划分为两大类型——水平搜索引擎和垂直搜索引擎。 2. 按检索机制分此种归并方法的基本依据是搜索引擎的工作机制，一般是指搜索引擎搜集信息的具体方法、组织信息的方式以及提供相关检索或查询服务的形式等。具体而言，该方法将搜索引擎分为以下三种类型：（1）目录型搜索引擎，（2）全文搜索引擎，（3）元搜索引擎。
用
户
互联网
采集器
索引器
检索器
原始数据库
索引数据库
倒排文档
搜索引擎
图4-2 集中式搜索引擎的结构
2.2.2 搜索引擎的结构类型
2.分布式搜索引擎为了解决搜索引擎的信息采集问题，并减轻搜索引擎服务器的负担，另一种分布式搜索引擎应运而生。它主要采用采集器和代理两个部件。采集器负责抓取区域内的web信息，代理是从一个或多个采集器或其他代理上收集数据，创建索引数据库，并借助检索器提供检索接口。如图4-3所示，分布式搜索引擎设置和部署了多个特定专题的子代理，分管各专题内容。整个搜索引擎包括一个主代理和多个子代理，子代理向主代理登记和注册有关采集器和子代理的信息。各个代理及其分管的内容可在不同地理区域中复制和调用，以便用户检索和访问，从而减少搜索引擎站点服务器和搜索引擎服务器的负担。实际上，分布式中每个子代理就是一个小的搜索引擎，其下有一群采集器，协调工作，分布收集、抓取区域内的web数据和信息，管理其所属的专题资源。此外，在图4-3中，整个搜索引擎只有一个主代理，主代理负责用户的查询，将用户的查询请求分发给各个子代理，子代理检索匹配后将结果返回给主代理，最后主代理将子代理查询到的信息经合并返回给用户。因此，分布式搜索引擎是由主代理和各个子代理构成的，这是与集中式搜索引擎的最大区别所在。
2013-10-24
14
2.3.1采集器的工作流程
采集器的实质是一种用于从互联网上抓取Web信息的软件程序，它以Web页之间的相互链接为路径，依照一定的遍历策略试图爬行网络空间的每个角落，采集所需信息，并将其转存到本地存储器上，以便索引器进行标引处理和创建索引库。 1. 工作流程图及说明采集器的工作流程可简化成图4-4的形式，分步简述如下：（1）采集器开始时，将选定一系列起始站点地址放入待爬行的URL 数据库中，作为起始爬行地址。起始站点可以是任意的URL，但通常是知名度较高、信息更新及时、规模较大、用户使用率高的门户网站或流行网站，如新浪、网易、搜狐、携程网等。（2）创建DNS（域名服务系统）缓冲，解析URL，将域名解析成IP 地址。（3）向待爬行URL列表中的一个URL所对应站点的服务器发出访问请求，随后依照相关的遍历策略爬行整个站点，从中抓取相关的 Web页信息并保存到本地机上的原始数据库中。
2.3.1采集器的工作流程
（4）提取站点中包含的所有指向其它Web页的URL即链接，并判断是否被爬行过。如果已爬行，则将其放入已爬行的URL数据库中；否则，放入待爬行的URL库中。（5）查看待爬行URL列表中的URL是否被全部爬行完毕，并以此作为判别网络爬虫程序是否结束的标志。如果是，则转向（6）；否则，转向（2）继续工作。另外，搜索引擎的管理员也可以通过下面的方式结束网络爬虫的工作：管理员强制停止；设定一个所抓取信息量的阀值，如果达到该值，则直接退出；限定爬虫只能爬行国内站点，遇到国外的IP则停止工作，等等。（6）采集器完成爬行操作。
2.1.3 搜索引擎的基本构成搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成，详见“2.2 搜索引擎的体系结构”。
2.1.4 搜索引擎的主要商务模式广告收费 2. 竞价排名 3. 广告联盟除此之外，搜索引擎还有技术授权、搜索收费等盈利模式。
1.
2.1.5搜索引擎的发展趋势
L1
L1
L2
L2 L3 L4
L3
L4
L5
L5 L6 L7 L8 L9
L7
L8
L10
L10 L11
L11
L6
L9
图4-5 站点结构示意图
图4-6深度优先遍历结果示意图
2. 广度优先遍历策略正如前面“3．2．3图的遍历”所述，广度优先遍历策略类似于树的按层次遍历的过程。以站点为例，假设从站点的某链接Link出发，在访问该Link之后依次访问该Link的各个未曾访问过的邻接点，然后分别从这些邻接点出发依次访问它们的邻接点，并使“先被访问的链接的邻接点” 先于“后被访问的链接的邻接点”被访问，直至站点中所有已被访问的链接的邻接点都被访问到。若此时站点中尚有链接未被访问，则另选站点中一个未曾被访问的链接作起始点，重复上述过程，直至站点中所有链接都被访问到为止。按照广度优先遍历策略，则图4-5所示的站点结构图遍历的序列为： L1-L2-L3-L4-L5-L6-L7-L8-L9-L10-L11。其遍历的顺序与站点的层次一致，见图4-7，首先遍历一级结构对应的链接L1，接着遍历二级结构的链接L2-L3-L4，然后顺序遍历三级结构的链接L5L6-L7-L8-L9，最后遍历最底端的L10-L11。
互联网
用户输入
采集器
索引器
用户接口相关处理
网页文件
数据库
检索器索引数据库倒排文档检索结果集标引处理模块
其他文档信息采集模块
信息检索模块
图4-1搜索引擎的体系结构
2.2.2 搜索引擎的结构类型 1.集中式搜索引擎集中式搜索引擎将Web页采集器和索引器进行集中式管理，即创建一种二者相结合的集中式搜集和索引结构，这是多数搜索引擎所采用的结构。如图4-2所示，集中式搜索引擎的结构有两个主要的部分，其一是与用户交互的用户接口和执行查询匹配的检索器；另一个是后台数据、web信息抓取的采集器以及创建索引库的索引器。它们共同构成搜索引擎服务器系统。
2.3.3 网络爬虫的优化策略
2．网页优先采集策略对搜索引擎而言，要搜索互联网上所有的网页几乎不可能，即使全球知名的搜索引擎Google也只能搜索整个 Internet网页的30%—40%左右。其中的原因主要有两方面，一是抓取技术的瓶颈，网络爬虫无法遍历所有的网页；二是存储技术和处理技术的问题。因此，网络爬虫在抓取网页时，尽量先采集重要的网页，即采用网页优先抓取策略。优先采集策略的基本思想是给予重要程度、等级较高的 Web页以较高的抓取优先级，即Web页越重要，则越应优先抓取。其实质上是一种使网络爬虫在一定条件下较快地锁定互联网中被用户普遍关注的重要信息资源的方法。而实现该策略的前提是正确评测Web页的重要程度。目前评测的主要指标有：PageRank值、平均链接深度等。

第二章_Web搜索引擎的原理与结构

合集下载

网络搜索引擎工作原理

搜索引擎的工作原理

搜索引擎工作原理

搜索引擎基本原理及实现技术

3 搜索引擎基础

搜索引擎工作原理

Web 的搜索引擎

搜索引擎工作原理

第二章网络检索

搜索引擎的工作原理

文档推荐

最新文档