当前位置:文档之家 > Web搜索引擎设计和实现分析

Web搜索引擎设计和实现分析

Web 搜索引擎设计和实现分析

引言

---- 随着Internet 的飞速发展,人们越来越依靠网络来查找他们所需要的信息,但是,由于网上的信息源多不胜数,也就是我们经常所说的"Rich Data, Poor Information" 。所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎就随之诞生。

---- 现在在网上的也已经有很多,比较著名的有AltaVista, Yahoo, InfoSeek, Metacrawler, SavvySearch 等等。国内也建立了很多的搜索引擎,比如:搜狐、新浪、北极星等等, 当然由于它们建立的时间不长,在信息搜索的取全率和取准率上都有待于改进和提高。

---- Alta Vista 是一个速度很快的,由于它强大的硬件配置,使它能够做及其复杂的查询。它主要是基于关键字进行查询,它漫游的领域有Web 和Usenet 。支持布尔查询的"AND" ,"OR" 和"NOT" ,同时还加上最相近定位" NEAR" ,允许通配符和" 向后" 搜索(比如:你可以查找链接到某一页的所有Web 站点)。你可以决定是否对搜索的短语加上权值,在文档的什么部位去查找它们。能够进行短语查询而不是简单的单词查询的优点是很明显的,比如,我们想要查找一个短语"to be or not to be" ,如果只是把它们分解成单词的话,这些单词都是属于Stop Word ,这样这个查询就不会有任何结果,但是把它当作一个整体来查询,就很容易返回一些结果,比如关于哈姆雷特或者是莎士比亚等等的信息。系统对查询结果所得到的网页的打分是根据在网页中所包含的你的搜索短语的多少,它们在文档的什么位置以及搜索短语在文档内部之间的距离来决定的。同时可以把得到的搜索结果翻译成其他的语言。

---- Exite 是称为具有" 智能" 的搜索引擎,因为它建立了一个基于概念的索引。当然,它所谓的" 智能" 是基于对概率统计的灵活应用。它能够同时进行基于概念和关键字的索引。它能够索引Web,Usenet 和分类的广告。支持"AND" ," OR" ,"NOT" 等布尔操作,同时也可以使用符号"+"和"-" 。缺点是在返回的查询结果中没有指定网页的尺寸和格式。 ---- InfoSeek 是一个简单但是功能强大的索引,它的一个优点是有一个面向主题搜索的可扩展的分类。你可以把你的搜索短语和相似的分类目录的主题短语相互参照,而那些主题短语会自动加到你的查询中去。使你的搜索有更好的主题相关性。同时它也支持对图象的查询。它能够漫游Web,Usenet,Usenet FAQs 等等。不支持布尔操作,但是可以使用符号"+"和"-" (相当于"AND" 和"NOT" )

---- Yahoo 实际上不能称为是一个站点,但是它提供了一个分层的主题索引,使你能够从一个通常的主题进入到一个特定的主题,Yahoo 对Web 进行了有效的组织和分类。比如你想要建立一个网页,但是你不知道如何操作,为了在Yahoo 上找到关于建立网页的信息,你可以先在Yahoo 上选择一个主题:计算机和Internet ,然后在这个主题下,你可以发现一些子主题,比如:Web 网页制作,CGI 编程,JAVA ,HTML ,网页设计等,选择一个和你要找的相关的子主题,最终你就可以得到和该子主题相关的所有的网页的链接。也就是说,如果你对要查找的内容属于哪个主题十分清楚的话,通过目录查询的方法要比一般的使用搜索引擎有更好的准确率。你可以搜索Yahoo 的索引,但是事实上,你并没有在搜索整个Web 。但是Yahoo
提供了选项使你可以同时搜索其他的搜索引擎,比如:Alta V ista 。但是要注意的是Yahoo 实际上只是对Web 的一小部分进行了分类和组织,而且它的实效性也不是很好。 ---- 搜索引擎的基本原理是通过网络机器人定期在web 网页上爬行,然后发现新的网页,把它们取回来放到本地的数据库中,用户的查询请求可以通过查询本地的数据库来得到。如yahoo 每天会找到大约500万个新的网页。 ---- 的实现机制一般有两种,一种是通过手工方式对网页进行索引,比如yahoo 的网页是通过手工分类的方式实现的,它的缺点是Web 的覆盖率比较低,同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文的匹配进行的。第二种是对网页进行自动的索引,象AltaVista 则是完全

---- Yahoo 实际上不能称为是一个站点,但是它提供了一个分层的主题索引,使你能够从一个通常的主题进入到一个特定的主题,Yahoo 对Web 进行了有效的组织和分类。比如你想要建立一个网页,但是你不知道如何操作,为了在Yahoo 上找到关于建立网页的信息,你可以先在Yahoo 上选择一个主题:计算机和Internet ,然后在这个主题下,你可以发现一些子主题,比如:Web 网页制作,CGI 编程,JAVA ,HTML ,网页设计等,选择一个和你要找的相关的子主题,最终你就可以得到和该子主题相关的所有的网页的链接。也就是说,如果你对要查找的内容属于哪个主题十分清楚的话,通过目录查询的方法要比一般的使用搜索引擎有更好的准确率。你可以搜索Yahoo 的索引,但是事实上,你并没有在搜索整个Web 。但是Yahoo 提供了选项使你可以同时搜索其他的搜索引擎,比如:Alta V ista 。但是要注意的是Yahoo 实际上只是对Web 的一小部分进行了分类和组织,而且它的实效性也不是很好。 ---- 搜索引擎的基本原理是通过网络机器人定期在web 网页上爬行,然后发现新的网页,把它们取回来放到本地的数据库中,用户的查询请求可以通过查询本地的数据库来得到。如yahoo 每天会找到大约500万个新的网页。 ---- 的实现机制一般有两种,一种是通过手工方式对网页进行索引,比如yahoo 的网页是通过手工分类的方式实现的,它的缺点是Web 的覆盖率比较低,同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文的匹配进行的。第二种是对网页进行自动的索引,象AltaVista 则是完全

下载Word文档免费下载:

Web搜索引擎设计和实现分析下载

(共32页)

WEB搜索引擎分析设计与实现毕业论文

学号___ 密级___ 武汉大学本科毕业论文 WEB 搜索引擎分析设计与实现 1 BACHELOR'S DEGREE THESIS OF WUHAN UNIVERSITY The analysis, design and accomplishment of...

Web搜索引擎设计和实现分析

Web搜索引擎设计和实现分析Web搜索引擎设计和实现分析隐藏>> Web 搜索引擎设计和实现分析 --- 一、引言 --- 随着 Internet 的飞速发展,人们越来越依靠网络来查找...

Web搜索引擎设计和实现分析

Web 搜索引擎设计和实现分析 --- 随着 Internet 的飞速发展, 人们越来越依靠网络来查找他们所需要的信息, 但是, 由于网上的信息源多不胜数,也就是我们经常所说...

小型搜索引擎的设计与实现

小型搜索引擎设计与实现_互联网_IT/计算机_专业资料。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细...

基于web的地图搜索引擎设计与实现

基于web的地图搜索引擎设计与实现_建筑/土木_工程科技_专业资料。基于web的地图搜索...? 2.2.3基于图像内容的检索 基于图像内容的检索 由图像分析软件自动抽取图像...

Web搜索引擎设计和实现分析

Web 搜索引擎设计和实现分析引言 --- 随着 Internet 的飞速发展,人们越来越依靠网络来查找他们所需要的信息,但是,由于网上的信息源多不胜数, 也就是我们经常所说...

基于Web搜素引擎的设计与实现

19 湖北科技学院本科毕业设计(论文) :基于 Web 搜索引擎设计与实现 基于 Web 搜素引擎的设计与实现 学生: 李家仁 指导教师: 饶彬 437100 湖北科技学院 计算机...

基于JAVA的搜索引擎的设计与实现

基于JAVA的搜索引擎设计与实现_工学_高等教育_教育专区。基于JAVA的搜索引擎的...新闻搜索引擎是从指定的 Web 页面中按照超连接进行解析,搜索,并把搜索到的 ...

全文搜索引擎的设计与实现-毕业论文

1.2 课题研究目的及应用针对搜索引擎广阔的应用前景以及分析国内外搜索引擎的发展...2 江汉大学本科毕业论文(设计) 2 搜索引擎相关理论研究 2.1 Web 搜索引擎原理...

全文搜索引擎的设计与实现(文献综述)

流完成索 引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口...本设计将 lucene 这一开源的搜索引擎框架,结合 Java Web 开发流行的 SSH、Ajax...