搜索引擎的特性
- 格式:doc
- 大小:29.00 KB
- 文档页数:3
七大搜索引擎:百度、谷歌、搜搜、搜狗、有道、雅虎、必应1.百度:1. 基于字词结合的信息处理方式。
巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。
2. 支持主流的中文编码标准。
包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。
3. 智能相关度算法。
采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。
4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。
5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。
可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。
利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。
6. 相关检索词智能推荐技术。
在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。
7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。
百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒)8. 可以提供一周、二周、四周等多种服务方式。
可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。
9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。
支持用户选择时间范围,提高用户检索效率。
10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。
拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。
11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。
12. 高可配置性使得搜索服务能够满足不同用户的需求。
搜索引擎具备哪些特征1、基于字词连系的信息处置方法。
巧妙处理了中文信息的了解问题,极大地进步了查找的精确性和查全率。
2、支撑主流的中文编码规范。
包罗GBK(汉字内码扩展标准)、GB2312(简体)、BIG5(繁体),而且可以在分歧的编码之间转换。
3、百度查找支撑二次检索(又称渐进检索或逼进检索)。
可在前次检索后果中持续检索,逐渐减少查找局限,直至到达最小、最精确的后果集。
利于用户愈加便利地在海量信息中找到本人真正感兴致的内容。
4、智能相关度算法。
采用了基于内容和基于超链剖析相连系的办法进行相关度评价,可以客观剖析网页所包括的信息,然后最大限制包管了检索后果相关性。
5、检索后果能标示丰厚的网页属性(如题目、网址、时间、大小、编码、摘要等),并凸起用户的查询串,便于用户判别能否阅读原文。
6、相关检索词智能引荐技能。
在用户第一次检索后,会提醒相关的检索词,协助用户查找更相关的后果,计算标明可以促进检索量提拔10-20%.7、运用多线程技能、高效的查找算法、不变的UNIX平台、和当地化的效劳器,包管了最快的呼应速度。
百度查找引擎在中国境内供应查找效劳,可大大缩短检索的呼应工夫(一个检索的均匀呼应工夫小于0.5秒)8、智能性、可扩展的查找技能包管最快最多的搜集互联网信息。
拥有当前世界上最大的中文信息库,为用户供应最精确、最普遍、最具时效性的信息供应了坚实根底9、散布式构造、精心设计的优化算法、容错设计包管系统在大拜访量下的高可用性、高扩展性、高功能和高不变性。
10、支撑多种高级检索语法,运用户查询效率更高、后果更准。
已支撑“+”(AND)、“-”(NOT)、“|”(OR)、“site:”、“link:”,还将持续添加其它高效的查找语法。
展柜设计,展柜制作,展柜定做,广州展示柜,广州展柜,内衣专卖店装修,服装专卖店装修,店铺装修,店面设计,专卖店装修,手机店装修,美发店装修,店铺装饰,融润展柜,行润装饰,影楼装修,茶叶店装修 。
搜索引擎的特点有哪些分类搜索引擎的特点有哪些分类搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
下面是店铺给大家整理的搜索引擎的特点简介,希望能帮到大家!搜索引擎的特点(1)、纯技术型的全文检索搜索引擎原理是通过机器手(即spider 程序,也叫蜘蛛)到各个网站收集、存储信息,并建立索引数据库供用户查询。
因而,数量大,更新快,但准确率不高。
如大家经常使用的百度、谷歌的网页搜索都属于纯技术型的。
(2)、分类目录并不采集网站任何信息,而是利用各网站向“搜索引擎”提交网站信息,如填写的关键词和网站描述等资料,经过人工审核编辑后,符合网站登录的条件,则录入数据以供查询。
因而,搜索结果相关性高,但数据量及更新度都不及前者。
比如常用的亚马逊分类目录就是此类。
搜索引擎的分类目录索引目录索引也称为:分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。
目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的'网络信息资源。
虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
与全文搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。
用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功;而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。
搜索引擎的特点与评价标准一、搜索引擎的分类搜索引擎按其工作方式主要分为三种,分别是全文搜索引擎、目录索引类搜索引擎和元搜索引擎。
全文搜索引擎是名副其实的搜索引擎,国外具有代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,百度(Baidu)目前所做的应该属于全文搜索引擎。
由于它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
虽然百度拥有自己的检索程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,但它们所能提供的信息绝大程度上由它所搜索的网站决定的。
评价标准及其局限性在搜索引擎的发展初期,人们对它的要求较低,只要它能把互连网上相关的网站搜出来,搜到的网站尽量多一点,无关的网站能少一点就能满足。
所以那时候,人们评测搜索引擎的方法是用几个关键词,测试对比它们的搜索速度、搜索数量和无关网站的多少。
简单说就是全、快、准。
而那时的搜索引擎技术大家差别不大,所以这样的评测方法是可行的。
此后,独特的搜索引擎技术此起彼伏,层出不穷,到现在明显处于战国时代。
但是,人们的评测方法却没多大变化,现在常见的评测还是简单的用几个关键词比较搜索速度、搜索结果数量和各自介绍的搜索准确性。
搜索引擎的评价标准与目前搜索引擎的发展状况并非完全吻合。
下面,我们就目前常用的评价指标进行分别介绍。
第一,搜索引擎的查全率。
既然是搜索引擎,当然比较搜索的范围就应该首当其冲。
但是,由于收录网页的数量都是各搜索引擎自己宣布的,未可全信,而同一个关键词的搜索结果却是显而易见的,所以一般的评测都以这个为准。
但以这个为准仍有很多不足之处,因为多数象样一点的搜索引擎都可以找出一批关键词来证明它的搜索结果是最全的。
因为网页索引数量虽然有大小,但robot和spider程序不同,索引范围和索引标准也不尽相同,在最大的搜索引擎上搜不到的有可能在小得多的搜索引擎上搜到。
全文搜索引擎全文搜索引擎是目前广泛应用的主流搜索引擎,国内则有著名的百度。
它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,再从这个数据库中检索与用户查询条件匹配的相关记录,按一定的排列顺序返回结果,因此他们是真正的搜索引擎。
代表:Google、Baidu、Sogou、so、soso、Yahoo、Bing等目录搜索引擎目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
代表:DMOZ,早期的Yahoo等元搜索引擎元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
代表:搜星、InfoSpace、Dogpile、Xisoso、Vivisimo等垂直搜索引擎垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。
不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。
相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
集合式搜索引擎集合式搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
门户搜索引擎门户搜索引擎虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
代表:AOLSearch、MSNSearch等免费链接列表免费链接列表(Free For All Links简称FFA)一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
简述搜索引擎的分类及其特点一、搜索引擎有哪些类型1、全文搜索引擎全文搜索引擎是利用爬虫程序抓取互联网上所有相关文章予以索引的搜索方式。
一般网络用户适用于全文搜索引擎。
这种搜索方式方便、简捷,并容易获得所有相关信息。
但搜索到的信息过于庞杂,因此用户需要逐一浏览并甄别出所需信息。
尤其在用户没有明确检索意图情况下,这种搜索方式非常有效。
2、元搜索引擎元搜索引擎是基于多个搜索引擎结果并对之整合处理的二次搜索方式,适用于广泛、准确地收集信息。
不同的全文搜索引擎由于其性能和信息反馈能力差异,导致其各有利弊。
元搜索引擎的出现恰恰解决了这个问题,有利于各基本搜索引擎间的优势互补。
而且本搜索方式有利于对基本搜索方式进行全局控制,引导全文搜索引擎的持续改善。
3、垂直搜索引擎垂直搜索引擎是对某一特定行业内数据进行快速检索的一种专业搜索方式,适用于有明确搜索意图情况下进行检索。
例如,用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时,都可以直接选用行业内专用搜索引擎,以准确、迅速获得相关信息。
4、目录搜索引擎目录搜索引擎是依赖人工收集处理数据并置于分类目录链接下的搜索方式,是网站内部常用的检索方式。
本搜索方式指在对网站内信息整合处理并分目录呈现给用户,但其缺点在于用户需预先了解本网站的内容,并熟悉其主要模块构成。
总而言之,目录搜索方式的适应范围非常有限,且需要较高的人工成本来支持维护。
5、集成搜索引擎集成搜索引擎是通过网络技术在一个网页上链接很多个独立的搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询。
搜索的结果由各个搜索引擎分别以不同的页面显示。
6、门户搜索门户搜索引擎虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
7、站内搜索站内搜索只查询自身数据库的信息,并把搜索结果展现给用户,站内搜索的特点是,信息都是网站自身的信息,并不会像全文搜索引擎那样去其他网站抓取信息,比如淘宝,我们使用淘宝搜索产品时,都是淘宝自身的数据信息。
垂直搜索引擎是什么_垂直搜索引擎有哪些垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
其特点就是专、精、深,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
什么是垂直搜索引擎垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。
然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介甚至可以进一步将笔记本简介细分成品牌、型号、CPU、内存、硬盘、显示屏、然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
Solr的应用场景分析Solr是一个基于Java的搜索引擎,被广泛应用于Web搜索、文档管理、电商等各种应用场景。
本文将从Solr的特性入手,探讨其主要应用场景及其优势。
一、高效搜索引擎Solr的核心特性是高效搜索引擎,它能够处理大量的数据,并且具有快速的搜索速度。
因此,Solr适用于大型网站、Web应用程序以及企业级应用程序等各种情况下的搜索引擎。
1、电子商务在电子商务行业,Solr可以帮助电商网站提供快速、精准的搜索体验,减少用户的等待时间,促进转化率。
Solr具有高效的搜索速度以及高质量的搜索结果,可以根据用户的搜索需求,实现智能联想、拼写检查等搜索辅助功能,提高用户体验。
另外,Solr还支持基于地理位置的搜索,比如可以按照用户所在地域,展示用户附近的产品信息,大大提升用户的便利性。
2、企业应用程序在企业应用程序中,Solr也经常被用作搜索引擎,能够搜索企业内存储的各种数据,例如产品信息、客户、工程文件等。
Solr提供了高度灵活的搜索体验,用户可以通过各种搜索参数,实现快速、准确地检索所需的数据。
二、文档管理系统Solr不仅仅是一个搜索引擎,同时也是一个强大的文档管理系统,支持各种数据格式的索引和搜索。
因此,Solr可以被广泛应用于文档管理系统,帮助用户快速准确的检索所需文件。
1、数字资料库Solr可以作为数字资料库的一部分,能够实现全文检索和查询,而不仅仅是简单的关键字检索。
数字资料库包括了各种类型的文件,例如PDF文件、Microsoft Office文件、HTML文件等,Solr可以基于这些文件的内容建立索引,并实现快速准确的搜索功能。
2、知识管理系统Solr可以作为一个知识管理系统的组件,帮助企业组织内部的知识库。
当员工需要查询某种信息时,Solr可以搜索企业内多种数据源的内容,并返回相关的结果。
此外,Solr还具有自动标记、选取等功能,能够帮助企业快速实现知识共享,提高工作效率。
各个搜索引擎的优缺点百度搜索引擎优点:1、知识交流功能强,可以实现互动、知识的共享。
2、强大的地图导航功能,方便路线的查询。
3、对于中国人的阅读和浏览更为熟悉,服务更加本土化。
4、提供RSS(简易信息聚合)新闻订阅服务。
5、提供历史和各省市新闻查阅。
6、图片格式多样化,基本上都有。
7、百度还提供搜索flash的功能。
8、如果无法打开某个搜索结果,或者打开速度特别慢,“百度快照”能帮您解决问题。
每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。
不过,百度只保留文本内容。
9、提供高级搜索语法搜索功能。
10、提供错别字提醒、英汉互译词典、计算器和度量衡转换、拼音提示、股票与列车时刻表和飞机航班查询等功能。
缺点:1、由于知识来源广,重复的内容多而繁杂。
2、页面布局不合理,页面没有充分利用。
3、更新时间迅速的优势没有充分发挥。
4、商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威;5、搜索结果中广告、垃圾网站和死链比较多。
Google搜索引擎优点:1、容量大和范围广:其数据库如今是最大的,包括了PDF、DOC、PS及其他许多文件类型。
2、易用性较强。
3、根据站点的链接数和权威性进行相关性排序。
4、网页缓存归档,浏览过的网页被编入索引。
5、还有其他数据库:Google群组、新闻和目录等数据库。
缺点:1、网页排版不新颖,美观度不高。
2、搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索。
3、链接搜索不完整。
死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰过时的链接。
4、只能把网页的前101KB和PDF的大约前120KB编入索引。
5、可能会在不告诉你的情况下,检索复数单数、同义词和语法变体。
雅虎搜索引擎优点:1、搜索引擎数据库庞大而且新颖。
2、包括页面的缓存拷贝。
3、也包括指向雅虎目录的链接。
4、支持全部的布尔逻辑检索。
搜索引擎的特点百度●特点一:全球最大的中文搜索引擎●特点二:针对使用中文的用户,采用使用中文的逻辑思维。
●特点三:就针对中国大陆而言,不同的省区所出现的搜索结果会不一致。
●特点四:就中国大陆和香港、澳门、台湾而言,大陆与港澳台的算法会不一致。
●特点五:百度存在人工干预行为●特点六:百度存在观察期、上升期、稳定期、波动期、下降期、惩罚期几个不同时期。
●特点七:一般百度允许少范围不明显的作弊。
●特点八:若进入百度惩罚期,需要花费一个月到一年不等的时间回复到正常位置。
●特点九:每个月百度都存在波幅期,该时期百度中的显示结果与平时大不相同,通常时间维持是四天到7天,通常处于月中出现,则此时搜索引擎优化人员习惯上不能以这几天作为百度结果验收。
●特点十:百度喜欢新站,同时新站刚上线时,会予以新站两周到一个季度的时间放在好的位置,若此时新站没有采取好的维护措施,网站会在此时间段过后非常困难回到起初位置。
●特点十一:百度存在竞价排名。
竞价排名以讲解形式说明,不作详细文字说明。
谷歌●特点一:全球最大的英文搜索引擎●特点二:针对使用英文的用户为主,用使用英文的逻辑思维。
包括在中国范围内同样是使用英文逻辑的中文算法。
●特点三:就针对中国大陆而言,不同的省区所出现的搜索结果会不一致。
●特点四:就中国大陆和香港、澳门、台湾而言,大陆与港澳台的算法会不一致。
●特点五:谷歌极少存在人工干预行为,但针对明显作弊网站,会直接放进沙盒。
●特点六:谷歌有PR值。
●特点七:PR值从原则上来说对网站在谷歌中的优化没有什么太大的影响。
●特点八:谷歌自然排名比百度稳定●特点九:谷歌更新期限通常为四个月左右,但有时候由于客观原因会出现两个月、半年、三个月更新的情况,此种情况属于正常情况。
●特点十:对于新站,谷歌更多的是采用稳中带升的情况,则跟百度对于新站完全不一致。
●特点十一:谷歌存在广告联盟。
谷歌广告以讲解形式说明,不作详细文字说明。
Bing●特点一:微软旗下的搜索引擎,全称为Microsoft Bing。
ElasticSearch与Solr搜索引擎特性对比1、关键特性对比2、基于ElasticSearch数据交叉模型功能测试2.1、环境情况2.2、测试结果3、ElasticSearch与Solr的压力测试对比3.1、测试环境2.数据环境Solr中单索引库中索引条数为5000W,ElasticSearch中单索引库中索引条数为1亿。
3.2、测试工具3.3、测试结果3.4、总结✧在本次测试中,每次测试总的访问次数为10000,从以上图表中可以看出随着并发数的增加,Solr和ElasticSearch的每秒响应请求数都是先增加,然后稳定在一定数值,在超过某个阈值之后极速下降;✧从平均每秒响应请求次数来看,ElasticSearch性能指标优于Solr;在不同的并发数下,ElasticSearch的每秒响应请求数在500~800之间,而Solr的每秒响应请求数在300~600之间,ElasticSearch采用默认分词进行中文模糊搜索时速度非常慢,经分析更换ik中文分词后性能有明显提高;✧从连接平均返回时间来看,在低并发时,ElasticSearch和Solr相差不大,但是随着并发数量的增加,ElasticSearch返回时间的增长速度大于Solr;✧从不同的并发数下的成功次数来看,ElasticSearch性能指标优于Solr,Solr在并发数达到500的时候出现大面积错误;ElasticSearch直到并发数为1000的时候才出现了错误;✧Solr集群不太稳定,12月30日简单测试过一次,当时并发达到1000时才开始出现性能大幅下降,并且平均每秒响应请求数在600左右,而31日则在并发500时表现有较大差距。
4、ElasticSearch与Hadoop平台的融合4.1、ElasticSearchonYarnElasticSearch可以通过Yarn来运行,官网有相关教程,但由于Yarn资源的限制,目前ElasticSearchforHadoop还是beta版,并不包含ElasticSearch的所有功能。
网络信息搜索的主要策略和技巧
策略
网络信息检索策略设计应遵循快、准、全及低成本的原则,以实现检索策略最优化
1、明确检索目标,确定检索项
分析主题、使用布尔逻辑符等构造检索式
2、选择合适的检索系统
根据检索主题和检索系统的特点选择检索系统
3、正确对待检索结果
对漏检、错检、溢检、无检索结果的处理方式。
4、选择最佳上网时间
选择网速较快的时间段。
技巧
多数情况下,有一个好的搜索策略,能正确地应用布尔逻辑符,并熟悉每个搜索引擎的特性,就可得到一个好的检索结果。
除此之外,在某些情况下还可用其他的一些技巧来改善检索结果。
1、扩大检索范围、提高查全率
2、缩小检索范围、提高查准率
3、Ctrl十F
用搜索引擎检索到所需文档并连接到相关网页后,有时会发现所要的文件并没有出现在当前视野中,这可能是因为文件存放在当前网页的底部。
一个快捷的方法就是按“Ctrl十F”在当前页查找文件。
4、给检索结果作标签
避免再重复出现。
搜索引擎的相关知识
搜索引擎的分类
1、全文索引
搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。
它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与
用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
目录索引
虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠Keywords)进行查询。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。
如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。
如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
元搜索引擎
元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
著名的元搜索引擎有InfoSpace、Dogpile等,中文元搜索引擎中具代表性的是搜星搜索引擎。
在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
垂直搜索引擎
垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。
不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。
相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
集合式搜索引擎
集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
门户搜索引擎
门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分
类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
免费链接列表
免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
搜索引擎的工作原理
抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider)。
Spider顺着网页中的超链接,连续地抓取网页。
被抓取的网页被称之为网页快照。
由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
处理网页
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。
其中,最重要的就是提取关键词,建立索引文件。
其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。