搜 索 引 擎
- 格式:doc
- 大小:28.00 KB
- 文档页数:3
对搜索引擎的认识搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
它的工作原是:抓取网页、处理网页、提供检索服务。
搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:①搜索器:其功能是在互联网中漫游,发现和搜集信息;②索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;③检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;④用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。
搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。
后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。
目前我认识的主流的搜索引擎也不外乎是百度和谷歌,其次就是搜搜,搜狗,以及雅虎,bing等,这些都是比较综合的搜索引擎。
根据搜索引擎的不同分类主要有:新闻类搜索引擎,例如:新浪的新闻搜索。
百度的新闻搜索,谷歌的资讯搜索,新华网新闻搜索等等。
这些都是针对新闻的搜索。
软件类搜索引擎也有很多。
比较突出的就是迅雷狗狗搜索,太平洋软件搜索,华军软件园等。
根据搜索引擎的分类还有很多,音乐,电影,图片,文档,视频,博客,购物,旅游,地图,生活等等。
而这其中除了百度和谷歌的里面的产品属于开放性搜索外,其他大部分只是目录搜索,但是这些目录搜索的资源也相当的可观,基本上都覆盖了行业中的大部分主流信息。
其实百度谷歌属于全文索引类,他们都有自己的程序索引整个互联网中的资源。
但是它们里面的很多信息也都是从这些专业的搜索中检索到的,而有些东西只是在不同的位置获取,实际信息确差不多。
百度谷歌之外的这些搜索引擎基本上都属于目录搜索引擎。
主要是人工编辑的网站分类目录,目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是和开放性搜索引擎的定义不一样,实际上也可以算搜索引擎的一种类型。
搜索引擎
一、(1)什么是搜索引擎?
答:搜索引擎指自动从因特网上获取信息,经过一定整理后,提供给用户进行查询的系统。
因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一座座小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎则为你绘制一幅一目了然的信息地图,供你随时查阅。
(2)搜索引擎的工作原理
1、搜集信息:搜索引擎的信息搜集基本都是自动的。
搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超链接。
机器人程序根据网页链到其他中的超链接,就像日常生活中所说的“一传十、十传百…….”一样,从少数几个网页开始,练到数据库上所有到其他网页的链接。
理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。
2、整理信息:搜索引擎整理信息的过程称为“建立索引”。
搜索引擎不仅要保存搜集起来的信息,还要将他们按照一定的规则进行编排。
这样,搜索引擎根本不用重新翻查他所有保存的信息而快速查到所要的资料。
想象一下,如果信息不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻一遍,如此一来,再快的计算机也没有用。
3、接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向客户返回查询资料。
搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的需要检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。
目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己需要的资料的网页。
通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否会有自己需要的内容。
二、搜索引擎的分类
百度、搜狗搜索,谷歌搜索、雅虎搜索、腾讯搜索、迅雷搜索、微软搜索、有道搜索
三、搜索引擎的原理概述
搜索引擎通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词进行搜索,建立索引数据库的全文搜索引擎。
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜索出来。
在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
根据自己的优化程度,获得相应的名词次。
在搜索引擎的后台,有一些用于搜集网页信息的程序。
所搜集的信息一般是能表明网站内容(包括网页本身、网页的URL地址、构成网页的代码以及进出网页的连接)的关键词或者短语。
接着将这些信息的索引存放到数据库中。
建立索引
蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引(index).在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。
搜索词处理
用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。
搜索词的处理必须十分快速。
排序
对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,
并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。
再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化。
没有SEO 的帮助,搜索引擎常常并不能正确的返回最相关、最权威、最有用的信息。
数据结构
搜索引擎的核心数据结构为倒排文件(也称倒排索引),倒排索引是指用记录的非主属性值(也叫副键)来查找记录而组织的文件叫倒排文件,即次索引。
倒排文件中包括了所有副键值,并列出了与之有关的所有记录主键值,主要用于复杂查询。
与传统的SQL查询不同,在搜索引擎收集完数据的预处理阶段,搜索引擎往往需要一种高效的数据结构来对外提供检索服务。
而现行最有效的数据结构就是“倒排文件”。
倒排文件简单一点可以定义为“用文档的关键词作为索引,文档作为索引目标的一种结构(类似于普通书籍中,索引是关键词,书的页面是索引目标)。
全文搜索引擎
在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。
搜索引擎的自动信息搜集功能分两种。
一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站的搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
目录索引
与全文搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。
用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
如果审核通过,你网页才会出现于搜索引擎中,否则不会显示。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。
而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。
此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度
看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。
更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。
如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。
如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
目前,目前,搜索引擎与目录索引有相互融合渗透的趋势。
原来一些纯粹的全文搜索引擎现在也提供目录搜索。