搜索引擎分为两大类:目录搜索引擎(分类搜索)和全文搜索引擎(关键词搜索)
- 格式:doc
- 大小:275.00 KB
- 文档页数:4
搜索引擎1、搜索引擎的概念搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
2、搜索引擎分类全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
3、搜索引擎工作原理及种类搜索引擎的优缺点a搜索引擎工作原:页面收录,页面分析,页面排序,关键字查询。
4、举例对google和百度进行比较分析1、google 是全球最大的并且最受欢迎的搜索引擎,主要的搜索服务有:网页,图片,音乐,视频,地图,新闻,问答。
(1)Google的功能和特点:Google 搜索引擎是一个利用蜘蛛程序(Spider) 以某种方法自动地在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供面向网页的全文检索服务的互联网信息查询系统。
①拥有目前最庞大的中文网页数据库,支持多达132种语言,可将多国语言的搜索引擎整合到同一个界面,而且在这个界面下, 你可以定制语言以及到何种网站中去搜索, 不必像Yahoo那样, 要搜索不同语言版本的网站, 必须先进入相应语言的网站。
同时会自动根据用户所使用的浏览器设置相应的语言界面。
②不仅对中文支持强大, 而且支持中英文和多种编码混合的检索词。
③其专利网页级别技术PageRank能够提供高命中率的搜索结果, 帮助用户找到相关主题的权威网站。
④它不以花哨取胜, 而是以功能表现为本。
其网站只提供搜索引擎功能, 界面简洁、易用, 搜索速度快捷, 使得用户所输入的任何关键字或信息均能得到Google快速响应, 且其语链分析的算法还会将搜索结果排列出优先次序, 从而使重要的结果排列在前, 节省了用户查询时间。
⑤在查询多个关键字时, 只提供包含所有关键字的网页, 而且遵从关键字的相对位置。
⑥其搜索结果通常会比其它搜索引擎来得更准确, 且搜索结果摘录查询网页的含有关键字的内容, 而不仅仅是网站简介。
2013-网络技术应用模拟卷—一86B、诺顿软件C、金山毒霸D、Microsoft WordB、打印机C、摄像机D、照相机B、使用资源管理器对文件进行管理C、用媒体播放器播放音乐D、整理手机中的电话号码簿B、播放DVD视频C、利用计算机资源管理器整理文件D、利用EXCEL软件管理学生成绩B、传奇.jpgC、my.aviD、your.txtB、avi2.gifC、大笑江湖.wmaD、my.aviB、bmp1.pdfC、my.jpgD、midi.txtB、要保证作品主题明确C、要保证作品主题观点鲜明D、无需确定作品主题B、一个工作簿默认的工作表数为5个工作表C、同一个工作薄内不得有相同名称的两张工作表D、一个工作簿最多可以有500个工作表B、随着信息技术的发展,电子出版物最终会完全取代纸质出版物C、信息技术是计算机技术和网络技术的简称D、英文的使用是信息技术的一次革命B、下载朋友发来的照片C、在论坛上发表反动言论D、在淘宝网上购物B、在网站上挂木马C、聊天时对网友反唇相讥,任意谩骂D、破解正版软件,恶意注册使用B、手工制造C、CPU的升级换代D、通过互联网收集资料A、研究收集、识别、提取、存储、处理、检索、分析、利用信息的技术B、研究获取、传递、存储、处理、显示分析信息的技术C、研究收购、出售信息的技术D、研究信息如何产生、获取、传递、变换、识别和利用的技术。
B、文本框一旦插入后,其中的文字方向就不能改变了。
C、文本框的边框粗细可以随时改变D、文本框的大小可以随时改变B、网络层C、传输层D、应用层A、GifB、Mp3C、TxtD、HtmB、分类目录搜索C、多媒体信息搜索D、专业垂直搜索查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。
搜索引擎一、搜索引擎的概念搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容的推广——这就是搜索引擎营销的核心思想。
这句话说起来很简单,如果仔细分析会发现,这句话的确包含了搜索引擎推广的一般规律。
本文作者在“网站推广策略之内容推广思想漫谈”一文中提出一个观点:“网站内容不仅是大型ICP网站的生命源泉,对于企业网站网络营销的效果同样是至关重要的”。
因为网站内容本身也是一种有效的网站推广手段,只是这种推广需要借助于搜索引擎这个信息检索工具,因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。
二、搜索引擎的分类1、全文索引全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。
它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
2、目录索引目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。
3、元搜索引擎元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
搜索引擎有哪些主要的索引分类不管是个人还是企业的网站都希望自己的网站在搜索引擎有一定的排名,那么大家知道搜索引擎有哪些吗?主要有哪些分类呢?下面给大家介绍一下相关的内容,希望能帮到大家。
搜索引擎有哪些搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
分类全文索引搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。
搜索引擎的自动信息搜集功能分两种。
一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
随着搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
这种引擎的特点是搜全率比较高。
目录索引目录索引也称为:分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。
信息检索大题1.搜索引擎有哪些类型,其主要组成是什么?答:类型:按检索机制划分,可分为全文搜索引擎、目录搜索引擎、元搜索引擎。
按检索内容划分,可分为综合型搜索引擎、专题型搜索引擎。
2.已知名叫孙钱章的作者99年出版了一本书,但不知书名及其他信息,该如何找?写出书名及出版社。
答:可以各种检索工具检索,比如可以用“读秀图书搜索与文献传递系统”进行检索,点击“图书”选项,在检索框中输入“孙钱章”,选择“年代”为1999年,得到检索结果为《知识经济概论》,北京市:警官教育出版社。
3. 举例说明布尔逻辑运算中“逻辑与”和“逻辑或”的检索特点。
逻辑“或”是用于表示并列关系的一种组配,用来表示相同概念的词之间的关系,用OR 或“+”算符表示。
例如检索式A OR B,表示检索的文献记录中只要含有A或者B中的任何一个即算命中。
这种组配可用于扩大检索范围,增加命中文献数量,有利于提高检索结果的查全率。
4.分别列举搜索引擎、馆藏检索工具、文摘索引检索工具、全文检索工具、数据检索工具和专利检索工具各两个。
搜索引擎:Google搜索引擎Yahoo搜索引擎馆藏检索工具:清华大学OPAC —— Innopac 华中农业大学OPAC —— ILAS Ⅱ文摘索引检索工具:知网节维普中文科技期刊数据库全文检索工具:Elsevier全文数据库百度数据检索工具:国科图OPAC “万方”数字化期刊专利检索工具:SIPO 专利检索USPTO 专利检索5.必考)谈谈如何提高文献检全率和检准率?答:提高检全率的方法:(1)降低检索词的专指度,可从词表或检出文献中选一些上位词或相关词补充到检索式。
(2)调节检索式的网罗度,如删去某个不甚重要的概念面。
(3)进行族性检索,可用分类号或采用一组近义词、同义词或者相关词用OR 连接在检索中。
(4)进行截词检索,可以采用后截断、前截断、前后截断等方法。
(5)增加检索途径,如将主题途径与非主题途径结合起来使用。
第二章信息的获取1、获取信息的四个环节:①确定信息需求②确定信息来源③采集信息④保存评价信息•例题1.小明决定采用上网的方式查找“周杰伦”这是获取信息过程中的(B)阶段。
A、确定信息需求以确定信息来源C、采集信息D保存评价信息2、信息来源的四大分类:纸质媒介、电子媒介、人、事物(P9)•例题1.林峰想制作一份关于“2008北京奥运”的电子小报,需要大量素材,下列可以帮助他获得相关素材的途径是(D)①上因特网②向老师咨询③查阅相关报刊④看电视专题节目A①②③B、①②④C、②③④D、①②③④•例题2.利用“百度”搜索引擎,寻找免费电影《集结号》,最适合的关键词是(C)A.免费电影B.集结号C.免费电影下载集结号D.电影下载•例题3.下列信息来源属于文献型信息源的是(B)。
A.同学B.图书C.老师D.网络•例题4.关于获取信息的方法,下面说法正确的是(A)。
A.应根据实际情况B.利用网络获取信息是最好的方法•例题5.小明急需查一本书中的内容,按最佳方案,他第一个应选择的方式是(A)。
A.到因特网上查找能否下载此书中的内容B.找同学咨询,到指定书店购买C.找书店营业员咨询并购买D.到书店的电脑查询系统上查找并购买3.采集信息的工具扫描仪:扫描图片;扫描印刷体文字,并能借助文字识别软件OCR自动识别文字;(OCR技术就是利用专用设备对印刷文字或手写文字进行识别并转化为文字编码的一种使用技术。
)照相机:主要用于采集图像信息;摄像机:主要用于采集视频信息;录音设备:主要用于采集音频信息;计算机:采集来自光盘网络等多种类型的信息至计算机中;•例题1.因研究性学习小组的需要,王斌要到动物园收集有关猴子的资料,制作一份电子演示文稿。
他去动物园可携带的信息采集工具是(B)A、数码相机、扫描仪、数码摄像机B数码相机、数码摄像机C、普通相机、数码相机、笔记本电脑D普通相机、扫描仪•例题2.李刚暑假期间要去北京旅游,需要了解北京主要景点以便做好旅游规划,他获取相关信息的先后顺序是(D)①上网了解相关景点及线路②确定了解北京旅游景点的方法③确定自己必须浏览的主要景点④确定自己想了解北京的什么内容A、①②③④日②①③④C③②①④D④②①③•例题3.人类通过天文望远镜获取大量的天体数据信息,这一过程属于信息的(B)A.处理过程B.采集过程C.加工过程D.存储过程4、计算机中常见的信息存储格式:后缀名:文件类型(通过扩展名或文件图标来区分)文字:.txt、.doc、.html、.pdf、.wps等图形图像(.jpg、.gif、.bmp.wmf)、声音:①.cd(其扩展名是*.cda)、.wav、.mp3、.midi音质最好的是CD其次是wav,第三是mp3o②CD音频文件只是一个索引信息,并不是真正的声音文件,所以不论CD音乐的长短,在计算机中看到的CD音频文彳^都是44字节长,需要使用专门的抓音轨软件把CD格式的文件转换成WAV③Mp3的存储空间只有WAVC件的1/10。
信息检索与利用复习题一、判断题1.在bing的视频搜索结果中,用户无需点击视频,只需要将鼠标放置在视频上,便可播放视频的精华片段。
2.在搜索引擎中,为了精确搜索,防止自动分词,可采用“+”来实现。
3.在构建关键词时,我们尽量不要用自然语言,而要从自然语言中提炼关键词。
4.在信息检索时查询词表述准确是获得良好搜索结果的必要前提。
5.目前的搜索引擎能很好的处理自然语言。
6.用户可以通过Google图书搜索在线阅读任何一本搜索到的图书。
7.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。
8.解决读者需求的无限性和馆藏的有限性的矛盾,唯一有效的方法就是在图书馆间建立合作机制,实现资源共享。
9.索引与目录的主要区别在于:目录是对某一种出版物作整体的著录,索引可将文献所包括的若干信息分析摘录出来作为排检标识。
10.在信息社会中,一个人如果不具备良好的信息素养、没有掌握现代信息技术的基础知识和基本技能,就会成为“信息盲”。
11.信息素养由信息意识、信息能力、信息道德三个方面内容构成,其中,信息道德是前提,信息能力是保证,信息意识是准则。
12.在撰写学位论文的时候,为了照顾到论文的新颖性可以不考虑其观点的实际意义。
13.将撰写论文的作者的署名顺序颠倒对作者的署名著作权没有侵害。
14.搜索引擎与普通网站不同的是提供一个包含搜索框的页面,它不是一个WWW网站。
15.搜索引擎的命中率、准确率、查全率都比较高。
16.由于人工干预过少,而且搜索引擎大多采用自然语言标引和检索,搜索引擎检索结果中会有很多冗余信息。
17.在搜索引擎中输入“项目管理”和输入““项目管理””检索结果是不一样的。
18.在搜索引擎中常用的截词符是星号“*”,通常使用右截断。
如输入comput*,将检索出computer、computing、computerized等词汇。
19.通用搜索引擎,如google、baidu、bing、yahoo,并不能囊括所有的网页。
1.什么是搜索引擎搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
搜索引擎,又称搜索机,Web搜索器,是一种用于帮助Internet用户在互联网上查询信息的搜索工具。
它以一定的策略在Internet中发现、搜集信息,并对搜集的信息进行加工整理和组织存贮,为用户提供检索服务。
从而起到信息导航的作用。
搜索引擎面向开放的国际互联网,采用超链接方式建立起索引数据库与网上信息的关联,。
在交互的过程中进行信息浏览和自由词检索。
超链接、自动搜索、自动标引和自动索引是搜索引擎的核心技术。
2.搜索引擎工作原理搜索引擎的工作包括如下三个过程:一是在互联网中发现、搜集网页信息;二是对所搜集的信息进行提取和组织,并建立索引库;三是由检索程序根据用户输入的查询关键词,在索引库中快速检出相关文档,进行文档与查询内容的相关度比较,对检出的结果进行排序,并将查询结果返回给用户。
主要功能有:(1)布尔逻辑操作符使用;(2)截词检索;(3)限制检索;(4)区分大小写检索;(5)加减检索;(6)概念检索;(7)结果过滤;(8)语句检索;(9)智能化检索。
其他对搜索结果及结果显示有影响的一些功能还有:检索提问的修改与限制,按相关度排列结果,检索与浏览功能,检索结果翻译与多语种检索。
以上语法规则大多是在各种搜索引擎之间通用的,具体到每一个搜索引擎,则有不同的功能和特点。
因此,用户应仔细阅读有关的使用说明,结合实际情况灵活运用。
3.搜索引擎的类型(1)按搜索机制划分为:目录型、关键词型和混合型。
目录型搜索引擎是把搜索到的信息资源,按照一定的主题进行分门别类建立目录,大目录下面包含子目录,子目录下面包含子子目录⋯⋯如此下去,建立一层层具有包含关系的目录。
搜索引擎简介一、搜索引擎的概念及分类搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
1、全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。
它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
2、目录索引类搜索引擎目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。
3、元搜索引擎元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。
在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
高中信息学业水平考试知识点主题一信息与信息技术一、信息及其特征【知识链接】1、信息是无处不在的,它是人类生存的基本条件。
2、信息、物质和能量是构成人类社会资源的三大支柱。
3、信息的载体:语言、文字、图像、声音、视频、动画。
4、信息的一般特征:传递性、共享性、载体依附性、价值性相对、时效性、真伪性。
二、日新月异的信息技术4、合理使用信息技术面对信息技术的发展,既不要过度地崇拜,也不要因噎废食、盲目排斥。
6、界上第一台计算机(ENIAC)诞生于1946年美国,又称为冯?诺依曼机,其工作原理:一、存储程序,二、机内二进制体系,三、计算机的逻辑组成。
三、计算机的工作原理【知识链接】1、目前的电子计算机基本采用冯.诺依曼原理制造的,其主要思想是存储控制。
3、按照信息来源可以将信息分为:文献类、口头型、电子型、实物型四种。
(1)文献型信息源:报纸、期刊、公文、报表、图书、辞典、论文、专刊(2)口头型信息源:通过交谈、聊天、授课、讨论等方式进行口头相传的信息(3)电子型信息源:广播、电视、电话、因特网(4)实物型信息源:运动会、动物园、销售市场、各类公共场所4、信息获取的方法和工具扫描仪:可以扫描图片和文字,并能借助文字识别软件OCR自动识别文字;(OCR技术就是利用专用设备对印刷文字或手写文字进行识别并转化为文字编码的一种使用技术。
)●录音设备采集音频信息(麦克风、录音笔、Mp3);●数码相机(DC)可以采集图像信息,部分可以拍摄短片;●数码摄像机(DV)可以采集音、视频信息。
二、因特网信息的搜索【知识链接】1、通用资源定位符( URL ):表示文件在因特网上存放的名称以及位置。
URL的组成:协议名或传送方式://服务器域名或IP地址:端口号/路径/文件名。
m因特网的服务功能和协议:检●用好逻辑命令:与( and / + )、或( or / | )、非( not / - )。
●用什么样的搜索引擎搜索:根据具体要求选择不同的搜索引擎。
第一章《信息与信息技术》知识点1、1信息及其特征一、信息的概念信息是事物的运动状态及其状态变化的方式。
信息的表现形式有多种,如:图片、声音、动作、表情、文字。
信息存贮的基本容量单位:字节(8个二进制位)--Byte☆信息与载体密不可分,没有无载体的信息,没有载体便没有信息,信息必须通过载体才能显示出来。
二、信息的一般特征1、载体依附性信息不能独立存在,必须依附于一定的载体,而且,同一个信息可以依附于不同的载体。
信息按载体不同可分为(文字、图形(图象)、声音、动画、视频)。
信息的载体依附性使信息具有可存储、可传递、可转换的特点。
2、价值性☆信息是有价值的,人类离不开信息。
物质、能量和信息是构成世界的三大要素。
☆信息与物质、能量不同,表现在两方面:一方面它可以满足人们精神领域的需求;另一方面,可以促进物质、能量的生产和使用。
☆另外,信息又是可以增殖的。
☆信息只有被人们利用才能体现出其价值,而有些信息的价值则可能尚未被我们发现。
3、时效性信息会随着时间的推移而变化,如交通信息,天气预报等。
时效性与价值性紧密相连,信息如果没有价值也就无所谓时效了。
4、共享性----信息不同于物质、能量的主要方面信息共享一般不会造成信息的丢失,也不会改变信息的内容。
1、2日新月异的信息技术一、信息技术的悠久历史信息技术(IT:Information Technology)是指一切与信息的获取、加工、表达、交流、管理和评价等有关的技术。
2、信息技术的五次革命第一次革命是语言的使用;从猿进化到人的标志第二次革命是文字的创造;首次超越了时间和地域的局限第三次革命是印刷术的发明;为知识的积累和传播提供了可靠的保证第四次革命电报、电话、广播、电视的出现和普及;进一步突破了时间与空间的限制第五次革命是计算机技术与现代通信技术的普及应用。
将人类推进到了数字化的信息时代☆信息技术在不断更新,但一些古老的信息技术仍在使用,不能因为出现了新的信息技术就抛弃以前的信息技术。
搜索引擎的基本⼯作原理了解搜索引擎的基本⼯作原理1.搜索引擎的概念在浩瀚的⽹络资源中,搜素引擎(Search Engine)是⼀种⽹上信息检索⼯具,它能帮助⽤户迅速⽽全⾯地找到所需要的信息。
我们这样对搜索引擎进⾏定义:搜索引擎是⼀种能够通过因特⽹接受⽤户的查询命令,并向⽤户提供符合其查询要求的信息资源⽹址的系统。
据统计,搜索引擎搜索仅次于电⼦邮件的应⽤。
⽬前⽹上⽐较有影响的中⽂搜索⼯具有:google、百度、北⼤天⽹、爱问(iask)、雅虎(yahoo!)、搜狗(sogou)、搜搜(soso)等搜索引擎。
英⽂的有:Yahoo! 、AltaVista、Excite、Infoseek、Lycos、Aol等。
另外还有专⽤搜索引擎,例如专门搜索歌曲和⾳乐的;专门搜索电⼦邮件地址、电话与地址及公众信息的;专门搜索各种⽂件的FTP搜索引擎等。
搜索引擎是指根据⼀定的策略,运⽤特定的计算机程序搜集互联⽹上的信息,在对信息进⾏组织和处理后,为⽤户提供检索服务的系统。
搜索引擎并不是真正的互联⽹,它搜索的实际上是预先整理好的⽹页索引数据库。
真正意义上的搜索引擎,通常指的是收集了互联⽹上⼏千万到⼏⼗亿个⽹页并对我那个也中的每⼀个词(即关键词)进⾏索引。
建⽴索引数据库的全⽂搜索引擎。
现在的搜索引擎已普遍使⽤超链分析技术,除了分析索引⽹页本⾝的内容,还分析索引所有指向该⽹页的链接的URL、Anchor、Text,甚⾄链接周围的⽂字。
所以,有时候,即使某个⽹页A中并没有出现某个词,⽐如“信息检索”,但如果有⽹页B⽤链接“信息检索”指向这个⽹页A,那么⽤户搜索“信息检索”时也能找到⽹页A。
⽽且,如果有越多的⽹页的“信息检索”链接指向⽹页A,那么⽹页A在⽤户搜索“信息检索”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以分为四步:从互联⽹上抓取⽹页、建⽴索引数据库、在索引数据库中搜索排序、对搜索结果进⾏处理和排序。
(1)、从互联⽹上抓取⽹页:利⽤能够从互联⽹上⾃动收集⽹页的蜘蛛系统程序,⾃动访问互联⽹,并沿着任何⽹页中所有URL爬到其他⽹页,重复这个过程,并把爬过的所有⽹页收集回来。