当前位置:文档之家› 搜索引擎概述

搜索引擎概述

搜索引擎概述
搜索引擎概述

搜索引擎概述

什么是搜索引擎?

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。

搜索引擎的原理:

第一步:从互联网上搜集信息

网络蜘蛛Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

第二步:整理信息、建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页所在网址链接、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个

关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

第三步:在索引数据库中搜索排序、接受查询

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址、页面内容摘要等内容,组织起来返回给用户。网络蜘蛛(spider)一般按照各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率,要定期重新访问所有网页,更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会以更新的形态,反映到用户搜索查询的结果中。

搜索引擎的种类:

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search

Index/Directory)和元搜索引擎(Meta Search Engine)。

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut

等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。

元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

除上述三大类引擎外,还有以下几种非主流形式:

1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。

2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。

3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。

搜索引擎有哪些基本类型?

随着搜索引擎技术和市场的不断发展,出现了多种不同类型的搜索引擎,各类媒体上有关搜索引擎的名词也越来越多,甚至产生让人眼花缭乱的感觉,如交互式搜索引擎、第三代搜索引擎、第四代搜索引擎、桌面搜索、地址栏搜索、本地搜索、个性化搜索引擎、专家型搜索引擎、购物搜索引擎、自然语言搜索引擎、新闻搜索引擎、MP3搜索引擎、图片搜索引擎……如何尽快熟悉如此众多类型的搜索引擎,又如何利用各种搜索引擎作为网络营销工具呢?首先要对搜索引擎的种

类有一个比较清晰的认识。

尽管搜索引擎有各种不同的表现形式和应用领域,如果从搜索引擎的工作原理来区分,搜索引擎有两种基本类型:一类是纯技术型

的全文检索搜索引擎,如google、AltaVista、Inktomi等,其原理是通过机器手(即Spider程序)到各个网站收集、存储信息,并建立索引数据库供用户查询。需要说明的是,这些信息并不是搜索引擎即时从互联网上检索得到的,通常所说的搜索引擎,其实是一个收集了大量网站/网页资料并按照一定规则建立索引的在线数据库,如2004年3月底google收录的网页数量已经超过42亿个,这样,当用户检索时才可以在很短的时间内反馈大量的结果。

另一类称为分类目录,这种“搜索引擎”并不采集网站的任何信息,而是利用各网站向“搜索引擎”提交网站信息时填写的关键词和网站描述等资料,经过人工审核编辑后,如果符合网站登录的条件,则输入数据库以供查询。yahoo是分类目录的典型代表,国内的搜狐、新浪等搜索引擎也是从分类目录发展起来的。分类目录的好处是,用户可以根据目录有针对性地逐级查询自己需要的信息,而不是像技术性搜索引擎一样同时反馈大量的信息,而这些信息之间的关联性并不一定符合用户的期望。

从实质上看,利用机器手自动检索网页信息的搜索引擎才是真正意义上的搜索引擎。现在的大型网站一般都同时具有“搜索引擎”和“分类目录”查询方式,只不过一些网站的搜索引擎技术来自于其他提供全文检索的专业搜索引擎,如yahoo拥有自己经营的网站分类目录,而曾经采用的网页搜索引擎包括Inktomi、google等公司提供的技术。因此,从用户应用的角度来看,无论通过技术性的搜索引擎,

还是人工分类目录型的搜索引擎,都能实现自己查询信息的目的(两种形式可以获得的信息不同,分类目录通常只能检索到相关网站的网址,而搜索引擎则可以直接检索相关内容的网页),因此习惯上没有必要严格区分这两个概念,而是通称为搜索引擎。不过要注意的是,由于两种类型的搜索引擎原理不同,导致各种搜索引擎营销方式的差异,需要针对不同的搜索引擎采用不同的搜索引擎营销策略,因而处于网络营销研究和应用,有必要从概念和原理上给予区分。

但是,也有一些搜索引擎的操作方式不同于上述两类基本的搜索引擎,比较有影响力的有两种:一种是“多元搜索引擎”(Meta search Engine),另一种被称为“集成搜索引擎”(All-in-One Search Page)。这两种搜索引擎也是在前述两种基本搜索引擎的基础上发展演变而成的,但又不同于传统的搜索引擎模式。由于这些搜索引擎应用于网络营销时在基本思想和方法上并没有重大差别,因此这里仅做简要介绍。

“多元搜索引擎”的主要区别在于,并不像全文搜索引擎那样拥有自己的索引数据库,而是当用户提交搜索申请时,通过对多个独立搜索引擎的整合和调用,然后按照多元搜索引擎自己设定的规则将搜索结果进行取舍和排序并反馈给用户。从用户的角度来看,利用多元搜索引擎的优点在于可以同时获得多个源搜索引擎(即被多元搜索引擎用来获取搜索结果的搜索引擎)的结果,但由于多元搜索引擎在信息来源和技术方面都存在一定的限制,因此搜索结果实际上并不理

想,目前尽管有数以百计的多元搜索引擎,但还没有一个能像google 等独立搜索引擎那样受到用户的广泛认可。表2-1中列出的SavvySearch和 Metacrawler就是最早的多元搜索引擎。美国专业搜索引擎咨询网站Search Engine Watch(https://www.doczj.com/doc/8315150350.html,)评出的2003

年最佳多元搜索引擎如下:

银行利率网房贷利率网冷笑话网黄金价格网汇率查询网艾玛妇产网

国内的多元搜索引擎目前尚处于起步阶段,目前只有少数网站开始涉足,尚没有非常优势品牌的多元搜索引擎出现,但作为网络营销研究,有必要对此予以关注。

“集成搜索引擎”的原理则相当简单,甚至不需要多少专门的核心技术,其表现形式是:在一个浏览界面上同时链接了多个搜索引擎,用户检索时可以选择其中的部分或者全部搜索引擎,一次输入关键词,可以获得多个搜索引擎的检索结果。因此这种形式实际上并不是独立的搜索引擎,应该说是对现有搜索引擎的一种应用方式,是为用户获得尽可能多的搜索结果提供方便。与多元搜索引擎一样,集成搜索引擎同样没有自己的索引数据库,甚至不能对搜索结果进行筛选和重新排序,因此,从网络营销的角度来看,并不需要花费太多的精力来给予研究,网站只要在各个独立的搜索引擎中有好的排名效果,在集成搜索引擎中自然也会出现同样的结果。但值得关注的是,集成搜索引擎为网络营销人员提出了一个努力的方向,即应当让自己的网站

在尽可能多的搜索引擎中都获得好的表现,尤其不要遗漏重要的搜索引擎。

那么,该如何理解本文开头提到的众多搜索引擎概念呢?我们大致可以这样理解:现有各种新出现的搜索引擎都是在前述两种搜索引擎基本类型基础上的技术革新、应用方式变革、或者应用领域的细分,例如购物搜索引擎,可以理解为搜索引擎在网上购物领域的一个分支,这个搜索引擎仅仅在网上购物网站中收集各种信息,而不考虑其他领域的信息,这样可以做到更强的针对性和专业性。考虑到搜索引擎的飞速发展,在已经出版的书籍中无法包含新出现的名词,网络营销教学网站(https://www.doczj.com/doc/8315150350.html,)将在网络营销知识库中陆续介绍一些新的概念,如桌面搜索、地址栏搜索、本地搜索、购物搜索引擎等。搜索引擎的使用技巧:

搜索引擎为用户查找信息提供了极大的方便,你只需输入几个关键词,任何想要的资料都会从世界各个角落汇集到你的电脑前。然而如果操作不当,搜索效率也是会大打折扣的。

比方说你本想查询某方面的资料,可搜索引擎返回的却是大量无关的信息。这种情况责任通常不在搜索引擎,而是因为你没有掌握提高搜索精度的技巧。那么如何才能提高信息检索的效率呢?

搜索关键词提练

无庸至疑,选择正确的关键词是一切的开始。学会从复杂搜索意图中提练出最具代表性和指示性的关键词对提高信息查询效率至关重要,这方面的技巧(或者说经验)是所有搜索技巧之母。

细化搜索条件

搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。

用好逻辑命令

搜索逻辑命令通常是指布尔命令“AND”、“OR”、“NOT”及与之对应的“+”、“-”等逻辑符号命令。用好这些命令同样可使我们日常搜索应用达到事半功倍的效果。

精确匹配搜索

精确匹配搜索也是缩小搜索结果范围的有力工具,此外它还可用来达到某些其他方式无法完成的搜索任务。

特殊搜索命令

除一般搜索功能外,搜索引擎都提供一些特殊搜索命令,以满足高阶用户的特殊需求。比如查询指向某网站的外部链接和某网站内所有相关网页的功能等等。这些命令虽不常用,但当有这方面搜索需求时,它们就大派用场了。

附加搜索功能

搜索引擎都提供的一些方便用户搜索的定制功能。常见的有相关关键词搜索、限制地区搜索等。

用什么样的搜索引擎搜索

搜索引擎分几种,工作方式也不同,因而导致了信息覆盖范围方面的差异。我们平常搜索仅集中于某一家搜索引擎是不明智的,因为再好的搜索引擎也有局限性,合理的方式应该是根据具体要求选择不同的引擎。

什么是搜索引擎营销策略?

搜索引擎营销策略包括免费搜索引擎推广方法和收费搜索引擎广告,免费方法如分类目录登录、基于自然检索结果的搜索引擎优化排名、网站链接规光等,付费搜索引擎广告则包括关键词广告及其优化和效果管理,搜索结果页面位次排名等。

搜索引擎优化与网络营销导向网站建设之间的关系:

搜索引擎优化应该重视网站内部的基本要素:网站结构、网站内容、网站功能和网站服务,尤其以网站结构和网站内容优化最为重要。可见,搜索引擎优化工作的主要内容实际上是有关网站建设的专业性问题,这也不难理解,因为搜索引擎优化是网站优化的组成部分,不仅从网站内部要素入手为用户获取信息提供方便,并且为用户通过搜索引擎获取信息提供方便——这实际上也表明,搜索引擎优化与网站内

部要素的优化本来就是一回事,网络营销导向的网站建设必然要求做到搜索引擎优化,而搜索引擎优化也是网络营销导向的网站建设的组成部分。

搜索引擎优化本身并不是一项专门的技术或者工程,而是一种经营思想,将这种经营思想运用于网站建设之中去,自然就获得了搜索优化的效果。但通常情况下,企业在建设网站时很少考虑搜索引擎优化问题,这样的网站自然难以获得搜索引擎优化的效果,只有等到网站建成发布并运营一段时间之后,发现效果不佳时才想到优化的问题,这已经造成了浪费,甚至可能贻误了最好的时机。这时进行的搜索引擎优化,是对网站建设的一种事后补偿,即对于在网站建设中没有贯彻执行网站优化思想的网站设计进行改进,其改进的内容仍然是网站结构、网站内容、网页布局的等基本要素。

显然,网站建成之后的优化这要比建设过程中直接吸收优化思想的网站建设更加复杂,尤其对大量现有的网站内容进行更新,是一项非常大的工作量,不仅涉及到网站栏目结构、模版、后台发布程序(如果有这样需要的话)的修改,还需要对已经发布的网页内容按照网站优化的原则重新发布。这已经成为阻碍一些网站进行优化改造的主要原因之一。

新竞争力网络营销管理顾问(https://www.doczj.com/doc/8315150350.html,)在一项有关“企业网站实施搜索引擎优化的限制因素调查”的文章中,引用了美国知名的搜索引擎营销服务商iProspect和市场研究公司JupiterResearch在

2005年8月进行了一次关于企业委托搜索引擎营销公司实施搜索引擎优化的联合调查,调查发现企业之所以没有采纳和实施搜索引擎优化服务商提出的优化建议方案的主要原因依次为:缺乏相关的专业人员执行搜索引擎优化建议33.6%;没有实施搜索引擎优化的预算;对网站或文件更新要花太多时间;上层领导不执行这些方案等。其中对网站更新费时问题居于第三位,可见事后的网站优化将面临更多的麻烦。但网站优化方面出现问题不及时解决对网站推广运营将带来更大的麻烦,直接影响到网络营销的效果。

根据新竞争力网络营销管理顾问最近几个月来提供网站优化方

面咨询服务的情况来看,现在有一些新建的项目非常重视网站优化设计工作,在网站建设开始之前根据网站策划方案和模版设计资料,就委托新竞争力提供网站运营策略调研并在此基础上制定网站优化方案,我觉得这样是比较好的方式,让新发布的网站直接从高起点开始运营,可以大大提高网站运营的效果,也节省了网站优化改造的费用。不过,现在对网站优化方案需求最多的仍然是那些大量正在运营中的网站,这些网站对优化及推广更为迫切。考虑到运营中的网站所面对的实际问题,对这些网站的优化方案则尽可能减少对原有栏目结构和信息发布流程等做过多的改变,这样难免会在某些方面降低网站优化的标准。

通过这些事实也可以说明,如果在网站建设过程中没有体现网站优化和搜索引擎优化的基本思想,在网络营销水平普遍提高的网络营

销环境中是很难获得竞争优势的,或者说,网络营销导向的网站建设已经成为网络营销经营策略的必然要求,搜索引擎优化的思想必须融入到网站建设(网站优化改造)之中。

利用搜索引擎提升网络品牌的基本方法:

利用搜索引擎提升网络品牌的基本方法包括:尽可能增加网页被搜索引擎收录的数量;通过网站优化设计提高网页在搜索引擎检索结果中的效果(包括重要关键词检索的排名位置和标题、摘要信息对用户的吸引力等),获得比竞争者更有利的地位;利用关键词竞价广告提高网站搜索引擎可见度;利用搜索引擎固定位置排名方式进行品牌宣传;多品牌、多产品系列的分散化网络品牌策略等。这些方法实质上都是为了增加网站在搜索引擎的可见度,因此如何提高网站搜索引擎可见度成为搜索引擎提升网络品牌的必由之路。

提高网站搜索引擎可见度也就是让用户在多个主要搜索引擎,利用相关关键词进行检索时,用户可以方便地获得企业的信息,主要措施包括基于提高搜索引擎自然检索结果的搜索引擎优化,以及在搜索引擎检索结果页面出现的不同形式的关键词广告等。

搜索引擎优化是通过对网站栏目结构、网站内容等基本要素的合理设计,使得网站内容更容易被搜索引擎检索,并且呈现给用户相关度最高的信息。利用搜索引擎自然检索方式增加网站搜索引擎可见度

的基础,是让网站尽可能多的网页被主要搜索引擎收录,这也就是搜索引擎营销目标层次中的第一个层次。

这里有必要提出的是,在实施搜索引擎优化方案时,如果采用不合理的方式,如被搜索引擎视为作弊的手段,则有可能造成网站被搜索引擎惩罚,轻者被视为低质量网页而在用户检索时发挥不良任何优势,重则网站被搜索引擎彻底清除。如果网站出现了这种结果,那么将严重影响企业的品牌形象,对整个网络营销策略也将是严重的打击。

搜索引擎优化目前是一个比较容易引起误解的概念,往往与搜索引擎排名混为一谈,尤其是采用不正当手段的垃圾SEO。网上营销新观察(https://www.doczj.com/doc/8315150350.html,)在“搜索引擎优化应该重视什么”等文章对此进行过说明,并且在“搜索引擎优化是非问题辨析”专题中用多篇文章分析了一些错误认识和手段。在新竞争力思想库也有多篇文章对此进行深度剖析,如“网站优化与搜索引擎排名SEO的本质区别”、“搜索引擎优化不等于网站优化——网站优化设计的真正含义”等。搜索引擎优化包含许多细节内容,有关规范的搜索引擎优化的基本原则和方法,将在《搜索引擎营销》(冯英健著,机械工业出版社出版发行)中给予系统介绍。

除了对网站进行必要的优化设计之外,通过付费广告的方式让企业信息出现在搜索结果页面的显著位置作为扩大品牌知名度的一种常用方式,并且具有更多的优点,作为自然检索的补充,可以方便地

在更大范围内、以更灵活的方式展示企业的品牌形象和产品信息。付费搜索引擎广告的形式包括竞价排名广告、固定位置排名广告,以及出现在搜索引擎联盟网站上的基于内容定位的关键词广告(如goolge AdSense等)。搜索引擎关键词广告的优点及其操作手段等,除了在《搜索引擎营销》介绍之外,也将在网上营销新观察

(https://www.doczj.com/doc/8315150350.html,)的搜索引擎营销专题以及网络营销常见问题解答中陆续发布。

中外搜索引擎研究的现状与发展

中外搜索引擎研究的现状与发展 夏旭李健康 (第一军医大学图书馆广州510515) 摘要: 以WWW网络搜索引擎的发展历程为基础,综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展,探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析,希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。 关键词:搜索引擎研究进展综述信息资源管理 由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines),用于快速搜索WWW网络乃至因特上的有用信息,使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。 1 搜索引擎的定义、检索机制、检索规则和词表应用 1.1 定义 搜索引擎,Search engines,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快,特定主题的检索专指性强等特点。 1.1.1 常规搜索引擎和元搜索引擎 自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎,相应地,集多种常规搜索引擎于一体的搜索引擎则称为(多)元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎,与独立搜索引擎的区别在于:它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎,甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库,却更多地提供统一界面,形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体,通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预先配置好多个搜索引擎,每条检索指令都自动通过预先配置的搜索引擎执行,免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、Fun City Web Search、HyperNews、Linksearch、Savvysearch、Metacrawler、Best Search、W3Search Engines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、Bluesquirrel Webseeker等。Metacrawler (http://www. https://www.doczj.com/doc/8315150350.html,)能同时调用6个搜索引擎;Savvysearch (http://www. https://www.doczj.com/doc/8315150350.html,)可有选择地调用21个独立的搜索引擎,检索Web、Usenet 新闻组、软件、参考工具、技术报告等信息,每次最多并行检索5个搜索引擎的数据库。Profusion (http://www. https://www.doczj.com/doc/8315150350.html,)最多同时调用9个独立的搜索引擎,调用方式有全部调用、系统自动选择最好的3个、系统自动选择最快的3个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。 1.1.2 集中式搜索引擎和分布式搜索引擎

搜索引擎的种类与使用的技巧

搜索引擎的种类与使用的技巧 [摘要]随着信息技术的发展,网络的迅速普及,搜索引擎在网络用户的生活中扮演着越来越重要的地位,了解并能熟练使用搜索引擎成为大众的必修课。对搜索引擎的基本知识和种类作简要介绍,并结合亲身实践介绍几种实用的搜索技巧。 [关键词]搜索引擎种类技巧 一、搜索引擎概述 搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。它主要是用于检索网站、网址、文献信息等内容。随着网络技术的发展,各种搜索引擎层出不穷,目前流行的搜索引擎主要是帮助用户搜索表层信息,如google、百度、雅虎等。 二、搜索引擎的分类 目前,主流的搜索引擎有如下几类: (一)全文索引 根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

(二)目录索引 目录索引虽然有搜索功能,但不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录索引中最具代表性的是Yahoo、新浪分类目录搜索。 (三)元搜索引擎 元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。着名的元搜索引擎有InfoSpace、Dogpile等。中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。 三、搜索引擎使用技巧 (一)关键词的选择 目前搜索引擎不具备智能识别能力,较人脑而言还很“弱智”,往往不能很好地把握用户到底想要什么,只会在现成的数据库索引中查找相匹配的关键词。因此,选择合适的关键词是成功检索的第一步。关键词的选择虽然没有什么定式,不过也有一些规律可循,在提取关键词时力求做到规范,避免口语化,便能达到事半功倍的效果。此处用特殊实例来说明: 2.使用多个含义相近的关键词。对于热门信息来说,搜索时犯愁的是返回条目太多,可对冷门事件或事物来说往往恰恰相反。此时可使用同义关键词和关联关键词来检索,以达到更全面的搜索结果。如:在学术部门的年轻人想查阅申报课题的技巧时会发现相

搜索引擎在电子商务中的应用

搜索引擎在电子商务中的运用

搜索引擎在电子商务中的运用 摘要:20世纪互联网的出现和飞速发展,商务信息爆炸式的增长以及网络环境的日益复杂,搜索引擎作为信息检索的重要工具在网络经济中的作用变得越来越重要,搜索引擎与电子商务的结合是未来电子商务的发展趋势,因此本文以搜索引擎现状、面向电子商务的智能搜索引擎技术及在网络营销中的应用以及搜索引擎在今后的发展趋势做出简单的介绍. 关键词:电子商务;信息检索;搜索引擎;应用研究;发展趋势 一、对电子商务和搜索引擎的理解 从总体上来看,电子商务是指给整个贸易活动实现电子化。应用计算机与网络技术与现代信息化通信技术,按照一定标准,利用电子化工具来实现包括电子交易在内的商业交换和行政作业的商贸活动的全过程。 搜索引擎(SearchEngine):通过运行一个软件,该软件在网络上通过各种链接,自动获得大量站点页面的信息,并按照一定规则进行归类整理,从而形成数据库,以备查询。这样的站点(获得信息——整理建立数据库——提供查询)我们就称之为“搜索引擎”。 1.2 搜索引擎在我国的发展现状 (8) 1.2.1我国搜索引擎的背景 (8) 1.2.2 搜索引擎的现状 (9) 1.3本文的研究内容 (10) 第一章搜索引擎的原理…………………………………………………………… 11 2.1搜索引擎的原理概述…………………………………………………………… 11 2.2搜索引擎的实现原理…………………………………………………………… 12

2.2.1从互联网上抓取网页……………………………………………………… 12 2.2.2建立索引数据库…………………………………………………………… 12 2.2.3在索引数据库中搜索……………………………………………………… 13 2.2.4对搜索结果进行处理排序………………………………………………… 13 1.2搜索引擎的现状 1.2.1 我国搜索引擎的背景 百度上市后,我国的搜索市场一下子热了起来。越来越多的企业围绕着搜索市场作起了文章。而且,在搜索大战的同时,一些企业也抛出了一些惊人言论。近日,记者从专业做人脉交际的联络家(https://www.doczj.com/doc/8315150350.html,)技术总监冉征处了解到,联络家正在加紧研发人脉相关领域的专业垂直,联络家之所以涉足专业垂直搜索引擎领域,是看到未来垂直专业搜索引擎市场的巨大商机,他认为未来搜索市场将进一步细分,象Google、百度等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性垂直搜索将受到网民的青睐。 那么缘何能得出如此结论呢?CNNIC第十四次互联网调查显示,搜索以71.9%的绝对优势成为用户从互联网上获得信息的主要方式。几乎在全球所有的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务,搜索引擎服务能成为最受欢迎的服务是因为他解决了用户在浩瀚的互联网海量快速定位信息屏颈问题,在海量的网页里找信息按照传统方式需要用户一个网站一个网站一级目录一级目录下找,要耗费大量的精力和时间,几乎是不可能实现的任务。 1.2.2 搜索引擎的现状 随着互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量

2020年【搜索引擎】行业调研分析报告

2020年【搜索引擎】行业调研分析报告 2020年2月

目录 1. 搜索引擎行业概况及市场分析 (6) 1.1 搜索引擎行业市场规模分析 (6) 1.2 搜索引擎行业结构分析 (6) 1.3 搜索引擎行业PEST分析 (7) 1.4 搜索引擎行业发展现状分析 (9) 1.5 搜索引擎行业市场运行状况分析 (10) 1.6 搜索引擎行业特征分析 (11) 2. 搜索引擎行业驱动政策环境 (12) 2.1 市场驱动分析 (12) 2.2 政策将会持续利好行业发展 (14) 2.3 行业政策体系趋于完善 (14) 2.4 一级市场火热,国内专利不断攀升 (15) 2.5 宏观环境下搜索引擎行业的定位 (15) 2.6 “十三五”期间搜索引擎建设取得显著业绩 (16) 3. 搜索引擎产业发展前景 (17) 3.1 中国搜索引擎行业市场规模前景预测 (17) 3.2 搜索引擎进入大面积推广应用阶段 (18) 3.3 中国搜索引擎行业市场增长点 (19) 3.4 细分化产品将会最具优势 (19) 3.5 搜索引擎产业与互联网等产业融合发展机遇 (20) 3.6 搜索引擎人才培养市场大、国际合作前景广阔 (21)

3.7 巨头合纵连横,行业集中趋势将更加显著 (22) 3.8 建设上升空间较大,需不断注入活力 (22) 3.9 行业发展需突破创新瓶颈 (23) 4. 搜索引擎行业竞争分析 (24) 4.1 搜索引擎行业国内外对比分析 (24) 4.2 中国搜索引擎行业品牌竞争格局分析 (26) 4.3 中国搜索引擎行业竞争强度分析 (26) 4.4 初创公司大独角兽领衔 (27) 4.5 上市公司双雄深耕多年 (28) 4.6 互联网巨头综合优势明显 (29) 5. 搜索引擎行业存在的问题分析 (30) 5.1 政策体系不健全 (30) 5.2 基础工作薄弱 (30) 5.3 地方认识不足,激励作用有限 (30) 5.4 产业结构调整进展缓慢 (30) 5.5 技术相对落后 (31) 5.6 隐私安全问题 (31) 5.7 与用户的互动需不断增强 (32) 5.8 管理效率低 (33) 5.9 盈利点单一 (33) 5.10 过于依赖政府,缺乏主观能动性 (34) 5.11 法律风险 (34)

全文搜索引擎的设计与实现(文献综述)

全文搜索引擎的设计与实现 前言 面对海量的数字化信息,搜索引擎技术帮助我们在其中发现有价值的信息与资源。我们可以通过google、百度这样的搜索引擎服务提供商帮助我们在Internet上搜索我们需要的信息。但是在一些没有或不便于连入Internet的内部网络或者是拥有海量数据存储的主机,想要通过搜索来发现有价值的信息和资源却不太容易。所以开发一个小型全文搜索引擎,实现以上两种情况下的信息高效检索是十分有必要的。本设计着眼于全文搜索引擎的设计与实现,利用Java ee结合Struts,Spring,Hibernates以及Ajax等框架技术,实现基于apache软件基金会开源搜索引擎框架Lucene下的一个全文搜索引擎。 正文 搜索引擎技术起源1990年,蒙特利尔大学学生Alan Emtage、Peter Deutsch和Bill Wheelan出于个人兴趣,发明了用于检索、查询分布在各个FTP主机中的文件Archie,当时他们的目的仅仅是为了在查询文件时的方便,他们未曾预料到他们的这一创造会成就日后互联网最的广阔市场,他们发明的小程序将进化成网络时代不可或缺的工具——搜索引擎。1991年,在美国CERFnet、PSInet及Alternet网络组成了CIEA (商用Internet 协会)宣布用户可以把它们的Internet子网用于商业用途,开始了Internet商业化的序幕。商业化意味着互联网技术不再为科研和军事领域独享,商业化意味着有更多人可以接触互联网,商业化更意味着潜在的市场和巨大的商机。1994年,Michael Mauldin推出了最早的现代意义上的搜索引擎Lycos,互联网进入了搜索技术的应用和搜索引擎快速发展时期。以上是国际互联网和搜索引擎发展历史上的几个重要日子。互联网从出现至今不过15年左右时间,搜索引擎商业化运作也就10年左右。就在这短短的10年时间里,互联网发生了翻天覆地的变化,呈爆炸性增长。于此同时也成就了google、百度这样的互联网巨头。今天,当我们想要在这片广阔的信息海洋中及时获得想要查找的信息时,已经离不开搜索引擎了。 相关技术

搜索引擎的现状和发展趋势

期末课程论文 论文标题:搜索引擎的现状与发展趋势 课程名称:信息检索技术 课程编号:1220500 学生姓名:潘飞达 学生学号:1100310120 所在学院:计算机科学与工程学院 学习专业:计算机科学与技术 课程教师:王冲 2013年7月1 日

【摘要】 搜索引擎包括图片搜索引擎、全文索引、目录索引等,其发展历史可分为五个阶段,目前企业搜索引擎和网站运营搜索引擎运用范围较广。在搜索引擎的未来发展中,呈现出个性化,多元化,智能化,移动化,社区化等多个趋势。 【关键词】 发展过程、发展趋势、检索技巧、个性化、智能化 1 搜索引擎简介 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 其工作作原理分为抓取网页,处理网页和提供检索服务。 抓取每个独立的搜索引擎都有自己的网页抓取程序,它顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。 搜索引擎是根据用户的查询请求,按照一定算法从索引数据中查找信息返回给用户。为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。 系统结构图 2搜索引擎的工作原理 第一步:爬行 搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛WWW 文档 网络机器人程序 建立Lucence 索引 从数据库中搜索信息 Tomcat 服务器 Lucence 索引数据库 WWW 浏览器 WWW 浏览器 JSP 网络机器人程序

技能训练5-1主要搜索引擎特性的对比分析

技能训练5-1 主要搜索引擎特性的对比分析 以“六度空间理论”、“搜索引擎优化”、“手持移动电视”为关键字,在三大搜索引擎(百度、谷歌、搜搜)上进行“网页”搜索,将相关搜索结果整理为100字左右的文字描述,然后以4-6人为小组分享各自的结论,并就三大搜索引擎的特点、返回结果信息的相关性、价值度的大小等方面进行讨论,并将形成的结论填入下表。 表5-4 三大搜索引擎对比分析表 调查时间: 11·28 调查人:余思琪 搜索对象搜索引 擎种类 搜索引擎 特性描述 信息 相关 性 评价 信息 价值 度 评价 是 否存在 商业推 广 六度 空间理论百度 拥有目前世界上 最大的中文信息库, 支持主流的中文编码 标准,采用智能相关 度算法,支持二次检 索(又称渐进检索或 逼进检索),采用先进 的网页动态摘要显示 技术 相关 度高,前 20条里有 19条都与 之相关,大 多来自百 科.文库. 博客 信息 价值度,在 这19条中 我都能了 解到关于 六度空间 理论的相 关信息 没 有Google 目前规模最大搜 索引擎,提供常规搜 不高, 前十条中 一般, 其中有不 存 在关键

索和高级搜索两种功能。信息条目数量。但也要注意其多种语言字母无大小写之分,全部默认为小写,不使用词干法,也不支持通配符只有5条 与其相关 来自百科, 和一些网 页 少与所搜 索的东西 不相关 字广告 和广告 联盟 搜搜 腾讯出品为广 大用户提供的问答互 动平台。覆盖面广 ——接触庞大QQ用户 群,针对性强——准 确覆盖目标用户,互 动性强——即搜即Q, 立刻抓住您的客户, 灵活可控——快捷调 整广告内容和广告开 销 相关 度很高,前 十条内都 与之相关 信息 价值度高。 从前十条 中我都能 了解到六 度空间理 论的含义 没 有 什么是六度空间理论? 你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。这就是六度分割理论,也叫小世界理论。

搜索引擎原理及发展趋势

1 南昌航空大学 Nanchang Hangkong University 毕 业 论 文 题目 _搜索引擎原理及发展趋势__________________ 学院 _江西工业工程职业学校 _____________________ 专业 __________计算机网络________________________ 姓名 周文飞___________学号 036811100078 指导老师 李国忠______________职称________________ __2012__年_5__月_5_ 日 _

目录 第一章搜索引擎的概述 3 1.1 搜索引擎3 1.2 搜索引擎的发展史3第二章搜索引擎基本常识9 2.1 搜索引擎工作原理9 2.2 搜索引擎分类9 2.3 全文搜索引擎10第三章使用搜索引擎的一些基本规则和技巧12 3.1 搜索引擎的一些基本规则12 3.2 搜索引擎的一些基本技巧12第四章搜索引擎的评测16 4.1搜索引擎缺陷16 4.2搜索速度16第五章搜索引擎的未来发展动向及趋势18 5.1搜索引擎的未来发展动向18 5.2搜索引擎趋势19 结束语23致谢24参考文献25 2

第一章搜索引擎的概述 1.1 搜索引擎 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 1.2搜索引擎的发展史 互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。 起源 所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。发展(1) Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供 3

浅谈搜索引擎的研究现状

科 技 天 地 38 INTELLIGENCE ························浅谈搜索引擎的研究现状 西安外事学院计算机中心 李艳红 摘 要:文章分析了搜索引擎的发展历史及国内外搜索引擎的发展现状,采用了 对比的方法对特色搜索引擎的进行了阐述,并详尽的指出了各种搜索引擎的现状、特点及发展趋势。 关键词:搜索引擎 爬虫 网页快照 搜索引擎(Search Engine)正是帮助人们从网上检索信息的重要工具,是为了解决网上信息查询困难的问题应运而生的,它可以有效地帮助用户在网络上查找到自己需要的信息。它是在互联网产生后伴随着网上用户快速查询信息的需求的产物,即提供信息检索服务的计算机系统,检索的对象包括互联网上的站点,新闻组中的文章,软件存放的地址及作者,某个企业和个人的主页等。 当用户通过Archie 检索文件时,所要进行的全部工作就是对该数据库进行检索。尽管Archie 还不是真正的搜索引擎,但工作原理与现在的搜索引擎己经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者查询。1994年初,Internet 上出现了包括Lycos 在内的第一批Web 搜索引擎。第二代搜索引擎以1998年出的Google 和Directhit 为代表。它们是“根据以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要性,或者根据一个网站被其他网站链接的数量来确定网站的重要性” ,“这种根据用户忠诚度的评判方法更具备客观性,因而,用户所获得的信息也就更准确”。如Directhit 以被大多数用户访问的情况认定一个网站的重要性;Google 以被其他网站链接的情况认定一个网站的重要程度。在发展过程中更强调了人的因素,主要表现在以下三个方面: (1)能利用自然语言查找信息。第二代搜索引擎可以将自然语言自动翻译成系统能理解的专业术语,进行精确查找。 (2)有判断地收集信息,根据众多网络用户行为特征来取舍信息。(3)人工分类。引入大量的人工对信息进行分类。强调人工分类的重要性。 此外,第二代的搜索引擎还有一个特点,他们只做后台技术,将技术提供给Yahoo 等门户网站。其中Google(https://www.doczj.com/doc/8315150350.html,)是表现最为突出的。Google 于1998年9月发布测试版,是目前人们使用最广泛的搜索引擎。 Google 现为全球80多家门户和终级网站提供支持。Google 的优势是易用性和返回结果的高相关性。Google 提供一系列革命性的新技术,包括完善的文本对应技术和先进的PageRank 排序技术,后者可以保证重要的搜索结果排列在结果列表的前面。Google 还提供一项很有用的服务:“网页快照”功能。 目前,新一代的搜索引擎也己经进入了研制阶段,其最大特点就是大量智能化信息处理的引入,网络信息检索将步入知识检索和知识服务的领域。它的一个特征是能够解决文件格式问题,这就要求搜索引擎不仅能识别TXT 文件,也要能够识别PPT, Word, PDF,电子邮件等文件;另一个特征是把P2P 技术应用到网页的检索中,这样通过共享所有硬盘上的文件,目录乃至整个硬盘,用户搜索时无需通过Web 服务器,不受信息文档格式的限制,即可达到把散落在互联网上的不相关的人们关心的知识搜集起来,经过筛选,组织和分析返回给用户所需的信息。 国内目前已有很多关于搜索引擎的研究。百度搜索引擎[6]收录中文网页接近2亿,是全球最大的中文数据库。Baidu 搜索引擎的其它特色包括:网页快照,网页预览/预览全部网页,相关搜索词,错别字纠正提示,新闻搜索,Flash 搜索和信息快递搜索等。北大天 网搜索引擎是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,有强大的搜索功能。除了WWW 主页检索外,天网还提供FTP 站点搜索(“天网文件”),为高级用户查找特定文件提供方便。同时,天网将FTP 文件分为电影和动画片,MP3音乐,程序下载,文档资源共四大类,用户可以像目录导航式搜索引擎那样层层点击,查找自己需要的FTP 文件。天网提供的服务还包括“天网目录”和“天网主题”。搜狐分类目录设有独立的目录索引,并采用百度搜索引擎技术,提供网站,网页,类目,新闻黄页,中文网址,软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。慧聪搜索引擎拥有超过2亿网页的中文信息库,提供网页,网站,新闻,地域,行业,MP3, Flash 等多种检索方式,具有互联网实时新闻搜索,高精度检索,分类查询,网站导航,企业与产品查询等功能。 目前的搜索引擎,每天使用爬虫在互联网上获取大量网页,这花去了大量的时间,对于面向大量用户的商业搜索引擎是非常合理的,但是对于只面向某一类型的网络,如校园网的搜索引擎,这无疑需要大量的计算资源和存储空间,这往往是得不偿失的。因此,对于校园网内搜索引擎,需要设计一种对资源要求低,灵活机动的方法。 参考文献: [1] 刘建国:《搜索引擎概述》,北京大学计算机与科学技术,1999年。 [2] 李晓明、刘建国:《搜索引擎技术及趋势》,《大学图书馆学报》,2000年第16期。

移动搜索市场研究报告完整版

编号:TQC/K811 移动搜索市场研究报告完 整版 Daily description of the work content, achievements, and shortcomings, and finally put forward reasonable suggestions or new direction of efforts, so that the overall process does not deviate from the direction, continue to move towards the established goal. 【适用信息传递/研究经验/相互监督/自我提升等场景】 编写:________________________ 审核:________________________ 时间:________________________ 部门:________________________

移动搜索市场研究报告完整版 下载说明:本报告资料适合用于日常描述工作内容,取得的成绩,以及不足,最后提出合理化的建议或者新的努力方向,使整体流程的进度信息实现快速共享,并使整体过程不偏离方向,继续朝既定的目标前行。可直接应用日常文档制作,也可以根据实际需要对其进行修改。 Ⅰ. 数据来源 该报告数据主要来自于比达咨询 (BigData-Research)数据中心相关监测 数据的整理分析、《微参与》移动用户调 查。此外,研究过程中还充分参考了专家 访谈、企业公开数据及桌面资料等信息内 容。 Ⅱ. 概念定义 移动搜索:移动搜索是指依托移动互 联网,借助手机、iPad等移动设备在综合 搜索网站、垂直搜索网站等多类搜索网站

当今搜索引擎技术及发展趋势

当今搜索引擎技术及发展趋势 随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。一、分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:、LookSmart、Open Directory、Go Guide等。2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。二、性能指标我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB 网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度(Pricision)衡量一个搜索引擎的性能。召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制三、主要技术一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 1.搜索器搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:从一个起始URL集合开始,顺着这些URL 中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL 可以是任意的URL,但常常是一些非常流行、包含很多的站点(如!)。将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。2.索引器索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。

搜索引擎的设计与实现

web搜索引擎的设计与实现

摘要 随着网络的迅猛发展。网络成为信息的极其重要的来源地,越来越多的人从网络上获取自己所需要的信息,这就使得像Google[40],百度[39]这样的通用搜索引擎变成了人们寻找信息必不可少的工具。 本文在深入研究了通用搜索引擎基本原理、架构设计和核心技术的基础上,结合小型搜索引擎的需求,参照了天网,lucene等搜索引擎的原理,构建了一个运行稳定,性能良好而且可扩充的小型搜索引擎系统,本文不仅仅完成了对整个系统的设计,并且完成了所有的编码工作。 本文论述了搜索引擎的开发背景以及搜索引擎的历史和发展趋势,分析了小型搜索引擎的需求,对系统开发中的一些问题,都给出了解决方案,并对方案进行详细设计,编码实现。论文的主要工作及创新如下: 1.在深刻理解网络爬虫的工作原理的基础上,使用数据库的来实现爬虫部分。 2.在深刻理解了中文切词原理的基础之上,对lucene的切词算法上做出了改进的基础上设计了自己的算法,对改进后的算法实现,并进行了准确率和效率的测试,证明在效率上确实提高。 3.在理解了排序索引部分的原理之后,设计了实现索引排序部分结构,完成了详细流程图和编码实现,对完成的代码进行测试。 4.在完成搜索部分设计后,觉得效率上还不能够达到系统的要求,于是为了提高系统的搜索效率,采用了缓存搜索页面和对搜索频率较高词语结果缓存的两级缓存原则来提高系统搜索效率。 关键词:搜索引擎,网络爬虫,中文切词,排序索引

ABSTRACT With the rapidly developing of the network. Network became a vital information source, more and more people are obtaining the information that they need from the network,this making web search engine has become essential tool to people when they want to find some information from internet. In this paper, with in-depth study of the basic principles of general search engines, the design and core technology architecture, combining with the needs of small search engine and in the light of the "tianwang", lucene search engine, I build a stable, good performance and can be expanded small-scale search engine system, this article not only completed the design of the entire system, but also basically completed all the coding work. This article describle not only the background of search engines, but also the history of search engine developing and developing trends,and analyse the needs of small search engines and giving solutionsthe to the problems which was found in the development of the system ,and making a detailed program design, coding to achieve. The main thesis of the article and innovation are as follows: 1.with the deep understanding of the working principle of the network spider.I acheived network spider with using database system. 2.with the deep understanding of Chinese segmentation and segmentation algorithm of lucene system,I made my own segmentation algorithm,and give a lot of tests to my segmentation algorithm to provide that my segmentation algorithm is better. 3.with the deep understanding of sorted and index algorithm,I designed my own sorted and index algorithm with the data-struct I designed and coding it ,it was provided available after lots of tests. 4.after design of search part,I foud the efficiency of the part is not very poor,so I designed two-stage cache device to impove the efficiency of the system. Key words: search engine,net spider, Chinese segmentation,sorted and index

搜索引擎市场分析及人民搜索发展思考

搜索引擎市场分析及人民搜索发展思考 ——对即刻搜索赢得搜索引擎市场竞争的分析和建议 一、当前我国搜索引擎市场状况分析 1.搜索引擎作为第二大网络应用,“新门户”趋势明显。 截至2012年6月底,中国网民数量达到5.38亿,手机网民规模达到3.88亿。其中,搜索引擎用户规模达到4.29亿,半年增长率为5.2%,网民渗透率为79.7%,仍然是仅次于即时通讯(如QQ、MSN)第二大网络应用。搜索引擎的网民使用率进入稳定发展阶段,用户规模会随着网民总体规模的增长而进一步提升。 2.搜索引擎竞争的市场规模潜力大、市场集中度高。 根据易观智库产业数据,2012年第2季度中国搜索引擎运营商市场规模为70.0亿,环比增长26.6%,同比增长62.0%。 从市场格局看,2012年第2季度我国搜索引擎市场集中度进一步提升。百度营销收入占搜索引擎运营商市场份额78.6%;谷歌中国份额小幅下滑,达15.7%;搜狗凭借“云-端”商业模式实现流量入口及商业变现的梯级化产品业务布局,市场份额达 2.9%。腾讯搜搜“大社区”战略布局也赢得广告主认可,保持 1.5%的市场份额;所有其他搜索引擎市场份额被压缩到0.3%。 3.搜索引擎竞争趋势为市场发展多元化和搜索终端多样化。 2012 年,国内搜索市场呈现多元化竞争格局,不断细分的搜索市场及发展的手持终端,在改变搜索用户行为习惯的同时影响着搜索市场的整体布局。 搜索市场发展多元化。综合搜索引擎服务、垂直搜索引擎服务、专业网站站内搜索及社交媒体搜索同时影响网民的搜索行为:综合搜索引擎服务(如百度、谷歌、搜狗、搜搜等),作为网络信息检索的

主要工具,大幅提高了人们获取信息的效率,成为人们从各种网络资源中获取信息的主要手段。以一淘、去哪儿等为代表的垂直搜索网站、以淘宝为代表的购物网站、以优酷为代表的视频网站等站内搜索在各自领域内吸引了一定数量的用户,对综合搜索引擎产生分流;微博、SNS 等信息量巨大的社交媒体的兴起,使网站内社交搜索的作用及分量加大,对整体搜索市场产生影响。 搜索终端多样化。随着3G 网络优化、智能手机普及,手机搜索由于碎片、及时等特点备受青睐,随时随地获取自己所需的信息已成为网民的基本需求之一。虽然手机搜索比例(56.2%)仍不如电脑搜索(85.2%),但手机搜索具有较大的市场价值。随着移动互联网的发展和各搜索服务在手机端的持续发力,未来手机搜索用户比例必将进一步增长。 4.垂直搜索、社交网站搜索、微博搜索增长空间巨大。 根据对网民最近半年在电脑和手机上应用搜索引擎的行为进行调查,发现综合搜索网站仍是最主要的搜索服务,但网站站内搜索的习惯也已逐渐养成,网站数量较多的专业网站如购物、视频等站内搜索开始占据较大的用户规模。综合搜索引擎使用率最高,为97.8%;其次为视频网站和购物网站站内搜索,比例分别为75.6%和72.9%。 社交网站因为社交属性、信息属性等聚集了大量搜索用户,且搜索信息大都是用户感兴趣或生活相关的,用户黏着性高。 垂直搜索网站是近几年搜索市场关注重点,各大行业领域内的大互联网公司也纷纷发力垂直搜索市场,如淘宝网建立一淘,优酷建立搜库等,为用户提供细分领域内的信息,获取领域内的入口优势同时增加自身品牌的用户粘度。垂直搜索网站的使用比例虽仅有24.7%,但如果能坚持其精准性和个性化特点,进一步加强用户的个性化和认知度,垂直搜索的未来空间会很大。

相关主题
文本预览
相关文档 最新文档