关于搜索引擎与元搜索引擎的讨论_张俭恭

格式：pdf
大小：107.91 KB
文档页数：3

下载文档原格式

/ 3

浅谈对于搜索引擎的认识

浅谈对于搜索引擎的认识通过近期我对网络传播课程的学习，我认识并学习到一个科技名词——搜索引擎。

初次接触很难理解它是什么，能干什么。

通过听老师的讲解和自己私下的小调查，终于对“搜索引擎”有了一定的了解。

搜索引擎（search engine）是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

它的工作原理是：抓取网页、处理网页、提供检索服务。

以上是专业性的定义和概括，下面我来主要谈谈我对搜索引擎的认识。

在我看来，搜索引擎就是一部机器，它可以满足你的好奇心、求知欲，同样它也可以扩大你的好奇心和求知欲。

它是一个转换器，可以把世界上发生的事情尽可能详细的展示给你，也可以把你知道的传达给更多人，当然前提是你想知道。

只有我们想知道，我们就可以通过搜索引擎去知道，无需复杂的过程，高难度的技术，只需要几个关键词的输入即可。

搜索引擎会整理世界各地相关的信息给你，从具体到相关，也就是说你输入的关键词越是详细越是具有代表性，搜索引擎就越是能准确的展示给你你想知道的东西。

往往通过搜索引擎展示给我们的事情要比通过报纸、电视和广播等得到的信息更加迅速、详细且具体的。

因为我们知道的更多，因为我们可以知道的更多，所以搜索引擎对于我们自身的价值观和生活观的塑造也是具有很大影响的。

当下搜索引擎的新变化之一就是人肉搜索。

人肉搜索我们都知道它的强大，它可以从芸芸众生中精确的找到那个特定的人。

且不说人肉搜索是否合理，是否具有道德规范，单从它的技术上来说，就是对搜索引擎一个生动形象的阐释。

百度是我们所熟知的，通过学习搜索引擎我才知道百度就是搜索引擎之一的公司，除此之外还有谷歌等等。

百度我们是经常使用的，百度下新闻事件的详情，百度下出游吃喝住宿游玩的事情，百度下书籍著作与学术性的东西，百度下娱乐八卦生活休闲的事情，等等诸如此类的事情都是依靠着搜索引擎在进行的。

元搜索引擎论文2009-5-24

毕业论文题目：多元科技文献搜索引擎——总体框架与用户界面学生姓名周宗毅指导教师陈圣国副教授二级学院信息技术学院专业计算机科学与技术班级05计本（软件工程）学号 0506110221 提交日期2009年05月25日答辩日期 2009年05月 31日2009 年05月25日金陵科技学院学位论文使用授权声明金陵科技学院有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。

本人电子文档的内容和纸质论文的内容相一致。

除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布（包括刊登）论文的全部或部分内容。

论文的公布（包括刊登）授权金陵科技学院教务处办理。

学生签名：指导教师签名：日期：金陵科技学院学士学位论文摘要目录摘要 (I)A BSTRACT (II)第1章绪论 (1)1.1搜索引擎 (1)1.2元搜索引擎(Meta-search engine) (1)1.3多元科技文献搜索引擎 (2)第2章总体架构 (3)2.1请求提交 (3)2.2接口代理 (3)2.3结果显示 (3)第3章详细设计 (5)3.1 源搜索引擎选择算法 (5)3.2结果集成算法 (6)3.2.1合并 (6)3.2.2去重 (7)3．3优先级算法 (8)3.4请求提交 (9)3.4.1通信模式 (9)3.4.2源搜索引擎选择 (9)3.5接口代理 (9)3.5.1提取 (10)3.5.2去重与合并 (11)3.6结果显示 (13)3.6.1输出 (13)3.6.2保存 (13)第4章运行界面与过程 (14)4．1运行界面 (14)4．2运行过程 (16)4．3程序特点 (18)第5章小结 (19)致谢 (21)参考文献 (20)附录：源搜索引擎 (22)多元科技文献搜索引擎——总体框架与用户界面摘要本文基于当前流行的搜索引擎技术和visual C++可视化软件开发工具设计和实现了一个较为专业的多元科技文献搜索引擎。

元搜索引擎

元搜索引擎作者：姬洪强来源：《中小学信息技术教育》2007年第12期网络已逐渐成为教师教学中重要的信息来源，教师通常借助搜索引擎来检索所需求的资源。

然而，一种搜索引擎往往不能满足所有人或一个人所有的检索需求，经常需要使用多种搜索引擎，并对搜索结果进行比较、筛选和印证。

为解决逐一登录各种搜索引擎，并多次输入同一检索请求（检索字串）等操作繁琐的问题，元搜索引擎应运而生。

元搜索引擎的优点是返回的检索结果信息量大，检索效率高，服务多样化。

下面介绍几款国内外优秀的元搜索引擎以供中小学教师参考使用。

一、国内元搜索引擎1．Xooda 元搜索引擎（）Xooda元搜索引擎支持16个国家/地区，可调用Baidu、Google、Yahoo、iAsk、Sogou、ZhongSou等12个源搜索引擎中全部或任意几个搜索引擎，可选择每个搜索引擎返回结果的数目。

它还可以进行进阶搜索，自动实现符合特殊检索语法要求的转换，只调用支持特殊检索语法的搜索引擎。

支持本地搜索，一次输入，返回多个搜索引擎结果，并对结果进行重新优化排序。

2．酷爱元搜索引擎（）酷爱元搜索引擎提供自动搜索和人工搜索两种模式。

调用Baidu、Sogou、Yahoo等独立搜索引擎，各搜索引擎的结果会进行智能排序。

当用户输入关键词的时候，搜索框会自动列举出相关的关键词列表。

它的深入搜索功能可以为用户提供更精确的关键词，进一步细化结果。

当用户点击网页智能分析时，酷爱会把最相关的结果呈现给用户。

3．万纬元搜索引擎（）万纬搜索引擎是最有名的中文元搜索引擎之一。

万纬中文集成搜索引擎包括了5个英文搜索引擎Argos、Google、Hotbot、NorthernLight、Yahoo和7个中文搜索引擎，如网典、新浪、雅虎（中文）、搜狐、天网、悠游搜索。

用户可根据需要自由选择其中最多6个引擎进行同步搜索，搜索结果可按相关度、时间、域名和引擎分类，还可以选择搜索的关键词之间是用and 还是用or来运算。

浅析两种搜索引擎

浅析两种搜索引擎【摘要】：浩如烟海的互联网信息，推动了搜索引擎的普及和应用，从而也促进了搜索引擎技术的兴起和蓬勃发展。

文章试图从概念、工作原理、性能等方面的阐述比较两种搜索引擎--全文搜索引擎与目录式搜索引擎，总结这两种搜索引擎的特点，剖析其存在的缺陷，以探索其发展前景，并针对广大网民在实际的信息搜索中提出实用性的小建议。

【关键词】：全文搜索引擎；目录式搜索引擎；信息检索；查询匹配；性能评价1．搜索引擎的概念及原理搜索引擎（Search Engines）是指在WWW（World Wide Web）环境中能够即时响应用户提交的搜索请求，在一个可以接受的时间内返回和该用户查询匹配的结果信息（一般胡丽为一个包含标题、URL链接和摘要的信息列表）的技术和系统。

搜索引擎的工作原理一般可概括为一个三段式过程：网页搜集、预处理程序和查询服务。

具体地说，我们从搜索引擎搜出的页面其实是预先被收集在该搜索引擎的网页数据库中的，其抓取程序可定期批量地从互联网上全面搜集网页，或者是采取增量方式，只是将网络中自上段时间来出现的新的网页、或者有更新的添加到网页数据库中，并删去实际已不存在的网页。

有研究指出50%网页的平均生命周期约为50天。

故要想保证搜索服务的有效性，搜索引擎的抓取程序周期不应长于这个时间段。

预处理阶段一般包括两个主要方面：关键词的提取、消除重复或转载网页。

对于中文搜索来说，主要是利用一些分词软件，根据词典∑，从网页文字中切出∑所规定的各个词语ti，使得一篇网页的内容可近似地由P={t1,t2,……,tn}表示，并去掉诸如”的”、”在”等没有实际内容指示意义的”停用词”。

北大天网在2005年的一次大规模统计分析中表明，网页的重复率平均大约为4。

故这个阶段的另一重要任务是运用一些算法，根据网页间的内容相关性系数这一标准，若两篇网页的相关性大于它，则认为是重复的，只收录其中一篇。

查询服务阶段的工作包括查询匹配、结果排序和文档摘要三个部分。

面向跨领域海量信息资源的元搜索引擎研究_朝乐门

DO I : 10 . 13530 / j. cnki . j lis . 2011 . 02 . 004
019
面向跨领域海量信息资源的元搜索引擎研究
朝乐门张勇邢春晓
摘要跨领域海量信息资源搜索是从事交叉学科和跨学科研究的重要前提。元搜索引擎不仅可以避免独立搜索引擎覆盖面较低的局限性 , 而且还可以充分发挥不同独立搜索引擎之间的互补性。基于元搜索引擎的跨领域海量信息资源搜索需要解决四个关键问题 , 即协助用户准确表达搜索意图、消除检索词的 “一词多义 ”和 “ 多词一义 ”现象、设计自动调整检索范围的机制以及发挥用户价值。面向跨领域海量信息资源的元搜索引擎采用多领域本体、语义 We b 和 W e b 2. 0 技术 , 较好地解决了元搜索引擎的上述四个关键问题。相对于传统元搜索引擎 , 面向跨领域海量信息资源的元搜索引擎在基本思路、框架设计、流程设计、关键技术四个方面发生了重要变化。图 4。表 1。参考文献 36。关键词元搜索引擎海量信息资源多领域本体语义 W e b We b 2. 0 分类号 T P 182
和 11. 4%。根据独立搜索引擎的上述两个基本特征 , 可以得出如下两条结论 : 第一 , 由于独立搜索引擎的覆盖面有限 , 任何一个独立搜索引擎都无法胜任跨领域海量信息资源的搜索任务; 第二 , 由于独立搜索引擎之间的重复率低 , 多个搜索引擎的搜索结果具有互补性 , 通过多个独立搜索引擎的集成应用可以较好地实现跨领域海量信息资源的搜索任务。因此 , 本文主要探讨基于元搜索引擎的海量信息资源搜索及其改进方案。论文的主要内容安排如下 : 第二部分主要梳理了现有研究基础以及目前面向跨领域海量信息资源的元搜索引擎研究中需要解决的四个主要挑战 ; 第三部分以解决上一部分

元搜索引擎技术分析

获得的结果进行综合处理 ! 生成最后结果反馈给用户 "用户察看结果的过程以及用户评价将反馈给元搜索引擎 !元搜索引擎的学习功能让它立即做出反应 ! 对剩下的结果进行调整 ! 让它能更符合用户的检索 " 元搜索引擎的整体结构如图 , 所示 "
!"& :>?@47AB;<CDEF
首先把目的搜索引擎的返回格式转化为元搜索引擎的处理格式 , 优化包括去除重复条目 !比较明显的重复情况是 -(. 相同 & 调整相关度 ! 即确定这些记录和用户查询的相关程度 ,用户都希望能尽快找到所需要的信息 ! 因此 ! 相关度高的文档应首先反馈给用户 ! 相关度可通过查询结果得分或位置差异来体现 , 相关度的融合可以是该条目出现在目标搜索引擎的结果计数 ! 也可以是在各个引擎中得分 ’ 基于位置 (效率 (引擎的优劣等 ) 的某种加权 , 更进一步的处理包括检查死链接 !对最终条目按站点或内容聚类 ,
!%’ G?H-.AB
元搜索引擎将结果记录组织成适当的方式返回给用户 !用户接口按用户设定的显示方式表现结果 ! 如按相关度大小排序 !按站点排序 ! 按内容聚类排序/01,
!%( IJK!47$%@LM
当用户使用检索结果时 ! 元搜索引擎需要知道它是否在第一位置提供了用户最想要的条目 ,通常元搜索引擎把用户提供相关反馈作为用户个人定制的选项 ! 缺省地只是观察用户的点击和浏览情况 ! 用户的选择将反馈给元搜索引擎 ! 元搜索引擎
647 的元搜索引擎 ’ 客户端桌面应用型元搜索引
擎 " 其中第一种类型最常见 " 使用最广泛 & 元搜索引擎的缺点是 ! 在改善传统搜索引擎的同时 " 也同时需要额外的计算资源和网络带宽 " 需要更长的反应时间 &

“搜索引擎之母”

浅析“搜索引擎之母”摘要：随着网络信息量的增加，单一搜索引擎已经难以满足要求，结合目录式搜索引擎，机器人搜索引擎的优势，以元搜索引擎为核心的多成代理搜索引擎是搜索引擎的发展方向。

本文介绍了元搜索引擎的概念、分类、分析了元搜索引擎的基本构成、优缺点，讨论了元搜索引擎的发展趋势。

关键词：搜索引擎；元搜索引擎；信息检索中图分类号：tp393文献标识码：a文章编号：1007-9599 (2013) 07-0000-021元搜索引擎的含义元搜索引擎，是在基于因特网搜索引擎的基础上，调用其它基于因特网的搜索引擎之上的引擎，所以称“搜索引擎之母”。

其中，“元”为“总的”意思，元搜索引擎就是将很多个独立搜索引擎进行调取、合成、优化利用和控制。

元搜索引擎就像是一个过滤器：输入的信息是由多个独立搜索引擎的输出结果而来，然后经过一番提取、删除、萃取等操作，最终形成结果，最后将最终结果输出给用户。

2元搜索引擎的基本组成请求提交代理、检索接口代理、结果显示代理是元搜索引擎的主要组成部分。

请求提交代理的主要任务是对用户特别的检索设置要求加以实现，主要包括搜索时间限定、调取了哪些搜索引擎、搜索结果数量上的限制等。

检索接口代理主要任务是将使用者的检索要求变成成满足其他不同搜索引擎自身要求的样式。

结果显示代理主要任务是将所有源搜索引擎检索结果去掉重复的然后进行合并最后进行输出处理等。

2.1请求提交代理：主要任务是对用户特别的检索设置要求加以实现，主要包括搜索时间限定、调取了哪些搜索引擎、搜索结果数量上的限制、是否提供高级检索服务、设置每个搜索引擎返回的检索结果数量、在线帮助是否有效等。

若用户选择个性化检索，则推理机制将根据基本信息与动态只是库进行分析推理用户的当前意向，进行查询求精处理，并根据用户对返回结果的行为适用反馈机制动态更新知识库。

2.2检索接口代理：不一样的搜索引擎所支持的查询方式是不一样的，即使是一样的方式也会有不一样的表示方法，所以我们必须把元搜索引擎中的一些查询要求对应到对应的搜索引擎中，并且不能将语义信息丢失掉。

谈谈你对元搜索引擎的理解及设计时应该注意的方面

对元搜索的理解及设计中应注意的方面一．引言在互联网发展初期，网站相对较少，网页数量亦较少，因而信息查找比较容易。

随着Internet 的飞速发展，人们越来越依靠网络来查找他们所需要的信息，然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，以至于迷失在信息的海洋中不知所措，出现了我们所说的"信息丰富，知识贫乏"的奇怪现象。

搜索引擎正是为了解决这个"迷航"问题而出现的技术。

搜索引擎（Search Engine简称SE）以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。

现在，网上的搜索引擎有很多，比较著名的有Google,Yahoo,AltaVista,Dogpile,百度等。

按照信息搜集方法和服务提供方式的不同，搜索引擎系统可以分为三大类：目录式搜索引擎，以Yahoo为代表（最近改为使用全文搜索技术）；全文搜索引擎，以Google为代表；元搜索引擎，以Dogpile为代表。

二．元搜索引擎概述元搜索引擎（Meta Search Engine 简称MSE），是一种建立在独立搜索引擎基础上，调用其它独立搜索引擎的引擎,亦称"搜索引擎之母（The mother of search engines)"。

在这里，"元"（Meta）为"总的"、"超越"之意，元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。

相对于元搜索引擎，可被利用的独立搜索引擎称为"源搜索引擎"（Source Search Engine），或"成员搜索引擎"（Component Search Engine）。

从功能上来讲，元搜索引擎像是一个过滤通道：以多个独立搜索引擎的输出结果作为输入，经过一番提取、剔除、萃取等操作，形成最终结果，然后将最终结果输出给用户。

元搜索引擎Profusion

元搜索引擎P rofu si on刘海航　黄碧云　张　畅(中南大学湘雅医学院图书馆・信息管理系,长沙410078)摘　要　搜索引擎是查询网络资源的最重要的工具,本文详细介绍了P rofu si on 的特点与检索,以帮助人们更好地、更快地查询网上资源。

关键词　元搜索引擎　P rofu si onM eta Search Eng i ne ProfusionL iu H aihang H uang B iyun Zhang Chang(L ib rary and Info rm ati on M anagem en t D epartm en t ,X iangya M edical Co llege ,Cen teral Sou th U n iversity ,Changsha 410078)Abstract Search engine is th mo st i m po rtan t too l in search ing netw o rk resou rce .T he paper m ain ly discu ss 2es the characteristic and search ing of p rofu si on to m ake netw o rk u ser search netw o rk resou rce mo re qu ick ly and easily .Keywords M eta search engine P rofu si on收稿日期:2002-01-08 搜索引擎(Search Engine )是90年代中期出现的一种网络信息查询工具,目前已成为查询网络信息资源的最重要的工具。

但常规的搜索引擎对网络信息的覆盖面很有限,1997年的统计表明,最大的搜索引擎对网络信息覆盖面小于1 3,到1999年已降至16%。

因此,对元搜索引擎的研究成为搜索引擎研究的热点。

搜索引擎研究

搜索引擎研究概述搜索引擎是一种能够根据用户的关键词查询并返回相关信息的工具。

随着互联网的发展，搜索引擎在我们的生活中起到了越来越重要的作用。

本文将对搜索引擎的研究进行探讨，包括搜索引擎的发展历程、搜索引擎的工作原理以及当前的研究热点。

发展历程搜索引擎的发展可以追溯到互联网诞生之初。

最早的搜索引擎是由人工维护的目录式搜索引擎，用户通过浏览目录来查找相关信息。

然而，随着互联网的迅猛发展，数据量逐渐庞大，人工维护的方式已经无法满足用户的需求。

于是，基于关键词匹配的搜索引擎应运而生。

著名的搜索引擎包括谷歌、百度、必应等。

这些搜索引擎通过建立庞大的搜索索引，收录了全球范围内的网页内容，并通过算法对网页进行排序，以便将最相关的结果呈现给用户。

随着技术的不断进步，搜索引擎的速度、准确性和覆盖范围也在不断提高。

工作原理搜索引擎的工作原理可以简单概括为以下几个步骤：1.网页抓取：搜索引擎会定期抓取互联网上的网页，并将这些网页保存到自己的数据库中。

2.网页分析：搜索引擎对抓取的网页进行分析，提取其中的关键词、链接等信息，并建立搜索索引。

3.查询处理：当用户输入关键词进行搜索时，搜索引擎会将用户的查询与搜索索引进行匹配，找到最相关的网页结果。

4.结果排序：根据一定的算法，搜索引擎对搜索结果进行排序，并将最相关的结果展示给用户。

搜索引擎的工作原理有很多复杂的技术细节，包括自然语言处理、机器学习、图像处理等。

为了提供更好的搜索体验，搜索引擎的研究者们一直在不断探索和改进相关技术。

研究热点当前，搜索引擎研究的热点主要集中在以下几个方面：1.搜索算法优化：为了提高搜索结果的准确性和针对性，研究者们不断改进搜索算法，包括改进关键词匹配、结果排序、谷歌推荐等方面。

2.语义搜索：传统的搜索引擎主要是基于关键词匹配，忽略了用户查询的语义。

研究者们努力探索语义搜索的方法，以更好地理解用户的查询意图，并为用户提供更准确的搜索结果。

3.移动搜索：随着智能手机的普及，移动搜索的需求也越来越大。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

信息检索技术清华同方光盘协办编者按:清华同方光盘股份有限责任公司为发展我国“信息检索技术”,在理论和实践上推动网络信息检索技术的发展与应用,以进一步加快图书情报技术网络化发展进程愿与本刊合作,协办本栏目的工作,为此编辑部代表广大读者对清华同方光盘股份有限责任公司支持我国图书情报领域计算机信息检索技术发展的举措,表示衷心的感谢! 收稿日期:2001-11-05关于搜索引擎与元搜索引擎的讨论张俭恭　陈定权　吴振新(中国科学院文献情报中心　北京100080) 【摘要】　首先探讨了搜索引擎的一般原理以及结构,然后介绍了元搜索引擎的概念及其框架。

在最后,提出了一种将一般搜索引擎和基于OPAC 的图书目录检索系统集成于一体的元搜索引擎的构想,该构想可以在一定程度上解决异构数据之间的兼容问题。

【关键词】　搜索引擎　元搜索引擎　全文检索【分类号】　G354Research on Search Engine and Meta Search EngineZhang Jiangong　Chen Dingquan Wu Zhenxin (The Documentation and Inform ation Center of CA S ,Beijing 100080,China )【Abstract 】　T his ar ticle ela bo ra tes so me principle and a rchitectur e about g eneral search engine,a nd then intro duces the co ncept and fra mewo rk o f M ET A Search Engine.a nd brings fo rw ar d a new idea that integ rates th e g eneral sea rch engine with O PA C -based r etriev al system .This m eth od ma ybe resolv es the pro blem about data hete rog eneity .【Keywords 】　Search engine M eta search engine Full tex t r etriev al CN N IC 的最新调查结果显示,截止到2001年6月30日,我国上网计算机数已达1002万台,比去年同期增长54%,是三年前的18.5倍;目前我国网民2650万,半年内增加了400万;CN 下注册的域名数已达128362个,比去年同期增长28.7%;W WW 站点数达242739个;国际线路总容量为3257M ,各项指标与三年前相比,均有了大幅的增长。

可以看出,Internet 和W WW 都在以迅猛的势头持续发展,并且越来越多的人利用网络途径获取信息,进行交流。

那么如何能够更有效地获取所需信息就成了一个非常值得研究的课题。

虽然人们可以通过浏览诸如Yaho o 等门户网站的分类目录来找到自己感兴趣的网站,然后再通过链接到相应的网站寻找自己的所需信息;但多数人则是通过搜索引擎来完成他们信息的搜寻过程。

上网用户首先向搜索引擎提供一个由多个关键词组成的提问式,这时搜索引擎通过访问本身的数据库,在进行一些匹配运算以后,就会返回一个包含有用户提问关键词的相关网页列表。

本文首先要讨论搜索引擎的一般原理以及一些实现方法和技术。

另外,在实现搜索引擎的过程中,由于各个搜索引擎的信息搜集和索引建立有很大的不同,使得它们在收集的信息资源范围方面产生了巨大的差异,任何单个搜索引擎都只能涵盖一部分W WW 资源,这对于用户就意味着使用任何一个搜索引擎都不可能达到信息查全的目的。

为了克服这个缺点,在该领域又出现了一种新型的搜索引擎——元搜索引擎。

本文进一步探讨了一些元搜索引擎的实现问题,并对元搜索引擎提出了一些设想和展望。

1　典型搜索引擎的实现原理虽然对于信息检索,已经有不少很好的算法和技术,但由于互联网信息资源数量庞大、更新速度较快以及分布存储方式等特点,使得搜索引擎必须在原来传统的信息检索算法基础上加以扩展,通过一些新技术实现信息搜集、建立和更新索引等工作。

针对网络上巨大的信息资源数量,搜索引擎还应该完成检索结果的区分和排序工作,把最符合要求和最相关的网页链接地址优先提供给用户。

那么最典型的搜索引擎结构是怎样实现这些目标的?图1给出了一个典型的搜索引擎原理的框架,它基本包括机器人、索引、检索三大模块。

·36·图1　搜索引擎模块划分1.1　机器人模块任何搜索引擎都会依赖一个机器人模块来完成它的信息获取工作,以期为将来的服务提供数据。

而机器人就是一个可以浏览网页的程序,它很像真人的浏览过程,首先打开一个网页,然后再通过网页上的链接去浏览其它不同的网页,如此往复。

工作的时候,机器人把开始确定的一组网页链接作为浏览的起始地址,然后将网页获取过来,抽取页面中出现的链接,并通过一定算法决定下一步要访问哪些链接;同时,机器人将已经访问的页面存储到自己的页面数据库里去。

之后,机器人则继续重复这个访问过程,直至结束。

在决定访问链接顺序的过程中,最常见算法有:深度优先、广度优先、有限深度/广度策略。

当然,一般搜索引擎的机器人在实现的过程中,引入链长比(超链接数目与文档长度的比值),只取链长比小于某一门限值的页面,即只采集内容页面,而不采集目录页面。

在采集文档的同时,记录各文档的地址信息、修改时间、文档长度等状态信息,用于站点资源的监视和资料库的更新。

在采集过程中,还可以构造适当的启发(heuristic)策略,来指导机器人的路径选择和采集范围,以减少文档采集的盲目性。

1.2　索引模块当机器人访问完网页并将其内容和地址存入网页数据库以后,就要对其建立索引。

索引模块总的来说是通过分析获取的网页,排除HT M L等语言的标志符号,将出现的所有字或者词抽取出来,并记录每个字词的出现网址及相应位置,最后将结果存入索引数据库,就是一个很大的查询表,上面记录某个特定字词在互联网上出现的一组位置信息。

对于英文搜索引擎,由于是以单词为语言的基本单位,因此一般建立索引采用的都是词表法,即首先建立一个词表,然后将对应单词的出现位置记录下来。

而检索的时候,就是以这些词语作为检索入口,并通过位置匹配可以实现多个词语的组合检索。

但对于中文搜索引擎来说,由于语言的基本单位是汉字,在最底层往往采用的是字表法。

和词表法相似,先建立一个汉字字表(一般采用GB2312汉字集),然后对于网页中出现的汉字均记录在相应的字表项内。

当检索的时候,采取字索引之间的位置匹配完成词语的检索。

为了提高检索速度,一般还会在字索引的基础上建立一些词索引,有的是根据用户的提问动态生成已检索词的词索引,有的则是建立一个常用词表,然后生成这些词的索引。

当然,无论是英文系统还是中文系统都会建立一个停用词表,以节省存储空间和提高检索效率。

1.3　检索模块作为检索模块,首先分析用户检索时给出的提问式,再访问搜索引擎已经建立的索引,并通过一定的匹配算法,获得相应的检索结果。

一般还会对检索结果进行排序,按照重要程度将结果有序地返回给用户。

具体来说,当用户进行检索的时候,一般使用的是纯自然语言词汇或者是自然语言词汇组成的布尔逻辑式。

对于前者,可以直接利用检索算法查询索引数据库中的词索引,或者是利用单字索引进行位置匹配,以获得检索结果。

而对于后者,则首先要分析检索式的逻辑关系,分别对检索式中的各个检索词进行检索,最后再通过逻辑运算获得最终结果。

由于网络上信息数量非常庞大,可能会产生一个相当大的结果集,那么如何精简结果以及如何将最重要的结果首先返回给用户就显得十分重要。

最常用的方法是将结果按相关度进行排序,把引擎认为最相关的结果放在最前面。

相关度计算有很多的算法,其中一个很重要的算法就是词频法,即通过计算网页中检索词的出现频率来决定该网页的相关程度,检索词出现次数越多则说明该网页越重要。

虽然这种算法有很多缺陷,往往不能达到最好的效果,但由于计算网页中一个词的词频十分简单,使得该算法很容易实现。

当获得检索结果以后,访问网页数据库,获得相关网页,并按照相应的格式和顺序生成结果网页,最终提供给用户,完成整个检索过程。

2　元搜索引擎的主要作用与框架结构人们已经把搜索引擎作为在网络上查找信息一个非常重要的途径,从国外的Y ahoo、Ex cite、Altavisa到中国的新浪、搜狐、中华网等,几乎每个门户网站都提供了搜索引擎的入口,所使用的搜索引擎可以是自己开发的也可以是从专业生产搜索引擎公司购买的。

由于每个搜索引擎的实现方法、信息量以及收录站点等方面的不同,使得它们之间在处理内容上有很大的差异。

当用户查找信息的时候,如果想要做到准确全面,他就必须访问不只一个搜索引擎。

虽然这样的工作完全可以由用户自己来完成,但他们更希望能够只进行一次查询就可以获得多个搜索引擎有关查询的结果,而不是枯燥繁琐的重复劳动,这就是元搜索引擎的存在意义。

它可以让查询一次完成,极大提高检索效率,节省用户的时间。

目前,在国外已经有Ask J eev es、Cyber411、DigiSearch、Dog pile、H ighw ay61、IsIcuth、M amma、M e ta Craw ler、Pr o Fusion等元搜索引擎,而在国内虽然中文搜索引擎已经有很多,但关于元搜索引擎的研究仍然很少,这就需要我们发展更多自己的中文元搜索引擎,以适应信息检索技术不断进步的需要。

所谓元搜索引擎,就是指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。

元搜索引擎与搜索引擎的最大不同之处就在于它可以没有自己的资源库和机器人,它充当的是一个中间代·37·理角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。

在向各个搜索引擎发送查询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果提供给用户。

这样由于信息源范围的扩大,不仅提高了检索效率,也大大增加了找到所需信息的可能性。

从结构讲,元搜索引擎主要包括W eb 服务器、结果数据库、检索式处理、W eb 处理接口、结果生成等几个部分,其中用户通过Web 服务器访问元搜索引擎,而元搜索引擎则通过W eb 处理接口访问其它外部的搜索引擎。

图2　元搜索引擎结构框架如图2所示,用户通过W WW 服务访问元搜索引擎,并向W eb 服务器提出检索式。

当W eb 服务器收到查询任务时,首先访问结果数据库,看在近期是否有相同的检索,如果有则直接返回保存的结果,完成查询;如果没有,那么就将检索式进行处理,分析并转化成与所要查找各搜索引擎相应的检索式格式,然后送至Web 处理接口部分。