桌面搜索引擎的设计与实现
- 格式:doc
- 大小:336.50 KB
- 文档页数:23
《基于Lucene的蒙古文搜索引擎的设计与实现》篇一一、引言随着信息技术的飞速发展,搜索引擎已经成为人们获取信息的重要工具。
蒙古文搜索引擎作为服务于蒙古语用户的信息检索工具,其设计与实现显得尤为重要。
本文将介绍基于Lucene的蒙古文搜索引擎的设计与实现过程,旨在为相关研究和应用提供参考。
二、需求分析1. 用户需求:蒙古文搜索引擎需满足用户快速、准确地搜索蒙古文信息的需求。
同时,用户期望搜索引擎具有友好的界面和良好的用户体验。
2. 功能需求:蒙古文搜索引擎应具备基本的搜索功能,如全文搜索、关键词搜索、高级搜索等。
此外,还需支持对搜索结果的排序、筛选和分享等功能。
三、系统设计1. 技术选型:选用Lucene作为搜索引擎的核心技术,其强大的全文搜索功能和高效的索引管理机制能够满足蒙古文搜索引擎的需求。
2. 系统架构:采用分层架构设计,将系统分为数据层、索引层、搜索层和用户层。
数据层负责存储蒙古文数据,索引层负责建立和管理索引,搜索层负责提供搜索服务,用户层负责与用户进行交互。
3. 数据库设计:选用适合蒙古文的数据库管理系统,建立数据表结构,用于存储蒙古文文档、关键词、索引等信息。
4. 索引策略:采用倒排索引技术,对蒙古文文档进行分词、过滤和建立索引,以提高搜索效率和准确性。
四、系统实现1. 数据预处理:对蒙古文文档进行分词、去停用词等预处理操作,以便建立准确的索引。
2. 索引建立:使用Lucene的API建立倒排索引,将预处理后的文档数据存储到索引中。
3. 搜索服务:提供基本的搜索功能,如全文搜索、关键词搜索、高级搜索等。
同时,支持对搜索结果的排序、筛选和分享等功能。
4. 用户界面:设计友好的用户界面,提供简洁明了的操作方式和良好的用户体验。
五、性能优化1. 索引优化:定期更新索引,删除无效的索引项,以提高搜索速度和准确性。
同时,采用多线程技术加速索引建立过程。
2. 查询优化:针对不同的查询需求,采用不同的查询策略和算法,以提高搜索效率和准确性。
垂直搜索引擎的设计与实现一、引言随着互联网的不断发展,搜索引擎已经成为了人们获取信息的主要途径之一。
尽管百度、谷歌等泛搜索引擎已经能够提供数不胜数的搜索结果,但是当我们需要针对某一特定领域信息进行检索时,这些搜索引擎往往无法很好地满足我们的需求。
这时候,垂直搜索引擎就应运而生。
垂直搜索引擎是专门针对某一领域或者特定内容的搜索引擎,相较于泛搜索引擎来说,其搜索结果更加精准、专业。
那么,本文将会介绍垂直搜索引擎的设计与实现,分别从以下几个角度进行探讨:数据采集与存储、搜索引擎优化、搜索结果排序算法以及用户体验等方面。
二、数据采集与存储1. 数据采集数据采集是垂直搜索引擎最为关键的一环,其结果的质量和准确性对于搜索引擎的用户体验和搜索结果的可信度具有至关重要的作用。
数据采集可以使用爬虫技术来进行,爬虫采集需要注意以下几点:(1)合理设置爬虫抓取规则,遵循robots协议,防止遗漏重要信息或者频繁抓取同一内容。
(2)及时更新抓取规则,对于定期更新的数据,需要使用增量式抓取,并使用增量式更新策略,避免重复数据的存储。
(3)针对相同类型的数据源进行批量抓取,这样可以提高抓取效率和效果。
(4)为了防止爬虫被反爬虫机制击中,可以将访问请求分散到多个IP进行发送,还可以使用请求头中的User-Agent字段进行伪装。
2. 数据存储垂直搜索引擎对于数据的要求十分高,数据的抓取、清洗、去重、分类、标签化、词频统计等都需要进行。
因此,建议使用NoSQL数据库来储存垂直搜索引擎的数据,其中MongoDB是一种非常流行的NoSQL数据库。
MongoDB采用了文档存储的方式,可以处理大量高并发读写的数据,而且可以提供高可用性和易扩展性,使得其成为垂直搜索引擎最佳的数据存储选择。
在使用MongoDB时需要注意以下几点:(1)合理设置数据库的复制集,在出现宕机等异常情况时,可以很快的恢复故障。
(2)对于大的集合的查询,须合理使用索引,减少查询对数据库的负载。
购物搜索引擎的设计与实现如今,随着电子商务的迅猛发展,购物已成为人们重要的生活方式之一。
在购物过程中,搜索引擎成为了人们不可或缺的工具。
因此,购物搜索引擎的设计与实现越来越受到关注。
购物搜索引擎的设计要考虑到的问题很多,比如搜索结果的准确性、速度、使用体验等。
为了让用户更方便地找到所需商品,购物搜索引擎需要对商品信息进行有效的索引和分类,以快速、准确地返回用户所需产品信息。
在设计购物搜索引擎时,需考虑到商品分类的问题。
商品分类是购物搜索引擎重要的设计元素之一,一个好的商品分类设计可以使用户更快速地找到所需的商品,从而提高购物效率。
因此,在分类设计方面,需要考虑到分类是否合理,是否可以涵盖所有商品的需求,分类名称是否简单明了,等问题。
此外,在搜索结果方面,搜索引擎需要进行排名,以便用户更快速地找到所需的产品。
排名要考虑到多种因素,如用户搜索词匹配度,商品销量、价格等。
良好的排序算法可以提高搜索效率,增强用户的购物体验。
同时,在搜素引擎的实现时,也需要考虑到搜索引擎的性能、安全性等方面的问题。
为了提高搜索效率,可以利用分词技术对输入的搜索关键词进行处理,在搜索引擎进行搜索时,排除无效信息,这样可以减少搜索的开销。
此外,在建立搜索索引库时,也可以考虑到使用分布式搜索引擎技术等方式,以提高搜索的速度和稳定性。
在购物搜索引擎的实现中,还需要考虑到用户隐私和交易安全性等问题。
购物搜索引擎提供的搜索信息是否真实、是否保密、是否对用户的个人和财产安全有保障等问题亟待解决。
因此,在实现购物搜索引擎时,需要考虑到相应的技术手段,如SSL加密等,确保用户的信息安全。
在购物搜索引擎领域,好的用户体验是竞争的主要特点。
设计及实现购物搜索引擎,要以用户为中心,方便用户找到他们需要的产品,同时也要提供便捷安全的购物体验。
综上所述,设计及实现购物搜索引擎,需要结合用户需求及现实情况进行全方位的分析和综合策划,同时也需要考虑到系统性能、安全性、可扩展性等方面的问题。
信息检索系统设计与实现在当今数字化的时代,信息如同海洋般浩瀚,如何快速、准确地从这海量信息中找到我们所需的内容,成为了一个至关重要的问题。
信息检索系统应运而生,它就像是一位智能的导航员,帮助我们在信息的海洋中找到方向。
接下来,让我们一起深入探讨信息检索系统的设计与实现。
一、信息检索系统的需求分析在设计信息检索系统之前,我们首先要明确用户的需求。
不同的用户群体可能有着不同的需求,比如学者可能需要查找专业的学术文献,企业员工可能需要查找公司内部的文档和资料,普通大众可能更多地是搜索新闻、娱乐等方面的信息。
了解用户的搜索习惯和期望也是至关重要的。
有些用户喜欢输入精确的关键词,而有些用户可能更倾向于用自然语言来描述他们的需求。
此外,还需要考虑用户对检索结果的准确性、完整性和时效性的要求。
二、信息检索系统的架构设计1、数据采集模块这是信息检索系统的基础,负责从各种来源收集信息。
这些来源可以包括网页、数据库、文件系统等。
在采集数据的过程中,需要确保数据的完整性和准确性,同时要对数据进行初步的处理,比如去除噪声和重复的数据。
2、数据预处理模块采集到的数据往往是杂乱无章的,需要进行预处理。
这包括对文本进行分词、去除停用词、词干提取等操作,将文本转化为便于处理和检索的形式。
3、索引构建模块索引就像是一本书的目录,能够加快检索的速度。
常见的索引结构有倒排索引、正排索引等。
通过构建高效的索引,可以在短时间内找到与用户查询相关的信息。
4、查询处理模块当用户输入查询请求时,查询处理模块会对查询进行分析和理解,将其转化为系统能够理解的形式,并与索引进行匹配,找到相关的文档。
5、结果排序模块找到相关的文档后,还需要对结果进行排序,将最符合用户需求的文档排在前面。
排序的依据可以是文档与查询的相关性、文档的质量、更新时间等因素。
6、用户接口模块这是用户与系统交互的界面,需要设计得简洁、直观、易用。
用户可以通过输入关键词、选择筛选条件等方式进行查询,并能够方便地查看检索结果。
校园网Web搜索引擎的设计与实现引言随着校园网建设的迅速发展,校园网内的信息内容正在以惊人的速度增加着。
如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇、迎接挑战和获取成功的重要条件。
目前虽然已经有了像Google、百度这样优秀的通用搜索引擎,但是它们并不能适用于所有的情况和需要。
对学术搜索、校园网的搜索来说,一个公平的排序结果是非常重要的。
另外,由于互联网上信息量之巨,远远超出哪怕是最大的一个搜索引擎可以完全收集的能力范围。
因此,本着整合校园网资源的目的,为方便广大师生对校园网信息的获取和使用,设计并实现了一个灵活、可配置、具有良好可扩展性的校园网搜索引擎。
1. 搜索引擎的发展在国内很多基于主题领域的小型搜索引擎得到很好的发展。
例如一些音乐搜索引擎以及医药方面的搜索都有很好的应用;在越来越多的学校、企业、比较大型的网站如BBS都开始建立了自己的搜索引擎。
在国外,比较著名的有美国教育资源信息搜索的AskERIC,实现医药文献搜索的Highwire等。
Google公司在2007年决定向小型网站提供专门的搜索服务。
这些都表明,小型专用的搜索引擎将在人们获取Web信息中发挥更重要的作用[1]。
在小型搜索引擎快速发展的同时,越来越多的人致力于研究和发展这些小型搜索引擎开发技术,Lucene和Nutch是其中的代表成果。
Lucene是一个高性能、纯Java的全文检索引擎,完全免费、开源。
Lucene几乎适合于任何需要全文检索的应用,尤其是跨平台的应用。
Lucene为Nutch提供了文本索引和查询服务的API,而Nutch在Lucene的基础上实现了网页收集与搜索[2]。
小型搜索引擎与通用搜索引擎相比有很多优点,由于它本身的信息量小,它不可能取代通用搜索引擎。
但是,它是对通用搜索的很好的补充。
随着Web上信息的进一步扩大,小型搜索引擎也将会进一步发展,其中已经引起人们关注的垂直搜索引擎在未来的搜索将发挥更大的作用。
本科毕业设计题目:基于网络爬虫的搜索引擎设计与实现系别:专业:计算机科学与技术班级:学号:姓名:同组人:指导教师:教师职称:协助指导教师:教师职称:摘要本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地住,提出了网络蜘蛛的功能和设计要求。
在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络蜘蛛的程序,对其运行结果做了分析。
关键字:爬虫、搜索引擎AbstractThe paper,discussing from the application of the search engine,searches the importance and function of Web spider in the search engine.and puts forward its demand of function and design.On the base of analyzing Web Spider’s system strtucture and working elements.this paper also researches the method and strategy of multithreading scheduler,Web page crawling and HTML parsing.And then.a program of web page crawling based on Java is applied and analyzed.Keyword: spider, search engine目录摘要 (1)Abstract (2)一、项目背景 (4)1.1搜索引擎现状分析 (4)1.2课题开发背景 (4)1.3网络爬虫的工作原理 (5)二、系统开发工具和平台 (5)2.1关于java语言 (5)2.2 Jbuilder介绍 (6)2.3 servlet的原理 (6)三、系统总体设计 (8)3.1系统总体结构 (8)3.2系统类图 (8)四、系统详细设计 (10)4.1搜索引擎界面设计 (10)4.2 servlet的实现 (12)4.3网页的解析实现 (13)4.3.1网页的分析 (13)4.3.2网页的处理队列 (14)4.3.3 搜索字符串的匹配 (14)4.3.4网页分析类的实现 (15)4.4网络爬虫的实现 (17)五、系统测试 (25)六、结论 (26)致谢 (26)参考文献 (27)一、项目背景1.1搜索引擎现状分析互联网被普及前,人们查阅资料首先想到的便是拥有大量书籍的图书馆,而在当今很多人都会选择一种更方便、快捷、全面、准确的方式——互联网.如果说互联网是一个知识宝库,那么搜索引擎就是打开知识宝库的一把钥匙.搜索引擎是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术,用于帮助互联网用户查询信息的搜索工具.搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的.目前搜索引擎已经成为倍受网络用户关注的焦点,也成为计算机工业界和学术界争相研究、开发的对象.目前较流行的搜索引擎已有Google, Yahoo, Info seek, baidu等. 出于商业机密的考虑, 目前各个搜索引擎使用的Crawler 系统的技术内幕一般都不公开, 现有的文献也仅限于概要性介绍. 随着W eb 信息资源呈指数级增长及Web 信息资源动态变化, 传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要, 它们正面临着巨大的挑战. 以何种策略访问Web, 提高搜索效率, 成为近年来专业搜索引擎网络爬虫研究的主要问题之一。
快速响应搜索引擎的设计与实现 在当今信息时代,搜索引擎已经成为了我们获取信息的主要方式之一。各大搜索引擎都在不断地优化自身的算法,以提供更准确、更快速的搜索结果。然而,快速响应搜索引擎在设计与实现上会遇到很多挑战。本文将从三个方面探讨快速响应搜索引擎的设计与实现。
一、算法优化 搜索引擎的核心是算法,而算法的优化又是提高搜索引擎响应速度的关键。首先,搜索引擎需要通过爬虫程序来从网络中收集信息,这些信息需要经过去重、相似度计算等操作后才能被进一步处理。其次,搜索引擎在处理查询请求时需要对海量数据进行搜索、排序、过滤等操作,任意一点上的性能瓶颈都会影响整个引擎的响应速度。因此,搜索引擎在设计与实现中需要不断地优化相关算法。
一个常用的优化策略是在索引中使用倒排索引技术。倒排索引通过统计每个词语出现的文档数和位置等信息,提高了搜索效率。同时,对于一些高频词和低频词,搜索引擎需要进行特殊处理。对于高频词,可以直接返回相关文档列表,避免进行全文检索;而对于低频词,可以进行随机存储优化等。
二、分布式系统 由于搜索引擎需要对海量数据进行处理,因此单台服务器无法满足高并发和大数据量的要求。因此,搜索引擎一般采用分布式系统架构,将海量数据存储在多台服务器上,并通过负载均衡和分布式计算等技术来提高搜索响应速度。
在分布式系统上,搜索引擎需要考虑数据分片、快速分发和数据一致性等问题。一个常见的数据分片方法是按照关键词哈希值进行散列。当用户输入查询请求时,搜索引擎可以利用哈希值快速定位到需要处理的分片,从而提高搜索速度。同时,为了保证分布式系统的稳定性和可靠性,搜索引擎需要采用数据备份和容错措施来应对因机器故障等原因造成的数据丢失和搜索延迟等问题。 三、深度学习 随着深度学习技术的不断发展,搜索引擎也开始引入了神经网络算法。通过训练神经网络模型,搜索引擎可以提高搜索结果的准确率,从而提高用户体验。
常见的深度学习算法包括卷积神经网络、循环神经网络、深度强化学习等。其中,卷积神经网络在图像搜索等领域表现突出,循环神经网络则适用于文本搜索等场景。而深度强化学习则可以通过与用户的交互,实现个性化推荐和搜索功能。
┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊目录1引言 (3)1.1课题背景与目的 (3)2 系统需求分析 (4)2.1搜索引擎的功能 (4)2.2分析结果 (4)3 相关技术介绍 (5)3.1ASP简介 (5)3.1.1 ASP访问数据库原理 (5)3.1.2 ASP运行环境以及IIS (5)3.2SQL SERVER2000 (6)4 系统实现的相关技术以及相关原理 (6)4.1搜索引擎实现的原理 (6)4.1.1 从互联网上抓取网页 (6)4.1.2建立索引数据库 (7)4.1.3在索引数据库中搜索 (7)4.1.4对搜索结果进行处理排序 (7)4.2中文分词 (7)4.3网络蜘蛛 (9)5 概要设计 (12)5.1系统功能结 (13)5.2系统流程分析 (15)5.2.1 用户搜索流程图 (15)5.2.2 管理员登录流程图 (16)5.2.3 管理员部分的实现 (16)6 数据库设计 (17)6.1数据库设计概述 (17)6.2.数据结构 (17)6.3概念结构设计 (18)6.3.1 数据表的设计 (18)6.4E-R图设计 (19)6.4.1注册网站-用户界面全局E-R图 (20)6.4.2 管理员界面全局E-R图 (21)7 详细设计 (21)7.1界面设计 (21)7.2系统模块设计与实现 (22)7.2.1搜索引擎管理员可实现以下功能 (22)7.2.2 网站注册可实现以下功能 (22)7.2.3 网站搜索模块 (22)7.2.4 管理员登陆模块 (23)┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊7.2.5 网站管理模块 (24)7.2.6 网站审核模块 (25)7.2.7 分类目录模块 (25)7.2.8 网站登录模块 (25)7.2.9网站修改模块 (26)8 系统功能测试 (28)8.1软件测试的思想与方法 (28)8.1.1黑盒测试 (28)8.1.2白盒测试 (28)8.2搜索测试 (29)8.3网站登录测试 (30)8.4添加分类目录-商业 (30)8.5删除网站测试 (31)8.6测试总结 (32)9 致谢 (32)10 结论 (33)11 参考文献 (34)参考文献 (34)附录 (34)┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊1引言随着计算机科学的日渐成熟的,互联网的快速发展,其强大的功能已为人们深刻认识,它已进入人类社会的各个领域并发挥着越来越重要的作用。
密级:页数:信息工程大学毕业设计(论文)题目桌面搜索引擎的设计与实现学员姓名桑亚平学号G200726173所在单位六系二十六队指导教师王益伟技术职务助教完成日期2011-4-23桌面搜索引擎的设计与实现摘要:随着互联网的普及,搜索引擎得到了快速的发展,对人们的日常生活产生了巨大的影响。
人们对电脑硬盘容量的要求也越来越大,在电脑硬盘里包含的文件数量也与日俱增,这就使得人们如何很快很准确的找到自己所要想要的那个文件,成了用户的一个难题。
随着在海量文件中要找到自己所需文件的难题的出现,桌面搜索就应运而生了。
桌面搜索是搜索工具所应用的一个新领域的名称,这个领域是用户拥有的计算机文件的内容,而不是搜索互联网。
桌面搜索强调的是挖掘用户个人电脑上全部可用信息,包括网页浏览器历史,电子邮件档案,字处理器文档等等。
将搜索引入到桌面,一方面方便了用户的搜索工作,另一方面在搜索结果中整合进本地信息,也让用户实现了搜索时外部信息与本地信息的统一管理利用。
关键词:桌面搜索,PDF解析,中文分词目录第一章绪论 (1)1.1 桌面搜索引擎的简介 (1)1.2 主流桌面搜索引擎介绍 (1)第二章桌面搜索引擎的总体设计 (4)第三章 PDF文件的解析 (6)3.1 PDF文件的简介 (6)3.2 PDF的逻辑结构 (6)3.3 PDF文件解析流程介绍 (7)第四章中文分词简介 (9)4.1 分词算法 (9)4.2 中文分词的应用 (10)第五章桌面搜索引擎的实现 (12)第六章结论 (19)参考文献 (20)第一章绪论1.1 桌面搜索引擎的简介桌面搜索引擎也称为个人桌面引擎或个人硬盘搜索引擎,是对个人电脑上存储的信息进行查找的检索工具。
随着计算机以及互联网的普及,网络搜索引擎对人们的生活产生了巨大的影响,同时,现在个人电脑的硬盘容量越来越大,已经达到TB,硬盘里包含的Office文档、电子邮件、保存的网页、PDF文档等的数量都非常大,在如此多的文件中找到自己所需的文件变得很困难,这时候桌面搜索就应运而生。
桌面搜索与网络搜索不一样,首先从技术方面看,只有桌面搜索才算是全方位的搜索,它方便快捷,不用连接网络,就能找到用户要查找的内容。
它将搜索业务深入到个人电脑中,除了能找到用户所需要的网络信息之外,还可以帮助用户从个人电脑的海量资料中快速地查找到想要的信息。
其次,由于在电脑硬盘上的文档之间几乎没有什么联系,因此关于网页排名的算法不适用于桌面搜索,所以对桌面搜索的结果进行排序就不太重要。
最后,从市场的角度来看,桌面搜索市场发展的潜力最大,尽管搜索市场竞争非常激烈,但桌面搜索市场的增长潜力被普遍看好。
近年来,各大搜索引擎厂商纷纷推出了自己的桌面搜索引擎。
1.2 主流桌面搜索引擎介绍现在桌面搜索的开发已经成为了互联网领域的最大亮点,也为搜索领域带来了新的发展机会,随着众多厂商的加盟。
桌面搜索引擎的竞争日益激烈。
目前比较流行的桌面搜索引擎有Google Desktop、百度、88Data 桌面搜索、网络猪、微软桌面搜索。
1. Google Desktop SearchGoogle发布了自己的桌面搜索工具:Google Desktop Search,简称为GDS。
这是一款强大的计算机硬盘搜索工具。
GDS的主要特点有:GDS会自动保留即时通讯的谈话记录,还能复制历史记录,通过GDS 可以查找自己的电子邮件、媒体文件、网页历史纪录、文档、Email等内容;拥有先进的搜索技术;不用上网就可以查看浏览过的网页;可以直接通过桌面栏进行搜索;通过快速查找项启动应用程序并立即开始搜索,还可以补充工具栏,将个性化信息集中放置;可以通过开发人员编写的插件补充工具栏。
2.百度硬盘搜索百度硬盘搜索是世界上第一款中英文桌面搜索工具。
它可以在电脑中快速的查找信息;还可以根据文件的类型和属性信息,自动生成目录。
百度硬盘搜索的功能特点主要有:可以通过添加高级搜索,使查找的结果更准确;可以支持语法搜索;可以给搜索结果页面增加细分目录,进一步缩小搜索范围;增加了很多小功能,方便实用;优化了搜索性能,减小了安装文件的体积;可以支持很多浏览器。
3 .88Data 桌面搜索88Data 桌面搜索是国内也是唯一由个人独立开发的体积最小的桌面搜索工具,通过其可以快速搜索系统中的每个角落,你的电子邮件、文档、媒体文件和网页历史记录等内容将即刻显示在你面前。
88Data 桌面搜索特点:具有良好的中文支持,广泛的文件格式和浏览器支持;系统功能强大,隐私安全保护;系统设置灵活等。
4 .网络猪网络猪是中国搜索推出新一代搜索引擎,可以使每个人拥有自己的个人信息门户.只要下载领养了网络猪就有了自己的信息平台.网络猪是一个基于搜索引擎并能整合多项功能(如:mp3点歌、视频点播下载电影、聊天、短信、天气预报、定制最新新闻等)的桌面软件。
您不需打开IE,只要输入关键词,在桌面就可以搜索信息。
网络猪的搜索框可以进行网页、新闻、网站、行业、图片、论坛、词典、等多项搜索。
网络猪的主要功能特点有:越过传统的搜索模式,可以实现划词搜索;可以订制专题新闻,设置自己的新闻中心;设有办公小秘书,为用户提供日程提醒、即时贴、常用软件快捷方式等服务;集合型聊天工具,可以将QQ、MSN和网络猪的即时通讯一起应用;设有天气预报功能。
5 .微软桌面搜索微软MSN推出了桌面搜索软件的测试版,这个MSN搜索工具的主要功能是快速搜索计算机硬盘的文件,Windows的桌面搜索集成在MSN的工具栏里。
微软桌面搜索可以即时搜索整台电脑,查找文档、电子邮件、音乐、照片、视频等各种内容。
微软桌面搜索的主要功能特点有;拥有桌面、浏览器、资源管理器三种搜索工具栏,可以在这些工具栏中直接输入文字搜索;可以搜索在系统中已经注册的所有文件类型,也可以手动添加位置的文件类型;可以通过选项卡式浏览器提高网页浏览效率;设有弹出窗口阻止程序可以有效的阻止弹出窗口;可以在搜索结果页中突出现实搜索的文字;可以将搜索结果与系统操作高度集成,可直接对搜索结果进行系统右键菜单操作,如:重命名、复制和删除等,支持批量操作,处理搜索结果相当方便。
这些都是非常好的桌面搜索工具,受到了广大使用者的好评,但是她们也存在一些不足的地方,例如:它们都是需要安装的软件,虽然安装文件不是很大名单是需要的安装目录比较大,例如Google Desktop Search安装时要求所在分区要有1GB的剩余空间;索引文件很大,Google Desktop Search等默认对全盘进行索引,因此随着时间的增长,硬盘里的索引文件会越来越大,就会影响系统运行速度;虽然微软桌面搜索默认不进行全盘索引,只对“我的文档”和“Documents and Settings”等常用文件夹进行索引,但是它没有给出明确的索引设置说明,增加了操作难度;除了微软的桌面搜索以外,其他的桌面搜索工具都不可对加密的PDF文件进行检索;安全性不够。
这是人们最在意的问题,由于桌面搜索引擎功能的强大,对用户的整个硬盘信息进行索引,如果个人计算机接入互联网,就存在着个人隐私暴露以及知识产权泄漏的相关问题。
因为当我们利用这些桌面搜索工具进行搜索时,搜索引擎将查询请求发送给两个不同的程序,以Google Desktop Search为例子,一个请求发送到网络,进行网页搜索;另一个将相同的查询请求发送到本地运行的桌面搜索程序,在事先建立的索引中进行查询。
另外GDS还会自动的保留用户邮箱里的电邮信息、即时通讯的谈话记录、用户的上网浏览记录,GDS还能复制历史记录,永远把它保留下来,这就意味着即使你已经将一些机密的文件删除了,通过GDS还是能将他们一一搜索出来,将所有的机密暴露无疑。
第二章桌面搜索引擎的总体设计搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎的工作原理大致可以分为:1. 搜集信息:搜索引擎的信息搜集基本都是自动的。
搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超连结。
机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。
理论上,若网页上有适当的超链结,机器人便可以遍历绝大部分网页。
2. 整理信息:搜索引擎整理信息的过程称为“建立索引”。
搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。
这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。
想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。
3. 接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。
搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。
目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。
通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
其实搜索引擎的工作非常简单。
我们知道蜘蛛是搜索引擎的主要劳动力,肩负着海量信息的筛选和甄别抓取工作。
蜘蛛根据网页的重要性、安全性、稳定性和代表性、新颖性、权威性和原创度、深度、广度等因素自动自动读取URL服务器的URL相关列表,按深度优先搜索方式或广度优先搜索方式抓取URL所指向的页面,对抓取的网页用唯一的id文档管理,压缩并存放到数据,待进一步处理,同时网页的所有超链接也会存入URL服务器。
搜索引擎还有一项最重要的工作就是,那就是切词和分类。
搜索引擎通过启用切词机器人和索引机器人将蜘蛛抓取的网页文档实施切词和类别分析归纳,以关键词在网页中出现的位置和频率分配权值并将切词结果导入索引数据库完成这些工作后,局部或完整更新存放抓取的数据库,当用户搜索某个关键词时,搜索引擎查询机器人将用户输入的信息进行切词处理,检索出所有包含检索词的记录,通过计算网页权重和级别对查询记录进行排序和综合运算,这样用户就可以看到最新的网页信息了。
根据客户的需要,设计的桌面搜索引擎应该保证信息的安全;保证查询速度,将查询限制在本地文件中;保证查询结果的准确性。
保证信息安全的解决方案是将查询的文件夹限制在电脑硬盘中,不自动保留用户的即时通讯的谈话记录、用户的电邮信息、用户的上网浏览记录,不复制历史记录。
保证查询速度的解决方案是通过简历索引可以提高搜索速度,特别是当电脑硬盘空间很大,文件数量很多时。