中文信息检索工具
- 格式:ppt
- 大小:324.00 KB
- 文档页数:17
常用检索工具1.检索工具的分类(1)按照信息搜集方法分类按照信息搜集方法的不同,搜索引擎系统可以分为三大类:1)目录式搜索引擎(Directory Search Engine)以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
信息大多面向网站,提供目录浏览服务和直接检索服务。
该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入(维护工作量大)、信息量少、信息更新不及时。
这类搜索引擎的代表是:Yahoo!、LookSmart、Ask Jeeves、Snap、Open Directory。
2)机器人搜索引擎(Crawler-Based Search Engine)由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在Internet中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
服务方式是面向网页的全文检索服务。
该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中筛选。
这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google。
3)元搜索引擎(Meta Search Engine)这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
服务方式为面向网页的全文检索。
这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。
这类搜索引擎的代表是WebCrawler、InfoMarket。
目前,商业的搜索引擎站点正在结合各种搜索引擎的优点,在类型上有逐渐融合的趋势。
例如,Yahoo!在保持人工分类的同时,使用Inktomi的机器人搜索引擎,用户查询时,如果选?quot;网站搜索"便搜索人工分类库,选择"网页搜索"便搜索机器人搜索引擎的索引库。
常用信息检索与处理工具使用总结专业:电子商务0901 姓名:殷雅妹【内容摘要】由于互联网上的各类网站种类繁多,信息庞杂,而且网站域名多为英文和缺少规律的特点使得中国网民尤其是新网民不能方便找到他所需要的网站。
与网络信息采集相关的软件及工具为广大网民提供了平台。
随着互联网的普及和深入,其相关软件不断改进,现在已经成为网民非常重要的一个平台及信息检索工具。
【关键词】信息检索即时通讯上传下载信息分析【目录】1.信息检索软件及工具﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍1.1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍1.2分类﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍1.3百度和谷歌的差别﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍2.网络即时通讯工具﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍2.1种类﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍2.2共同点﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍3.上传下载软件及工具﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍3.1“网络蚂蚁”下载器﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍3.2 FTP简介﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍4.信息分析软件及工具﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍4.1信息分析的主要技术﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍4.2 SPSS软件简介﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍4.3 SAS软件简介﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍5.结语﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍一、信息检索软件及工具1、概述搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
它主要是用于检索网站、网址、文献信息等内容。
随着网络技术的发展,各种搜索引擎层出不穷,目前流行的搜索引擎主要是帮助用户搜索表层信息,如google、百度、雅虎等。
⼏种常⽤信息检索⼯具简介中国知⽹(CNKI)简介:是国家知识基础设施(National Knowledge Infrastructure,NKI),由于1998年提出。
是以实现全社会知识资源传播共享与增值利⽤为⽬标的信息化建设项⽬,由、发起,始建于1999年6⽉。
地位:采⽤并具有国际领先⽔平的技术,建成了世界上全⽂信息量规模最⼤的"",并正式启动建设《》及CNKI,通过产业化运作,为全社会知识资源⾼效共享提供最丰富的知识信息资源和最有效的知识传播与数字化学习平台。
提供以下检索服务:⽂献检索、数字检索、翻译助⼿、图形搜索维普科技期刊:简介:维普⽹,原名“维普资讯⽹”,是所建⽴的⽹站,该公司是中⽂期刊数据库建设事业的奠基⼈。
⽬前已经成为中国最⼤的综合⽂献数据库。
从1989年开始,⼀直致⼒于对海量的报刊数据进⾏科学严谨的研究、分析,采集、加⼯等深层次开发和推⼴应⽤。
地位:站陆续建⽴了与⾕歌学术搜索频道、百度⽂库、百度百科的战略合作关系。
⽹站⽬前遥遥领先数字出版⾏业发展⽔平,数次名列中国出版业⽹站百强,并在中国图书馆业、情报业⽹站排名中。
经过多年的商业运营,维普⽹已经成为全球著名的中⽂专业信息服务⽹站,以及中国最⼤的综合性⽂献服务⽹站。
检索服务:分类检索万⽅数据库:简介:万⽅数据库是由万⽅数据公司开发的,涵盖期刊、、论⽂、学术成果、学术会议论⽂的⼤型地位:和齐名的中国专业的学术数据库。
其开发公司——万⽅数据股份有限公司是国内第⼀家以信息服务为核⼼的股份制⾼新技术企业,是在互联⽹领域,集信息资源产品、信息增值服务和信息处理⽅案为⼀体的综合信息服务商。
检索服务:浏览格式检索、专项信息检索、⾃由检索X-MOL化学资讯平台:简介:由北京衮雪科技有限公司创办,对化学⼯作者免费开放。
衮雪科技创⽴于2006年,⽬前拥有⼀个近百⼈的团队,团队80%以上成员拥有化学、⽣物学、药学等领域的硕⼠或博⼠学位。
网络信息检索的工具[摘要] 搜索引擎是人们使用Internet信息资源的重要工具。
本文对目前的中文搜索引擎进行了简要的分析,指出了其存在的缺陷和发展的方向。
[关键词] 信息检索中文搜索引擎存在的问题发展方向随着Internet信息资源的迅速增长,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了迫切需要解决的问题,从1995年开始出现的信息检索工具——搜索引擎很好地解决了这一问题。
然而各种搜索引擎,特别是尚处于发展初期的中文搜索引擎还存在着很多的缺陷有待改进,本文旨在分析目前中文搜索引擎存在的主要问题,并为解决此类问题提出一些建议和方法。
一、搜索引擎的概念和及类型搜索引擎又称检索引擎,是指运行在Internet上,以信息资源为对象,以信息检索的方式为用户提供所需数据的服务系统,主要包括信息存取、信息管理和信息检索三大部分。
目前,中文搜索引擎主要有三种类型:目录式搜索引擎、机器人搜索引擎(又称全文搜索引擎)和元搜索引擎。
1.目录式搜索引擎。
目录式搜索引擎是以人工或半人工方式收集信息,建立数据库,由编辑人员在访问了某个web站点后,对该站点进行描述,并根据站点的内容和性质将其归为一个预先分好的类别。
由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准确度较高,导航质量也不错。
但因其人工的介入,维护量大,信息量少,信息更新不及时都使得人们利用它的程度有限。
国内著名的新浪、搜狐、中文雅虎都属于这种类型。
2.机器人搜索引擎。
这是一种目前运用较广泛的搜索引擎。
国内以百度,google、天网为代表。
它是使用自动采集软件Robot,搜集和发现信息,并下载到本地文档库,再对文档内容进行自动分析并建立索引。
对于用户提出的检索要求,通过检索模块检索索引,找出匹配文档返回给用户。
机器人搜索引擎具有庞大的全文索引数据库。
其优点是信息量大,范围广,较适用于检索难以查找的信息或一些较模糊的主题。
缺点是缺乏清晰的层次结构,检索结果重复较多,需要用户自己进行筛选。
信息检索的基本原理是:通过检索语言,可以把能够表示文献特征的全部标识按一定的规则组成一个有序的检索系统,使每种文献在检索系统中都有固定的位置,从而为文献检索提供可能。
也就是说通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
所谓信息源是指一切产生和持有情报的个人和机构,或者负荷情报的载体。
信息检索是介于信源与信宿之间,使二者得以良好契合的桥梁。
信息检索实际包含存储与检索两个过程。
存储过程是指信息存储;检索过程是指信息检索。
即检索者的检索提问标识与存储在检索工具中检索标识进行匹配对比、取得一致,即为检索命中。
所以说存储是为了检索,而检索又必须先进行存储。
中国知网、万方和维普是三个比较大型的信息搜索网,并且都是应用于文献数据库。
而文献检索工具,也称检索系统,是一种用来报导、查找、分析文献的信息系统。
一般来说,一种检索工具是相对其检索的目标文献而言的,它应当根据其读者群的检索需求设定目标文献的种类和范围,并根据目标文献的特点和检索工具的用途提供相应的检索功能。
就检索工具的性能来说,显然,收录的文献数量越大、内容越复杂,就越难找到目标文献。
长期以来,如何评价一个检索工具的质量,特别是对一个海量文献资源的检索工具来说,一直是图书情报和信息学界的一个重大难题。
他们所应用的信息存储与检索基本原理是如图所示:CNKI即中国知网,主要应用包括中国期刊全文数据库、中国优秀博士硕士论文全文数据库、中国重要报纸全文数据库、中国医院知识仓库、中国重要会议论文全文数据库。
中国知网的检索方式是面向一般读者提供初级检索,面向专业人员提供高级检索。
如:导航检索、专项检索、全文检索、位置检索、逻辑组合检索、二次检索、关联检索(同义词检索)、中英文互检、前方一致检索、模糊检索等检索功能。
知识关联功能是通过引用文献、被引文献及相关文献关联将全文文献与其引证文献链接起来,直接实现基于引文检索的全文查找,使相关的知识关联起来,形成知识链,追溯知识源头,掌握知识的发展脉络。
常用检索工具1.检索工具的分类(1)按照信息搜集方法分类按照信息搜集方法的不同,搜索引擎系统可以分为三大类:1)目录式搜索引擎(Directory Search Engine)以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
信息大多面向网站,提供目录浏览服务和直接检索服务。
该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入(维护工作量大)、信息量少、信息更新不及时。
这类搜索引擎的代表是:Yahoo!、LookSmart、Ask Jeeves、Snap、Open Directory。
2)机器人搜索引擎(Crawler-Based Search Engine)由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在Internet中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
服务方式是面向网页的全文检索服务。
该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中筛选。
这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google。
3)元搜索引擎(Meta Search Engine)这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
服务方式为面向网页的全文检索。
这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。
这类搜索引擎的代表是WebCrawler、InfoMarket。
目前,商业的搜索引擎站点正在结合各种搜索引擎的优点,在类型上有逐渐融合的趋势。
例如,Yahoo!在保持人工分类的同时,使用Inktomi的机器人搜索引擎,用户查询时,如果选?quot;网站搜索"便搜索人工分类库,选择"网页搜索"便搜索机器人搜索引擎的索引库。