第三章信息检索工具
- 格式:docx
- 大小:22.77 KB
- 文档页数:32
第三章网络信息检索工具【知识框架】信息检索的一般流程网络经贸信息资源的概念与类型网络资源查询方法及检索工具▪按检索机制分:目录型(Subject directory, catalogue)索引型:搜索引擎(Search Engine)混合型(Hybrid tools)▪按检索内容分:综合型专题型特殊型▪按包含检索工具数量分:单一型(Singular search tools)集合型(Collective search tools):元搜索引擎(Metasearch Engine或Megasearch Engine 目录型检索工具(Subject directory catalogue)搜索引擎(Search Engine)▪单一搜索引擎▪集成搜索引擎检索工具的工具——指南类检索工具和元搜索引擎▪(一)网络资源指南(Resource Guide)也称学科门户SIG▪(二)元搜索引擎集合式搜索引擎、索引式搜索引擎▪(三)手工检索工具的“工具书指南”、网址簿网络版参考咨询工具(Reference Tools)智能搜索代理和搜索软件补充教材第二章:检索工具与语言检索策略【主要内容】1、信息资源检索的一般流程分析问题▪问题分类▪分析已知和欲知信息▪分析需求主题▪广泛利用文献▪选择检索范围选择检索工具▪熟悉各种检索工具从检索工具中查找所需信息获取原文2、网络信息资源的概念和类型1)按传输方式分:●WWW●FTP●Usenet/Newsgroup●LISTSERV/Mailing List●Telnet●Gopher●WAIS2)按内容加工一次加工信息▪网上图书、期刊、报纸、专利、政府出版物、会议资料等 二次加工信息▪文摘索引数据库、搜索引擎、网站导航等三次加工信息▪百科全书、手册指南等参考型网站3)格式与后缀3、网络检索工具的分类按检索机制分:▪目录型(Subject directory, catalogue)▪索引型:搜索引擎(Search Engine)▪混合型(Hybrid tools)按包含检索工具数量分:▪单一型(Singular search tools)▪集合型(Collective search tools):元搜索引擎(Metasearch Engine或Megasearch Engine4、目录型检索工具(Subject directory catalogue)1)网络资源目录这是一种独立型检索工具,网站自身包含可检索的数据库。
第三章网络信息检索第一节网络信息检索的基本方法1、布尔逻辑检索逻辑检索是一种比较成熟、较为流行的检索技术。
逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符,主要的运算符有:(1)逻辑―与‖逻辑―与‖用AND(或﹡)表示。
检索词A、B若用逻辑―与‖相连,即A AND B(A*B),则表示同时含有这两个检索词才能被命中。
例如,要检索儿童教育的文献,检索逻辑式可表示为:child AND education(2)逻辑―或‖逻辑―或‖用OR(或+)表示。
检索词A、B若用逻辑―或‖相连,即A OR B(A+B),则表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。
例如,要检索―计算机‖或―机器人‖方面的文献,检索逻辑式可表示为:computer OR robot. (3)逻辑―非‖逻辑―非‖用NOT(AND NOT,BUT NOT)(或-)表示。
检索词A、B若用―非‖相连,即A NOT B(A-B),则表示被检索文献在含有检索词A而不含有检索词B时才能被命中。
例如,要检索有关―能源‖方面的文献,但涉及―核能‖方面的文献不要,检索逻辑式可表示为:energy NOT nuclear(energy –nuclear)。
1、搜索引擎的定义搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,简言之,搜索引擎就是一种在因特网上查找信息的工具。
用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。
搜索引擎一般都有固定的显示格式,内容详简程度不一,常常带有URL、题名、标题、关键词、摘要(文本描述摘录)、超链接文件大小、检索结果总数、相关度估计、评论等。
搜索引擎的检索结果一般按查询的相关程度进行排列,最相关的通常排在最前面。
2、搜索引擎的常用检索方法(1)简单搜索(simple search)指输入一个单词(关键词),提交搜索引擎检索后反馈结果。
它也叫单词搜索。
第三章信息检索的基本理论目的要求了解信息检索系统的概念;了解手工信息检索系统的类型;熟悉手工信息检索系统的结构;掌握手工信息检索系统的著录格式和常用的手工信息检索系统的信息检索方法。
掌握计算机信息检索系统的构成和类型;掌握信息检索语言的基本类型;掌握信息检索原理。
第一节信息检索系统一、信息检索系统的概述信息检索系统是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。
简单地说,信息检索系统即信息的存贮和检索的系统。
广义:信息检索系统是包括了从信息采集到检索全过程的服务体系。
狭义:信息技术系统就是用户检索信息时所使用的检索工具。
信息检索系统具有输入功能、存贮功能、处理功能、输出功能及控制功能。
根据信息存贮和检索所设备和手段的不同,信息检索系统可分为两大类型,即:手工信息检索系统和计算机信息检索系统。
目前,信息检索系统已从传统的手工检索系统发展到计算机网络信息检索系统。
二、手工信息检索系统1、手工信息检索系统的类型书本式检索工具(期刊式检索工具、单卷式检索工具、附录式检索工具)和卡片式检索工具。
期刊式检索工具:指在一个题名之下,定期连续发行的一种检索工具。
它具有及时性、连续性和稳定性的特点。
例如各种文摘杂志、索引刊物、连续的馆藏目录等。
这种形式的检索工具,及时反映新出版、新发表、新入藏的文献信息,它随着新文献的不断出现而不断连续出版,保持与文献的平行发展关系。
因此科研工作者为了掌握和了解本学科的科研动态,定期查阅期刊式检索工具是一种非常有效的方法。
同时由于期刊式检索工具的连续性的特点,不少期刊式检索工具,每到一定时间累积后,对于回溯检索极为方便。
单卷式检索工具:这种检索工具多数是以一定的专题内容而编印的,选题一般具有独立的意义。
它专业性强,收集的文献比较集中,往往积累反映一个相当长时间的文献,并以特定范围的读者作为对象。
单卷式检索工具收录文献一般比较全面系统,排列组织比较切合专业研究的需要,因此,对于专题文献检索比较方便,使用价值较高。
一、检索工具的特性
1・什么是检索工具?
•检索工具是用来报道、存储、查找信息的
工具。
检索工具是汇辑各种信息,按特定的方
•检索工具与普通文献的主要区别在于:
它是一种工具书刊,是专供人们查找特定信息的,虽然它也具备可读性,但它不是供人们进行系统阅读的。
二、检索工具的类型
1・按出版形式分:
(1)期刊式检索工具
(2)书本式检索工具
(3)附录式检索工具
(4)卡片式检索工具
(5)缩微式检索工具
(6)机读式检索工具
2・・按检索工具的基本作用划分:
(1)题录型
(2)参考型
(3)综合型
(4)搜索引擎
3・按检索工具的内容与功用划分:
(1)目录(2)索引(3)文摘(4)辞典(5)百科
全书(6)年鉴(7)手册(8)名录(9)表谱
(10)图谱(11)类书(12)政书
• •目录:是著录一批相关的出版物,并按一定方式
排的一种揭示与报道信息的工具。
国家书目、在版目录、期刊目录、收藏目录、联合
目录、推荐书目、专题书目。
•索引:是将出版物中只有检索意义的信息特征(篇名、语词、人名,地名等),按一定的顺序编排组织
起来,以供检索之用的工具。
篇目索引
内容索引(语词索引、主题索引、人名索引、
地名索引、关键词索引)
•辞典:字典、词典的总称。
—字典是解释字的形、音、义及其用法的工具。
-词典是说明语词的定义、意义和用法的工具。
•百科全书:是记载人类一切门类的或某一门类的知识,以辞典的形式编纂的系统而完备的检索工具。
•年鉴:汇集一年内的重要时事和统计等信息,按年度连续出版的检索工具。
•手册:是汇辑某一领域中最经常使用的信息以备查检的工具。
•名录:亦称机构名录、机构指南、便览、大全,是一种系统编排的,有关个人和组织机构的目录。
•表谱:是以编年或表格形式记载事物发展的检索工具。
主要有年表、历表和其它表谱,主要用于查检不同纪年方法的年代对照,不同历法的年月日对照以及历史大事、人物生卒年、地理沿革等信息。
•图谱:主要指地图和图录.
-地图是根据一定的数学法则和光学技术,将地球表面的自然和社会现象,以各种不同的图式符号在平面纸上缩小成概括的图形。
包括普通地图。
历史地图、专题地图。
-图录是以图象表示事物形象的工具。
有历史图录、人物图录、艺术图录。
•类书:釆集各种古籍中有关事物的资料,将它分类编排,以供查阅的工具。
类书是中国古代的百科全书。
类书主要可用来检索中国古代的诗赋文章、
丽词骈语、史实典故、名物制度等百科资料。
《太平御览》《册府元龟》《太平广记》《文苑英华》《永乐大典》《古今图书集成》《佩文韵府》《骈字类编》
•政书:中国古代专门记载典章制度的书,它记载典章制度的基本内容及其沿革变化和其它史实。
《通典》《通志》《文献通考》
《续通典》《续通志》《续文献通考》《清朝通典》
《清朝通志》《清朝文献通考》《清朝续文献通考》
三、检索工具的一般结构
1.正文部分
2・文前栏目
3・索引
4・附录
四、检索工具的排检方法
・按字顺编排
-拉丁文字顺排检法
-中文字顺排检法
・按内容性质编排
-分类编排
-主题编排
•拉丁文字顺排检法
-word by word -letter by letter •中文字顺排检法
-音序法 -形序法 -号码法
汉语拼音排检法
・优点:原理简单、查检迅速;科学性强,符合国际上检索工具的编排规则,是一种理想的中文排
检法。
・缺点:当不知道一个字的正确读音时,就难以查到。
笔画法
・优点:原理简单,易于掌握,又适合汉字的特点。
・局限性:同一笔画容纳的汉字较多,不便很快查到要查检的汉字;由于汉字结构的多样化,简体与繁体,规范书写与手写体的差
别很大,每个字的笔画不易计算准确。
•应用:不仅可以用来编排检索工具的正文,也可以用
来编制检索工具的索引,同时它还是一种常见的
补充编排法,音序法、部首法、笔形法等往往用
它对条目进一步编排。
起笔笔形法
・起笔顺序:寒来暑往、江山千古、元亨利贞。
・优点:起笔笔形法强调起笔,位置固定。
・缺点:每一类所统属的条目多,检索不便。
・应用:起笔笔形法一般不用来编排检索工具的正文,多数检索工具仅用它作为其它编排方法的一种补充手
段,是其它编排方法的附属方法。
部首法
・优点:(1)部首法符合汉字的结构和人们的查找习惯,不认识的字,念不出来,不能用音序查检时,可以根据字形用部首法查出来;
(2)部首法能够容纳数量庞大的汉字,是编
制大型语言工具的必要排检法。
・局限:部首的位置不固定,判断一个字的部首必须遵循固定的原则和规定,比较难掌握; 不同检索工具中的部
首数量往往不同。
部首法的取部规则
•部首法的取部规则
-从义归部
-从形归部
•《辞海》的取部规则
-部首的位置:一个字的部首在字的上、下、左、右、
外、中坐、左上角。
-多部首的取部原则:上、下;左、右;内、夕卜;中坐、左上角;下、左上角;右、左上角;多笔与少笔叠合; 单笔部首和复笔部首。
-部首无从釆取,按横、竖、撇、点、折起笔笔形查单笔部首
•四角号码法规则
笔形规则:横1垂23点捺,叉4插5方块6, 7角8八9是小,点下有横变零头。
取角规则:⑴取角顺序;⑵一笔可以分角取号;(3)—个笔形,前角用过了,后角作0; (4)—笔的上下两段和别笔构成两种笔形的,分两角取号;
(5)下角笔形偏在一角的按实际位置取号,缺角作0;
(6)凡外围是“ 口门”的字,左右两下角取内部笔形;
(7)当中起笔的撇,下角有它笔的,取它笔作下角;(8)
如果一个角上有两个单笔或一个单笔和一个复笔可取时,不论高低,只看左右;(9)如果一个角上有两个复笔可取时,不管左右,只看高低,(10)取一个字的右下角上方最贴近的笔形作附角。
分类排检法
・分类排检法是按信息内容的学科属性和逻辑次序编排检索工具的一种方法.分类排检法大致可分为两类;一是按分类法编排,二是按自编的分类体系编排.
・使用分类排检法便于按类检索信息,并且能够较全面地获得同类的相关信息,有利于族性检索.
・Yahoo!是以网络资源为对象的指南型分类检索工具,它设置了14个基本大类,按英文字顺排列:
艺术与人文、商业与经济、计算机与网络、教育、
娱乐、政府、健康与医药、新闻与媒体、休闲与运动、参考资料、地区、科学、社会科学、社会与文化
•特点
(1)从类目设置的角度看,基本放弃了文献分类法以学科为中心建
立类目体系的传统,采用以主题为中心并与学科结合的设类方式,可以使其在具有直接性的同时增加包容性。
(2)类目体系的展开,采用了多重划分、多元展开的类目结构,收
录有关该类的所有信息资源,使用户可以同时从不同角度出发进行查找。
Sohou分类目录的类目体系
・娱乐休闲、工商经济、公司企业、文学、体育健身、卫生健康、生活服务、社会文化、社会科学、国家地区、电脑网络、教育培训、艺术、新闻媒介、科学技术、旅游交通、政法军事、个人主页
主题排检法
・主题排检法是以主题词来揭示,标引和排列信息的一种方法。
用主题法编排检索工具,其过程分两步:一是用能够描述表达信息内容的主题词作为条目的标识,二是将所有条目的标识按字顺组织起来,
・主题排检法能够把不同学科,不同知识体系中
的同一主题的信息集中在一起,有利于人们按
主题检索,但使用主题编排的检索工具必须正确选定主题词。
主题编排与分类编排的区别
(1)主题法直接用主题词来描述、标引和组织信息,强调“直观性”;分类法则按知识体系分类归并信息,强调“系统性”。
(2)在主题排检法中,主题词既揭示信息的内容,又是用
来标引和检索的词汇;而在分类排检中,类目只是对信息条目学科属性的概括,而不是标引、检索的词汇。
(3)主题排检法需要借助于字顺排检法来编排组织主题词
的顺序;而分类排检法本身不需要借助于其它方法, 它是按信息内容逐级类分人类知识o
五、检索工具的评价
内容范围:全面、丰富
2.编排技术:正文、索引、版式
3・实效性:获得版权的时间
4 •权威性:出版者、编者。