4-信息检索基础
- 格式:ppt
- 大小:2.09 MB
- 文档页数:115
信息检索知识点 Revised by Liu Jing on January 12, 2021信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
1.什么是信息检索?从广义的角度讲,信息检索包含信息存储和信息获取两个过程。
信息存储指通过对大量无序信息的选择和收集、著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程。
获取是存储的逆过程,其实质是根据特定的需求,运用以组织好的检索系统,将特定的信息查找出来。
存储是获取的前提和基础,没有存储就没有获取,而获取是存储的目的,二者密切联系,互相依存,缺一不可。
狭义的信息检索是指广义的信息检索的后一个过程,即信息获取的过程,相当于人们所说的信息查检等。
具体来说,狭义的信息检索指通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程,即根据用户的特定要求查找所需信息的过程。
2.信息检索效果的评价指标有哪些?(1)检索效果有效性评价,即检索技术效果的评价,是对检索系统满足检索要求的有效程度的评价,主要以查全率和查准率为评价标准。
(2)检索系统使用的评价,包括系统对用户是否需要,是否实用有多大的实用效果,即检索的社会效果的评价,需要应用社会学方法。
(3)检索费用——效率评价,即检索的经济效果的评价,包括检索系统完成检索服务的成本及时间消耗,需要应用经济学方法。
评价信息检索效果的指标主要有6个:收录范围、查全率、查准率、响应时间、用户负担和输出形式。
附:查全率=【检出相关文献信息量/检索系统中相关文献信息总量】*100%=(a/a+c)*100%查准率=【检出相关文献信息量/检出文献信息总量】*100%=(a/a+b)*100%漏检率=【漏检相关文献信息量/检索系统中相关文献信息总量】*100%=(c/a+c)*100%误检率=【误检文献信息量/检出文献信息总量】*100%=(b/a+b)*100% 3.什么是检索语言?检索语言的实质是用于表达一系列概括文献信息内容的概念及其相互关系的概念标识系统。
它可以是从自然语言中精选出来并加以规范化的一套词汇,可以是代表某种分类体系的一套分类号码,也可以是代表某一类事物的某一方面特征的一套代码(如化合物的各种代码),用于对文献内容进行主题标引、特征描述或逻辑分类。
1、信息类型:(加工程度分)一、二、三、高次信息2、构成文献的四个基本要素:(1)构成文献内核的知识信息(决定文献内容);(2)负载知识信息的物质载体(决定文献形态);记录知识信息的符号系统;记载知识信息的记录方式(构成文献手段)3、信息、知识、文献三者关系:(1)信息是生产知识的原料(2)知识是被人类系统化后的信息(3)文献是存储、传递知识信息的载体4、具有信息素质的人应具备的能力:运用信息工具;获取信息;处理信息;生成信息;创造信息;信息增效;信息协作;信息免疫。
5、文献种类:按加工层次分:一、二、三次文献。
【按出版类型】图书,期刊,会议文献,专利文献,科技报告,学位论文,技术档案,产品资料,标准文献,政府出版物。
6、一次文献:以作者本人的生产与科研工作成果为依据而撰写的、并以公开发行进入社会流通使用的原始文献。
图书,报刊(青年文摘)二次文献:(检索性文献)无新知识产生,由一次文献形成各种目录、索引和文摘。
有汇集性,检索性的特点三次文献:(参考性文献)有新知识产生,词典、手册、百科全书、年鉴、各种教科书及综述等。
7、信息检索的基本方式:传统、现代信息检索||信息检索全称“信息的存储与检索”8、检索工具:【按用途分】指示型,参考型;【按编著方式】目录型;题录型;文摘型(按压缩程度分:指示性,报道性,评述性文摘);索引型9、手工检索工具包括5部分:(1)编辑说明与使用范例(2)分类表与主题词表(3)正文部分(4)索引部分(5)附录部分10、检索语言特点:人工语言;唯一性11、检索语言的构成:词汇和语法12、检索语言的分类:按描述文献的内外部特征分为【外部】名称语言;代码语言。
【内部】分类语言;主体语言(标题词语言,叙词法、单元词、关键词语言)。
13、分类语言特点:(1)分类语言体现了学科的系统性,便于从学科门类出发,进行族性检索,查全一门学科中各种事物的所有分类(2)体系分类法将概念逐级划分,具有等级结构,便于扩大与缩小检索范围(3)分类法不宜经常修订,列举在分类表中的类目不能随时改变,因而分类法不能及时反映新的科学技术(4)体系分类法用分类号作为检索标识,不能直接表达概念,不熟悉分类法,转换时可能发生误差,用分类号则不受限制(5)分类法是按直线或序列编制类目,遇到跨学科课题时,与课题相关的文献只能标引在一门学科的类目之下,索引时可能漏检。