云南大学 信息检索期末复习重点

  • 格式:doc
  • 大小:36.50 KB
  • 文档页数:17

下载文档原格式

  / 25
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

云南大学信息检索重点

第一章

一、检索策略

定义:在处理信息需求提问实质的基础上确定检索途径、检索词语并明确各词

语之间的逻辑关系,查找步骤、系统输出顺序等方面的科学安排,与检索效果

密切相关。

二、检全率与检准率

1.检全率及其影响:检全率=(检出的相关信息数/信息库中相关信息总数)x100%

2.检准率及其影响:检准率=(检出的相关信息数/检出的信息总数)x100%

影响检出文献的检索效果的质量。

三、检索模型

1.布尔检索模型

(1)定义:布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表达用

户提问,通过对文献表示与提问式的逻辑运算来检索文献。

(2)优点:简单、易理解、易实现、能处理结构化提问

(3)缺点:A.布尔检索式的非友善性,即构建一个好的检索式是不容易的。尤

其是对复杂的检索课题,不易套用布尔检索模型。

B.易造成零输出或过量输出。检索输出完全依赖布尔提问式与系统倒排挡中的

文献匹配情况,输出量较难控制。

C.无差别的组配元,不能区分各组配元的重要程度。

D.匹配标准存在某些不合理的地方。由于匹配标准是有或无,因此,对于文献

中表因此的数量没有评判,都一视同仁。

E.检索结果不能按照重要性排序输出。

2.向量检索模型

(1)定义:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。

(2)优点:A.采用自动标引技术维文献提供标引词

B.改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在【0,1】闭区间中取值,使标引和检索者都可比较灵活地定义组配元(标引词)与文献的关系深度,改变了布尔检索模型僵化的特点。

C.由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理。

D.检索结果可按提问的相关度排序输出便于用户通过相关反馈技术修正提问,控制检索量。

E.布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。

(3)缺点:A.如检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系

B.由于对任何一个提问都需要计算全部文献库中的每一篇文献,因此,计算量大、算法复杂度高。

C.由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。

3.概率检索模型

4.扩展布尔逻辑检索模型

5.相关反馈模型

四、信息检索的步骤

1.分析研究课题,明确查找要求

2.选择检索工具

3.制定检索策略、途径和方法

4.根据文献线索,查阅原始文献

五.信息检索的方法

1.布尔检索

与(AND * ):A*B,表明一篇文献中A和B同时存在

或(OR + ):A+B,表明一篇文献中A或B必须存在,也包含同时存在

非(NOT - ):A-B,表明一篇文献中包含A但不包含B

2.截词检索

(1)类型

A.按截断位置:后截断、前截断、中截断;

B.截断的字符数量:有限截断、无限截断。

(2)实施

A.后截断:将截词符号放在字符串右方,保持词的前方一致。

computer*computerise/computers

B.前截断:将截词放在字符串左方,保持词的后方一致。

*computer microcomputer/minicomputer

C.前后同时截断:*computer*

D.中截断:又称通用字符法,将截词放在检索词的中间,主要解决一个词的英、美不同拼法及有些词的单复数问题。

organi?ation organisation/organization

3.限制检索

4.全文位置检索

5.加权检索

6.多媒体检索

第二章

一.基本概念

1.书目数据库

(1)定义:书目数据库是指存储某个领域的三次文献(如文摘、题录、目录等)书目数据的一类数据库,属于参考性数据库中的一种。

(2)类型

A.文摘、索引数据库:与书本式文摘、索引相同,提供确定的文献来源信息

B.图书馆目录库

(3)特点

A.历史悠久,是机读数据库发展的先驱;

B.文献数据量大,连续性累积性强;文献类型齐全,语种多

C.使用上没有限制,开放性好

D.记录结构简单固定;

E.更新周期长,生产费用低;

F.数据及主题词规范性好,索引系统完备。

2.全文数据库:其记录不仅包括原始文献的目录,而且收录了原始文献的全文。

3.一次文献:一次文献又称为原始文献。它指作者以本人的研究成果为基本素材创作而成的文献。包括阅读性图书、期刊论文、科技报告、会议论文、专利说明书、技术标准、学术论文、实验记录、日记、备忘录、内部报告、技术档

案、信件等公开或不公开发表的文献。译文一般也归入一次文献。

4.二次文献:指文献工作者对分散的、无组织的一次文献进行加工、提炼和浓缩之后得到的产物,是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性的文献。一般包括:目录、题名、文摘、索引。

5.三次文献:是指对有关的一次文献和二次文献进行广泛深入的分析研究之后综合概括而成的产物。如评述、综述、进展报告、百科辞典、名录、指南、手册。

6.核心期刊:在某一学科中,少数期刊覆盖了该学科的大部分最有参考价值的文献,而多数期刊仅包含该学科的少量最有参考价值的文献,这少数期刊就是该学科的核心期刊。

7.灰色文献:非正式出版物又叫零次文献、灰色文献,是指非正式出版物或非正式渠道交流的文献,未公开于社会,只是为个人或某一团体所用。如手稿、私人笔记,信件等。

二.特种文献

1.定义

特种文献是一种介于图书与期刊之间的似书非书、似刊非刊的文献类型,通常在出版发行方面或获取途径方面比较特殊,因此称为特种文献。它包括了除图书、期刊之外的所有其他类型的文献,如会议文献、学位论文、专利文献、标准文献、政府出版物、科技报告、产品样本和产品目录以及档案等。

2.类型

(1)会议文献

检索系统:OCLC- Papers-First 、OCLC-Proceeding