信息检索期末复习资料

  • 格式:doc
  • 大小:74.50 KB
  • 文档页数:7

下载文档原格式

  / 15
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索

一.名词解释

1.索引(P150):索引是将书籍、期刊等文献所刊载的论文题目、作者,以及所讨论的或设计的学科主题、名词术语、所引用的参考文献等,根据一定的需要,经过分析分别摘录出来,注明其所在书刊的页码,按一定的原则和方法排列起来的一种检索工具。

2.回溯检查法:又称追溯法、引文法、引证法,是一种跟踪查找的方式。即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。通过回溯法所获得的文献有助于对课题的主题背景和立论依据等内容有更深的理解。该方法获得文献针对性强、数量较多,在没有检索工具或检索工具不齐备的情况下,利用此法能够获得一些所需要的文献资料。

3.可视化:将数据库中不可见的语义关系以图像的形式可视化显示,并表达用户检索过程。一个可视化的环境为用户展示更丰富、更直观的信息,一个透明的检索过程使检索更容易、更有效。它包括检索过程的可视化和检索结果的可视化。可视化信息检索技术缩短了用户理解信息的时间,提供了感觉和思考之间的有效反馈机制,它代表着信息检索的未来,将会取代以布尔逻辑为基础的、传统的信息检索系统。

4.自动标引:是指直接通过计算机的操作处理,自动实现赋予检索标志的活动。分为自动主题标引和自动分类标引,即根据计算机内信息(标题、摘要或全文),借助算法自动给出反应主题内容的标引词和自动分配分类号。

5.全文扫描:是以从文本文档中找出与查询表示的字符串完全一致的部分为目的,检索结果返回包含查询字符串的文本及其位置的检索技术。

6.查全率:查全率是指从检索系统检出的与某课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比。对于数据库检索系统,查全率为检索出的款目数与数据库中满足用户检索式需求的款目数之比;而对于互联网信息检索系统来说,文献总量是很难计算的,甚至连估算都困难。在这里人为因素的影响比较大。相对查全率=(专业人员检出文献的数量数/全部实际检出文献集合并集中文献数量) *100%

7.图像信息抽取:是指从数字图像中抽取包括基于文本的特征(说明,注释等关键词)和视觉特征或底层特征(颜色,文理,形状等),作为图像的特征描述,支持信息检索。

8.信息过滤:是指根据一定的标准运用一定的工具从动态的网络信息流中选取用户需要的信息或剔除用户不需要的信息的方法和过程。信息过滤的依据是信息与用户信息需求的相关性。

9.逻辑算符:又称布尔逻辑算符,是利用布尔代数中的逻辑运算符来描述检索词之间的关系。逻辑算符的作用是把若干飞检索词或词组连接起来,构成一个检索式的基本框架,指定文献的检索词必须出现或不出现的条件。常见的有三种,逻辑与(AND或*)、逻辑或(OR或+)、逻辑非(NOT或-)。其功能是将代表单一概念的一些检索组配起来形成检索式,表达一个信息的整体概念。

10.元搜索引擎:通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作,是对分布于网络的各种检索工具的全局控制机制。

二.分析判断题

1.从狭义角度讲,信息检索包括的过程。

情报的检索(工具)(从信息集合中找出信息的过程,相当于人们通常所说的信息查询);存储和检索;表示、存储、组织、存取

2.系统中的高频词在检索中所起的作用。

3.自动标引的含义。

自动标引是指直接通过计算机的操作处理,自动实现赋予检索标志的活动。分为自动主题表扬你和自动分类标引,即根据计算机内信息(标题、摘要或全文),借助算法自动给出反应主题内容的标引词和自动分配分类号。

4.加权表达式的使用。

加权检索不重在判定检索词或字符串是否在数据库中存在,与别的检索词或字符串是什么关系,而在于判定检索词或字符串在满足检索逻辑后对该记录命中与否的影响程度。它的基本方法是:在每个检索词后面给定一个数值,表示其重要性程度,这个数值称为权值。在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值之和。只有当数据库记录的权值之和达到或超过预先给定的阈值时,该记录才算命中。加权检索只需接触检索词,不需编制提问逻辑式。通过加权,明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重要性进行排序;加权检索主要有两个方面的作用:A可获得较理想的查全率和查准率B可以输出时对档案进行排列;在加权检索中则采用数字或加权符号进行匹配;加权检索可以按照用户的提问要求。对各检索项分别赋予不同的权值,检索时将其结果按权值大小排序输出;加权检索方法称为定量检索方法

5.截词检索算符的逻辑关系。

词干加截词符号,对该词各种词性的完整词进行检索;截断部位(前方一致、后方一致、中间一致、中间不一致);截断字符数量(有限截词、无限截词)

6.检索语言指信息检索过程中涉及哪类语言。

(自然语言-关键词、题名、标题、全文…)、人工语言-分类检索语言…;专业语言;受控语言;体系分类语言(分类检索)、主题语言、代码语言

7.文献信息的内容与载体形式的关系。

鉴于载体和信息内容是构成文献的两个核心因素,人们一般也从这两个因素或其相关因素出发,寻求文献类型的划分标准。例如以载体为标准,可将文献划分为刻写型、印刷型、缩微型、声像型和电子型等;从文献的知识内容出发,则相关因素很多,比如按学科标准,可将之分为社会科学文献、自然科学文献以及他们的下属分支学科文献等。

8.自然语言和受控语言在检索系统中的功能有无差别。

按照规范化程度分:规范化语言、自然语言。规范化语言:又叫受控语言,是指人为地对标引词和检索词的词义进行控制和管理的语言。简单地说,规范化语言是一种有主题词表或者分类表控制的检索语言,包括主题语言中的叙词、标题词和分类语言。自然语言:是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的自由词,如关键词语言。它除一般的事物名称、科学术语外,还包括俗名、商品型号和缩写等,具有不用编制词表,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点,便于计算机检索。

9.位置逻辑运算符有无优先级别的差异。

1、(W)、(nW)邻近位置算符:(W)是“with”的缩写,(W)算符也可以简写为( )算符,用A(W)B表示,

用此算符连接的两个检索词A和B的顺序不能颠倒,其间不得插入任何词,但可以有一个空格、一个标点符号或一个连接号。(nW)是“n words”的缩写,表达式为 A(nW)B,用此算符连接的两个检索词A和B的顺序不能颠倒,但可以在其间插入最多n个单元词,包括9个禁用词(an,and,by,for,from,of,the,to,with)。

2、(N)、(nN)邻词位置算符:(N)是“near”的缩写,表达式为A(N)B,表示两个检索词之间必须连接,词

序可以颠倒,其间不允许插入任何单词或者字母,但允许有空格或者标点符号。(nN)是“n near”的缩写,表达式 A(nN)B,表示两个检索词之间最多可以插入n个单词,两个检索词的顺序可以颠倒。

3、(S)句子位置算符:(S)是“Subfield”的缩写,表达式为A(S)B,表示检索词A和检索词B必须同时出

现在文献记录的子字段中(如同一个句子、同一个短语等),但词序可随意变化,两个词之间可以有若干其它词。

4、(F)字段位置算符:F是“field”的缩写,表达式为A(F)B,表示两个检索词必须同时出现在文献记录

的同一字段内,但它们的位置不限,词序可任意变化,两个词之间可任意加词。