当前位置:文档之家› 信息检索概念

信息检索概念

信息检索概念
信息检索概念

第一章 绪论

1.1.1 信息检索的概念

“信息检索”(Information Retrieval,IR ,我国早期译为“情报检索”)一词最早出现于1952年,由美国学者穆尔斯(C.W.Mooers )提出,从1961年开始在学术界和实践领域中得到广泛的应用。

信息检索这一概念首先假设包含相关信息的文献或记录已经按照某种有助于检索的顺序组织起来。信息检索就是对信息项进行表示、存储、组织和存取的全过程。对信息项的表示和组织应该能够为用户提供其感兴趣信息的方便存取。遗憾的是,对用户信息需求进行全面而准确的描述不是一件轻而易举的事情。 信息检索的基本原理可以用下图表示 :

从上图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中。

1.1.2 信息检索的原理

从由此可见,信息存储和信息检索的直接交汇处是至关重要的,由此形成了信息检索的一致性匹配作用机理,如图1-2所示。

信息检索的一致性匹配作用机理包括5个机理: (1)提取机理 (2)表示机理 (3)比较机理 (4)判断机理 (5)选择机理

息资源 信息搜集

需求分析

信息需求

信息用户 信息分析

信息表达

词语转换

需求表达

词语转换

数据库

检索结果

检索语言

信息存储过程 信息检索过程

图1-1 广义信息检索的基本原理

1.1.3 信息检索的类型

(一)按照信息检索的对象性质划分 (1)文献检索 (2)数值检索

(3)事实检索

(二)按照计算机检索技术划分 (1)脱机检索(Off-line Retrieval ) (2)联机检索(On-line Retrieval ) (3)光盘检索(CD-ROM Retrieval )

(4)网络检索(Internet Retrieval ) 1.2.1 信息检索系统的概念

信息检索过程的实现要依靠特定的系统,这个系统就是信息检索系统。系统是由两个或两个以上既相互区别又互相影响的各种要素构成的统一整体,信息检索系统的构成包括六个要素:

(1)目标 (2)功能 (3)资源 (4)设备 (5)方法 (6)人员

由此可见,信息检索系统由若干个相互作用的部分构成,各部分的功能互异,设计的目的也各不相同,但它们之间相互联系,共同实现系统的目标。狭义地讲,这个目标就是检索信息;广义地讲,则是提升用户的知识水平。通常认为,信息检索系统的任务是告知用户他所需要的信息在哪里。也就是说,信息检索系统并不告诉用户他所询问的主题(即不改变用户的知识结构),它只是告诉用户这一主题是否存在于数据库中,相关的文献都存在哪里。 1.2.2 信息检索系统的类型 (1)书本式检索系统。 (2)卡片式检索系统。 (3)机械式检索系统。 (4)缩微式检索系统。 (5)计算机检索系统。 (6)网络检索系统。

比较 判断

选择 符号化表示 信息特征提符号化表示

需求特征提

现实的信

息现实的需

求输出检索结

图1-2 信息检索的一致性匹配作

1.2.3 信息检索系统的物理结构

(1)联机检索系统的物理结构

所谓联机检索,是指用户利用终端设备,通过通信网络或通信线路与分布在世界各地的检索系统中心的中央计算机连接,通过人机对话的方式,运用特定的检索指令和检索策略,访问中央数据库,从中检索出所需信息的过程。

联机检索系统也称国际联机检索系统,通常采用相对封闭的客户机/服务器模式,属于典型的主从式结构。如图1-3所示,联机检索系统通常由联机检索中心、通信设施、检索终端3个主要部分组成。

联机检索系统的特点是:

①检索范围广,数据库数量多,几乎涉及到各个学科领域,世界上公开出版发行文献的90%都可以通过几种主要的联机检索系统查到。

②检索内容新,数据库更新及时,基本上是同步,能够检索到最新信息。

③检索功能强,一个联机检索系统中的所有数据库通常使用统一的检索命令,检索途径多、检索效率高、检索质量好。

④数据库质量高,都是经过严格加工、处理和组织的,通常是各个领域中核心的和权威的数据库。

⑤检索较复杂,专业性太强,一般用户不容易掌握检索指令、规则和方法,通常依赖于专业检索人员。

⑥检索费用高,要求熟练掌握检索技巧和经验,普通用户难以承受。 ⑦人机界面比较单一、呆板。

(2)光盘检索系统的物理结构

光盘检索系统有两种类型:单机光盘检索系统和光盘网络检索系统。

单机光盘检索系统比较简单,通常由计算机、光盘驱动器、光盘数据库等硬件设备组成,自成一体,系统结构简单,数据量少,利用率低,一次只能供一个用户检索,通常供单用户、单机使用。

光盘网络检索系统可以分为面向特定范围对象的局域网的系统和依托Internet 的面向所有用户开放的系统,其实质是将光盘资源上网,允许局域网、广域网甚至Internet 上的众多用户在同一时间、不同地点同时访问一个或多个光盘数据库。其局域网系统的物理结构如图1-4所示。

资源子网

通讯子网 通信网络

数据库

中央 计算机

外设

联机检索中心

信设

备通信设

备检索终端 检索终端 检索终端 用户 图1-3 联机检索系统的物理构成

光盘检索系统的特点是:

①方便快捷,不受通信线路和网络等因素的影响和限制,可以随时启动使用。

②检索费用低,一次购买、多次使用,不涉及远程通信,分摊成本低,用户心理上没有费用的压力。

③操作界面友好,帮助信息、功能键、窗口式对话框、鼠标控制等,简单易学,直接面向最终用户,不需要对用户进行专门的培训。

④输出灵活,可以有拷盘、打印、套录建库以及网上传输等多种输出形式。

⑤融多种媒体为一身,结合激光技术、计算机技术和多媒体技术,将文字、声音、图像、视频等多种媒体信息存储在一起。

⑥数据更新慢,周期较长,时效性差。

⑦数据量有限,受到光盘容量的限制,通常局限于专业领域,范围不够广泛。 (3)网络检索系统的物理结构

光盘塔服务主域服务器 数据数据

镜像光盘服务

光盘库光盘

库PC

PC

馆内网

校园网

图1-4 光盘网络检索系统的物理

Internet

路由器

交换机

服务器 客户机

数据库 数据库 数据库 客户机

客户机

数据库

数据库

客户机

客户机

客户机

交换机

路由器

服务器

图1-5 基于Internet 的客户机/服务器结构(C/S )

数据库

全文索引引擎是名副其实的搜索引擎,国外代表有Google ,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果 网络检索系统的特点是:

①检索空间无限,检索范围覆盖了全球性、开放性Internet 所能延伸到的世界各地,用户不必知道某种资源的具体地址。

②检索内容极其丰富,包括网上所有领域、各种类型、各种媒体(文本、图像、声音、视频、动画等)的信息资源,如Web 、FTP 、Telnet 、Usenet 、Gopher 等。

③超文本浏览,检索结果是完全可以直接阅读的Web 页面,可以非线性地随时从一个页面跳到另一个页面。

④界面最友好,屏蔽了各个局域网之间的各种物理差异(如硬件系统、软件平台、地理位置、存储方式、通信协议等),极大地提高了系统的透明度,用户使用通用的图形窗口检索界面,即可访问和检索各种异构系统的数据库,在通过Web 浏览器访问过程中,无需关心一些技术细节。

⑤ 操作最简便,良好的交互式作业、多种导航和编辑功能、及时获得在线帮助和指导以及符合大多数用户检索习惯的用户接口使得检索简单易行,不必经过太多的培训即可操作。 ⑥检索效率不高,网络信息缺乏规范和统一管理,动态性强,重复率、冗余度高,无用信息较多,查准率差。

1.2.4 信息检索系统的逻辑结构

系统的逻辑结构主要是指该系统所包括的子系统或功能模块及其相互之间的逻辑关系。不管信息检索系统的物理结构如何,它们的逻辑结构大体上都是相同或相似的,只有组成部分多与少的区别。如前所述,信息检索系统的两大基本功能是存储和检索,这两大基本功能可以分解为6个子系统或功能模块,它们共同构成了信息检索系统逻辑结构。这6个子系统是采选子系统、词语子系统、标引子系统、查询子系统、交互子系统和匹配子系统。如图1-9所示。

数据库服务器

Web

服务器

Internet

浏览器

浏览器

浏览器

图1-6 基于Internet 的浏览器/服务器结构(B/S )

1.3.1 信息检索的研究内容

概括起来,信息检索的研究内容包括以下几个方面: (1)信息检索理论研究 (2)信息检索方法研究 (3)信息检索技术研究 (4)信息检索语言研究 (5)信息检索系统研究 (6)信息检索服务研究 (7)信息检索评价研究。

与信息检索关系比较密切的相关学科和领域如下: (1)计算机科学与技术。 (2)数学。

(3)系统科学。 (4)语言学。 (5)认知科学。

概括地讲,可以把信息检索当前正在研究的主要课题和未来发展趋势归纳如下: (1)跨语言信息检索。 (2)多媒体信息检索。 (3)信息检索可视化。 (4)信息检索智能化。 (5)信息检索个性化。 (6)信息检索多样化

任何检索策略都包含3个部分:文档表示、查询表示和匹配函数。 文档表示反映文档在系统中的存储形式描述,可用一组关键词或标引词表示;查询表示反映对用户信息需求的描述;匹配函数用于将经过处理的文档表示和查询表示放入系统中进行匹配,以过滤输出结果。 第二章 信息检索模型

信息检索系统的实现首先要对文档集进行索引和归档,以支持信息检索。检索式代表用户的信息需求。检索系统分析查询与文档表示,进行相似性匹配,排序返回查询结果。 因此文档信息检索过程实际上涉及文档集的逻辑表示、用户查询表示、相似性匹配及其排序三个重要的处理。

信息检索模型主要从两个方面抽象地研究信息检索方法:一是确定在检索模型中如何表示构

词语子系统

匹配子系统

采选子系统

标引子系统

交互子系统

数据库 用户群 信息源

查询子系统

图1-9 信息检索系统逻辑结构

成检索系统的两个要素,即文档和检索式;二是确定在模型中如何定义和计算文档和检索式之间的关系。

检索模型的重要作用主要体现在以下几个方面:更精确地描述出文档与文档、文档与查询间的相关关系,使之能比较和计算;安排更合理、更便于检索的文档存储形式;在此基础上设计出合理的检索方式.

传统的信息检索模型(又称经典信息检索模型)包括布尔模型、向量空间模型和概率模型。信息检索模型到底是什么?其描述如下:

信息检索模型是一个四元组/D,Q,F,R(qi, dj)/:

(1)D是文档集中的一组文档逻辑视图(表示),称为文档的表示;

(2)Q是一组用户信息需求的逻辑视图(表示),这种视图(表示)称之为查询;

(3)F是一种机制,用于构建文档表示,查询及它们之间关系的模型;

(4)R(qi, dj)是排序函数,该函数输出一个与查询qi ∈Q和文档表示dj ∈D有关的实数,这样就在文档之间根据查询qi定义了一个顺序。

基于经典布尔模型的信息检索模型中,文档和查询用标引词集合来表示,都是建立在集合理论的基础之上,因此,我们称该类模型为集合理论模型,包括模糊集合论模型、扩展布尔模型和粗糙集模型等。

基于经典向量模型的信息检索模型中,文档和查询用t维空间的向量来表示,都是建立在代数理论的基础之上,则称该类模型为代数模型,包括广义向量模型、潜语义标引模型和神经网络模型等。

基于经典概率模型的信息检索模型中,用于构建文档和查询模型的机制是基于概率论的,则称该类模型为概率模型,包括推理网络模型和信任度网络模型等。

第二节经典模型

信息检索的经典模型认为,每篇文档可以用一组有代表性的关键词即标引词集合来描述,标引词(index term)是文档中的词,其语义可以帮助理解文档的主题;因此,标引词常用于编制索引和概括文档的内容。对于文档中的标引词集合来说,在描述文档内容时它们的作用是不尽相同的,因而应当明确标引词与文档内容的密切程度。

用ki表示标引词,dj表示文档,wi,j ≥0为二元组(ki, dj)的权值(weight),该权值可以用来衡量描述文档语义内容的标引词的重要性。用t表示系统中标引词的数目,K={k1, k2, ... , kt}是所有标引词的集合,wi,j >0是文档dj中的标引词ki的权值,对于没有出现在文档文本中的标引词,其权值wi,j =0。文档dj可以用标引词向量dj来表示:dj= (w1,j, w2,j, …, wt,j)。此外,函数gi用以返回任何t维向量中标引词ki的权值,即gi (dj) = wi,j。其中,标引词的权重通常被认为是互相独立的。

2.2.1 布尔模型

布尔模型(Boolen Model)是基于集合理论和布尔代数的一种简单的检索模型,它假定标引词在文档中要么出现,要么不出现。因此,标引词的权值全部被设为二值数据,wi,j∈{0, 1},查询q由连接词not、and、or连接起来的多个标引词所组成,如“奥运会”、“奥运会”and “中国”、“奥运会”and(“中国”or(not“体操”))等,通过对标引词与用户给出的检索式进行逻辑比较来检索文本。

布尔检索模型是最早提出的一个信息检索模型,它具有简单、易理解、易实现等优点, 故得到广泛的应用。1967年后, 布尔检索正式被大型文档检索系统采用, 并渐成为各种商业性联机检索系统的标准检索模式,服务信息情报界30多年, 直到现在, 大多数商用检索系统仍采用布尔检索。

尽管布尔模型有着种种的优点, 但是它的缺点仍然是明显的, 它存在的主要缺陷有以下几点:

(1)布尔逻辑式的构造不易全面反映用户的需求。

(2)匹配标准存在某些不合理的地方。

(3)检索结果不能按照用户定义的重要性排序输出

2.2.2 向量模型

向量模型又叫向量空间模型(V ector Space Model,简称VSM)。由于使用二值权值(binary weight)的布尔检索存在太多的局限,信息检索研究中便提出了一种框架以便能够进行部分匹配,即通过给查询和文档中的标引词分配非二值权值(non-binary weight)来实现这个目标。该权值用于计算存储在系统中的文档和用户查询之间的相似度,向量模型通过对检出文档按相似度降序排列的方式来实现文档与查询的部分匹配。

VSM作为基于统计学方法的一个数学模型,充分发挥了计算机量化处理文档的特长,由于它一开始并没有对特征项的权值评价、文档向量与提问向量的相似度计算等问题做出统一的规定,加之它对文本语种的无关性,使它在文本信息处理的研究与应用具有广泛的适应性。30余年来,它在文本信息出来领域一直占据非常重要的地位,近乎成为文本处理领域的经典方法,主要优点在于:(1)标引词加权改进了检索效果;(2)其部分匹配策略允许检出与查询条件相接近的文档;(3)余弦公式根据文档资料与查询之间的相似度对文档进行排序。在VSM的应用过程中也逐渐显现出了它的不足

(1)由于特征项在文档中的不同位置代表不同的权重,而不同的关键词长度也会影响权重的大小。在传统的TFIDF 函数中,每增加一个文档都要重新计算向量,导致查询速度降低,同时由于使用频率因子,在扩大查询范围时,不可避免地会影响到查询的准确性。

(2)查询和文档向量间是依靠链接来判断的,而且判断的依据是两者间相同关键词的简单比较,但实际情况是,大量的关键词具有相同的语义,同一关键词也会有多种语义的解释描述(即产生了语义分歧)。

2.2.3 概率模型

概率模型的基本思想为:根据用户的检索q,可以将文档集D中的所有文档分为两类:一类与检索需求q相关(集合R),另一类与检索需求不相关()。在同一类文档中,各标引词具有相同或相近的分布;而属于不同类的文档中,标引词应具有不同的分布。因此,通过计算文档中所有标引词的分布,就可以判定该文档与检索的相关度。

经典概率模型是由Roberson和Sparck Jones提出的,他对文档与检索相匹配的概率进行估计,估计值作为衡量文档相关性的尺度。

文献信息检索的含义

、文献信息检索的含义、分类、检索语言 1、文献信息检索: 文献检索含义 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与检索,这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻。 计算机信息检索,是指以计算机技术为手段,通过光盘和联机等现代检索方式进行信息检索的方法。 一次文献 (primary document):是指作者以本人的研究成果为基本素材而创作或撰写的文献,不管创作时是否参考或引用了他人的著作,也不管该文献以何种物质形式出现,均属一次文献。 二次文献 (secondary document):是指文献工作者对一次文献进行加工、提炼和压缩之后所得到的产物,是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性文献。检索工具书和网上检索引擎是典型的二次文献。 三次文献 (tertiary document):是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的产物。如大百科全书、辞典等。

零次文献 它是指未经过任何加工的原始文献,如实验记录、手稿、原始录音、原始录像、谈话记录等。零次文献在原始文献的保存、原始数据的核对、原始构思的核定(权利人)等方面有着重要的作用。 用检索标识与文献的存储标识相比,如果能够取得一致,就叫"匹配",就可得到"命中文献"。 2、文献检索语言 文献检索语言是一种人工语言,用于各种检索工具的编制和使用、并为检索系统提供一种统一的、作为基准的、用于信息交流的一种符号化或语词化的专用语言。检索语言按原理可分为3大类: (1)、分类语言 它是将表达文献信息内容和检索课题的大量概念,按其所属的学科性质进行分类和排列,成为基本反映通常科学知识分类体系的逻辑系统,并用号码(分类号)来表示概念及其在系统中的位置,甚至还表示概念与概念之间关系的检索语言。 (2)、主题语言 是指经过控制的,表达文献信息内容的语词。主题词需规范,主题词表是主题词语言的体现,词表中的词作为文献内容的标识和查找文献的依据 (3)、关键词语言 指从文献内容中抽出来的关键的词,这些词作为文献内容的标识和查找目录索引的依据关键词不需要规范化,也不需要关键词表作为标

信息检索技术书中答案

《信息检索技术》书后习题及参考答案(部分) 第1章绪论 【综合练习】 一、填空题 1.文献是信息的主要载体,根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。 2.追溯法是指利用已经掌握的文献末尾所列的__________,进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。 3.用规范化词语来表达文献信息__________的词汇叫主题词。主题途径是按照文献信息的主题内容进行检索的途径,利用能代表文献内容的主题词、关键词、叙词、并按字顺序列实现检索。 4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。 5.无论是手工检索还是计算机检索,都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。 6.检索工具按信息加工的手段可以分文__________、____________、___________。 7.《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。 8.索引包括4个基本要素:索引源、___________、___________、和出处指引系统。 答案1.零次,一次,二次,三次 2.参考文献,引文 3.内容特征 4.检索提问词,文献记录标引词 5.分析课题,选择检索工具,确定检索途径及检索式,进行检索,获取原文 6.手工检索工具,机械检索工具,计算机检索工具 7.五,22 8.索引款目,编排方法 二、判断题 1.在检索信息时,使用逻辑符“AND”可以缩小收缩范围。() 2.逆查法是由近及远地查找,顺着时间的顺序利用检索工具进行文献信息检索的方法。() 3.按编制方法划分,信息检索工具可以分为:手工检索工具、机械检索工具、计算机检索工具。() 4.请判断下面图书的国际标准书号的格式是否正确。ISBN:978-030-26151-X。() 5.文献的专利号、报告号、合同号、标准号、索取号、国际标准书号、刊号属于文献的内部特征。 6.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。 答案1.√2.×3.×4.√5.√6.× 三、选择题(单选或多选)

中国科学院大学计算机领域信息检索期末考试答案

域信息检索与利用实用技巧 任课老师:李玲 试题专用纸 1、简答题:您在学习和研究过程中遇到下列问题时,常用哪些方法来解决? (10题,3分/小题,共30分) (1)查找期刊时,您常用的方法? 答: 中文期刊一般用:中国知网、万方数据库、维普数据库等; 外文期刊一般用:ACM、IEEE、Elsevier ScienceDirect、SpringerLink、Science Online 、Taylor & Francis Online Journals 、Cambridge Journal等; 可通过国科大图书馆进入上述网站首页,输入所需检索的期刊信息,如期刊名 称、作者、发表年份等信息进行查询。 (2)查找中国科学院学位论文时,您常用的方法? 答: 进入“中国科学院大学”首页→点击右下方“图书馆”→点击进入“中科院学位论文数据库”→进入检索界面,输入所需检索的论文信息,如:论文名称、作者、指导老师等。 (3)查找各国专利以及专利的被引用情况时, 您常用的方法? 答:进入国家知识产权局官网“https://www.doczj.com/doc/9d13612144.html,”,输入所需检索专利的发明名称、申请号、申请人(三者至少必填其一)进行检索,查看专利被引用情况。 (4)查找SCI期刊的影响因子,您常用的方法? 答:通过国科大图书馆点击“ISI-SCIE”进入web of science平台查询界面,输入期刊的关键词、作者等信息,可通过“AND”进行多个关键词组合以缩小查询范围。 (5)查找标准文献时,有哪些注意事项? 答:合理选择标准数据库(如中文期刊会议类检索工具选用CNKI、维普、万方等,查询专利选用国家知识产权局等数据库); 注意文献的发表时间(如利用CNKI科技类期刊数据库查询只能查询1994年之后发表的文献,维普中文科技期刊库可查询1984年之后发表的文献) 使用多个精确的关键字组合,以减小检索范围。 (6)文献管理时,您常用的方法? 答:使用EndNote文献管理工具,进行分类管理方便后期查询。

计算机信息检索实验报告(6个)

实验一网上中文搜索引擎及其使用 一、实验心得 在电脑已经成为生活必备品的现在,日常搜索是一件很平常的事情。俗话说,天天百度知识丰富。当然,我国国内主要的搜索引擎除了百度,还有谷歌、雅虎、搜狗、网易、新浪。 一般来说,百度和谷歌是最多人用的。不同的搜索引擎,不同的搜索方法,得到搜索结果的速度和准确度也不一样。所以我觉得学习计算机信息检索的主要目的就是更好地提高自己搜索的速度和准确度。 在这次实验当中,我们主要学习和掌握以下搜索技巧的运用。「“”」的基本用法、「+」或「空格」的基本用法、「+」的基本用法、「-」的基本用法、「OR」的基本用法、「site」的基本用法、「inurl」的基本用法、「intitle」的基本用法、「filetype」的基本用法。比起以前直接把整个问题打上去然后从网页中寻找满意的答案,灵活使用这些搜索技巧可以更快地找到准确率高的答案。这些技巧在现实生活中具有高度的可操作性和便捷性。 二、实验结果 (一)请使用Google或百度搜索引擎完成以下知识测验:(请将检索结果复制到题干之后,并把所有有关的网页都下载到你的作业文件夹中,以作为本作业评分的依据。) 1.谁根据小仲马的《茶花女》改编了同名歌剧( B ) https://www.doczj.com/doc/9d13612144.html,/b/7602599.html A.奥斯汀 B.威尔第 C.福楼拜 2."生存还是死亡,这是一个问题。"出自莎士比亚的哪部作品?( A )https://www.doczj.com/doc/9d13612144.html,/question/25934693.html A.《哈姆雷特》 B.《李尔王》 C.《麦克白》 3."侦探福尔摩斯"第一次出现是在下列哪部作品中: ( A ) https://www.doczj.com/doc/9d13612144.html,/question/1306083005651.html A.《血字的研究》 B.《东方快车谋杀案》 C.《尼罗河上的惨案》 D.《难逃一生》 4.李清照词中名句"寻寻觅觅,冷冷清清,凄凄惨惨戚戚"的词牌名是: ( D ) https://www.doczj.com/doc/9d13612144.html,/wenda/thread?tid=7c29ad4f072df739&hl=cn A.醉花阴 B.一剪梅 C.如梦令 D.声声慢 (二)请在网上寻找如下列图片。 1.寻找如下图所示世界名画《蒙娜丽莎》的指定图片和介绍她被偷的文章 提示:可试用以下检索词:Mona Lisa Louvre museum stolen 蒙娜丽莎 500岁蒙娜丽莎被偷卢浮宫 图片网址: https://www.doczj.com/doc/9d13612144.html,/i?ct=503316480&z=0&tn=baiduimagedetail&word=Mo na+Lisa+Louvre+museum+stolen&in=31376&cl=2&lm=-1&pn=10&rn=1&di=101230 20660&ln=1&fr=&ic=0&s=&se=&sme=0&tab=&width=&height=&face=0&fb=0 文章地址:https://www.doczj.com/doc/9d13612144.html,/hualang-1534-7665506.shtml

计算机信息检索02139自考资料

第一章信息检索概述 1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2.根据检索手段的不同,信息检索可以分为手工检索、光盘检索、联机检索和网络检索。 3.信息检索的基本原理 通过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。 4.信息检索语言 信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。 5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三 者统称为计算机信息检索。 6.与手工检索相比,计算机信息检索的特点表现在: (1)速度快、效率高,仅几分钟就可以从成千上万条记录中找到所需信息; (2)检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在 网络中,几乎每一台个人计算机都可以成为信息源; (3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助 光盘和通信网络查询所需信息。 7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和 抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。 信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。 8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。 9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。 10.数据库由字段、记录和文档构成。 11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。 12.信息检索系统评价的核心是检索性能评价。 13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一 步完善检索工作的过程。 评价检索效果的最主要的指标:查全率和查准率。 14.查全率 查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。 15.查准率 查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。 第二章网络信息检索的方法与技术 1.布尔逻辑检索的主要运算符 布尔逻辑检索的主要运算符有:逻辑与(“AND”)、逻辑或(“OR”)、逻辑非(“NOT”)。 它们分别代表的含义是:(1)逻辑“与”。表示检索结果中必须包含所有的检索词;(2)逻辑“或”。表示检索结果中只要包含任何一个检索词即可;(3)逻辑非。表示检索结果中一定不能出现“NOT”后面的检索词。 2.邻近检索 邻近检索是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。 3.短语检索:短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度, 因而也有人称之为“精确检索” 4.截词检索 是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符一般用“?”或“*”表示,但不同的数据库中有所差别。 常用的截词检索方法有前截词、中间截词和后截词。 5.在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限制 检索。 6.模糊检索:模糊检索是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、 下位词进行检索,以达到扩大检索范围、避免漏检的目的。

信息检索答案

信息检索答案 题型一 1、信息素养或素质的具体内容有那些? 信息素质是指用户在利用以计算机及其网络技术为代表的现代科学技术进行知识学习、成长的过程中,逐步形成的主动参与信息活动、自觉应用信息技术的意识、态度、理念及具备的获取、识别、加工、处理、传递、创造信息的能力和利用信息去解决实践问题的能力。它包括强烈的信息意识、系统化的信息理念、综合信息能力等内容。 2、信息、知识、情报、文献的概念?文献的组成要素? 信息的概念:1、信息是人们根据一定目的和需要,把从自然现象和社会现象中搜集的原始材料进行加工、处理,找出其中关系而形成的对象实体。 2、信息是有一定含义的、经过加工处理的、对决策有价值的的数据,即信息=数据+处理 3、信息是人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关性的实体对象,信息可以被数字化。 知识的概念:知识是指人们在认识世界、改造世界中所获得的认知,包括通过阅读、学习等方式的认知和通过自己或他人的历练所积累的一切经验的总和。 情报的概念:是被人们所利用的信息、被人们感受并可交流的信息。 文献的概念:是记录有知识的一切载体。 文献的组成要素:不但包括现代图书馆的全部馆藏,同时也包括了档案馆、博物馆、声像馆和情报中心收藏的全部馆藏。 3、信息、信息资源包括那些类型?1)信息的类型:从产生信息的客体的性质来分,可分为自然信息(瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……)、生物信息(生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。以信息所 依附的载体为依据,可分为文献信 息、口头信息、电子信息、生物信息 等 信息资源类型:根据存储媒介不同, 信息资源可以划分为印刷型信息资 源、电子信息资源、数字信息资源和 多媒体信息资源。 4、文献有那些类型?将文献划分成 这些类型的依据是什么? 1)根据载体材料、存储技术、和传 递方式划分 可划分为:印刷型、缩微型、试听型 和机读型文献信息源 2)根据加工程度的不同划分 可分为:一次文献信息源、二次文献 信息源、和三次文献信息源 3)根据文献信息源的内容划分 可以分为:图书、期刊、报纸、科技 报告、政府出版物、会议文献、专利 文献、学位论文、标准文献、档案文 献、产品样本 5、数据库的类型?网络资源有那些 特点? 数据库的类型:联机数据库和光盘数 据库、网络数据库 网络资源有那些特点:数量庞大、增 长迅速;内容丰富、形式多样;变化 频繁、价值不一;结构复杂、分布广 泛;信息分散、无序等 6、何为“核心期刊“?本专业的核心 期刊有那些? 核心期刊定义是 :在某一学科中 ,少 数期刊覆盖了该学科的大部分文献 , 而多数期刊仅包含该学科的少量文 献 ,这少数期刊就是该学科的核心期 刊。 本专业的核心期刊有:《政治与法 律》、《环球法律评论》、《当代法学》、 《法学》 7、什么是信息检索?类型有哪些? 定义:是通过一定的方法和手段将用 户的提问特征与数据源所采用的特 征标志进行对比,然后将二者相一致 或比较一致的信息提取出来供用户 使用的过程。 类型:文献检索、数据检索、事实检 索 8、简述信息检索的原理。 信息检索的实质是一个匹配过程,也 就是信息用户需求的主题概念或检 索表达式同一定信息系统的系统语 言相匹配的过程,如果两者匹配,则 所需信息被检中,否则检索失败。 9、什么是计算机信息检索系统?它 由几个部分组成? 计算机信息检索系统:是利用计算机 和一定的通信设备查找所需信息的 检索方式,检索的系统就是人的设计 操作和计算机自动化处理相结合的 系统。 组成部分:光盘检索系统、联机检索 系统、网络检索系统 10、计算机信息检索技术包括哪些? 布尔检索、向量空间检索、模糊集合 检索、概率检索、全文检索,发展到 超文本检索并向着智能化方向发展。 11、从外表特征和内容特征来看,检 索语言的类型各有哪些?不同特征 各举一简单的检索式。 描述信息外部特征的检索语言包括 题名(书名、刊名、篇名)、著者姓 名\单位名称、出版事项、代码\序号 (如专利号、报告号、标准号)等, 其作为检索标志直接明了,使用时较 为简单。 描述信息内容特征的检索语言包括 分类语言和主题语言,主题语言又可 分为关键词语言、单元词语言、标题 词语言和叙词语言。 12、为什么要创建检索语言,它有哪 些类型?比较分类语言和主题语言 的优缺点。 1)检索语言是指用于描述信息系统 中信息的内容特征及外部特征和表 达用户信息提问的一种专门语言,目 的是为了便于检索文献。 2)类型:按检索语言是否受控可分 为人工语言和自然语言,按检索时的 组配实施状况可分为先组式和后组 式检索语言,按描述信息特征的不同 可分为描述信息外部特征的检索语 言和描述文献内容特征的检索语言。 13、信息(文献)检索的方法与途径, 详细论述检索步骤? 1、分析研究课题,明确检索要求: 分析课题的主要内容、确定课题的文 献类型、确定检索时间范围、分析用 户的检索评价要求 2、选择检索工具:根据检索课题的 要求,选择最能满足检索要求的检索 工具书,不同的资料类型就应该选用 不同的数据库 3、确定检索策略:确定检索途径、 制定检索策略 4、调整检索方案:确定了具体的检 索方法之后,就要利用所用数据库, 在一定的年代范围内具体查找,以获 得文献线索。用户对每次检索结果在 作出判断,并对检索策略做出相应的 修改和调整,知道得到满意的结果 5、获取原文:利用全文数据库直接 获取,利用文献传递系统获取、利用 文摘数据库的原文服务、利用OPAC 检索系统,进行馆际互借。 14、什么是文献线索?列举以上不同 文献类型(期刊论文、会议论文、图 书、标准等)的线索。 文献线索:文献检索的概念有狭义和 广义之分。 狭义的检索(Retrieval)是指依据一 定的方法,从已经组织好的大量有关 文献集合中,查找并获取特定的相关 文献的过程。这里的文献集合,不是 通常所指的文献本身,而是关于文献 的信息或文献的线索。如果真正要获 取文献中所记录的信息,那么还要依 据检索所取得的文献线索索取原文。 广义的检索包括信息的存储和检索 两个过程(Storage and Retrieval)。信息 存储是指工作人员将大量无序的信 息集中起来,根据信息源的外表特征 和内容特征,经过整理、分类、浓缩、 标引等处理,使其系统化、有序化, 并按一定的技术要求建成一个具有 检索功能的工具或检索系统,供人们 检索和利用。而检索是指运用编制好 的检索工具或检索系统,查找出满足 用户要求的特定信息。 15、简述“超星电子图书馆”、“书生之 家数字图书馆”、“中国学术期刊全文 数据库”、“维普中文科技期刊数据库” 和“万方数字化期刊”收藏资源的特 点 1)、超星电子图书馆:收录的电子图 书内容丰富,包括经典理论、哲学、 社科、经济、语言文字、文学、数理 化、生物、工业技术、计算机等50 余个学科门类,现拥有中文电子图书 80万种,论文300万篇,全文总量4

1.临床信息检索基本概念

1 、下列哪一个不是一次文献()* A.期刊论文 B.专利文献 C.综述 D.专题著作 2 、人类第一台计算机ENIAC诞生于()年,在美国宾夕弗尼亚大学试制成功* A.1942 B.1944 C.1946 D.1948 3 、下列哪些是关于诊断的副主题词()* A.Diagnosis B.Radiography C.Prevention and contro D.Etiolog 4 、 WWW是()的缩写,它是近几年来迅速崛起的一种Internet服务方式* A.World –Wide Wait B.Website of World Wide C.World Wide Web D.World Wais Web 5 、提供文献线索的检索工具()* A.核心期刊现刊浏览 B.MEDLINE ,CBMdisc 等 C.参考文献 D.图书分类法

6 、PubMed由下列哪个机构编制的()* A.Yahoo B.NIH (National Institute of Health) C.NLM(National Library of Medicine) D.WHO(World Health Organization) 7 、关于文献的定义,国家标准局发布的《文献著作总则》作了这样的界定:“文献:()”* A.有关信息的记录 B.记录信息的载体 C.记录情报的一切载体 D.记录有知识的一切载体 8 、在 Medline光盘检索中,国际标准连续出版物号的代码是()* A.ISSB B.ISLC C.ISLB D.ISSN 9 、在机检中 , 缩小检索范围的方式有()* A.用 AND 连接检索词 B.用 NOT 连接检索词 C.用 OR 连接检索词 D.A和B都正确 10 、主题词与副主题词组配,可以提高检索的()* A.专指性 B.综合性 C.直观性 D.广义性

信息检索 期刊检索上机练习 试题及答案

1、通过中国知网CNKI硕士学士论文全文数据库(电子期刊)高级检索功能检索作者为 倪梅,署名单位为西南交通大学的论文。 请问: (1)请列出检索结果。(列出文章篇名) 李安电影编码分析 (2)说出布尔逻辑关系。 A AND B ( A*B ) 倪梅*西南交通大学 (3)该论文摘要部分内容是什么 李安是当今享誉世界的华人电影工作者,他导演的电影获得过各类国际电影节大奖,他也是唯一获得美国奥斯卡金像奖的华人导演。他的电影涉及中西题材,表现出不同文化相互融合;他既能将中国传统文化融入到故事情节中,又能照顾不同层面的观众群体;他的电影能兼顾中国文化与西方文化、艺术性与商业性、传统与现代之间的平衡。本论文将应用斯图亚特.霍尔的“编码/解码”理论的编码理论部分主要以电影《卧虎藏龙》为例对李安电影进行编码分析。本论文主要分四部分展开论述:第一章为绪论,主要包括问题的提出和目前研究状况分析。第二章是李安的文化身份分析,主要分析李安的文化历程、文化身份、文化立场等三个方面。霍尔在“编码/解码”理论中还指出意义的建构要受多种因素的影响,这一章的论述是后面章节编码分析的基础。第三章是李安电影编码分析,重点以电影《卧虎藏龙》为例进行分析,理论依据是“编码/解码”编码者对信息的编码要受自身社会地位、知识框架结构等因素的影响。从该理论还可知,在不同文化的主导性话语结构内,编码者对相同信息的不同编码也将影响解码立场。第四章主要从强化解码者的主导性解码立场来研.. 检索类别:CNKI使用——高级检索 用“AND”或“*”表示。可用来表示其所连接的两个检索项的交叉部分,也即交集部分。如果用AND连接检索词A和检索词B,则检索式为:A AND B (或A*B):表示让系统检索同时包含检索词A和检索词B的信息集合C 学习目标: (1)、掌握通过cnki检索、学位论文的方法和步骤; (2)、掌握与cnki相关的pdf阅读器、caj阅读器的下载、安装和使用; (3)、掌握多个条件的高级组合检索; (4)、体会检索课题所体现的布尔逻辑关系。 2、在中国知网中通过期刊大全导航网站(中国学术文献网络出版总库)查询《电影文学》这种期刊,并在此期刊中检索作者为倪梅的论文。 (1)请列出检索论文题目?

文献检索期末复习题

1. 请解释信息、知识、文献的概念,并简述三者之间的关系 信息是客观事物属性和运动状态的外在表现。知识是人们对客观事物存在和运动规律的认识。文献是记录知识的一切载体。 信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储传递知识和信息的载体。信息大于知识,信息可分为正确信息和虚假信息、有用信息和无用信息,而知识是在实践中获取并经过实践检验的正确、有用的信息。信息是起源,是基础;知识是系统化了的信息。在信息时代,源于众多复杂客体的大量信息,只有借助于现代化的信息手段,并通过掌握现代信息科学技术的认知主体,才能真正转化为知识。 2. 在数据库检索中,当检出的文献数量较少时,分析其可能原因,以及采用何种对应措施,才能增大文献信息的检出量?(至少列举5种情况) 原因:检索词拼写错误;遗漏重要同义词或者隐含概念;位置算符和字段算符使用过多;没有使用截词算符;使用过多的逻辑“与”,过于严格。 措施:扩大检索范围,增加文献信息的检出量。(1)减少“与”算符,以OR加入相关检索词(2)在词干相同的单词后使用截词符(?)(3)修正错误的检索词(4)补充足够的同义词(5)去除已有的字段和位置算符限制 3. 试举例说明链入网页、链出网页和锚文本。 在Page1中建立一个指向Page2的链接,需要在Page1的HTML代码中加入“点击打开网页Page2”,用户在Page1中打开这个链接,就可以打开网页Page2。Page1是Page2的链入网页,Page2是Page1的链出网页,而在Page1中的蓝色超文本就是锚文本。 4.信息检索和文献检索是不同的两个概念。区别及联系。 信息检索的实质是将用户的检索提问标识和检索系统中的信息特征标识进行比对,匹配,两者一致或者信息特征标识包含检索提问标识,则具有该标识的信息就从检索系统中输出,输出的信息就是检索命中的信息。 区别:信息检索主要是通过文献检索实现的,文献检索是信息检索一个重要的组成部分。联系:文献是一切情报知识信息的载体,所以情报知识信息不可能超越文献这一载体而存在。因此,信息检索一般也不可能超越作为信息载体的文献。 5.IP地址和域名地址 Internet是基于TCP/IP协议的网络。网络中的每一个节点都必须有一个唯一的地址,用来保障通信的准确无误。它就是网络位置的唯一标识,即IP地址。IP地址一般用十进制数字表

信息检索第六章计算机信息检索概

第六章计算机信息检索概述 6.1计算机信息检索的含义和特点 一、计算机信息检索的含义 计算机信息检索:人们根据特定的信息需要,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。包括信息存储过程和信息检索过程。 二、计算机信息检索发展简史 1、脱机批处理检索:20世纪五六十年代是脱机批处理检索的试验和实用化阶段。这一时期,计算机尚未连接通信网和远程终端装置,主要利用计算机进行现刊文献的定题检索和回溯检索。当时的信息检索是脱机批处理检索,即用户向计算机操作人员提问,操作人员对提问内容进行主题分析,编写提问式输入计算机建立用户提问档,按提问档定期对新到的文献进行批量检索,并及时通知用户。同时这一阶段开始利用计算机编辑出版检索性刊物。 2、联机检索阶段:20世纪60-80年代是联机检索的试验和实用化阶段。第三代集成电路计算机,存储介质,存储容量,数据库管理,通信技术的发展为联机检索提供了技术支持。随着国际联机检索系统的发展,信息检索在这一阶段实现了远程实时检索。 3、光盘检索阶段:20世纪80年代以来,新型信息载体激光光盘在信息检索领域得到广泛应用。光盘检索操作方便,不受通信线路影响。早期是单机驱动器和单用户,为解决多用户同时检索的要求,出现了复合式驱动器,自动换盘机,光盘网络技术。 4、网络化联机检索阶段:20世纪80年代以来,随着TCP/IP协议的普遍采用,美国国家科学基金会的接入,计算机检索发展到了今天的网络化联机检索阶段。互联网具有广泛性方便性的特点,使许多联机检索系统纷纷上网,除保留原来服务项目和内容外,还增加了许多新的动态信息服务。同时以搜索引擎为核心的网上搜索技术也日益发展,成为当前最具有普遍意义的信息检索形式。 三、计算机信息检索的分类(不同标准不同类型) 1、根据所检索数据库的形式:①书目检索:查出某一主题的文献条目的检索,包括题录检索,文摘检索等②数据检索:查出有关数据的检索,以求得某一问题量化的准确数值,包括统计数据和科学数据③事实检索:查出有关事件或实在情报,以求得对某一问题的解答。④全文检索:直接利用原始文献建库进行的检索。 2、根据计算机检索服务方式:①定题检索:根据用户检索课题内容,定期从新到资料库中为用户提问进行计算机检索的服务方式。特点:定期性新颖性批处理性②回溯检索:指追索过去的信息,也可用于查找最新信息,能适应多数用户的查询需要。可用于申请专利的新颖性,科研立项的查新,撰写论文和编写教材的信息收集。③日常检索:用户根据自己的信息需求,直接利用终端检索,检索系统即使提供用户所需的信息。 3、根据检索方式:①脱机检索:成批处理检索提问的计算机检索方式,计算机检索的初期类型②联机检索:利用检索终端和通信线路,直接查询检索系统数据库的计算机检索方式③光盘检索:以光盘数据库为基础的一种独立的计算机检索,包括单机光盘检索和光盘网络检索④网络检索:利用检索工具在互联网上进行信息存取的行为,目前主要利用的信息检索系统是搜索引擎。 四、计算机信息检索的特点 手工检索:人们长期以来采用的文献信息检索的传统方法,人们借助简单的机械工具,直接凭头脑进行判断,对记录在普通载体上的资料进行相应的检索。 优点:①直观性强②灵活性高③费用比较低

大学生信息检索习题以与答案(2)

《大学生信息检索概论》模拟试题 一、填空题 1、文献的级次分为零次文献、一次文献、二次文献、三次文献 2、《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思想_、哲学;社会科学;自然科学和综合性图书,在此基础上又划分为_22_个大类。 3、按内容可将计算机检索系统的数据库类型分为:文献书目型数据库、事 实型数据库、数值型数据库和全文型数据库。 4、我国标准可分为国家标准、部标准和企业标准三大类。 5、在实际检索中,文献的检索方法主要有:直查法、追溯法、工具法和 综合法。 6、国际标准化组织简称:ISO 、本标准每5年修订一次 二、选择题 1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。 A.分类索引B.作者索引C.引文索引D.主题索引 2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库是( D )。A.超星数字图书馆 B .万方学位论文 C .国研网 D .维普科技期刊 E. 高校财经库 3、如果检索有关多媒体网络传播方面的文献,检索式为( A D )。 A.多媒体and 网络传播 B .多媒体+网络传播 C .多媒体or 网络传播D.多媒体 * 网络传播 4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E)。A.关键词 B .作者C.刊名D.题名 E .文摘 5、二次文献又称检索工具,包括:( A C D)。 A.书目B.百科C.索引D.文摘E.统计数据 三、名词解释题 1、文献 用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理 解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。 2、体系分类语言 体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一 个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低 级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展 开而形成的一个等级体系。 3、引文语言 引文语言是根据文献所附参考或引用文献的特征进行检索的语言。 4、事实检索 以事项为检索内容的文献信息检索 5、二次文献 对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、 作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定 的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检

信息检索知识点92382

信息检索考点整理 1.信息检索的概念 广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程; 而狭义的信息检索仅指有序化信息的检索查找。 2.信息检索的原理 就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。 3.为什么说信息存储和检索是两个不可分割的有机体 检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。检索过程是存储过程的逆过程。因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。 4.信息检索的方法 (1)顺查法

(2)倒查法 (3)抽查法 (4)追溯法 (5)循环法 5.信息检索的途径 (1)内部特征途径 a)分类途径 b)主题途径 (2)外部特征途径 a)题名途径 b)着者途径 c)文献编号途径 d)目录检索途径 e)机构检索法 f)引文检索途径 6.布尔模型的优缺点 优点:(1)简单,形式简洁,易于理解; (2)可操作性强,应用广泛; (3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念; (4)能处理结构化提问。

《文献信息检索》习题附标准答案文献信息检索(附标准答案)

《文献信息检索》习题答案 一、单选题 1、文献是记录有知识的(A) A.载体 B.纸张 C.光盘 D.磁盘 2、如果需要检索某位作者的文献被引用的情况,应该使用(C)检索。 A.分类索引 B.作者索引 C.引文索引 D.主题索引 3、下列哪种文献属于二次文献( D.) A.专利文献 B.学位论文 C.会议文献 D.目录 4、纸质信息源的载体是(D) A.光盘 B.缩微平片 C.感光材料 D.纸张 5、《中国图书馆分类法》(简称《中图法》)将图书分成( A.) A.5大部分22个大类 B.5大部分26个大类 C.6大部分22个大类 D.6大部分26个大类 6、利用文献末尾所附参考文献进行检索的方法是(C) A.倒查法 B.顺查法 C.引文追溯法 D.抽查法 7、广义的信息检索包含两个过程(B) A.检索与利用 B.存储与检索 C.存储与利用 D.检索与报道 8、中国国家标准的代码是(A) A.G B.B.CB. C.ZG D.CG 9、( D )是报道文献出版或收藏信息为主要功能的工具。 A.题录 B.索引 C.文摘 D.目录 10、逻辑运算符包括(D) A.逻辑与 B.逻辑或 C.逻辑非 D.A,B和C 11、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于(C),在书目数据库中,一条记录相当于()矚慫润厲钐瘗睞枥庑赖。 A.一条文摘,一篇完整的文献 B.一条文摘,一条题录 C.一篇完整的文献,一条题录或文摘 D.一条题录,一条文摘 12、《中国学术期刊全文数据库》提供的文献内容特征检索途径有(B) A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者 13、根据反映新内容的程度从大到小,下列文献类型的排序正确的是:(A) A.会议论文,科技期刊,科技报告,科技图书 B.科技图书,科技期刊,科技报告,会议论文 C.科技报告,会议论文,科技图书,科技期刊 D.以上都不对 14、《中国科研机构数据库》、《中国科技名人数据库》属于:(B) A.书目数据库 B.指南数据库 C.全文数据库 D.数值数据库 15、下列检索工具中,主要收录化学与化工类文献的是:(D) A.SCI B.OCLC C.EI

4文献检索的原理方法与步骤1

重点:文献检索的方法步骤 难点:文献检索原理 授课内容:第四章文献信息检索原理及方法步骤 4.1 检索原理 文献检索包含文献的存储与检索两个部分,对用户而言,后者更为重要。只有经过组织有序的信息集合体才能提供检索的途径,才有用于检索的功能。文献的编排、组织与检索查询有对应的关系,因此了解一个文献系统的组织方式也就找到了检索的根本方法。 ⑴检索点:每件信息都包含有其内部及外部特征(即信息的属性),文献与课题的主要特征信息可以用来作为检索的出发点和匹配依据,它们称作检索点(access point),这些检索点包括分类、主题、著者、题名、机构名称、代码等。 ⑵检索手段:检索是通过检索工具(系统)和检索方式方法来实现的。无论是用手工检索书本式的工具,还是用计算机检索数据库获取文献资料,都有分类、主题、代码等多种检索途径。 ⑶检索系统:包含网络条件、技术设备(存储服务器、计算机)及文献信息集合体(数据库)。 检索系统按存储的媒体和技术手段来分,检索系统有两种:手工检索工具(印刷型的检索性刊物与参考工具书)和计算机检索系统(各种数据库)。

文献存储和检索原理:是使用户的课题提问标识与检索系统中的信息特征标引标识尽相一致地选择与匹配。如图1—3: 图6—1 信息用户的需求和信息集合的比较与选择,即匹配的过程。从用户需求出发,对一定的信息集合(系统)采用一定的技术手段,根据一定的线索与准则指出(命中)相关信息。 各种检索系统的检索原理基本相同。简单地讲,就是检索提问标识与存储在检索工具中的标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,具有该标识的信息就从检索工具输出,输出的信息就是检索命中的信息。 信息检索的全过程包括存储和检索两个过程。存储过程就是按照检索语言(主题词表或分类表)及其使用原则对原始信息进行处理,形成信息特征标识,为检索提供经过整序(即形成检索途径)的信息集合的过程。具体来说,信息的存储包括对信息的著录、标引以及编排正文和所附索引等。所谓信息的著录是按照一定的规则对信息的外表特征和内 容特征加以简单明确的表述。信息的标引是就信息的内容按一定的分类表或主题词表给出分类号或主题词。检索过程则是按照同样的分类表(或主题词表)及组配原则分析课题,形成检索提问标识,根据存储所提供的检索途径,从信息集合中查获与检索提问标识相符的信息特征标识的过程。因此

信息检索原理与技术考试大纲重点整理培训讲学

《信息检索原理与技术》 第1章信息检索概论 (1)一次文献信息:是指作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文献,如期刊论文、研究报告、学位论文等。 (2)二次文献信息:是指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书目信息,具有汇集性、工具性、综合性、系统性的特点。 (3)三次文献信息:是对一、二次信息综合、分析等深加工的产物,如评论、进展报告、百科全书、期刊书目等。 (4)文献:记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。 (5)构成文献的要素:构成文献内核的知识信息、负载知识信息的物质载体、记录知识信息的符号和技术。 (6)文献的特征:知识性(文献的本质,离开知识信息,文献信息便不复存在);传递性(帮助人们克服时间与空间上的障碍,在时空中传递人类已有的知识,使人类的知识得以流传和发展);动态性(其所蕴含的知识随着人类社会和科技的发展在不断地、有规律地运动着) (7)信息、知识和文献的联系:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容,它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,它是无形的、与行动和决策相关、经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;文献是知识的一部分,是进入人类社会交流系统的活动着的知识。 (8)文献信息流有序化阶段的三个环节: ①替代。描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文摘、索引等二次文献信息。从文献信息流的运动角度看,“替代”是文献信息流的流量、流向得到测度并合理调节。 ②改组。从一次文献信息中提取数据、事实和有关结论,按照易于查阅的提醒重新组合,其改组的结果,产生了手册、名录、辞典、目录等类型的文献信息。其目的是使一次文献信息更容易被理解和使用。 ③综合。利用二次文献对一次文献所包含的知识加以综合并融入到现有知识体系中去,成为整个知识体系的有机组成部分,产生的主要成果是不断再版的百科全书、专著、教科书及综述、评论性文章。 文献信息流失一个以研究活动为起点。按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。 (9)信息检索:广义理解分为信息的存储与检索。信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。狭义的信息检索仅指该过程的后一部分。存储是检索的基础、检索是存储的反过程。信息检索的本质是用户的信息需求和一定的信息集合的匹配。

信息检索基本理论

章节:第二章信息检索基本理论学时:2学时教学目的: 1 了解信息检索工具的概念、类型。 2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。 3 了解《中国图书分类法》、《汉语主题词表》的主要结构。 4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。 5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。重点难点: 1 简述信息检索工具的类型。 2 论述分类语言、主题检索语言的原理与特点。 3 简述信息检索的主要步骤。 4 论述提高信息检索效果的方法。教学进程: 1 信息检索工具(15分)。 2 信息检索语言(30分)。 3 信息检索的步骤(25分)。 4 检索效果的评价(25分) 5 小结(5分)。思考题:1 简述信息检索工具的种类。 2 简述分类语言与主题语言的含义及其特点。 3 简述信息检索的步骤、方法。 4 简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。参考资料: 1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社 2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社 3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社备注: 1 第二章信息检索基本理论 1 信息检索工具信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。在文献检索里面就是我们前面讲到的二次文献。按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘、索引。检索工具的作用:1、存储作用检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。只有先进行了存储我们才能进行查找。这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关主题的目录介绍等来

相关主题
文本预览
相关文档 最新文档