信息检索复习
- 格式:pdf
- 大小:1.08 MB
- 文档页数:93
信息检索复习资料A卷⼀、名词解释:1.信息资源 2.信息检索3.著录法4.关键词标引5.知识发现⼆、填空1.按组织⽅式分,信息检索有()、()、超媒体检索。
2.信息检索策略有两种⽅式即()和()。
3.表⽰主体的检索词有标题词、()、()关键词。
4.常⽤的逻辑运算符有:()、OR或+、()。
5.信息检索⼯具常⽤的排检⽅法有字序法、()。
6.中国特有的⼯具书是()、()。
三、问答1. 信息检索的研究内容有哪些?2. 数据库有哪些类型?3. 搜索引擎的类型有哪些?四、论述1、试例说明传统检索型⼯具书和参考型⼯具书的使⽤。
2、如何利⽤检索⼯具查找历史类⽂献?参考答案:⼀、名词解释(30%)1.信息资源。
是⼈类存储在载体(包括⼤脑)上的已知或未知的可利⽤的资源。
信息中的载体信息和主题信息资源的最基本的组成部分。
2.信息检索。
是从⼤量相关信息中利⽤⼈—机系统等各种⽅法加以有序识别与组织以便及时找出⽤户所需部分信息的过程。
3.著录法。
是对信息与⽂献的形式特征和内容特征进⾏分析、选择和记录的⽅法。
4.关键词标引。
使⽤⾮规范化的⾃然语⾔——关键词来表达⽂献或信息资源主题内容的过程。
5.知识发现。
是从数据中发现有⽤知识的整个过程,使多个步骤相互连接,反复进⾏⼈机交互的过程。
⼆、填空(20%)1.按组织⽅式分,信息检索有全⽂检索、超⽂本检索、超媒体检索。
2.信息检索策略有两种⽅式即⼿⼯检索策略和计算机检索策略。
3.表⽰主体的检索词有标题词、单元词、叙次、关键词。
4.常⽤的逻辑运算符有:AND或*, OR或+, NOT或-。
5.信息检索⼯具常⽤的排检⽅法有字序法、类序法。
6.中国特有的⼯具书是类书,政书。
三、问答(24%)1.信息检索的研究内容有哪些?检索理论研究、检索语⾔研究、数据库研究、著录法研究、检索系统研究、检索策略研究、检索服务研究。
2.数据库有哪些类型?传统数据库(情报数据库、图形数据库等);专门应⽤领域的数据库(统计数据库、⼯程数据库、空间数据库;新⼀代数据库(分布式数据库、多媒体数据库、⾯象对象数据库、实时数据库等)。
一、填空题1、信号只是信息的____载体(表现形式)__,信息是信号所载荷的内容。
2、信息检索根据检索的目的和对象的不同,可分为_______数据信息检索_____、_____事实信息检索___、__文献信息检索__三种。
3、目前信息检索工具中经常使用的检索语言主要有____分类语言____、___主题语言___、名称语言、代号语言和引文语言。
4、计算机检索系统一般可分为______光盘检索系统_______、___联机检索系统________和网络检索系统等。
5、中国期刊全文数据库提供了______初级检索方式______________、_________高级检索方式___________、专业检索和二次检索等4种检索途径。
6、根据检索的信息形式,信息检索分为______文本检索____检索和_____多媒体_____检索。
7、主要的布尔逻辑检索关系有三种:____与______、______或____、____非______(请用中文表述)。
8、信息检索工具按著录形式的不同可分为____目录型______检索工具、____题录型______检索工具、索引型检索工具、文摘型检索工具和全文型检索工具。
9、万方数据资源由_________科技信息子系统___________、_____________数字化期刊子系统_______、商务信息子系统、学位论文全文子系统和学术会议全文子系统等五个子系统构成。
10、数据是___记录___19__信息的一种形式,是进行统计、计算、科学研究或技术设计所依据的数值。
11、信息意识是人们对_____信息捕捉_____________和_________需求的意识_________,是人们利用信息系统获取所需信息的______内在动因____________。
表现为对信息的、敏感性、选择能力、消化吸收能力。
12、信息标引是对___大量无序的信息特征_____________25__进行著录、标引和组织,使之__有序化_______________。
1.请说明一次文献、二次文献和三次文献的特点和功用。
(1)一次文献(Primary Document):通常是指原始制作,即作者以本人的研究成果为基本素材而创作(或撰写)的文献。
如期刊论文、科技报告、会议论文、专利说明书(2)二次文献(Secondary Document):是指文献情报工作者对一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文献,由文献情报工作人员编辑、出版和积累起来的工具性的文献。
二次文献的重要性在于可以帮助人们查找一次文献。
如目录、题录、文摘、索引、各种书目数据库(3)三次文献(Tertiary Document):是指利用二次文献,选用一次文献内容,经综合,分析和评述后形成的指南性文献。
包括综述研究和参考工具两类。
如综述、述评、词典、百科全书、年鉴、指南数据库、书目之书目2.请说明题录目录文摘的特点以及区别(1)题录是揭示和报导单篇文献外表特征的工具。
特点:以单篇文献为著录对象(2)目录是系统积累和提供图书、期刊和其它单行本的名称、收藏单位和索取号等外表特征的揭示和报导的工具。
特点:以单位出版物为著录对象,反映馆藏情况,主要揭示文献外部特征(3)文摘是以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索工具。
特点:带摘要的题录3. 布拉德伏特文献文献分散定律和期刊影响因子的概念(1)布拉德福文献分散定律:本专业文献的1/3刊登在本专业核心期刊上,另外的2/3则分散在其他的相关期刊和边缘期刊上。
如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成1:n:n2......的关系。
(2)期刊影响因子的概念是:某一种期刊在第三年得到的前两年的引文数与该刊前两年的总论文数之比。
4. 请阐述信息、知识、情报的概念,并分析它们三者之间的关系。
信息检索复习题信息检索复习题信息检索是一门研究如何有效地从大量信息中找到所需信息的学科。
在现代社会,信息爆炸的时代,我们每天都要面对大量的信息,如何高效地检索到我们需要的信息成为了一个重要的技能。
下面是一些关于信息检索的复习题,希望能够帮助大家回顾和巩固相关知识。
一、选择题1. 下面哪个不属于信息检索的基本环节?A. 信息需求分析B. 信息获取C. 信息存储D. 信息销毁2. 在信息检索中,下面哪个不是常见的信息检索模型?A. 布尔模型B. 向量空间模型C. PageRank模型D. 概率模型3. 下面哪个不是信息检索中常见的评价指标?A. 准确率B. 召回率C. F1值D. 置信度4. 在信息检索中,下面哪个不是常见的查询扩展方法?A. 同义词扩展B. 相关词扩展C. 反义词扩展D. 词干扩展5. 下面哪个不是信息检索中常见的搜索引擎?A. 谷歌B. 百度C. 必应D. 微信二、填空题1. 信息检索的目标是根据用户的信息需求,从大量的____________中找出与之相关的信息。
2. 在布尔模型中,使用____________运算符来表示查询中的关键词之间的逻辑关系。
3. 在向量空间模型中,使用____________来表示文档和查询之间的相似度。
4. 在信息检索中,____________是指检索到的与用户信息需求相关的文档。
5. 在信息检索中,____________是指用户实际需要的与信息需求相关的文档。
三、简答题1. 请简要介绍信息检索的基本过程。
信息检索的基本过程包括信息需求分析、信息获取、信息处理和信息呈现。
首先,需要对用户的信息需求进行分析,明确需要检索的内容和目标。
然后,通过各种途径获取相关的信息,如使用搜索引擎、访问数据库等。
获取到信息后,需要对信息进行处理,包括对文本进行分词、索引构建等。
最后,将处理后的信息呈现给用户,如搜索结果列表、文本摘要等。
2. 请简要介绍布尔模型和向量空间模型。
第一部分:基本常识1.文献按照出版形式可分为哪几种类型?举例。
图书、期刊、报纸、特种文献。
图书:专著、文集、教科书、普及读物、百科全书、年鉴、手册、词典等期刊:化学学报、煤炭学报、电工技术学报、高等教育研究、建筑工程与科学在CNKI 期刊全文数据库中检到共209条记录:国际城市规划、建筑结构学报、交通运输工程学报、建筑经济、土木工程学报、岩土工程学报、岩土力学、空间结构、地震工程与工程振动、中国给水排水、工程力学世界建筑工业建筑工程勘察中外建筑工程建设等。
报纸:人民日报特种文献:科技报告、会议文献、专利文献、学位论文、政府出版物、标准文献、产品资料、科技档案美国政府的四大报告1、国防部的AD报告2、商业部的PB报告3、国家航空及宇航局的NASA报告4、能源部的DOE报告。
2现代科技文献具有的特点哪些?答:(1)数量多、增长快, (2)出版形式多、文种多,(3)文献异常分散, (4)文献失效加快, (5)报道内容重复交叉, (6)文献总体质量下降3什么是核心文献、相关文献和边缘文献?答:核心文献通常是指与本学科发展水平、发展动向密切相关的一些文献。
如核心期刊等。
相关文献和边缘文献是指内容与学科的关系相对疏远一些的文献。
相关文献和边缘文献是本学科和其它学科相互渗透、互相结合的结果。
4 什么是文献?构成文献的有哪四个要素?答:文献的定义是记录有知识的一切载体称为文献。
构成文献的四要素是:知识内容,信息符号,载体材料,记录方式。
5 电子文献的主要类型和文件格式是什么?答:(1)按照载体的形态,电子文献可以有软磁盘(FD)、只读光盘(CD-ROM)、可擦写光盘(CD-RW )等之分;(2)按照文献的电子格式,电子文献有文本格式的txt文件、doc文件、pdf文件,图像格式的 gif文件、jpg文件以及标记文件格式的 html文件和xml文件之分;(3)按照出版周期和内容特点,电子文献可以有电子期刊,电子图书,电子报纸以及数据库等之分;(4)按照内容的性质和时效性,电子文献可以有论文文献和动态消息之分;(5)按照版权状况,电子文献又可分为有版权电子文献和无版权电子文献两类;(6)从文献信息利用的角度来看,可分为有版权的电子期刊、电子图书、报告的学术价值相对较高,而单篇论文和动态性的电子文献有时虽然没有注明版权,也有相当的参考价值。
信息检索复习要点复习要点:1.如何查找纸本原⽂,必备信息是什么,刊名等同于什么刊名等同于ISSN号,必备的信息是,⽂章题⽬、期刊名称或是ISSN号,年/卷/期。
先查找有⽆电⼦全⽂。
⾕歌搜索、SFX全⽂搜索系统、先查本馆纸本期刊⽬录,获取论⽂全⽂中的查询本馆纸本期刊⽬录,联合⽬录。
2.哪些数据库有⾃动截词功能?EI3.中⽂科技期刊数据库、SCI和EI数据库的精确检索是如何实现的中⽂:可选择限定检索学科领域可选择逻辑算符可选择跨库检索的其他检索⽅式可选择匹配度⼆次检索其他限制条件EI:精炼检索结果位置:检索结果显⽰页左侧Refine Search的⼯具栏添加⼀个检索词的⼆次检索(Add a term )优化和调整检索结果(限定(Limit to)按钮或排除(Exclude)按钮:作者、作者机构、规范词、分类类名、国家、⽂献类型、语种、出版年、刊名、出版者等限定字段4.数据库检索结果的排序⽅式CNKI:主题发表时间被引下载EI:相关度和时间系统提供5种排序⽅式(按相关度、出版年代、作者字顺、刊名字顺和出版者字顺)5.主要的全⽂数据库CNKI、维普、万⽅:中⽂期刊全⽂数据库。
EBSCO、ScinceDirect、SpringerLinker:外⽂全⽂数据库。
6.Web ofScience数据库中包含有哪些数据库?SCIE/SSCI/A&HCL/CPCI-S(ISTP)/ CPCI-SSH7.查全查准率如何实现?提⾼查全率(扩⼤检索结果)的⽅法选择较⼤字段:如摘要、主题、全⽂、任意字段等尽量多⽤同义词、近义词、反义词、缩写词、上下位类词(增加逻辑或关系)减少逻辑与关系(限制条件)采⽤模糊匹配功能扩⼤检索年限使⽤截词符(*?$)提⾼查准率(缩⼩检索结果)的⽅法选择较⼩字段:如篇名(题名)、题名或关键词字段尽量增加核⼼检索词:从内容中挖掘核⼼词使⽤词位检索采⽤精确匹配/精确短语功能采⽤“AND”或“NOT”算符连接检索词或进⾏⼆次检索。
第一章1一、个体研究阶段(十九世纪初-十九世纪中叶)世界上最早出现的手工检索工具:◆1821年瑞士出版的《物理科学进展年报》◆1830年德国创办的文摘杂志《药学总览》2 二、社会化阶段(十九世纪末-二十世纪初)研制大型检索工具:◆美国1884年创办了《工程索引》(EI)◆美国1907年创办了《化学文摘》(CA)◆美国1926年创办了《生物学文摘》(BA)◆英国1896年创办了《科学文摘》(SA)3 三、自动化阶段(二战后-八十年代末)产生新的检索理论:◆1951年Taube,M 提出:单元词组配法◆1958年Citron,J 提出:轮排索引◆1958年Luhn,H 提出:定题服务(SDI)二战期间…案例: 曼哈顿工程- 阿波罗计划4 第三节情报检索研究对象、内容及相关学科(了解)一、研究对象情报检索是以文献信息源、情报交流、传递过程,以及利用的理论和方法、情报检索系统为研究对象。
二、研究内容1. 有关检索语言研究2. 有关数据库的建立、存贮与维护研究3. 情报检索系统研究4. 情报检索策略研究5. 情报检索服务研究三、相关学科1. 情报科学领域:情报学、目录学、分类学。
2. 计算机科学领域:硬件和软件。
硬件涉及到计算机系统的构成,专用设备与网络等;软件涉及到程序设计、汇编语言、数据结构编译技术、操作系统和数据库管理系统等。
3. 数学领域:离散数学(包括布尔代数、集合论、图论、组合分析);概率论;模糊数学中的模糊集合论;效用论的线性代数;另外,检索算法和检索提问逻辑,为评价检索效果提供了数学方法。
4. 电信科学方面的信息论,语言学方面的数理语言学(计算语言学)等都是情报检索广泛利用的学科。
5. 系统科学领域:系统分析、系统设计等都是建立检索系统必须掌握与遵循的方法。
5 科技文献概念记录在载体上的科技知识,包括科技事实、数据、理论方法、构思和假设等。
6 文献信息源1. 按文献载体形式划分:印刷型文献,缩微型文献,机读型文献,声像型文献。
1、同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。
2、查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示:查全率=(检出相关文献量/系统中相关文献总量)*100%3、查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示:查准率=(检出相关文献量/检出文献总量)*100%4、漏检率:是指漏检相关文献量与在检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度,可用下面的公式表示:漏检率=(漏检相关文献量/系统中相关文献总量)*100%5、跨库检索:可同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果。
6、单库检索:在选定的单一数据库中进行检索。
7、经典论文优先:被引用数比较多,或者文章发表在档次比较高的杂志上等经典的、有价值的文献优先排在前面。
8、相关度优先:和查询的条件内容最相关的文献优先排在前面。
9、最新论文优先:发表时间比较新的文献优先排在前面。
10、精确匹配:检索结果中包含与检索词完全相同的词语11、模糊匹配:检索结果包含检索词或检索词中的词素12、顺查法是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。
13、倒查法从最新时间查找起,直到满足检索要求为止。
14、抽查法是针对有关学科的发展特点,抽查某些特定时期的文献信息。
15、二次检索是指在前一次检索结果的范围内,继续进行检索。
16、定题检索 SDI (selecti ve dissemi nation of informa tion)查找有关特定主题最新信息的检索。
17、回溯检索 RS (retrosp ective search)查找一段时期内有关特定主题信息的检索。
一、逻辑算符、检索式l布尔逻辑算符:and 、or、 not(含义)1.逻辑“与”(AND 或 *) 用于表达两个或两个以上检索词(关键词、主题词)之间的相交关系或限定关系运算。
逻辑与检索能增强检索的专指性,使检索范围缩小。
2.逻辑“或”(OR或 + )用于表达两个或两个以上检索词(关键词、主题词)之间的并列关系。
运算逻辑或检索扩大了检索范围,提高检索信息的查全率。
此算符适于连接有同义关系或相关关系的词。
3.逻辑“非”(NOT或-)用于表达两个或两个以上检索词(关键词、主题词)之间中排除不需要的检索词(关键词、主题词)运算,可以缩小检索范围,增强检索的准确性。
此运算适于排除那些含有某个指定检索词(关键词、主题词)的记录。
但如果使用不当,将会排除有用文献,从而导致漏检。
检索式举例:题目:第三方物流信息管理系统检索式:第三方*物流*信息*管理*系统(and)检索入口:题目或关键词l截词检索:是一种常用的检索技术,尤其是在西文文献的检索中,使用更为广泛。
截词检索方式可分为三种,即:后截断、前截断、中间截断。
按截断的字符的数量上看,又可分有限截断与无限截断两种。
通常用* 表示无限截词。
用?表示有限截词。
后截断:是最常用的一种检索技术,将截词放在一个字符串之后,以表示其后有限或无限个字符不影响之前的检索字符串的检索结果。
如biolog*,可检索biologcal biologist biology等词, physic ??,可检索 physical、physicst等词。
、前截词将截词符号置于一个字符串的前方以表示其之前有限或无限个字符不影响之后的检索字符串的检索结果如*physics,可检索 physics、astrophysics、biophysics、chemiphysics、geophysics 等词。
中截词又称“ 内嵌字符截断” 。
将检索字符置于一个检索词中间,而不影响前后字符串的检索结果。
如:organi?ation可检索 organization、organisation。
信息检索复习资料1、信息是客观事物经过感知或认识后的再现2、知识是人们通过实践对客观事物及其运动过程和规律的认识3、知识、载体和记录是构成文献的三个基本要素4、信息资源是经过人类筛选、组织、加工,并可以存取和能够满足人类需求的各种媒介信息的集合。
5、连续出版物是一种具有统一名称、固定板式、统一开本、连续编号,汇集多位著者的多篇著述,定期不定期编辑发行的出版物6、学位论文是大学生或研究生为取得学位资格而提交的学术论文7、会议文献主要是指在国内外各类会议上宣读或交流的论文、报告或其他有关资料8、专利文献是实行专制制度的国家和地区以及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。
主要有专利申请、专利说明、专利公报等9、标准文献是为了一定范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用和重复使用的一种规范性文件10.信息素质是利用大量的信息工具及主要信息源使问题得到解答的技术和技能:信息能力指人们有效利用技术和信息工具获取信息加工处理信息以及创造和交流新信息的能力信息需求分析和表达能力、信息获取能力、信息分析和处理能力、信息利用能力12、Internet应用:①信息获取:搜索引擎网络新闻②交流沟通:即时通信博客社交网站电子邮件论坛③网络娱乐:网络游戏网络文学网络视频网络音乐④商务交易:网络购物旅游预订网上支付网上炒股13、信息检索的广义含义:是将信息按一定的方式组织和存储起来,并根据信息用户的需要要找出相关的信息过程,全称“信息的存储和检索”14、信息检索过程:①分析检索需求②确定检索标识③选择检索系统和检索工具④实施检索操作⑤索取原始文献15、信息检索按检索对象内容划分:文献检索、数据检索、事实检索、多媒体检索16、手工信息检索直接发明于图书馆的参与咨询和文摘索引工作17、分类语言是一种按学科范畴和体系来划分事物的语言,它是从数字字母符号对类目进行标识的一种语言体系,也称分类法。
信息检索考试大纲1.检索系统:2.自然语言:3.二次文献:4.主题词:5.科技报告:6.体系分类语言:1.当关键词具有多个含义的时容易造成误检,使得查准率较低。
2. 信息素质的内涵包括信息意识、信息能力和信息道德。
3.主题词的体现形式是叙词表。
4. 文献按其加工深度不同可分为零次文献、一次文献和二次文献。
5.中国图书馆图书分类法简称为:中图法。
6. 连续出版物的主要类型有期刊、报纸。
7. 标准文献的主体是标准。
8.当计算机访问范围受到限制时,可通过代理服务器访问外部网络。
9. 构成文献的三要素是记录、知识和载体。
10. 布尔逻辑运算符包括:与、或和非三种。
11. 专利有三层含义:新颖性、创造性和实用性。
12.文献的内容特征用于找出相关文献,外部特征用于获得特定文献。
13. 信息检索常用的方法有:直接法、追溯法和循环法。
14. CNKI的中文全称是:中国国家知识基础设施。
15. 期刊论文的文献出处包括期刊名次、年卷期和起止页码。
1. 在计算机检索中,同一概念的同义词扩展方法有(A)等。
A学名或俗名 B简称和全称 C上位和下位 D术语和代码2. 文献是记录有知识的( A )A 载体B 纸张C 光盘D 磁盘3. (D)是报道文献出版或收藏信息为主要功能的工具。
A题录 B索引 C文摘 D目录4. 下列哪种文献属于二次文献(D)A 专利文献B 学位论文C 会议文献D 目录5. 具有概念交叉限定关系的两个检索词之间应该使用(C)A逻辑或 B逻辑非 C逻辑与 D优先6. 下列选项中属于特种文献类型的有( D)A 报纸B 图书C 科技期刊D 标准文献7. 广义的信息检索包含两个过程(B)A 检索与利用B存储与检索 C存储与利用 D 检索与报道8. 下列选项中属于连续出版物类型的选项有(C)A 图书B 学位论文C 科技期刊D 会议文献9.至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为(A)A 数据库B 记录C 字段D 文档10. 纸质信息源的载体是(D)A 光盘B 缩微平片C 感光材料D 纸张11. 利用文献末尾所附参考文献进行检索的方法是(C)A 倒查法B 顺查法C 引文追溯法D 抽查法12. 下列哪种文献属于三次文献(C)A 标准文献B 学位论文C 综述D 文摘13. 中国国家标准的代码是(A)A GB B CBC ZGD CG14. 以刊载新闻和评论为主的文献是( B)A 图书B 报纸C 期刊D 会议文献15. 狭义的专利文献是指(C)A 专利公报 B专利目录 C 专利说明书 D专利索引16. 使用分类语言对信息进行描述和标引,主要是可以把(B)的信息集中在一起。
信息检索复习题答案一、选择题1. 信息检索系统的核心功能是什么?A. 数据存储B. 数据索引C. 数据检索D. 数据传输答案:C2. 布尔检索中,“AND”操作表示什么?A. 逻辑或B. 逻辑与C. 逻辑非D. 逻辑异或答案:B3. 以下哪个不是全文检索的特点?A. 快速检索B. 支持模糊查询C. 支持关键词搜索D. 只支持精确匹配答案:D4. 元数据在信息检索中的作用是什么?A. 提供检索结果B. 描述资源特征C. 存储原始数据D. 进行数据加密答案:B5. 信息检索中的“召回率”指的是什么?A. 检索到的相关文档数量B. 检索到的所有文档数量C. 检索到的相关文档与实际相关文档的比例D. 检索到的非相关文档与实际非相关文档的比例答案:C二、简答题1. 简述信息检索的基本流程。
答案:信息检索的基本流程包括用户需求分析、检索策略制定、检索执行、结果评估和反馈调整。
2. 什么是倒排索引,它在信息检索中的作用是什么?答案:倒排索引是一种索引方法,它将文档中出现的每个词与包含该词的文档列表相关联。
在信息检索中,倒排索引可以快速定位到包含特定关键词的文档,提高检索效率。
3. 描述信息检索中的相关性评价标准。
答案:信息检索中的相关性评价标准主要包括:相关性(文档与用户查询的匹配程度)、新颖性(文档内容的新颖程度)、权威性(文档来源的可信度)、及时性(文档的时效性)等。
三、论述题1. 论述信息检索技术在现代信息社会中的重要性。
答案:信息检索技术在现代信息社会中的重要性体现在以下几个方面:首先,它帮助用户快速准确地找到所需信息,提高工作效率;其次,它支持知识管理和学习,促进知识的传播和创新;再次,它为商业决策提供数据支持,增强企业的竞争力;最后,它促进了信息技术的发展,推动了社会的进步。
四、案例分析题1. 假设你是一名图书馆信息检索系统的管理员,如何优化检索系统以提高用户满意度?答案:作为图书馆信息检索系统的管理员,优化检索系统的方法包括:(1)定期更新索引,确保信息的时效性;(2)提供个性化推荐,根据用户的历史检索行为推荐相关资源;(3)优化用户界面,使其更加友好和易于使用;(4)增强系统的稳定性和安全性,保证用户数据的安全;(5)收集用户反馈,不断调整和改进检索算法。
第一章一、文献的基本概念1. 左义:“记录有知识的一切载体”。
2. 组成:由知识内容、信息符号和载体材料三个不可分割的基本要素构成。
3. 基本功能:存储知识、传递知识和教育娱乐三项基本功能。
1. 文献的分类: 按照不同的标准,文献可以划分为不同的类型(具体内容)零次文献、一次文献、二次文献、三次文献等 白色文献、灰色文献、黑色文献等 核心文献、相关文献、边缘文献等 纸介型文献、缩微型文献、电子型文献等 期刊文献、会议文献、图书、专利等2. 文献的级别是指以加工深度不同区分的文献类型,共分四个类型:零次文献(non-printed sources):未经岀版发行的或未进入社会交流的最原始的文献。
如私人笔记、底稿、手稿、个人通信、新闻稿、工程图纸、考察记录、调查稿、原始统计数 字、技术档案等。
此类文献与一次文献的主要区别在于英记载的方式:内容的价值以及加工 深度有所不同。
其主要特点是内容新颖,但不成熟,不公开交流,难以获得。
一次文献(primary sources):以作者本人取得的成果为依据而创作的论文、报告等公开 发表或出版的务种文献,习惯上也称作原始文献。
女口:期刊论文、学术论文、学位论文、科 技报告、会议论文、专利说明书、技术标准等。
一次文献是人们学习参考的最基本的文献类 型,也是最主要的文献情报源,是产生二、三次文献的基础,是文献检索和利用的主要对象。
其主要特点是内容新颖丰富,叙述具体详尽,参考价值大,但数量庞大、分散。
二次文献(secondary sources):报道和查找一次文献的检索工具书、书刊。
如各种目录、 题录、简介、文摘和索引等。
二次文献是按照特泄目的对一泄范用或学科领域的一次文献进 行鉴别、筛选、分析、归纳和加工整理重组等,使之有序化后出版的。
它以不同的深度揭示 一次文献,其主要功能是检索、通报、控制一次文献,帮助人们在较少时间内获得较多的文 献信息。
二次文献具有汇集性、工具性、综合性、交流性等特点。
信息检索1. 图书馆馆藏书籍是按中图法归到各库的。
2. 漏检率是指未检出的相关信息量与检索系统中实际与课题相关的信息总量的比率。
3. 信息检索根据检索对象不同,一般分为数据检索、事实检索、文献检索。
4. WebofScience是获取全球学术信息的重要数据库,其中包含SCIE、SSCI、A&HCI等子库。
5. 布尔逻辑检索中检索符号“OR”的主要作用是提高查全率。
6. 文献是记录有知识的一切载体。
7.广义的信息检索包含存储与检索两个过程。
8. 查找某一年的新闻、事件、数据和统计资料应该使用年鉴。
9.在参考文献格式中,[M]代表的是著作。
10. Internet起源于ARPAnet。
11. 使用分类语言对信息进行描述和标引,主要是可以把同一学科的信息集中在一起。
12. 正确检索“唐宋诗歌”的有关信息的检索式为:(TI=唐orTI=宋)andTI=诗歌13. 在中国期刊全文数据库(CNKI)中,不可以进行截词检索。
14. 超星数字图书馆可以检索数字图书,无法检索纸质的馆藏图书。
15.如果想查找“对用后均法进行数据处理的讨论”这个课题相关的文献,较好的检索词应该是:后均法,数据处理16. "信息能力"是指人类对信息需求的自我意识,是人类在信息活动中产生的认识、观念和需求的总和。
17.当一台计算机向另一台计算机发送文件时,按“数据、数据段、数据包、数据帧、比特”的过程描述数据包的转换步骤。
18.计算机资源共享主要是指计算机的硬件、软件和数据的共享。
19.错看了报纸的日期导致的错误判断是由于没有利用好信息的时效性。
20. EBSCO数据库中,输入检索词“Chin*”表示要求查出含有Chin词干后允许有任意多个字母变化的单词的文献。
21. 利用CNKI全文数据库检索张维迎的作品,应该选择的检索途径为:作者。
22.根据中图分类法,计算技术、计算机技术属于T 大类。
23. 按照顺序表述文献检索常用的五个步骤是:明确要求和分析课题,选择检索系统,确定检索途径和检索策略,实施检索以及调整检索策略,获取原文24. PQDD是学位论文数据库。
一、名词解释1.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。
2.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。
3.数据挖掘——就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
4.检索策略——就是在分析课题内容实质的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑联系和查找步骤等。
5.截词检索——是指在检索式中用专门的符号(截词符号)表示检索词某一部分允许有一定词形变化。
6.参考数据库——有时又称为书目数据库,是指包含各种数据、信息或知识原始来源和属性的数据库。
7.特种文献——是指出版发行和获取途径都比较特殊的科技文献,一般包括专利文献、会议文献、科技报告、学位论文、标准文献、政府出版物等文献类型。
8.学位论文——是高等院校或研究机构的学生为获得学位资格而提交并通过答辩委员会认可的学术性研究论文,它是随着学位制度的实施而产生的。
9.科技报告——是关于某科研项目或活动的正式报告或记录,多是研究、设计单位或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计和开发项目的成果进展情况的报告。
10.电子图书——是指以电子文件形式存储在各种磁性或电子介质中,以磁盘、光盘、网络等电子媒体形式出版发行,通过计算机或便携式阅读终端进行阅读的一种新型数字化书籍。
11.电子报纸—多媒体技术、网络技术和通信技术的产物,是指在排、印、投递等方面基本上实现了电子化的报纸。
12.参考工具书——是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
13.年鉴——是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
信息检索复习题目1、名词解释题数据(data):范指所有描述事物的形貌、特征、状态或任何其他属性的数字、文字或符号。
信息:物质存在的一种方式。
一般指数据、消息中包含的意义。
可以使消息中所描述的时间不定性减少。
二次文献:是将大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,著录其吗,特征(著者、篇名、分类号、出处、文摘等),并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。
三次文献:是选用大量有关的文献信息,经过综合、分析、研究而编写出来的文献信息。
它通常是围绕某个专题,利用二次文献信息检索搜集大量相关文献,对其内容进行深度加工而成。
会议文献:是在学术或专业会议上交流的论文和会议资料编辑出版的信息。
信息检索:从信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。
著录:就是把文献信息的各种内部、外部特征记录下来的过程,其结果就是形成一条目录信息。
科技报告:指国家政府部门或科研生产单位关于某项研究成果的总结报告,或是研究过程中的阶段进展报告网络信息资源:是指信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在计算机等终端上再现的信息的总和。
搜索引擎:搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
2、说出下列检索式的含义(1) 计算机AND制图:AND 代表与含义:检索包含计算机与制图的文档(2) Wom?n and liberation代表匹配任意字符含义:检索包含匹配wom?n 与 liberation 任意字符的文档(3) Comput** 代表通配符含义:检索包含comput后面为任意字符的文档(4) Orgarni?ation代表匹配任意字符含义:检索包含匹配Orgarni?ation任意字符的文档(5) (计算机NOT美国)AND出版发行NOT代表非 AND代表与含义:检索包含出版发行与计算机但不包含美国的文档(6) edit?代表匹配任意字符含义:检索包含匹配edit 任意字符的文档(6) (计算机OR电脑) AND土地管理OR代表或 AND代表与含义:检索包含土地管理与计算机或电脑的文档(7) Product?代表匹配任意字符含义:检索包含匹配Product任意字符的文档2、简答题1、检索文献及文献的三要素?答:信息的一种人工编码,通过人工、机械以及声、光、电、磁等各种技术段生成多种包含知识信息内容的符号,以一定的形态出现,形成各种媒体的文献类型。
复习要点1.什么是原文出处?获取文献全文的途径有哪些?搜索引擎,本馆资源,全国范围内的纸本馆藏,申请图书馆的文献传递2.检索词的选择对查全率的影响(切分、删除、扩展)。
切分是对课题的语句以词为单位进行拆分,转换为检索的最小单元。
删除是对课题中不具有实质性检索意义的:虚词(如介词、连词、副词等)选择性删除:使用频率较低的词、专指性太高、过分宽泛的词、过分具体的限定词扩展:找到意思相同或相近的词汇;立足规范词,兼顾自由词;注意词的全称、简称及缩写字母;必要时应向上下位类词扩检;外来词的译写变化3.检索字段对查全率、查准率的影响。
可分为基本检索字段和辅助检索字段。
基本检索字段是指反应文献内容特征的字段。
如题名、文摘、主题词等。
辅助字段是指反应文献外部特征的字段,如作者机构、来源出版物、出版年等。
限制范围大小:题名<关键词≈摘要<(主题)<全文截词检索是防止漏检,提高查全率的一种常用检索技术,主要用于英文电子资源的检索。
用*或?表示。
不同检索系统使用的截词符种类和功能不同。
截词是在检索词的适当位置进行截断,节省输入的字符,达到较高的查全率。
根据截词符在检索词中的位置,可分为前截词、中截词和后截词。
常用的词位检索有:邻位检索和字段检索4.每个数据库的检索技术以和所使用到得符号,以及这些检索技术对查全查准率的影响。
概念交叉或概念限定关系:数据库中使用符号“* ”或“AND ”搜索引擎中使用“空格”表示,增强了专指度,提高了查准率。
具有概念并列关系的组配:数据库中使用符号“+ ”或“OR ”搜索引擎中可在关键词之间使用“OR”连接符,对于百度是用的“| ”连接符,注意连接符与搜索词之间必须要有空格。
扩大检索范围,提高了查全率。
具有概念排除关系的组配。
数据库中使用“- ”或“NOT ”搜索引擎中使用“- ”,注意前一个关键词和减号之间必须有空格,减号和后一个关键词之间,有无空格均可。
提高查准率,影响查全率检索技术:1.布尔逻辑2.同义词、同名作者检索3限制检索检索方式:传统检索,基本检索,高级检索,期刊导航5.什么是ISSN号。
一、名词解释(4题,20分)目录:以一个完整的出版单位或收藏单位作为著录的基本单位,将一批著录款目按照一定的次序编排而成的一种揭示及报道文献的工具。
索引:将某一信息集合中的相关信息按照某中可查顺序排列并系统地指引给读者的一种检索工具。
年鉴:一种按年度出版,概述或反映上一年度有关领域的重大事件、重大进展和重要成果,汇集重要文献、详尽数据很统计资料的连续出版物。
手册:是汇集某一范围内基础知识和基本数据资料,以便于人们在生产、科研、教学等具体工作过程中可以经常查证的实用便览型参考工具。
OPAC:由开放的公共查询目录演化而来,是20世纪70年代末由美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
CALIS:是经国务院批准的我国高等教育公共服务体系之一,在教育部的领导下,把国家的投资、现代图书馆理念、先进的技术手段、高校丰富的文献资源和人力资源整合起来。
信息检索:广义上,信息检索是指信息存储与查找的过程,狭义上,指信息查找的过程,信息查找是指通过查询机制从各种检索系统中查找出用户所需要的特定信息的过程。
搜索引擎:泛指网络上以一定的策略搜集信息,对信息进行组织和处理,并为用户提供信息检索服务的工具和系统,是网络资源检索工具的总称。
百科全书:是指收录了各个知识门类的知识,或者系统而完备地概述了某一知识门类知识的大型参考性工具,是最完备的参考工具,有“工具书之王”的美誉。
学位论文:学位论文是伴随着学位制度的实施而产生的,是高等院校或科研机构的毕业生为获取学位资格而撰写的学术性研究论文。
特种文献:一种介于图书与期刊之间的文献类型,通常在出版发行或获取途径方面比较特殊,因此也被称为灰色文献。
电子图书:是指以数字形式加工,通过计算机网络进行传播,,并借助于计算机或类似设备来阅读的图书,是电子出版物中最常见的文献形式。
参考工具书:是根据一定的社会需要以特定的编排方式和检索方法汇编某学科或特定范围的知识和资料,其目的是为人们解决疑难和提供数据或事实信息,是作为工具使用的专供查考的特定类型的图书。
计算机信息检索复习计算机信息检索是指通过计算机技术来获取和利用大量信息资源的过程。
在现代社会,数据量爆炸式增长,人们需要从海量的信息中快速准确地找到所需的信息。
计算机信息检索因此成为一门重要的学科,被广泛应用于各个领域。
本文将从计算机信息检索的基本概念、分类方法、技术算法以及发展前景等方面进行复习。
一、基本概念1.1 信息检索与搜索引擎的区别信息检索是指通过用户输入的关键词等信息,在信息资源中查询并返回相关信息的过程,而搜索引擎是指以互联网为载体,通过爬取、索引和检索技术,提供全面、快速、准确的信息查询服务。
1.2 关键词关键词是用户在进行信息检索时使用的重要词汇,它能够准确描述用户的需求。
在信息检索系统中,关键词通常通过布尔逻辑运算符进行联合查询,以便更加准确地匹配用户需求。
1.3 相关性相关性是指检索结果与用户需求的一致程度,是衡量信息检索系统性能的重要指标。
相关性通常通过计算文档与查询之间的相似度来确定。
二、分类方法2.1 根据检索领域根据检索领域的不同,可以将计算机信息检索分为一般文本检索、专业文献检索、多媒体检索等。
2.2 根据检索模式根据检索模式的不同,可以将计算机信息检索分为精确检索和模糊检索。
精确检索要求检索结果与用户需求完全一致,而模糊检索则容许检索结果与用户需求存在一定程度的差异。
2.3 根据检索技术根据检索技术的不同,可以将计算机信息检索分为基于关键词的检索和基于内容的检索。
基于关键词的检索是目前应用最广泛的检索方式,而基于内容的检索则能够更好地满足用户个性化需求。
三、技术算法3.1 倒排索引倒排索引是一种常用的信息检索技术,它将文档集合中的每个词汇与包含该词汇的文档进行关联,快速地定位文档。
倒排索引能够大大提高检索效率和准确性。
3.2 向量空间模型向量空间模型是一种通过计算文档与查询之间的相似度进行检索的方法,它将文档和查询表示为向量,通过计算它们之间的夹角来衡量相似度。
信息检索一.名词解释1.索引(P150):索引是将书籍、期刊等文献所刊载的论文题目、作者,以及所讨论的或设计的学科主题、名词术语、所引用的参考文献等,根据一定的需要,经过分析分别摘录出来,注明其所在书刊的页码,按一定的原则和方法排列起来的一种检索工具。
2.回溯检查法:又称追溯法、引文法、引证法,是一种跟踪查找的方式。
即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。
通过回溯法所获得的文献有助于对课题的主题背景和立论依据等内容有更深的理解。
该方法获得文献针对性强、数量较多,在没有检索工具或检索工具不齐备的情况下,利用此法能够获得一些所需要的文献资料。
3.可视化:将数据库中不可见的语义关系以图像的形式可视化显示,并表达用户检索过程。
一个可视化的环境为用户展示更丰富、更直观的信息,一个透明的检索过程使检索更容易、更有效。
它包括检索过程的可视化和检索结果的可视化。
可视化信息检索技术缩短了用户理解信息的时间,提供了感觉和思考之间的有效反馈机制,它代表着信息检索的未来,将会取代以布尔逻辑为基础的、传统的信息检索系统。
4.自动标引:是指直接通过计算机的操作处理,自动实现赋予检索标志的活动。
分为自动主题标引和自动分类标引,即根据计算机内信息(标题、摘要或全文),借助算法自动给出反应主题内容的标引词和自动分配分类号。
5.全文扫描:是以从文本文档中找出与查询表示的字符串完全一致的部分为目的,检索结果返回包含查询字符串的文本及其位置的检索技术。
6.查全率:查全率是指从检索系统检出的与某课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比。
对于数据库检索系统,查全率为检索出的款目数与数据库中满足用户检索式需求的款目数之比;而对于互联网信息检索系统来说,文献总量是很难计算的,甚至连估算都困难。
在这里人为因素的影响比较大。
相对查全率=(专业人员检出文献的数量数/全部实际检出文献集合并集中文献数量) *100%7.图像信息抽取:是指从数字图像中抽取包括基于文本的特征(说明,注释等关键词)和视觉特征或底层特征(颜色,文理,形状等),作为图像的特征描述,支持信息检索。