计算机复习信息检索
- 格式:docx
- 大小:37.80 KB
- 文档页数:4
信息检索数据(Data):泛指所有描述事物的形貌、特性、状态或任何其他属性的数字、文字或符号。
一般指原始,未处理过的数据。
信息(Information):1. 物质存在的一种方式。
一般指数据、消息中所包含的意义。
可以使消息中所描述的事件的不定性减少。
2. 是事物运动的状态与方式的反映。
知识(Knowledge):A、是在改造世界的实践中所获得的认识和经验的总和。
B、是人类的主观世界对客观世界概括和反映,是大量有组织的信息,是关于事实和思想的有组织的陈述。
提供某种经过思考的判断和某种实验的结果。
(信息是知识的原材料,知识是信息加工的抽象化产物。
)情报(Information):钱学森:“情报是活化了的、激活了的知识”。
可以理解为是指传递着的有特定效用的知识或信息。
三要素:知识性、传递性、效用性文献(Literature):记录有知识的一切载体。
三要素:载体(文献的外部形式,它是知识的包装或运载方式,常称之为媒体(media)。
)、知识(反映了文献的信息内容。
)、记录(信息的一种人工编码,通过人工、机械以及声、光、电、磁等各种技术手段生成多种包含知识信息内容的符号,以一定的形态出现,形成各种媒体的文献类型。
)文献对人类文明进步具有重大意义:知识的积累、传播与创造研究成果的确认与评价信息环境及其认识:信息环境的变化,20世纪90年代中期前,书本时期-----手工检索,缩微时期-----缩微检索,20世纪90年代后期,光盘时期-----单机检索,网络初期-----联机检索21世纪,网络兴盛-----网络检索第一章信息检索原理一、信息检索的含义(掌握)广义:信息检索包括信息的存储过程和查找过程;狭义:仅指信息的查找。
二、信息检索的类型(一、)以检索内容划分(重点)1.文献信息检索凡是利用目录、文摘或索引等二次信息查找某一课题、某一著者、某一地域、某一机构、某一事物的有关信息以及这些信息的出处和收藏单位等,都属于文献信息检索范畴。
信息检索复习题第1章信息:狭义是指适用通信、存储或处理的形式来表示的知识或消息,即用语言、文字、数字、符号、图像、声音、情景、表情、状态等方式传达的内容。
信息资源是企业生产及管理过程中所涉及的一切文件、资料、图表和数据等信息的总称。
信息资源与企业的人力、财力、物力和自然资源一样同为企业的重要资源,而且是企业发展的战略资源。
文献:是记录知识的一切载体,是指将知识、信息、利用文字、符号、图像、音频等技术手段记录在一定的物质载体上。
文献的三个基本属性:即文献的知识性、记录性和物质性。
它具有储存知识、传递和交流信息的功能。
文献的类型:1、按照文献的载体形态来划分:分为印刷型、微缩型、声像型和电子型。
2、按文献的出版形式划分:分为图书、期刊、会议文献、科技报告、学位论文、技术标准、专利文献。
在正式出版图书封底都有一个ISBN叫国际标准书号。
在正式出版期刊封面都有一个ISSN叫国际标准编码。
特种文献又称丛刊,或不定期的连续出版物,是出版形式比较特殊的一种文献类型。
P5科技报告:记录某一科研项目调查、实验、研究的成果或进展情况的报告,又称研究报告、报告文献。
会议文献:在学术会议上宣读和交流的论文、报告及其他有关资料,会议文献多数以会议录的形式出现,特点:传递情报比较及时,内容新颖,专业型和针对性强,种类繁多,出版形式多样,会议文献分为:会前、会中和会后3中。
政府出版物:各国政府及其所属机构出版的,有官方性质的文献,又称官方出版物,是指有政府机关负责编辑印刷的,并通过各种渠道发送或出售的文字、图片、及磁带、软件等。
其他类型资料:包括产品样品、档案文献、灰色文献和视听资料等。
按照文献产生的次序与被加工整理的深度划分:可将文献分为零次文献、一次文献、二次文献、三次文献。
一次文献:是人们直接以自己的生产、科研、社会活动等实践经验为依据生产出来的文献,也称原始文献,其所记载的知识信息比较新颖、具体、详尽。
信息检索:是指信息按照一定的方式组织起来,并根据信息用户的需要找出有关信息过程和技术,狭义的信息检索是指信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。
信息检索公选课复习资料1.信息是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。
2.知识是在改造客观世界的实践中获得的对客观事物存在和运动规律的认知和总结,是人的大脑通过思维重新组合的系统化的信息的集合。
3.情报是人们用来解决特定问题所需要的、经过激活过程活化了的具有使用价值的知识或信息。
4.文献是在存储检索利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附载体而存有信息或数据的载体。
5.会议文献是指在国内外学术或非学术会议上发表的论文或报告。
6.学位论文是高等院校和科研机构的毕业生为获取各级学位在导师指导下撰写和提交和科学研究、科学实验的书面报告。
7.著录是对文献内容和形式特征进行选择和记录的过程。
8.数据检索是指特定的数值型数据为对象的检索。
9.按信息的加工层次分类:(含义)一次文献:原始文献,图书、报纸、期刊、会议纪录、专利报告等二次文献:目录、题录、索引、文摘三次文献:论文丛集、综述、年鉴百科全书一次信息资源 (原始文献):以作者本人在生产和科研中所取得的成果为依据而创作的原始文献所传递的信息资源。
二次信息资源(检索工具):将分散的、无组织的一次信息资源,按一定的原则加工、整理、简化、组织成为系统的、便于查找利用的信息资源。
三次信息资源(参考性文献):在合理利用二次信息资源的基础上,选用一次信息资源的内容,根据一定的需要、目的进行分析、综合或浓缩重组而得到的信息。
二次信息资源与三次信息资源的区别:对象不同:二次信息资源以“篇”或“本”为单位进行加工;三次信息资源则归纳了较多的一次信息内容用途不同:二次信息资源为检索一次信息的工具;三次信息资源能直接提供检索答案.10. 在印刷型资源时代,事实与数据检索工具主要依靠各类参考工具书完成各种数据或事实的查询。
11. 文献检索方法:指文献信息资源的一般检索方法,也是利用各种检索工具检索文献信息资料的最常用的方法。
1.请说明一次文献、二次文献和三次文献的特点和功用。
(1)一次文献(Primary Document):通常是指原始制作,即作者以本人的研究成果为基本素材而创作(或撰写)的文献。
如期刊论文、科技报告、会议论文、专利说明书(2)二次文献(Secondary Document):是指文献情报工作者对一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文献,由文献情报工作人员编辑、出版和积累起来的工具性的文献。
二次文献的重要性在于可以帮助人们查找一次文献。
如目录、题录、文摘、索引、各种书目数据库(3)三次文献(Tertiary Document):是指利用二次文献,选用一次文献内容,经综合,分析和评述后形成的指南性文献。
包括综述研究和参考工具两类。
如综述、述评、词典、百科全书、年鉴、指南数据库、书目之书目2.请说明题录目录文摘的特点以及区别(1)题录是揭示和报导单篇文献外表特征的工具。
特点:以单篇文献为著录对象(2)目录是系统积累和提供图书、期刊和其它单行本的名称、收藏单位和索取号等外表特征的揭示和报导的工具。
特点:以单位出版物为著录对象,反映馆藏情况,主要揭示文献外部特征(3)文摘是以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索工具。
特点:带摘要的题录3. 布拉德伏特文献文献分散定律和期刊影响因子的概念(1)布拉德福文献分散定律:本专业文献的1/3刊登在本专业核心期刊上,另外的2/3则分散在其他的相关期刊和边缘期刊上。
如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成1:n:n2......的关系。
(2)期刊影响因子的概念是:某一种期刊在第三年得到的前两年的引文数与该刊前两年的总论文数之比。
4. 请阐述信息、知识、情报的概念,并分析它们三者之间的关系。
第一部分:基本常识1.文献按照出版形式可分为哪几种类型?举例。
图书、期刊、报纸、特种文献。
图书:专著、文集、教科书、普及读物、百科全书、年鉴、手册、词典等期刊:化学学报、煤炭学报、电工技术学报、高等教育研究、建筑工程与科学在CNKI 期刊全文数据库中检到共209条记录:国际城市规划、建筑结构学报、交通运输工程学报、建筑经济、土木工程学报、岩土工程学报、岩土力学、空间结构、地震工程与工程振动、中国给水排水、工程力学世界建筑工业建筑工程勘察中外建筑工程建设等。
报纸:人民日报特种文献:科技报告、会议文献、专利文献、学位论文、政府出版物、标准文献、产品资料、科技档案美国政府的四大报告1、国防部的AD报告2、商业部的PB报告3、国家航空及宇航局的NASA报告4、能源部的DOE报告。
2现代科技文献具有的特点哪些?答:(1)数量多、增长快, (2)出版形式多、文种多,(3)文献异常分散, (4)文献失效加快, (5)报道内容重复交叉, (6)文献总体质量下降3什么是核心文献、相关文献和边缘文献?答:核心文献通常是指与本学科发展水平、发展动向密切相关的一些文献。
如核心期刊等。
相关文献和边缘文献是指内容与学科的关系相对疏远一些的文献。
相关文献和边缘文献是本学科和其它学科相互渗透、互相结合的结果。
4 什么是文献?构成文献的有哪四个要素?答:文献的定义是记录有知识的一切载体称为文献。
构成文献的四要素是:知识内容,信息符号,载体材料,记录方式。
5 电子文献的主要类型和文件格式是什么?答:(1)按照载体的形态,电子文献可以有软磁盘(FD)、只读光盘(CD-ROM)、可擦写光盘(CD-RW )等之分;(2)按照文献的电子格式,电子文献有文本格式的txt文件、doc文件、pdf文件,图像格式的 gif文件、jpg文件以及标记文件格式的 html文件和xml文件之分;(3)按照出版周期和内容特点,电子文献可以有电子期刊,电子图书,电子报纸以及数据库等之分;(4)按照内容的性质和时效性,电子文献可以有论文文献和动态消息之分;(5)按照版权状况,电子文献又可分为有版权电子文献和无版权电子文献两类;(6)从文献信息利用的角度来看,可分为有版权的电子期刊、电子图书、报告的学术价值相对较高,而单篇论文和动态性的电子文献有时虽然没有注明版权,也有相当的参考价值。
信息检索复习题1、信息检索的步骤包括:界定问题、选择信息源、制定检索策略并实施检索、评价信息、分析利用信息五个步骤。
2、文献中ISBN、ISSN分别是指:国际标准书号、国际标准刊号。
3、文献按出版形式划分为哪几种?简述之。
答:按出版类型划分:图书、期刊、特种文献:(科技报告、会议文献、专利文献、标准文献、学位论文、政府出版物、产品资料、技术档案)4、给出“基于云计算的煤矿安全监测预警系统研究”一文的关键词。
煤矿监测预警云计算数据挖掘5、给出3种常用搜索引擎名称,什么情况下应该使用百度快照?答:百度、Google、360、搜狗搜索到的结果无法打开或打开速度很慢的情况下,可以使用百度快照。
6、利用百度搜索一份技术开发合同,应该在搜索框输入(技术开发合同 filetype:doc 或技术开发合同 filetype:ppt )。
(提示:技术开发合同的格式:doc或pdf)。
百度以“filetype:”来限制,后面是文档格式。
文档可以是pdf、doc、xls、ppt等。
首选gov(政府)、edu(教育)、org(非盈利性机构)、ac(学术类)网站;次选com(商业) net(网络)等7、CNKI中国知网主要收录哪些类型的全文学术文献?期刊文献,报纸,会议文献,国外学术文献,工具书,年鉴,专利,成果,标准文献,博士学位论文,硕士学位论文8、查找中文全文图书和期刊文献分别有哪几个数据库?中文全文数据库:CNKI中国知网.维普期刊资源整合服务平台.万方数据知识服务平台,读秀学术搜索9、学位论文有哪些特点?简述之。
4)学位论文(dissertation,thesis)指高等院校和科研机构的毕业生在获取相应学位时,必须提交的论文。
外部特征:著者、论文题名、颁发学位的机构名称、学位等级、授予年份等。
其主要辨识特征是学位名称,特征词:Ph,D,MS等。
从内容上看,学位论文具有以下四个特点:学术性,科学性,创造性,规范性10、依据GB/T7714-2005,分别给出图书、期刊和学位论文的著录格式,并各举一例。
第一章绪论1.1 信息素养与信息教育信息素养,又称信息素质、信息能力,是一个综合性的整体概念,它是将信息意识、信息道德、信息需求动力、信息工具和信息源以及信息评估、吸收与利用有机结合而获得的一种综合能力。
1.2 信息的基本概念信息与知识、情报、文献的联系与区别:信息是指对各种事物的存在方式、运动状态和相互联系特征的一种表达和陈述,是自然界、人类生活和人类思维活动普遍存在的一切物质和事物的属性。
知识来源于信息,是信息的一部分。
是一种特定的人类信息,信息只有经过科学的系统的加工才能上升为知识。
情报是为了解决一个特定问题所需的知识,是激活了的知识,是知识经传递并起作用的部分。
有三个基本属性:知识性、传递性和效用性。
它虽然属于信息的范畴,但不是一般的信息,而是一种特定信息。
文献是记录有信息的一切载体,文献中蕴含着大量的知识和信息,这些知识、信息被用户利用时就转化为情报。
情报源于知识,知识源于信息,文献是信息、知识情报的主要载体形式。
1.3 信息源与信息媒体信息源,就是信息的来源,即人们在科研活动中、日常工作以及其他一切社会实践中所产生的成果和各种原始资料,以及对这些成果和原始资料加工整理而得到的成品等,是能为满足人们特定需要而产生信息的源泉。
按照其存在形式可分为三类:口头信息源、实物信息源和文献信息源。
一次信息媒体:即原始信息媒体或第一手资料,主要是指报道新发明、新创造、新知识、新技术的原始资料,以及直接记载的科研成果调查报告经验总结等,通常亦称原始文献、一次文献。
如期刊文献、会议文献、科技报告/研究报告、专利文献、学位论文、政府出版物、标准文献、科技档案、产品资料等。
第二章信息检索系统概述2.1信息检索系统类型计算机检索系统:其核心是数据库,它是由一个或多个文档构成的大量数据的集合。
按计算机检索系统所含信息资源内容的形式不同分为五种类型:1书目型数据库:存某个学科领域的二次文献信息(文摘或题录)的数据库,提供原始文献信息的梗概和线索。
一、逻辑算符、检索式l布尔逻辑算符:and 、or、 not(含义)1.逻辑“与”(AND 或 *) 用于表达两个或两个以上检索词(关键词、主题词)之间的相交关系或限定关系运算。
逻辑与检索能增强检索的专指性,使检索范围缩小。
2.逻辑“或”(OR或 + )用于表达两个或两个以上检索词(关键词、主题词)之间的并列关系。
运算逻辑或检索扩大了检索范围,提高检索信息的查全率。
此算符适于连接有同义关系或相关关系的词。
3.逻辑“非”(NOT或-)用于表达两个或两个以上检索词(关键词、主题词)之间中排除不需要的检索词(关键词、主题词)运算,可以缩小检索范围,增强检索的准确性。
此运算适于排除那些含有某个指定检索词(关键词、主题词)的记录。
但如果使用不当,将会排除有用文献,从而导致漏检。
检索式举例:题目:第三方物流信息管理系统检索式:第三方*物流*信息*管理*系统(and)检索入口:题目或关键词l截词检索:是一种常用的检索技术,尤其是在西文文献的检索中,使用更为广泛。
截词检索方式可分为三种,即:后截断、前截断、中间截断。
按截断的字符的数量上看,又可分有限截断与无限截断两种。
通常用* 表示无限截词。
用?表示有限截词。
后截断:是最常用的一种检索技术,将截词放在一个字符串之后,以表示其后有限或无限个字符不影响之前的检索字符串的检索结果。
如biolog*,可检索biologcal biologist biology等词, physic ??,可检索 physical、physicst等词。
、前截词将截词符号置于一个字符串的前方以表示其之前有限或无限个字符不影响之后的检索字符串的检索结果如*physics,可检索 physics、astrophysics、biophysics、chemiphysics、geophysics 等词。
中截词又称“ 内嵌字符截断” 。
将检索字符置于一个检索词中间,而不影响前后字符串的检索结果。
如:organi?ation可检索 organization、organisation。
一、名词解释1.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。
2.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。
3.数据挖掘——就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
4.检索策略——就是在分析课题内容实质的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑联系和查找步骤等。
5.截词检索——是指在检索式中用专门的符号(截词符号)表示检索词某一部分允许有一定词形变化。
6.参考数据库——有时又称为书目数据库,是指包含各种数据、信息或知识原始来源和属性的数据库。
7.特种文献——是指出版发行和获取途径都比较特殊的科技文献,一般包括专利文献、会议文献、科技报告、学位论文、标准文献、政府出版物等文献类型。
8.学位论文——是高等院校或研究机构的学生为获得学位资格而提交并通过答辩委员会认可的学术性研究论文,它是随着学位制度的实施而产生的。
9.科技报告——是关于某科研项目或活动的正式报告或记录,多是研究、设计单位或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计和开发项目的成果进展情况的报告。
10.电子图书——是指以电子文件形式存储在各种磁性或电子介质中,以磁盘、光盘、网络等电子媒体形式出版发行,通过计算机或便携式阅读终端进行阅读的一种新型数字化书籍。
11.电子报纸—多媒体技术、网络技术和通信技术的产物,是指在排、印、投递等方面基本上实现了电子化的报纸。
12.参考工具书——是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
13.年鉴——是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
信息检索复习题目1、名词解释题数据(data):范指所有描述事物的形貌、特征、状态或任何其他属性的数字、文字或符号。
信息:物质存在的一种方式。
一般指数据、消息中包含的意义。
可以使消息中所描述的时间不定性减少。
二次文献:是将大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,著录其吗,特征(著者、篇名、分类号、出处、文摘等),并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。
三次文献:是选用大量有关的文献信息,经过综合、分析、研究而编写出来的文献信息。
它通常是围绕某个专题,利用二次文献信息检索搜集大量相关文献,对其内容进行深度加工而成。
会议文献:是在学术或专业会议上交流的论文和会议资料编辑出版的信息。
信息检索:从信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。
著录:就是把文献信息的各种内部、外部特征记录下来的过程,其结果就是形成一条目录信息。
科技报告:指国家政府部门或科研生产单位关于某项研究成果的总结报告,或是研究过程中的阶段进展报告网络信息资源:是指信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在计算机等终端上再现的信息的总和。
搜索引擎:搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
2、说出下列检索式的含义(1) 计算机AND制图:AND 代表与含义:检索包含计算机与制图的文档(2) Wom?n and liberation代表匹配任意字符含义:检索包含匹配wom?n 与 liberation 任意字符的文档(3) Comput** 代表通配符含义:检索包含comput后面为任意字符的文档(4) Orgarni?ation代表匹配任意字符含义:检索包含匹配Orgarni?ation任意字符的文档(5) (计算机NOT美国)AND出版发行NOT代表非 AND代表与含义:检索包含出版发行与计算机但不包含美国的文档(6) edit?代表匹配任意字符含义:检索包含匹配edit 任意字符的文档(6) (计算机OR电脑) AND土地管理OR代表或 AND代表与含义:检索包含土地管理与计算机或电脑的文档(7) Product?代表匹配任意字符含义:检索包含匹配Product任意字符的文档2、简答题1、检索文献及文献的三要素?答:信息的一种人工编码,通过人工、机械以及声、光、电、磁等各种技术段生成多种包含知识信息内容的符号,以一定的形态出现,形成各种媒体的文献类型。
A卷一、名词解释:1.信息资源 2.信息检索3.著录法4.关键词标引5.知识发现二、填空1.按组织方式分,信息检索有()、()、超媒体检索。
2.信息检索策略有两种方式即()和()。
3.表示主体的检索词有标题词、()、()关键词。
4.常用的逻辑运算符有:()、OR或+、()。
5.信息检索工具常用的排检方法有字序法、()。
6.中国特有的工具书是()、()。
三、问答1. 信息检索的研究内容有哪些?2. 数据库有哪些类型?3. 搜索引擎的类型有哪些?四、论述1、试例说明传统检索型工具书和参考型工具书的使用。
2、如何利用检索工具查找历史类文献?参考答案:一、名词解释(30%)1.信息资源。
是人类存储在载体(包括大脑)上的已知或未知的可利用的资源。
信息中的载体信息和主题信息资源的最基本的组成部分。
2.信息检索。
是从大量相关信息中利用人—机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。
3.著录法。
是对信息与文献的形式特征和内容特征进行分析、选择和记录的方法。
4.关键词标引。
使用非规范化的自然语言——关键词来表达文献或信息资源主题内容的过程。
5.知识发现。
是从数据中发现有用知识的整个过程,使多个步骤相互连接,反复进行人机交互的过程。
二、填空(20%)1.按组织方式分,信息检索有全文检索、超文本检索、超媒体检索。
2.信息检索策略有两种方式即手工检索策略和计算机检索策略。
3.表示主体的检索词有标题词、单元词、叙次、关键词。
4.常用的逻辑运算符有:AND或*, OR或+, NOT或-。
5.信息检索工具常用的排检方法有字序法、类序法。
6.中国特有的工具书是类书,政书。
三、问答(24%)1.信息检索的研究内容有哪些?检索理论研究、检索语言研究、数据库研究、著录法研究、检索系统研究、检索策略研究、检索服务研究。
2.数据库有哪些类型?传统数据库(情报数据库、图形数据库等);专门应用领域的数据库(统计数据库、工程数据库、空间数据库;新一代数据库(分布式数据库、多媒体数据库、面象对象数据库、实时数据库等)。
一、名词解释(4题,20分)目录:以一个完整的出版单位或收藏单位作为著录的基本单位,将一批著录款目按照一定的次序编排而成的一种揭示及报道文献的工具。
索引:将某一信息集合中的相关信息按照某中可查顺序排列并系统地指引给读者的一种检索工具。
年鉴:一种按年度出版,概述或反映上一年度有关领域的重大事件、重大进展和重要成果,汇集重要文献、详尽数据很统计资料的连续出版物。
手册:是汇集某一范围内基础知识和基本数据资料,以便于人们在生产、科研、教学等具体工作过程中可以经常查证的实用便览型参考工具。
OPAC:由开放的公共查询目录演化而来,是20世纪70年代末由美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
CALIS:是经国务院批准的我国高等教育公共服务体系之一,在教育部的领导下,把国家的投资、现代图书馆理念、先进的技术手段、高校丰富的文献资源和人力资源整合起来。
信息检索:广义上,信息检索是指信息存储与查找的过程,狭义上,指信息查找的过程,信息查找是指通过查询机制从各种检索系统中查找出用户所需要的特定信息的过程。
搜索引擎:泛指网络上以一定的策略搜集信息,对信息进行组织和处理,并为用户提供信息检索服务的工具和系统,是网络资源检索工具的总称。
百科全书:是指收录了各个知识门类的知识,或者系统而完备地概述了某一知识门类知识的大型参考性工具,是最完备的参考工具,有“工具书之王”的美誉。
学位论文:学位论文是伴随着学位制度的实施而产生的,是高等院校或科研机构的毕业生为获取学位资格而撰写的学术性研究论文。
特种文献:一种介于图书与期刊之间的文献类型,通常在出版发行或获取途径方面比较特殊,因此也被称为灰色文献。
电子图书:是指以数字形式加工,通过计算机网络进行传播,,并借助于计算机或类似设备来阅读的图书,是电子出版物中最常见的文献形式。
参考工具书:是根据一定的社会需要以特定的编排方式和检索方法汇编某学科或特定范围的知识和资料,其目的是为人们解决疑难和提供数据或事实信息,是作为工具使用的专供查考的特定类型的图书。
计算机信息检索复习计算机信息检索是指通过计算机技术来获取和利用大量信息资源的过程。
在现代社会,数据量爆炸式增长,人们需要从海量的信息中快速准确地找到所需的信息。
计算机信息检索因此成为一门重要的学科,被广泛应用于各个领域。
本文将从计算机信息检索的基本概念、分类方法、技术算法以及发展前景等方面进行复习。
一、基本概念1.1 信息检索与搜索引擎的区别信息检索是指通过用户输入的关键词等信息,在信息资源中查询并返回相关信息的过程,而搜索引擎是指以互联网为载体,通过爬取、索引和检索技术,提供全面、快速、准确的信息查询服务。
1.2 关键词关键词是用户在进行信息检索时使用的重要词汇,它能够准确描述用户的需求。
在信息检索系统中,关键词通常通过布尔逻辑运算符进行联合查询,以便更加准确地匹配用户需求。
1.3 相关性相关性是指检索结果与用户需求的一致程度,是衡量信息检索系统性能的重要指标。
相关性通常通过计算文档与查询之间的相似度来确定。
二、分类方法2.1 根据检索领域根据检索领域的不同,可以将计算机信息检索分为一般文本检索、专业文献检索、多媒体检索等。
2.2 根据检索模式根据检索模式的不同,可以将计算机信息检索分为精确检索和模糊检索。
精确检索要求检索结果与用户需求完全一致,而模糊检索则容许检索结果与用户需求存在一定程度的差异。
2.3 根据检索技术根据检索技术的不同,可以将计算机信息检索分为基于关键词的检索和基于内容的检索。
基于关键词的检索是目前应用最广泛的检索方式,而基于内容的检索则能够更好地满足用户个性化需求。
三、技术算法3.1 倒排索引倒排索引是一种常用的信息检索技术,它将文档集合中的每个词汇与包含该词汇的文档进行关联,快速地定位文档。
倒排索引能够大大提高检索效率和准确性。
3.2 向量空间模型向量空间模型是一种通过计算文档与查询之间的相似度进行检索的方法,它将文档和查询表示为向量,通过计算它们之间的夹角来衡量相似度。
信息检索一.名词解释1.索引(P150):索引是将书籍、期刊等文献所刊载的论文题目、作者,以及所讨论的或设计的学科主题、名词术语、所引用的参考文献等,根据一定的需要,经过分析分别摘录出来,注明其所在书刊的页码,按一定的原则和方法排列起来的一种检索工具。
2.回溯检查法:又称追溯法、引文法、引证法,是一种跟踪查找的方式。
即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。
通过回溯法所获得的文献有助于对课题的主题背景和立论依据等内容有更深的理解。
该方法获得文献针对性强、数量较多,在没有检索工具或检索工具不齐备的情况下,利用此法能够获得一些所需要的文献资料。
3.可视化:将数据库中不可见的语义关系以图像的形式可视化显示,并表达用户检索过程。
一个可视化的环境为用户展示更丰富、更直观的信息,一个透明的检索过程使检索更容易、更有效。
它包括检索过程的可视化和检索结果的可视化。
可视化信息检索技术缩短了用户理解信息的时间,提供了感觉和思考之间的有效反馈机制,它代表着信息检索的未来,将会取代以布尔逻辑为基础的、传统的信息检索系统。
4.自动标引:是指直接通过计算机的操作处理,自动实现赋予检索标志的活动。
分为自动主题标引和自动分类标引,即根据计算机内信息(标题、摘要或全文),借助算法自动给出反应主题内容的标引词和自动分配分类号。
5.全文扫描:是以从文本文档中找出与查询表示的字符串完全一致的部分为目的,检索结果返回包含查询字符串的文本及其位置的检索技术。
6.查全率:查全率是指从检索系统检出的与某课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比。
对于数据库检索系统,查全率为检索出的款目数与数据库中满足用户检索式需求的款目数之比;而对于互联网信息检索系统来说,文献总量是很难计算的,甚至连估算都困难。
在这里人为因素的影响比较大。
相对查全率=(专业人员检出文献的数量数/全部实际检出文献集合并集中文献数量) *100%7.图像信息抽取:是指从数字图像中抽取包括基于文本的特征(说明,注释等关键词)和视觉特征或底层特征(颜色,文理,形状等),作为图像的特征描述,支持信息检索。
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
计算机复习信息检索
信息检索是指通过计算机技术,根据用户的需求,在大规模的信息
资源中准确、快速地找到相关的信息。
在当今信息爆炸的时代,信息
检索的重要性不言而喻。
本文将介绍信息检索的基本概念、技术和应用,并附带答案和解析。
一、信息检索概述
信息检索是指通过计算机对大规模信息资源进行全文检索、关键词
检索等方式,根据用户需求提供相关信息的过程。
其目标是提高检索
准确性和检索效率,帮助用户快速获取所需信息。
信息检索系统由信息资源、检索模型、检索方法和用户界面等组成。
其中,信息资源包括数据库、文档集合等;检索模型包括向量空间模型、布尔模型等;检索方法包括倒排索引、词频统计等;用户界面提
供检索接口供用户输入查询词,并显示检索结果。
信息检索的基本流程包括:用户输入查询词->检索系统进行查询处
理->检索系统返回相关文档。
二、信息检索技术
1. 关键词检索
关键词检索是最常见的信息检索方式,用户通过输入关键词,检索系统根据关键词在信息资源中进行匹配,并返回相关文档。
关键词
检索常用的算法有向量空间模型、TF-IDF算法等。
全文检索是指对文档集合中的全部文本进行检索,而不仅仅是关键词。
全文检索主要通过分词、建立倒排索引等技术来实现。
用户输
入的查询词可以是一个短语或一句话。
3. 自然语言查询
自然语言查询是指用户使用自然语言进行查询,而不是像关键词查询那样只输入几个词。
自然语言查询需要将用户的自然语言转化为
计算机可处理的查询语言,如SQL语句。
4. 语义检索
语义检索是一种基于语义理解的检索方法,通过对查询词的语义进行分析,实现更精准、准确的检索。
语义检索常用的技术有词义消歧、词向量模型等。
三、信息检索应用
1. 搜索引擎
搜索引擎是信息检索的最常见应用之一,在互联网上广泛使用。
搜索引擎通过爬虫程序对互联网进行爬取,建立庞大的索引库,并通
过用户输入的查询词返回相关页面。
2. 文献检索
在学术界和科研领域,文献检索是非常重要的工作。
研究人员通过文献检索系统获取相关的研究论文,以便进行进一步的研究和阅读。
图像检索是指通过计算机对图像进行分析和索引,实现图像的相似性匹配。
图像检索广泛应用于图像数据库、图像搜索引擎等领域。
4. 音视频检索
音视频检索是指根据音频或视频内容进行检索,如根据歌曲的歌词进行搜索、根据视频的关键帧进行匹配等。
音视频检索在音乐、广告等领域有广泛应用。
答案和解析:
1. 关键词检索的常用算法有向量空间模型、TF-IDF算法等。
答案解析:向量空间模型将文档和查询词都表示为向量,通过计算它们之间的相似度进行匹配。
TF-IDF算法通过词频和逆文档频率来衡量词的重要性。
2. 全文检索需要对文档集合进行分词,再建立倒排索引。
答案解析:分词将文本拆分成一个个词语或短语,便于后续的索引和匹配。
倒排索引是一种通过词语构建索引的方式,可以快速找到包含某个词语的文档。
3. 自然语言查询需要将用户的自然语言转化为计算机可处理的查询语言。
答案解析:自然语言查询需要通过自然语言处理或机器学习等技术将用户的自然语言转化为计算机可理解的形式,如SQL语句,再进行查询。
4. 语义检索可以通过词义消歧和词向量模型等技术实现。
答案解析:词义消歧是解决词义多义性问题的技术,通过上下文或语境来确定一个词的具体含义。
词向量模型是通过将词语映射到高维向量空间来表示词的语义信息。
以上是关于计算机复习信息检索的相关内容。
信息检索作为一项重要的技术,在各个领域有着广泛的应用,为用户提供准确、快速的信息查询服务。
我们需要了解信息检索的基本概念、技术和应用,以提高我们的搜索效率和准确性。