第6章信息检索与web搜索
- 格式:pdf
- 大小:374.66 KB
- 文档页数:50
信息检索知识点信息检索考点整理1.信息检索的概念⼴义的信息检索是指将信息按⼀定的⽅式组织、存储起来,并根据信息⽤户的需要找出有关信息的过程,包括信息的存储和检索两个过程;⽽狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索⼯具中的信息特征标识进⾏相符性⽐较,凡是信息特征标识与检索提问标识相⼀致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索⼯具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利⽤检索语⾔对⽂献进⾏标引,形成⽂献特征标识并输⼊检索⼯具,为检索提供有规律的检索途径;检索过程主要是利⽤检索语⾔对检索提问进⾏标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与⽂献特征标识进⾏⽐较。
检索过程是存储过程的逆过程。
因此,检索者只有在全⾯了解存储者是怎样把⽂献存⼊到检索⼯具中去以后,才知道怎样从检索⼯具中把所需要的信息检索出来。
4.信息检索的⽅法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)⽂献编号途径d)⽬录检索途径e)机构检索法f)引⽂检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应⽤⼴泛;(3)构成的逻辑提问式可以表达与⽤户思维习惯相⼀致的查询要求,提供⾮常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达⽤户复杂需求效果⽋佳(2)准确匹配⽆法提供定量⽐较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果⼀个检索系统对⽤户的每个检索提问的反应是以⽂献集合中的⽂献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
1)信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
所以,它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。
狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。
相当于我们所说的信息查询(information search)。
2)零次文献:也叫灰色文献,未经公开发表或未交流于社会的文献。
如私人笔记,设计草图、实验记录、文章草稿、会议记录、书信文书、以及档案等。
其主要特点是内容新颖,但不成熟,不公开交流,难以获得。
3)一次文献(Primary Document): 以著者本人的研究或研制成果为依据而创作或撰写的文献,习惯上称做原始文献。
如期刊论文、科技报告、专利说明书、会议论文、学位论文等。
体现创作性。
其主要特点是内容新颖丰富,叙述具体详尽,参考价值大,但数量庞大、分散。
4)二次文献(Secondary Document):就是检索工具。
是将大量分散的无组织的一次文献经浓缩,整序的加工整理,编辑成目录、题录、文摘、索引等检索工具或数据库。
如文摘,目录、索引等。
它有存贮、检索、报道的功能。
体现高度的浓缩性。
其主要功能是检索、通报、控制一次文献,帮助人们在较少时间内获得较多的文献信息。
二次文献具有汇集性、工具性、综合性、交流性等特点。
5)三次文献(Tertiary Document):在一、二次文献的基础上,经过综合分析而编写出来的文献,如专题述评、动态综述、学科年度总结,进展报告以及数据手册、百科全书等参考工具书。
三次文献是情报研究的产物和成果。
具有很强的的综合性。
总之,一次文献(创造性),二次文献(有序化),三次文献(高度浓缩,提炼,再创造)。
6)以上四个级别的文献中,零次文献由于没有进入出版、发行和流通这些渠道,收集利用十分困难,一般不作为我们利用的文献类型。
名词解释1.信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
2.引文索引是一种将科技期刊、专刊、专题丛书等文献资料所发表的论文后所附的参考文献的作者、题目、出处等项目,按照引证与被引证的关系进行排列而编制的索引。
3.CALIS:China Academic Library and Information System中国高等教育文献保障系统。
4.邻近检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。
5.搜索引擎(Search Engine)是一种Web 上应用的软件系统,它以一定的策略在Web 上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。
用户可以通过主题浏览和关键词检索的方式搜索所需信息。
6.截词检索:是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。
检索中,计算机会将所有含有相同部分标识的记录全部检索出来。
截词符一般用“?”或“*”表示,但不同的数据库中有所差别。
7.查准率:是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。
8.查全率:是指检出的文献数量占数据库中全部相关文献数量的比例。
9.文献及其要素“文献”是泛指“有历史价值或参考价值的图书资料。
”要素:1、构成文献内核的信息、知识、数据、事实.2、载体信息、知识、数据、事实的物质载体。
3、记录信息、知识、数据、事实的符号系统。
10.专利文献:专利文献是实行专利的国家、地区及国际专利组织在批审专利过程中产生的官方文件及出版物,包括专利说明书、专利权利要求书、专利公报、专利分类表、专利检索工具等。
11.三大检索系统:SCI(《科学引文索引》,EI是美国《工程索引》(TheEngineeringIndex)的简称,ISTP是IndextoScientific&T echnicalProceedings的缩写。
第一章信息检索概述信息检索(IR):将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息素养:人们在解答问题时利用信息的技术和技能。
信息检索与文献检索的主要区别:文献检索是以获取文献信息为目的的检索,信息检索是收集,组织,存储一定范畴的信息,并根据用户需求查询文献中的信息或知识单元,比文献检索更深入。
信息检索的分类:1、根据检索手段不同可分为1)手工检索2)光盘检索3)联机检索4)网络检索 2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。
信息检索的原理:通过对大量的分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致,以便有效的获得和利用信息源。
存储是检索的基础,检索是存储的目的。
信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
其物理结构:是信息检索所用的硬件资源、系统软件以及信息资源集合(数据库)的总和。
信息检索语言的主要目的:把存储和检索联系起来,把标引人员和用户联系起来,以便取得共同理解,实现交流。
信息检索的历史:最早的信息检索主要依靠信息分类。
1手工检索 2机械信息检索。
3脱机批处理检索是计算机初期使用的一种检索系统 4联机检索 5光盘检索 6 网络信息检索后四者统称为计算机信息检索信息检索的三个经典模型:1布尔模型 2向量空间模型 3概率模型1浏览型模型:扁平式模型、结构导向模型、超文本模型 2检索型模型:结构化模型、基于内容的检索型模型。
信息检索模型是信息检索的核心。
信息检索系统:是具有信息存储和信息查询功能的一类服务设施。
信息检索系统按功能划分5种类型:文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS.信息检索物理结构1计算机硬件2软件3数据库信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。
一、名词解释1.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。
2.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。
3.数据挖掘——就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
4.检索策略——就是在分析课题内容实质的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑联系和查找步骤等。
5.截词检索——是指在检索式中用专门的符号(截词符号)表示检索词某一部分允许有一定词形变化。
6.参考数据库——有时又称为书目数据库,是指包含各种数据、信息或知识原始来源和属性的数据库。
7.特种文献——是指出版发行和获取途径都比较特殊的科技文献,一般包括专利文献、会议文献、科技报告、学位论文、标准文献、政府出版物等文献类型。
8.学位论文——是高等院校或研究机构的学生为获得学位资格而提交并通过答辩委员会认可的学术性研究论文,它是随着学位制度的实施而产生的。
9.科技报告——是关于某科研项目或活动的正式报告或记录,多是研究、设计单位或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计和开发项目的成果进展情况的报告。
10.电子图书——是指以电子文件形式存储在各种磁性或电子介质中,以磁盘、光盘、网络等电子媒体形式出版发行,通过计算机或便携式阅读终端进行阅读的一种新型数字化书籍。
11.电子报纸—多媒体技术、网络技术和通信技术的产物,是指在排、印、投递等方面基本上实现了电子化的报纸。
12.参考工具书——是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
13.年鉴——是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
计算机信息检索02139自考资料第一章信息检索概述1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
2.根据检索手段的不同,信息检索能够分为手工检索、光盘检索、联机检索和网络检索。
3.信息检索的基本原理经过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并经过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
4.信息检索语言信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三者统称为计算机信息检索。
6.与手工检索相比,计算机信息检索的特点表现在:(1)速度快、效率高,仅几分钟就能够从成千上万条记录中找到所需信息;(2)检索范围广,能够迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中,几乎每一台个人计算机都能够成为信息源;(3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就能够在任何地方借助光盘和通信网络查询所需信息。
7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。
信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。
8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。
10.数据库由字段、记录和文档构成。
11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。
12.信息检索系统评价的核心是检索性能评价。
13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一步完善检索工作的过程。