信息检索原理与技术资料整理
- 格式:docx
- 大小:135.92 KB
- 文档页数:53
信息检索的原理
信息检索的原理是通过对大量文本语料进行分析和索引建立,以便在用户提出查询需求时能够快速地找到相关的文档或资源。
具体来说,信息检索的原理包括以下几个步骤:
1. 文本预处理:对原始文本进行分词、去除停用词、词干提取等处理,以减少噪音和冗余信息,并将文本转换为机器可理解的形式。
2. 建立索引:将预处理后的文本建立索引结构,例如倒排索引。
倒排索引是一种将词与其所在文档的映射关系存储起来的数据结构,可以快速地定位到包含特定词语的文档。
3. 查询处理:当用户提出查询请求时,系统会将查询语句进行与建立的索引进行匹配,例如找到包含所有查询词的文档。
查询可以采用布尔查询、向量空间模型、语义匹配等不同方法。
4. 相关度排序:根据查询结果的相关度对文档进行排序,以便用户能够优先查看最相关的文档。
排序可以使用向量空间模型中的余弦相似度、BM25等算法。
5. 结果展示:将排序后的结果展示给用户,通常包括一部分摘要或关键词高亮,以帮助用户快速浏览和判断文档的相关性。
信息检索的原理可以借助计算机算法的高效执行,为用户提供精确、快速和准确的结果。
不同的信息检索系统可能采用不同
的算法和技术,但核心思想是通过对文本的分析和索引建立,找到与用户查询相关的文档或资源。
信息检索知识点 Revised by Liu Jing on January 12, 2021信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
信息检索与搜索引擎的原理与实现信息检索是指通过对文本、图像、音频等信息资源进行处理和匹配,从中获取用户所需内容的一种技术。
而搜索引擎则是实现信息检索的重要工具,它通过建立索引、采集网页和提供检索功能,向用户提供全面的资源搜索服务。
本文将着重介绍信息检索与搜索引擎的原理与实现。
一、信息检索的原理信息检索是一门复杂的学科,其中涉及到多个原理和方法。
在信息检索的过程中,主要包括以下几个步骤:1. 信息需求分析:分析用户的信息需求,了解用户所需要的具体内容和检索目标。
2. 数据采集与预处理:通过网络爬虫等工具,从互联网上获取大量的文本数据,并进行相关预处理,如去除HTML标签、停用词过滤、分词等。
3. 文本索引构建:将得到的文本数据进行索引构建,以便快速查找和匹配。
常见的索引结构包括倒排索引和正排索引。
4. 查询索引匹配:根据用户的查询词,寻找与之匹配的索引,以获取相关的文档记录。
5. 结果排序与评价:对匹配到的文档进行排序,将用户最可能感兴趣的文档显示在前面,并通过相关性评价指标对搜索结果进行衡量。
二、搜索引擎的实现搜索引擎是实现信息检索的重要工具,目前市面上有很多搜索引擎产品,如Google、百度、必应等。
搜索引擎的实现过程可以分为以下几个关键步骤:1. 网页采集:搜索引擎通过网络爬虫程序自动地爬取互联网上的网页内容,并将其存储到数据库中,以备后续索引和检索使用。
2. 索引构建:搜索引擎将采集到的网页内容进行索引构建,常用的索引结构有倒排索引和正排索引。
3. 查询处理:当用户输入查询词后,搜索引擎通过查询处理程序进行查询解析、查询扩展、查询优化等操作,以便更好地理解用户的查询意图。
4. 结果排序:搜索引擎通过一系列的算法和评价指标,对匹配到的文档进行排序,并将排名较高的文档显示在搜索结果的前面,以提供给用户更有用的信息。
5. 检索结果展示:搜索引擎将经过排序的文档结果以页面形式展示给用户,同时还提供相关的搜索建议、相关搜索等功能,以方便用户获取更多的信息。
信息检索技术信息检索技术是一种用于从大量数据中获取所需要的信息的方法。
随着互联网的快速发展,信息检索技术变得越来越重要。
本文将介绍信息检索技术的定义、基本原理以及在实际应用中的重要性。
一、定义信息检索技术是一种通过对数据进行分类和组织,然后根据用户的需求来获取所需信息的方法。
它可以帮助人们快速、准确地找到所需的信息,并提高信息的利用效率。
信息检索技术广泛应用于搜索引擎、大数据分析等领域。
二、基本原理信息检索技术的基本原理包括文档处理、索引构建和查询处理三个步骤。
1. 文档处理文档处理是指将原始数据转化成计算机可识别的文本形式。
这一步骤包括数据采集、数据清洗、数据分析和文本预处理等过程。
通过文档处理,可以将原始数据转化为高质量、可供检索的文档集。
2. 索引构建索引构建是指将文档集中的信息进行分类和组织,生成用于检索的索引结构。
常见的索引结构包括倒排索引、正排索引等。
通过索引构建,可以提高信息的存储效率和检索效率。
3. 查询处理查询处理是指根据用户的查询请求,在索引结构中查找并返回与查询相关的文档。
这一步骤包括查询解析、查询优化和查询执行等过程。
通过查询处理,可以实现准确、高效的信息检索。
三、在实际应用中的重要性信息检索技术在今天的社会中扮演着重要的角色,具有以下几方面的重要性。
1. 提高信息获取效率信息检索技术能够帮助人们快速、准确地获取所需的信息,提高信息获取的效率。
通过搜索引擎,用户可以方便地找到所需的资料,而无需耗费大量的时间和精力。
2. 支持决策和分析信息检索技术可以为决策者提供可靠的数据和信息支持。
在大数据分析中,信息检索技术可以帮助分析师从庞大的数据中提取有价值的信息,进而为决策和分析提供参考。
3. 促进科学研究和知识传播信息检索技术对科学研究和知识传播起到了重要的推动作用。
科学研究者可以通过检索相关文献和研究成果,快速了解最新的研究进展;而知识传播者可以通过搜索引擎等渠道将自己的知识广泛传播。
简述信息检索的原理
信息检索是一种通过计算机技术,在大规模的数据集中查找和提取相关信息的过程。
其原理可以简述为以下几个步骤:
1. 数据准备:信息检索需要先将待检索的数据集进行预处理,包括分词、去除停用词(如“的”、“是”等无实际意义的词)、
词干化(将不同形式的词汇转化为其原始形式)等操作,以便后续的索引构建和匹配计算。
2. 索引构建:在进行信息检索之前,需要先构建索引结构来加速搜索过程。
常见的索引结构包括倒排索引(Inverted Index),通过将每个单词(分好词的数据)与其出现的文档关联起来,快速找到包含某个单词的文档记录。
3. 查询处理:当用户输入一个查询请求时,首先需要对用户的查询进行处理,包括分词、去除停用词等操作,得到与索引一致的查询项。
4. 匹配计算:通过比较查询项和索引中的文档集合,计算出每个文档与查询的相关性得分。
这些得分可以使用不同的算法进行计算,如TF-IDF、BM25等,以便排序和筛选出与查询最
相关的文档。
5. 结果展示:将得分高的文档按照一定的规则进行排序,并通过界面将结果展示给用户。
常见的展示方式包括简单的列表显示、摘要展示以及更复杂的聚类、分类等。
6. 反馈和优化:根据用户的反馈和使用情况,可以通过对查询和结果的分析,进行相应的优化和改进。
这可能包括调整索引结构、改进查询处理流程、优化算法等。
综上所述,信息检索通过数据准备、索引构建、查询处理、匹配计算、结果展示等步骤,通过计算机技术快速准确地从大规模数据集中检索出相关的信息,以满足用户需求。
信息检索的基本原理信息检索是指从大量的信息资源中找到用户所需的信息的过程。
它是一种通过计算机系统来获取相关信息的技术,也是现代信息社会中不可或缺的一部分。
信息检索的基本原理涉及到信息的组织、存储、检索和呈现等方面,下面我们来详细介绍一下信息检索的基本原理。
首先,信息检索的基本原理之一是信息的组织和存储。
在信息检索系统中,信息通常以文本的形式存在,因此需要对文本进行组织和存储。
这包括对文本进行索引、分类、标记等操作,以便于后续的检索和呈现。
索引是信息检索系统中非常重要的一环,它可以帮助用户快速地找到所需的信息。
同时,分类和标记可以帮助系统更好地理解和处理文本,提高检索的准确性和效率。
其次,信息检索的基本原理还包括检索和匹配。
检索是指用户通过检索词(关键词)来获取相关信息的过程,而匹配则是指系统根据用户的检索词和需求,从存储的信息资源中找到与之匹配的内容。
在信息检索系统中,通常会使用各种算法和技术来实现检索和匹配的功能,以提高检索的准确性和速度。
例如,常见的检索算法包括倒排索引、向量空间模型等,它们可以帮助系统更好地理解和处理用户的检索需求,从而提供更准确和相关的搜索结果。
另外,信息检索的基本原理还涉及到信息的呈现和推荐。
一旦系统找到了与用户需求匹配的信息,就需要将这些信息以合适的方式呈现给用户。
这包括对搜索结果的排序、摘要的生成、相关性的评估等操作,以提高用户对搜索结果的满意度。
同时,信息检索系统还可以通过推荐算法来向用户推荐相关的信息,帮助用户发现他们可能感兴趣但又不知道的信息资源,从而提高信息的利用率和用户体验。
总的来说,信息检索的基本原理涉及到信息的组织、存储、检索和呈现等方面。
通过对信息的组织和存储,系统可以更好地理解和处理文本;通过检索和匹配,系统可以帮助用户快速地找到所需的信息;通过信息的呈现和推荐,系统可以提高用户对搜索结果的满意度和信息的利用率。
信息检索技术的发展不仅可以帮助用户更方便地获取信息,也可以帮助组织更好地管理和利用信息资源,因此具有非常重要的意义。
简述信息检索的原理信息检索是指通过计算机技术,基于用户需求,在大规模数据集中查找并获取相关信息的过程。
在当前大数据时代,信息检索已成为人们获取信息的主要方式之一。
信息检索的原理包括以下几个方面:一、信息检索的基本原理信息检索的基本原理是将用户输入的查询词作为检索系统的输入,检索系统根据用户输入的查询词在数据集中进行匹配和筛选,最终将相关信息返回给用户。
这个过程包括以下几个步骤:1. 数据集的建立:信息检索系统需要先建立一个数据集,也就是将需要检索的信息进行分类、整理、标注和索引,以便用户能够更快地找到相关信息。
2. 用户查询:用户输入查询词,这些查询词可以是单个词、短语、问题或者其他形式的查询。
3. 检索算法:检索算法是信息检索系统的核心,它根据用户输入的查询词,对数据集中的信息进行匹配和筛选,并返回相关信息。
4. 结果展示:信息检索系统将匹配的信息按照一定的规则进行排列,以便用户能够更快地找到所需信息。
二、信息检索的技术原理信息检索技术是指通过计算机技术,对数据集中的信息进行分类、整理、标注、索引和检索的过程。
信息检索技术包括以下几个方面:1. 自然语言处理:自然语言处理是指通过计算机技术,对人类自然语言进行分析、理解和处理。
在信息检索中,自然语言处理可以帮助系统更好地理解用户查询词的含义,从而更准确地匹配和筛选相关信息。
2. 数据挖掘:数据挖掘是指通过计算机技术,对大规模数据进行分析和挖掘。
在信息检索中,数据挖掘可以帮助系统更好地理解用户需求,从而更准确地匹配和筛选相关信息。
3. 信息抽取:信息抽取是指通过计算机技术,从非结构化数据中抽取有用信息的过程。
在信息检索中,信息抽取可以帮助系统更好地获取相关信息,从而更准确地匹配和筛选相关信息。
4. 机器学习:机器学习是指通过计算机技术,对数据进行分析和学习,从而提高系统的准确性和效率。
在信息检索中,机器学习可以帮助系统更好地理解用户需求,从而更准确地匹配和筛选相关信息。
信息检索技术手册一、引言信息检索技术是指通过计算机等工具对大规模的信息资源进行存储、索引和检索,以满足用户需求的技术。
本手册将为读者介绍信息检索技术的基本原理、常用算法和实际应用,以帮助读者更好地理解和应用这一领域的技术。
二、基本概念1. 信息检索概述信息检索是指根据用户需求,在大规模的信息资源中寻找到相关的信息并返回给用户。
它涉及到文档的存储、索引和检索等一系列工作,其目的是提供高效、精确的信息检索服务。
2. 关键词提取关键词提取是信息检索的基础工作之一,通过分析文本内容,从中提取出具有代表性的关键词。
关键词的准确提取可以提高文档的索引效果,并帮助用户更快地找到所需信息。
3. 文档索引文档索引是信息检索中的核心环节,它将文档的关键信息进行结构化存储,以方便用户进行检索。
常见的文档索引方法包括倒排索引、正排索引等,它们能够提高信息检索的效率和准确性。
4. 相关性评估在信息检索过程中,需要对检索结果进行相关性评估,以确定哪些结果与用户需求最为相关。
相关性评估主要依靠一些算法和模型,如向量空间模型、余弦相似度等,可以对文档进行排序和过滤,提供用户满意的搜索结果。
5. 查询扩展为了提高信息检索的准确性和广度,查询扩展技术可以帮助用户进行更全面的信息检索。
查询扩展通过自动或人工的方式,对用户的查询进行扩展和修正,从而提供更准确的搜索结果。
三、常用算法1. 倒排索引算法倒排索引算法是信息检索领域中最常用的索引方法之一。
它通过将文档中的关键词映射到相应的文档位置,实现了根据关键词快速定位到相关文档的功能。
2. 向量空间模型向量空间模型是一种常用的文档表示方法,它将文档表示为高维向量,通过计算向量之间的相似度,实现文档的相关性评估和排序。
3. PageRank算法PageRank算法是一种用于网页排序的算法,它通过计算网页之间的链接关系和重要度,为搜索引擎提供了一个权威性的排序准则。
四、实际应用1. 搜索引擎搜索引擎是信息检索技术的典型应用之一,如谷歌、百度等。
计算机的信息检索技术有哪些详解信息检索的基本原理与方法信息检索是指通过计算机技术,从大量数据中快速找到所需信息的过程。
随着互联网的普及和信息爆炸的时代,信息检索技术的重要性日益突出。
本文将详解信息检索的基本原理与方法,以及常见的信息检索技术。
一、信息检索的基本原理信息检索的基本原理是通过索引和检索两个步骤实现的。
首先,在建立索引的阶段,将待检索的数据进行预处理,提取出关键词和相关信息,并建立索引文件。
索引文件包含了每个文档中所有的关键词及其所在位置的信息。
其次,在检索的阶段,用户输入检索词,系统根据索引文件快速定位到相关文档,并将其返回给用户。
二、信息检索的方法1. 布尔检索法布尔检索法是最早的信息检索方法之一,它通过逻辑运算符(例如AND、OR、NOT)将用户检索词与索引文件中的关键词进行匹配,从而找到满足要求的文档。
这种方法简单直接,但需要用户具有一定的逻辑思维能力。
2. 向量空间模型向量空间模型将文档表示为向量,并利用向量之间的相似度进行检索。
在该模型中,每个文档可以看作是一个向量,而检索词也可以转换为向量。
通过计算文档向量与检索向量之间的相似度,可以确定与用户需求最匹配的文档。
3. 概率检索模型概率检索模型基于信息检索的概率理论,利用检索词在文档中出现的概率和文档的相关性进行检索。
常见的概率模型包括贝叶斯模型和语言模型。
这种方法能够更准确地计算文档与检索词的相关性,提高检索结果的质量。
4. 自然语言处理技术自然语言处理技术在信息检索中起着重要的作用。
通过对自然语言的分析和理解,能够更好地理解用户查询的意图,并将其转化为机器可理解的形式。
常见的自然语言处理技术包括词法分析、句法分析和语义分析。
三、常见的信息检索技术1. 网页搜索技术网页搜索技术是信息检索中最常见的应用之一。
通过搜索引擎,用户可以快速找到互联网上的相关信息。
网页搜索技术常用的算法包括页面排名算法(例如PageRank算法)和关键词匹配算法(例如倒排索引)。
信息检索的原理和步骤
信息检索是指通过计算机技术对海量的信息进行分类、检索和筛选,以找到用户需要的信息。
其原理通常包括以下几个步骤:
1. 预处理:对原始的文本数据进行处理,包括去除停用词、词干提取和词向量表示等。
这样可以使得数据更加便于处理和分析。
2. 索引构建:将处理后的数据建立索引结构,以实现快速的检索。
常用的索引结构包括倒排索引和向量空间模型等。
3. 查询解析:将用户输入的查询语句进行解析,以提取查询关键词和操作符等信息,并转化为计算机可处理的形式。
4. 匹配与排序:利用索引结构和查询关键词进行匹配,找到与查询条件相符合的文本数据,并按照一定规则进行排序,以便用户获取最相关的结果。
5. 结果呈现:将检索到的结果呈现给用户,通常包括文本摘要、关键词突出等方式。
综上所述,信息检索的原理和步骤主要包括预处理、索引构建、查询解析、匹配与排序和结果呈现等过程。
在这个过程中,计算机技术发挥着重要的作用,使得
用户能够快速有效地获取所需信息。
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
信息检索原理与技术资料整理华中师范大学信息检索原理与技术第一章信息检索概论1.1信息检索基础简述1.信息:事物发出的信号所包含的内容。
2.知识:知识是人类的主观世界对客观世界的概括和反映,是大量有组织的信息,是关于事实和思想的有组织的陈述,提供某种思考的判断和某种实验的结果。
3.知识的分类:①“知事”(know-what):指关于事实方面的知识,也可理解为know-when、know-where,即在什么样的时间(know-when)、什么样的地点或条件下(know-where)能解决什么样的问题。
②“知因”(know-why):指自然原理和规律方面的科学理论,知识的产生是在专门研究机构如实验室和大学完成的。
③“知道怎样做的知识”(know-how):指做某些事情的技艺和能力,被称为技术情报和商业秘密,其典型是企业开发和保存于其内部的技术诀窍或专有技术。
④“谁以及是怎样创造知识的”(know-who):侧重对创造思想、方法、手段、过程及特点等的了解。
4.文献:文献是记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。
构成三要素:①构成文献内核的知识信息②负载知识信息的物质载体③记录知识信息的符号和技术特点:知识性(本质)、传递性、动态性。
分类标准:内容加工程度划分:①一次文献信息:指作者以自己的研究成果为基础创作和撰写的、未经过加工的原始文献。
②二次文献信息:指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书目信息,它具有汇集性。
③三次文献信息:是对一次、二次信息综合、分析等深加工的产物,如评论、进展报告、评述、百科全书、年鉴、指南、期刊书目等。
载体形式划分:书写型、印刷型、缩微型、声像型、机读型五大类。
5.文献信息链:文献作为人类文化信息的承载物,从其产生、替代、反复被利用、再创造,直至产生新知识,是一个不断演进的运动过程。
6.信息、知识和文献三者之间的关系(重点):信息>知识>文献信息、知识和文献的联系在于:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容。
它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。
它是无形的、与行动和决策相关、经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;文献是知识的一部分,是进入人类社会交流系统的运动着的知识。
具体来说,三者之间的关系为:信息>知识>文献。
7.文献信息流(重点和难点)一次文献信息流发展壮大后,难以被掌握和利用,于是文献信息服务机构对一次文献进行书目控制和重新组织,使得其进入到有序化阶段。
这一阶段由三个环节组成。
①替代:描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文摘、索引等二次文献信息。
②改组:从一次文献信息中提取数据、事实和结论,重新组合,形成手册、名录、辞典等类型的文献信息。
③综合:利用二次文献对一次文献所包含的知识加以综合并融入到现有的知识体系中,成整个知识体系的有机组成部分。
如专著、教科书、综述等。
文献信息流的继续演变是对二次文献信息流的书目控制和改组,即进入“二次替代”过程,其结果是“书目之书目”、“文献指南”之类的工具。
文献信息流是一个以研究活动为起点,按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。
1.2信息检索概念和原理1.信息检索:是从信息集合中识别和获取信息的过程,本质是用户的信息需求和一定的信息集合的匹配。
广义:信息的存储和检索。
狭义:信息的检索。
信息的存储:主要包括在某一专业或领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。
信息的检索:是指借助一定的设备和工具,采用一系列的方法与策略从信息集合中查询所需的信息。
2.信息检索类型:手工检索:简称“手检”,主要使用印刷型信息检索工具,其检索过程就是大脑分析、思考和手工操作的配合过程。
计算机检索:简称“机检”,主要使用计算机信息检索系统(包括各种数据库、应用软件、通信设施等),检索过程就是人的设计操作和计算机自动化处理相结合的过程。
3.信息检索系统:信息检索系统是指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术装备,提供一定的检索服务功能的一种相对独立的实体。
4.信息检索入口:信息检索入口又称检索点或检索标识,是指用以标识信息的外部特征和内部特征的属性值的集合。
5.信息检索的一般原理:包括信息的存储与检索两个过程。
建立文本数据库=》建立文本索引(通常采用倒排档)=》用户明确自己的信息需求=》产生检索提问=》构造检索提问表达式=》产生检索结果=》不满意则修改表达式=》产生满意结果1.3检索系统与检索工具1.检索系统的构成:检索系统的构成包括物理构成和逻辑构成。
2.从物理构成的角度来考察,检索系统一般包括硬件、软件和数据库三个组成部分。
①硬件:是计算机检索系统采用的各种硬件设备的总称。
②软件:包括与计算机检索相关的各种系统软件及相关应用软件。
③数据库:至少由一种文档组成,并能满足某一特定目的或某一数据处理系统需要的一种数据集合。
3.数据库分为以下类型:①参考型数据库:它是指引用户到另一信息源以获得原文或其他细节的一类数据库,包括书目数据库和指南数据库。
书目数据库就是指存储某个领域的二次文献的一类数据库。
指南数据库是指存储某些对象的简要描述,指引用户从其他源获取更详细信息的一类数据库。
②源数据库:它是指提供原始资料或具体数据的自足性数据库,它包含数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库以及音视频数据库。
(2014和2015名词解释)③混合型数据库:它是指能存储多种不同类型数据的数据库。
4.不管检索系统的物理构成如何,它们的逻辑构成都是相同的或基本相同的,一般由以下六个子系统构成。
①文献与数据的选择与抽取子系统该子系统的功能是从外部信息源输入,输入时按照系统既定方针和用户需求进行选择。
选择标准包括专业覆盖面、文献信息类型、摘储率、文种、时间跨度等。
1)专业覆盖面:就检索系统的数据库对文献和知识的学科专业的覆盖面来说,有综合性检索系统、多学科检索系统、专业检索系统。
2)摘储率:对于某一专业领域,抽取的信息占该领域所有信息的比率。
②词表子系统数据库中所收录的知识与文献,需要依靠使用一定的检索语言来加以表征和组织;另外,检索者的检索提问也需借助检索语言来表达。
这样才能使存储与检索得到有效的沟通和控制,保证检索系统达到令人满意的查准率与查全率,减少漏检与误检。
采用词表控制的检索系统称为控制词汇的检索系统。
随着计算机为主体的现代信息技术在信息处理领域的广泛应用,关键词、自由词等一些无词表控制的检索语言的应用逐步推广,因而出现了一些非控制词汇的情报检索系统。
它又可分为完全的自然语言检索系统和后控制的自然语言检索系统。
后控制的自然语言检索系统在系统内设有只供检索用的后控制词表,这种词表没有预先编定的形式,而是通过检索者的使用,将检索式中用“或“逻辑相连的检索词,由机器提取并逐步累积起来的一组一组的词表。
在检索时,由系统自动纳入检索式,进行扩检。
但对检索者来说,后控制的自然语言检索系统使用的是自然语言。
“后控制“的过程对检索用户来说是透明的。
【2015名词解释】③标引子系统按照一定的词表,对文献赋予标引词,以表征文献的特征,形成文献的标识,这一过程就是标引。
依据这个子系统,情报检索系统可分为人工标引的检索系统和机器标引的检索系统。
对于完全自然语言的检索系统来说,可能根本就不进行标引,这种情况成为无标引或全标引。
④查询子系统把用户的需求,经过概念分析,转换成系统语言的词汇,并指出其逻辑关系的过程。
具体来说就是构造检索策略的过程。
⑤用户与系统交互子系统该系统即检索系统向用户提供实现其检索过程的手段。
⑥匹配子系统该子系统的功能是对文献的标引记录和提问的检索策略进行对比并决定取舍。
5.检索工具的体系结构和功能【2015年简答】(1)结构一部体系完整的检索工具通常由以下五个部分组成。
①编辑说明与凡例编辑说明与凡例通常放在检索工具的开头部分。
1)编辑说明一般向用户揭示该检索工具的编辑目的、收录范围、选材原则、适用对象、出版沿革、总体结构、各部分的用途及用法等。
编辑说明的作用是向用户介绍该检索工具的概貌,以便用户确认该工具是否合适自己。
2)凡例对用户检索起具体的指导作用,通常以简洁的文字和示例详细介绍检索工具的编排体例、著录格式、著录项目和查找方法等,使用户对该检索工具有进一步的认识,了解其各方面的特征,掌握其使用方法。
②分类表与主题表分类表与主题表是编制和使用检索工具必不可少的辅助工具。
1)分类表主要用于文献款目的编排和浏览。
分类表的详表单独出版,分类编排文献款目的检索工具往往有分类表的简表,放在每期的前面,并与目次页结合在一起。
2)主题表有两个作用:一是像分类表那样,用于文献款目的编排和浏览,但这仅指按主题编排文献款目的检索;二是用于主题标引和检索,为检索工具和用户提供允许使用的主题词及其参照系统,保证标引的一致性以及标引与检索的一致性。
③正文正文是检索工具的主体,它由大量的文献款目按一定顺序编排而成。
从正文内部讲,其主要作用有两个:一是为用户判断检中文献是否符合自己的要求的依据,以便决定取舍;二是为用户提供获取所需原始文献的线索。
④辅助索引辅助索引是从正文中抽出检索标识以及有检索意义的外部特征和内容特征,如主题词、作者、各种号码等,编制成各种索引,每个索引款目都要注明一个或多个正文地址,从而指回正文的对应位置。
辅助索引的目的就是为了给用户提供更多的检索途径,提高检索效率。
⑤资料来源目录与附录1)资料来源目录是检索工具所摘录文献出处的目录,一般是指来源期刊,也叫引用期刊目录或来源出版物目录。
2)附录主要包括专业术语缩略语表、字母音译对照表、期刊代码表等,便于用户正确识别检索工具正文中的缩略语、代码、音译名等。
需要指出的是,构成检索工具的上述五个部分是有机联系、不可分割的整体。
(2)功能检索工具的功能基本是相同的,主要有报道、存储和检索三大功能。
①报道功能:检索工具首先应具有报道功能。
检索工具以最新文献为基本报道对象,从检索工具本身讲,报道功能主要是通过正文实现。
②存储功能:检索工具问世后,经过一段时间,所报道的当时认为是最新的文献逐渐过时,相对而言,新文献逐渐变成了旧文献,原有的报道功能开始逐渐减弱,甚至消失了。
但与这一个过程几乎同时发生的是,就检索工具已经报道过的文献而言,数量越积越多,逐渐形成了一定规模。