【VIP专享】信息检索与利用 名词解释
- 格式:pdf
- 大小:260.76 KB
- 文档页数:6
信息检索技术与利用信息检索技术与利用一、信息检索技术简介信息检索技术是指通过计算机系统对大量文献或数据进行搜索和筛选,以便用户快速获取所需信息的技术。
其主要应用于互联网搜索引擎、数据库查询以及文献检索等领域。
二、信息检索技术的基本原理1.建立索引为了快速地查找到所需信息,首先需要对文献或数据建立索引。
这个过程包括对文本内容进行分词、去除停用词、统计词频等操作,最终生成一个包含关键词及其出现次数的索引表。
2.查询处理当用户输入查询请求后,系统会对其进行处理。
这个过程包括分析查询语句、提取关键词、构建查询表达式等操作。
最终生成一个能够匹配到相关文献或数据的查询结果。
3.排序算法在得到匹配结果后,需要将其按照相关性排序。
这通常使用TF-IDF算法来实现。
该算法将文档中每个词的重要性评估为该词在文档中出现的频率与所有文档中出现该词的频率之比,并根据此评估值对文档进行排序。
三、常见的信息检索技术1.全文检索全文检索是指对文本内容进行完整的搜索和匹配。
它可以快速地找到包含查询关键词的文档,并按照相关性进行排序。
全文检索常用于互联网搜索引擎、电子邮件系统、博客等领域。
2.元数据检索元数据检索是指对文档的属性信息进行搜索和匹配。
这些属性包括标题、作者、日期等。
元数据检索通常用于图书馆系统、数据库查询等领域。
3.语义检索语义检索是指通过分析查询语句的意思,而不只是关键词,来寻找相关文档或数据。
这种技术需要对自然语言处理有深入的了解,并且需要大量的人工标注数据来训练模型。
四、信息检索技术的应用1.互联网搜索引擎互联网搜索引擎是信息检索技术最广泛的应用之一。
通过对互联网上的网页进行全文检索,并使用复杂的排序算法,可以为用户提供准确和有用的搜索结果。
2.电子商务平台电子商务平台需要对大量商品信息进行管理和搜索。
通过建立商品分类体系和属性标签,并使用元数据检索技术,可以帮助用户快速地找到所需商品。
3.医学文献检索医学文献检索是指对大量医学文献进行搜索和筛选,以便医生和研究人员快速获得所需信息。
信息检索论文摘要:本文主要研究了信息检索的发展和其重要性,信息检索的含义和要素,以及常见的信息检索方法的介绍和信息检索过程,和其中应该注意的问题以及解决方法这几个方面,全文采用有文献法、统计法、个案法。
比较法、行动研究法、调查法和经验总结法等研究方法,来阐述信息检索及其应用。
详细全面的介绍。
从事实和实际出发,着重介绍了信息检索的重要性以及它的实用性。
关键词:网络信息;信息检索;事实检索;检索语言;文献语言一、什么是信息检索通过百度搜索引擎在“百度百科”可得到以下答案:信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。
总的来说,信息检索就是用一定的方式找到用户所需要的信息(此处通过百度查询信息检索的定义也是一种方法)。
那么该如何快速便捷的找到这些我们所需要的信息呢?二、当代信息检索的应用21世纪的人类社会已经进了标准的信息化时代,如今,互联网的出现为我们获取大量有效的信息提供了一个非常便捷的平台。
使信息检索的方式更加多样,信息更加真实有效。
信息检索与应用涉及的领域广阔,从中文数据库搜索的介绍到外文数据库搜索的介绍,然而各种信息数据在不断的增加,怎样更快速便捷的查找到我们需要的信息,这的确是个问题。
我们为什么要进行信息检索呢?通过什么方法进行快速的检索来应用检索也显得日益重要。
我们为什么要进行信息检索呢?一方面,信息检索是获取知识的捷径。
举个例子,美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。
他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。
信息检索与利用的名词解释信息检索与利用是指通过特定的工具和技术,从大量的信息中准确地获取所需的信息,并将其应用到实际问题中。
在当今信息爆炸的时代,信息检索与利用成为了人们获取知识和解决问题的重要手段。
本文将对与信息检索与利用相关的重要名词进行解释。
一、信息检索信息检索是指通过各种信息存储介质和检索系统,根据用户需求,从大规模信息资源中查找并提供相关信息的过程。
它包括了信息需求分析、检索策略制定、检索行为和结果评价等阶段。
信息检索的目标是根据用户的需求,准确地找到相关的信息。
1. 查询查询是用户通过检索系统输入的查找信息的指令或问题。
查询可以是关键词、短语甚至一整个句子。
合理构建查询是信息检索的关键,它决定了检索结果的准确性和全面性。
2. 检索系统检索系统是用来存储和组织大量信息资源,并为用户提供检索服务的系统。
它们通常由索引、搜索引擎、检索算法和用户接口等部分组成。
常见的检索系统包括网络搜索引擎、图书馆信息系统和企业内部知识库等。
3. 信息过滤信息过滤是通过自动化的方式,根据用户的兴趣和关注点,从大规模信息中筛选出符合用户需求的内容。
信息过滤可以根据各种条件和规则进行,例如关键词、时间范围、作者等。
它通过过滤无用信息,提供用户可能感兴趣的内容。
二、信息利用信息利用是将检索到的信息应用到实际问题中解决问题或产生价值的过程。
信息利用是信息检索的延伸和发展,它强调将获得的信息应用到实际场景中,以满足用户的具体需求。
1. 信息处理信息处理是将获取的信息进行整理、分析和加工的过程。
它包括信息的分类、筛选、归纳和汇总等操作,以便用户更好地理解和利用信息。
2. 知识发现知识发现是通过对大规模信息的分析、挖掘和模式识别,从中发现新的知识和规律的过程。
它利用数据挖掘、机器学习和人工智能等技术,从信息中抽取价值,用于决策支持和创新等领域。
3. 信息可视化信息可视化是通过图表、图形和其他视觉化方式,将信息呈现给用户,以提高信息的理解和交流效果。
一、数据库的概念和发展根据ISO/DIS 5172号标准(文献与情报工作术语),数据库(database)的定义为“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合”。
换言之,数据库就是在计算机存储设备上按照一定方式存储的相互关联的数据集合。
由定义不难看出,数据库的产生是以计算机的产生和发展为前提的,计算机的应用从单纯的科学计算到复杂的数据处理为数据库的产生打下了良好的基础。
然而,真正把数据库推向更高层面,提供给更广大的信息需求者的还是近年来迅猛发展的网络,这一点我们从文献数据库的发展阶段来看便可以一目了然。
总体来讲,文献数据库的发展大致经历了以下几个阶段:1.计算机联机检索计算机联机检索始于20世纪50年代,从60年代中期至70年代末期是联机情报检索时期,计算机情报检索系统由晶体管计算机、调制解调器、通信设备和远程数据库组成,检索过程就是通过远程登陆的方式对数据库进行联机检索。
与之前相比这种方式相对加快了检索速度,而且由于数据库增长较快,也丰富了检索内容。
但是,远程数据库所包含的只有简单的文字信息,没有文献本身,而且费用较高。
2.光盘数据库检索20世纪80年代起,大容量计算机存储器和CD-ROM技术的发展,促使计算机情报检索成本迅速下降,计算机检索进入到国际联机检索与光盘数据库检索共同发展的新阶段。
3.网络数据库检索20世纪90年代以来,网络的迅猛发展使计算机检索进入到了一个崭新的时期,数据库也借助着网络迅速发展,至今无论在数量、质量及使用范围上都创了新高。
二、数据库的类型(一)参考数据库(reference database)1.概念参考数据库是指包含各种数据、信息或知识的原始来源和属性的数据库。
它报道文献信息的存在,揭示文献信息的内容。
数据库中的记录格式是通过对数据、信息或知识的再加工和过滤,如编目、索引、摘要和分类等而形成的。
2.类型按数据库内容划分,参考数据库可分为:(1) 书目数据库,是参考数据库中发展较早的,主要是针对图书进行内容及存储地址的报道与揭示,如图书馆的馆藏机读目录。
信息检索与利用复习资料(一)、名词解释1、INTERNET(因特网):Internet:因特网。
泛指由多个计算机网络相互连接而成的一个网络,它是在功能和逻辑上组成的一个大型网络。
采用TCP/IP协议。
2、SCI: SCI是科学引文索引的英文缩写首字母。
SCI是一个引文数据库,收录全世界出版的数、理、化、农、林、医、生命科学、天文、地理、环境、材料、工程技术等自然科学各学科的核心期刊。
3、报刊:报刊是指报纸和期刊的总称,是属于连续出版物,它具有统一的题名,定期或不定期以连续分册形式出版,有卷期或年月标识,并且计划无限期连续出版。
报纸以刊载新闻和评论为主,期则围绕某一学科和某些学科或某一研究对象,由多篇文献资料编辑而成。
4、标准文献。
广义的标准文献包括标准的原始文件及检索工具书等。
狭义的标准文献仅指带有标准号的标准、规范、规程等技术标准。
5、超文本:超文本是在普通文本的基础上增加了链接功能的一种文本。
用户只要用鼠标点击页面上有特殊颜色或有下划线的文字时,就会出现新的解释或访问更多的信息。
6、分类途径:是指按文献内容的学科分类体系查找文献信息的途径。
一般说来,一种检索工具的编制都须按学科建立自己的分类体系,其收录的文献按分类目录中的排序进行编排,这样的编排的结果可将同一学科的文献集中,便于按学科查找文献。
7、技术档案:指生产、设计、建设、科研等专业部门,在科技活动中形成的文件、图书、照片、数据等原始记录文献,包括项目规划、设计、实施方案、任务说明书、协议书、技术指标、实验计划等,具有保密性和内部使用的特点。
8、检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等。
它是根据检索的需要而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言。
9、竞争情报:竞争情报是20世纪80年代在国际上迅速发展起来的一种信息业务,是关于竞争环境、竞争对手和竞争策略的情报研究。
信息检索与利用当今时代被誉为信息爆炸的时代,各种各样的信息以各种各样的形式充斥在人们的学习和生活中,而随着科学技术的不断发展,网络更是其中提供信息的佼佼者,它较与传统的工具书给了当今人们全然不同的体验,它让人们能够更加快速便捷的接受到各种不同的信息,给人们带来了很多方便。
但在网络中也充斥着很多垃圾信息,需要人们经过筛选才能为之所用,如果方法不正确的话也不能达到事半功倍的目的,而且专业性很强的学术信息通过一般途径都是要付费的,这也给我们的学习工作带来很大不便,因此,网络中的信息与检索变得尤为重要。
信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻。
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。
随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。
Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一。
信息检索有广义和狭义的之分。
广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。
狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。
判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。
文献(document)指的是在存贮、检索、利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附载体而存贮有信息或数据的载体。
以文字、图形、符号、声频、视频、电磁信号等手段记录和传播知识的载体就是文献。
检索策略检索策略(Retrieval Strategy),是指为实现检索目标而制定的全盘计划或方案,是对整个检索过程的谋划与指导。
数据库数据库(Database)是至少由一种文档组成的,能够满足某种特定目的或特定数据处理系统需要的数据集合。
通俗地讲,数据库就是按照一定方式存贮的相互关联的信息集合。
目录目录(Catalog)是以完整的出版单元(如一种图书、一种期刊)为单位,按照一定次序编排的对文献信息进行描述和报道的工具,也称书目。
目录对文献的描述比较简单,每条记录的字段主要包括:文献题名、责任者、出版事项、分类号、主题词等。
禁用词禁用词(STOP WORD)是指不表达实际意义的虚词,如冠词、介词、连词等。
通常在检索系统生成索引的过程中会忽略这些虚词。
所以,检索时如关键词中间出现这些禁用词,会被检索系统忽略。
1.信息检索答:信息检索是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程,又叫信息储存与检索,这是广义的信息检索。
狭义的信息检索则是仅指该过程的后半部分,即从信息集合中找出所需信息的过程。
2.追溯法(引文法)答:利用参考文献进行深入查找相关文献的方法。
追溯法包括两种方法: 一种是利用原始文献所附的参考文献进行追溯;另一种是利用引文索引检索工具进行追溯。
3.三次文献答:是在对有关的一次文献和二次文献进行分析研究的基础上,通过综合概括而编写出的文献,是文献信息研究的成果和产物,具有参考性和指导性。
如教科书、综述、工具书、进展、调查报告、标准等。
4.目录答:是对图书、期刊或其他单独出版物特征的揭示和报道。
目录以单位出版物为著录对象,一般只记录其外部特征。
如题名、著者、出版事项、载体形态等。
5.专利权答:是指国家专利主管机关授予申请人在一定时间内享有的不准他人任意制造、使用或销售其专利产品或者使用其专利方法的权利。
1.检索工具答:是在一次文献的基础上,经过加工整理、编辑而成的二次文献,用于存储和检索文献线索。
2.一次文献(原始文献)答:是以著者本人的研究或研制成果为依据而创作或撰写的文献,是在科学研究中需重点查找的文献。
一次文献强调创造性,是对知识信息的第一次加工。
常见的一次文献有:期刊论文、专利说明书、会议论文、学位论文、技术标准、报告等。
3.题录答:是对单篇文献外表特征的揭示和报道,著录项目一般有篇名、著者、著者单位、文献来源、语种等。
1.文献文献是记录有知识的一切载体。
2.情报情报是人们以各种方式传递与交流的具有一定目的与时效的信息,是人们为一定目的搜集的有使用价值的知识或信息。
3.信息信息指物质存在或运动方式与状态的表现形式或反映,是现实世界事物的反应,它提供了客观世界的消息、知识,是事物的一种普遍属性。
4.索引将文献中具有检索意义的事项(可以是人名、地名、词语、概念、或其他事项)按照一定方式有序编排起来,以供检索的工具书。
5.倒排文档倒排文档就是把记录中一切可检字段或属性值抽出,按某种顺序重新加以组织后所得到的一种文档.倒排档从主文档中派生出来,所以,又叫做辅助文档.6.信息检索广义的信息检索是指将信息按一定的方式组织和存储起来,并根据用户的需要找到有关信息的过程和技术。
狭义的信息检索是指从信息集合中找到所需信息的过程。
7.信息素养信息素养是指判断何时、何地需要信息,并有效地定位、获取、评价和利用信息的一系列能力的总和。
8.信息意识信息意识又称信息观念,是人们对信息需求的自觉反映,即对信息的捕捉、分析、判断和吸收的敏感性。
9.信息能力是人们有效快速的获取、加工、存储、利用和传递信息的能力。
10.信息道德是指在整个信息活动中,信息创建者、信息服务提供者和信息使用者所必须要遵守的社会法律法规和行为准则。
11.零次文献是指未公开出版的实验记录、原始录音(像)、书信、手稿、口头交流的信息或实物等。
12.一次文献指以作者本人的研究成果为依据而撰写并公开发表或出版的信息。
13.二次文献是对一定范围、时间或类型的大量一次文献按其特征收集整理、压缩、加工,并按一定顺序组织编排、用于检索查找利用这些文献而编制的文献。
如书目、索引、文摘、题录、简介等。
14.三次文献三次文献是在充分利用二次文献的基础上对一次文献做出的系统整理和概括的论述,并加以分析综合编写而成的概括性文献。
15.追溯法查找文献的方法之一。
以某一文献后所附的参考文献为线索,逐一追查原文;再根据这些原文后的参考文献逐渐扩大线索,不断追查下去,获得相关文献的方法。
用追溯法查找文献可以以各种引文索引为工具,也可利用述评、总结性文章后面的参考文献。
一般在没有适用的检索工具或检索工具不完备的情况下,利用追溯法可获得一批相关文献。
16.主题词是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。
17.关键词关键词是出现在文献题名、文摘、正文中,能够表达文献主题,具有检索意义的语词。
18.叙词所谓叙词,是指从自然语言中优选出来并经过规范化处理的术语,又称主题词。
19.搜索引擎Internet上具有查询功能的网页的统称,即允许用户递交查询,检索出与查询相关的网页结果列表,并且排序输出。
20.元搜索引擎通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。
21.数字图书馆数字图书馆(Digital Library)是用数字技术处理和存储各种图文并茂文献的图书馆,实质上是一种多媒体制作的分布式信息系统。
它把各种不同载体、不同地理位置的信息资源用数字技术存贮,以便于跨越区域、面向对象的网络查询和传播。
它涉及信息资源加工、存储、检索、传输和利用的全过程。
22.脱机检索脱机检索是指检索者直接在计算机旁进行文献检索的一种方式,在此方式中,用户勿需利用终端和电讯网络直接与计算机联系,只需要把检索要求送往检索中心,由专职操作计算机的人员(即检索者)进行检索。
23.联机检索用户借助通讯线路,通过终端设备同检索系统联机所进行的文献与数据检索24.文件传送协议FTP是file transfer protocol的缩写,其功能是利用网络建立本地计算机同远程计算机之间的连接,相互传送信息。
FTP是共享网络信息资源高效率、使用频率相当高的工具。
25.默认检索默认检索又称缺省检索、隐含检索,是指在检索系统预先设定的多个字段中进行检索。
26.查全率查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实用的相关文献量在多大程度上被检索出来。
查全率=【检出相关文献量/文献库内相关文献总量】×100%27.查准率查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。
查准率=【检出相关文献量/检出文献总量】×100%28.字段字段是组成记录的数据项。
书目数据库中的字段反映一篇文献的具体特征,如标题字段、著者字段、文献来源字段、主题词字段、关键词字段、文摘字段、语种字段等。
29.书目数据库书目数据库是文献检索中最常见的一种数据库,它提供文献的各种特征,如文章的标题、作者、文献出处(刊名、年、卷、期、页码)、文章摘要、馆藏单位等。
30.专利文献是实行专利制度的国家及国际组织在审批专利过程中产生的官方文件及其出版物的总称。
31.循证医学循证医学(Evidence Based Medicine,EBM)是遵循科学证据的临床医学。
它提倡将临床医师个人的临床实践和经验与客观的科学研究证据结合起来,将最正确的诊断、最安全有效的治疗和最精确的预后估计服务于每位具体患者。
32.影响因子某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数。
1.零次文献:未经正式发表或不宜公开或大范围内交流的比较原始的素材、底稿、手稿、书信、工作文稿、工程图纸、实验记录以及各种口头交流的知识、经验或意见论点等。
2.数字图书馆:采用现代高新技术所支撑的数字信息资源系统,它将文字、图像、语音、影像、软件和科学数据等信息以数字化方式进行存储,以网络化方式进行连接,为用户提供实时服务,实现资源共享。
3.搜索引擎:是一种能够通过接受用户指令,并向用户提供符合其查询要求的信息资源或网址的系统。
4.专利文献:专利审批过程中产生的官方文件以及出版物的总称,是专利制度的产物。
4、1. 一次文献:即原始文献。
它是作者以生产或科研为依据而创作的原始文献。
如专著、期刊论文、学位论文等。
2. 技术档案:指生产、设计、建设、科研等专业部门,在科技活动中形成的文件、图书、照片、数据等原始记录文献,包括项目规划、设计、实施方案、任务说明书、协议书、技术指标、实验计划等,具有保密性和内部使用的特点。
3. 目录:是图书、期刊或其他单位出版物外表特征的揭示与报道。
它是以一本书、一种刊物为著录的基本单位,记录图书、期刊、资料等的名称、著者、出版项与馆藏项等内容,并按照一定的编排体例进行编制,但不涉及书中的章节或期刊中具体的文章。
4.检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等。
它是根据检索的需要而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言。
5、追溯法:以已获文献后面所附参考文献为线索进行追溯查找,又称为参考文献法。
6、文献信息资源:文献是记录有知识的一切载体,文献信息资源是以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息资源。
7、信息检索语言:信息检索语言是用来描述信息的内容特征、外部特征和表达信息检索提问的一种专门语言。
8、竞争情报:竞争情报是20世纪80年代在国际上迅速发展起来的一种信息业务,是关于竞争环境、竞争对手和竞争策略的情报研究。
9、INTERNET(因特网):泛指由多个计算机网络相互连接而成的一个网络,它是在功能和逻辑上组成的一个大型网络。
采用TCP/IP协议。
因特网,源自英文的Internet,它的含义从广义上来说就是是“联接网络的网络”。
这种将计算机网络互相联接在一起的方法称为网络互联。
作为专有名词,它所指的是全球公有、使用TCP/IP这套通讯协议的一个计算机系统,这个系统所提供的信息与服务,以及系统的用户。
因此,世界上这个最大的互联网络也被简称为“互联网”(the Internet)。