信息检索知识
- 格式:doc
- 大小:79.02 KB
- 文档页数:7
信息检索知识点信息检索是指从大规模的信息资源中,通过利用各种信息检索工具和技术,准确和高效地找到用户所需要的信息的过程。
信息检索技术在现代社会中扮演着重要的角色,它不仅广泛应用于互联网搜索引擎,还在图书馆、数据库、企业信息管理等领域发挥着重要作用。
本文将介绍信息检索的定义、关键概念和一些常用技术。
一、信息检索的定义和目标信息检索是指通过计算机等工具从大规模的信息资源中,按照用户的需求进行检索,提供相关性高、准确性好的信息结果。
它的目标是帮助用户快速地找到所需的信息,提升信息搜索效率和准确性。
二、关键概念1. 查询:用户提交的检索请求,通常由一系列关键词组成。
2. 检索词:查询中使用的关键字或关键词短语。
3. 检索结果:根据查询返回的与之相关的文档或信息。
4. 相关性:衡量检索结果与查询之间相关程度的指标,通常使用相关性排序算法进行排序。
5. 文档:信息资源的基本单位,可以是网页、文章、图片、音频等形式。
三、信息检索的主要技术1. 分词技术:将文本数据按照一定规则分割成有意义的词语,是信息检索的基础步骤。
2. 索引技术:将文档中的关键词与其所在位置进行索引,以提高检索效率和准确性。
3. 倒排索引:根据关键词构建索引表,记录关键词与文档之间的对应关系,常用于搜索引擎等场景。
4. 相似度计算:根据查询和文档的相似性,为检索结果进行排序。
5. 结果评估:通过评估检索结果的质量,改进检索算法和模型。
四、常用的信息检索模型1. 布尔模型:将查询和文档转化为布尔表达式,按照布尔运算进行检索。
2. 向量空间模型:用向量表示文档和查询,通过计算向量之间的相似度进行检索。
3. 概率检索模型:基于统计方法,利用概率模型进行信息检索。
五、信息检索的挑战和发展方向1. 大规模数据处理和存储:随着互联网的快速发展,信息资源呈指数级增长,如何高效地处理和存储大规模的数据成为了一个挑战。
2. 多语言检索:不同语言的信息检索在跨语言信息检索中面临很大的难度和挑战。
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找;2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息;3.为什么说信息存储和检索是两个不可分割的有机体检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的;存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较;检索过程是存储过程的逆过程;因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来;4.信息检索的方法1顺查法2倒查法3抽查法4追溯法5循环法5.信息检索的途径1内部特征途径a)分类途径b)主题途径2外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:1简单,形式简洁,易于理解;2 可操作性强,应用广泛;3 构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;4 能处理结构化提问;缺点:1表达用户复杂需求效果欠佳2准确匹配无法提供定量比较3匹配标准不尽合理4检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的;8.什么是计算机信息检索所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程;实质上计算机信息系检索是利用计算机信息检索系统存储和查找信息的技术,是计算机硬件资源、系统软件、检索软件和数据库的综合;9.计算机信息检索的类型:(1)根据检索系统的工作方式,可分为:a.脱机信息检索脱机信息检索是利用单台计算机的输入装置进行检索的系统,用磁带作为存储介质,并且为连续的顺序检索方式,适合大批量的定题信息检索;b.联机信息检索联机信息检索是利用计算机终端设备,通过通信线路或网络,与世界上的信息检索系统相连,从信息检索系统的数据库中进行检索并获取信息的过程;联机检索模式是主从式,即为所有的工作都在主机上进行,主机负担重,一旦主机瘫痪,整个系统都将处于瘫痪状态,因此对主机的性能要求极高;c.光盘信息检索d.网络信息检索(2)根据信息的服务方式,可分为:a.定题检索定题检索是用户根据课题的要求,事先编写出逻辑检索提问式,并将存储在计算机的存储器中,每次系统加入新的信息,系统便会按检索要求,找出用户所需的资料,并把结果分给用户,用户能及时得到最新的文献信息;具有定期性、新颖性和批处理性的特点;b.回溯检索回溯检索是追溯查找过去的信息,让用户一次检索一段时间内与某一课题有关的信息;也可以查找最新的信息,可以适应多数用户的查询需要;c.日常检索10.计算机信息检索技术初级检索6个1)布尔逻辑检索2)位置限制检索3)短语检索4)截词检索5)字段限制检索6)区分大小写检索11.计算机信息检索技术高级检索6个1)加权检索2)自然语言检索3)相关信息反馈相似检索4)概念检索5)模糊检索6)聚类检索布尔逻辑检索(1)逻辑与用AND或表示检索式写作A AND B或A B(2)逻辑或用“OR”或“+”表示(3)逻辑非用NOT 或—表示 A NOT B A当中除去B所剩下的字段名称及缩写AB abstract TI title AU author JN journal nameLA language PY publication year SP source publication分类和聚类的异同相同点:基于“类”的思想进行检索;不同点:1分类基于分类法,其类目体系主要是先组式,有系统性的;类目与文献之间具有相对独立性;而聚类则先有文献后聚类,类的性质及整体类目体系完全由系统中的文献决定;2从类目形成过程看,分类是总到分,聚类由分到总;会构建检索式主要是积木型12.计算机信息检索策略含义狭义的计算机信息检索策略是指检索提问式的构建,即运用系统特定的检索技术,确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问式;广义的计算机信息检索策略是指在分析检索课题的实质内容和明确检索目标的基础上,选择检索工具,确定检索途径与检索用词,以及检索词之间逻辑关系与查找步骤最佳方案的一系列科学安排;13.计算机信息检索策略类型即联机检索五原则(1)最专指面优先:从最专指的概念入手(2)最低登录量面优先(3)积木型重点掌握,会构建此检索式(4)引文珠型增长(5)逐次分馏14.网络信息资源的评价方法:(1) 定性评价法:是指按照一定的评价标准从主观角度对网络信息资源所做的优选和评估,主要有指标体系法和调查表法;(2) 定量评价法:国内外比较典型的定量评价方法有信息计量法、层次分析法和对应分析法等三种;(3) 综合评价法:是定性评价和定量评价相结合的一种方法,有包括分析法、模糊综合评价法等;(4) 分类方法:分为第三方评价法、用户评价法和网络计量法;15.搜索引擎的类型:(1) 按检索机制划分:检索型、目录型和混合型检索工具(2) 按检索内容划分:综合型、专题型和特殊型检索工具(3) 按包含检索工具数量划分:单独型和集合型检索工具(4) 按检索资料类型分:万维网检索工具和非万维网检索工具16.元搜索引擎的含义所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作;17.元搜索引擎的特点:(1) 虚拟索引数据库(2) 查全率高(3) 用户界面友好(4) 适宜二次加工(5) 扩展性好18.元搜索引擎的工作原理19.实现跨语言信息检索的方法:1提问式翻译方法2文献翻译方法唯一结果是源语言描述3提问式—文献翻译方法将查询语言提问式翻译成目标语言提问式,与目标语言描述的信息库进行匹配,检索相关信息,然后再把检索结果的全部或部分内容翻译成查询语言描述的信息; 检索结果一般选择部分翻译,这样工作量较小,容易提高翻译的效率和质量,部分翻译一般是对结果文本的前两行、文摘或文本中重要的词进行翻译,在重要词的翻译中,如何确定重要词是决定这种方法效果的关键;4中间语种翻译方法5非翻译方法20.语义网的应用(1)Web服务(2)智能信息检索(3)基于语义的网页搜索引擎(4)企业数据管理收录论文的两个层次(1)Compendex数据;数据的内容全面,主要包括:论文标题;作者;作者单位;英文文摘;论文所在期刊名称;卷,期;论文页码;分类码;主题词等等;其中:分类码;主题词需要专业人员单独给出;(2)Page One数据:数据内容主要包括:论文标题;作者;作者单位;论文所在期刊名称;卷,期;论文页码;少数数据带有英文文摘;不需要任何专业人员再做工作;数据和Page One数据的主要区别在于:数据中是否有分类码和主题词;有这两项内容的数据是Compendex数据,反之是Page One数据;有没有主题词和分类号是判断论文是否被Compendex数据正式收录的唯一标志;23.主题指南按字母顺序列出与分类表中类目名称相关的主题词,并注明相关的分类号,实际上是分类表的主题索引,是从分类途径检索文献的指南;便于不能确定分类号的读者实现从主题查到分类号,再由分类号查到文献所在页码;科学引文索引的编制结构及检索方法(1)引文索引(2)来源索引(3)机构索引(4)轮排主题索引25.如何决定收录期刊的数量和种类1“加菲尔德文献集中定律”——确定适宜的期刊数量该定律认为:在几万种科技期刊中,最重要的期刊即核心期刊不过一千种,甚至可能还不足500;因而,把收录期刊的范围定在3000种以内,足以把重要的科技文献包括在内;2“费用—效果原则”——用来选择每一种期刊,具体方法是“引用频率统计法”先计算一种期刊在一年内被引用的总次数,再计算其中每篇论文的平均引文章,其他因素对引文章的影响通过加某些修正系数来解决,引用频率越高,说明该刊质量越高;通过上述两个指标决定了收录期刊的数量和种类26.什么是专利这种受法律保护的发明就称专利;含义:专利权——法律受专利法保护的发明创造——专利技术专利说明书等专利文献——文献这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体表现;27.什么是同族专利同族专利指同一个发明为了在不同国家得到保护,而在这些国家分别申请的一系列内容相同或基本相同的专利;由于同族专利或相同专利都具有相同的优先权项,所以通过优先权项可以方便、快捷地检索出有关同一发明的全部相同专利或同族专利;28.专利的类型(1)发明专利(2)实用新型专利(3)外观设计专利(4)植物性专利(5)防卫性专利知识产权:工业产权和着作产权29.学位论文的文献价值:(1)较高价值的一次文献:写作不受篇幅限制,论述详尽:从研究背景、技术线路、实验方法到数据获取、分析结论论述翔实;(2)珍贵的信息资源价值:能集中反映所在单位的科研领域、学术活动、研究进展和最新成果,论文的使用者可以跟踪名校导师的科研进程;(3)综述性二次文献:对相应研究领域有系统深入的讨论和综述,拥有详尽的参考文献,可得到课题研究现状综述;(4)写作技巧的启发蓝本:通过对学位论文的阅读,可大致梳理出作者的写作思路和研究方法,学习学位论文的写作方法;30.信息检索评价方法(1)测试文档集合法(2)人机交互(3)用户体验日志分析法(4)自然观察法31.召回率:R=检索出的相关文献量/ 数据库中的全部相关文献x100%准确率:P=检索出的相关文献量/ 检出的文献总量x100%32.平均准确率并会计算平均准确率是一个通过所有相关文献测定系统绩效的单值指标;如果检索系统能快速返回所需的相关文献,并对被检文献进行等级排序,则该系统的性能较好;平均准确率是求各个相关文献准确率的平均值;因此平均准确率的计算只考虑相关文献的数量,而与检出文献的总量无关;。
第一章信息检索基础知识一.概述1.信息与文献信息知识的分类:已掌握的知识和需查询的知识。
信息的定义:信息是事物运动的状态与方式,是物质的一种属性,并且借助于一定的物质载体传输和储存。
这里有几个词组需说明:事物:泛指一切可能研究的对象(包括物质的和精神的)。
运动:泛指一切意义上的变化(机械运动、化学运动、思维运动和社会运动)运动方式:在时间上所呈现的过程和规律:运动状态:在空间上所展示的形状和态势。
信息已成为与物质、能量同样重要的三大资源之一。
信息是一种原料,人类接受外界大量信息后,经过实践活动和大脑的思维机制加工提炼后变成有用的知识(知识的认识程度)。
文献:将知识记录并保持在一定的载体上,就形成了文献。
文献信息是文献所表达的内载信息,以文字、符号、声像信息为编码的人类精神信息,也是经过人们筛选、归纳和整理后记录下来的信息。
科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科学信息的主要来源。
2.信息的特点(1)普遍性;信息是无处不在,无时不在的,c从宏观的宇宙天体到微观粒子,从自然界到人类社会,万事万物都是信息的母体;(2)时效性:信息的获得和传送需要时间,信息反映的总是特定时刻事物的运动状态和方式,当人们获得信息后,它反映的是某段时间的事物,是一种历史纪录,如果传递很慢,信息就会失去应有的价值;(3)传递性:指信息的空间和时间效应,信息可以从一个地方传到另一个地方,从一个时期传到另一个时期;信息的传递决定了信息的可扩散性,信息是通过各种渠道、媒介传播和扩散;(4)共享性:信息在传播和使用的过程中,载体本身的信息并不因此而减少,信息资源的共享将极大地推进人类文明的发展;(5)可转换性:信息的物质载体形态是可以相互转移变换的;信息在一定条件下可以转化为物质、能量、时间、金钱、效益、质量等;(6)可伪性:在人们得到信息后,必须进行分析判断和筛选,以便正确享用信息。
幻灯片1第一章概论●1.1文献与信息的产生及作用●文献的含义:记录有知识的一切载体。
●(1)知识内容(2)物质载体(3)记录符号(4)记录手段幻灯片21.2文献的类型特点1、按文献的出版类型来划分图书、连续出版物、会议文献、专利文献、学位论文、科技报告、政府出版物、标准文献、产品样本、技术档案幻灯片3●1.2.1按文献的加工深度来划分●零次文献、一次文献、二次文献、三次文献幻灯片41.3网络与图书馆1.3.1网络1.3.2网络信息资源1.3.3数字图书馆幻灯片51.4大学生信息素养教育1.4.1概念1.4.2信息素养的评价1.4.3信息素养教育幻灯片6第2章信息检索基本理论●2.1.1信息检索定义●广义的信息检索(I n f o r m a t i o n R e t r i e v a l)●是指将信息按一定的方式组织和存储起来,并根据信息用户的需求找出所需信息的过程和技术。
●包括信息的存储(S t o r a g e)和检索(R e t r i e v a l)两个过程。
幻灯片7● 2.1.2 信息检索原理● 2.1.3 信息检索的类型幻灯片82.2 检索语言●2.2.1定义与作用●2.2.2检索语言的分类●根据描述信息的特征划分:●描述信息内容特征的语言●主要有主题语言、分类语言和代码语言●《中图法》:五大部类,22个基本大类。
●描述信息外部特征的语言●主要有题名、责任者、编号、机构名称和引文等幻灯片9● 2.3 检索工具●检索工具的定义●检索工具的类型●线索型检索(检索类)工具书●参考型检索工具书●SCI(科学引文索引)、SSCI、CSCI、CSSCI幻灯片102.4计算机检索系统● 2.4.4 计算机检索技术(掌握各种技术对查全率、查准率的影响)●布尔逻辑算符:AND ;OR; NOT●(NOT算符的作用是剔除某个概念)●位置算符●截词检索●字段限制检索●精确与模糊检索●短语检索:通过双引号来实现●加权检索幻灯片11● 2.5 信息需求与表达● 2.6 信息获取的影响因素● 2.6.6 检索效果的评价●查全率:指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。
查全率R=检出相关信息量/系统中相关信息总量×100%查准率:指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的的尺度。
查准率P=检出相关信息量/检出信息总量×100%幻灯片12查全率与查准率间的关系有研究认为:在物理、技术科学信息检索范围内,P提高1%将导致R降低3%。
在现代科技信息检索系统中,一般R为60-70%,P为40-50%。
有研究认为:在物理、技术科学信息检索范围内,P提高1%将导致R降低3%。
在现代科技信息检索系统中,一般R为60-70%,P为40-50%。
幻灯片132.7检索的组织与实施● 2.7.1 分析课题,制定检索方案●找出课题所涉及的主要内容和相关内容,从而形成主要概念和次要概念,选取主题词。
●明确课题需要的文献类型。
在检索工具中收录了来自各种不同类型的文献信息,课题性质不同,所需要的文献类型也不同。
●确定检索的时间范围。
每一项理论或技术都有其发生、发展和形成的过程。
为避免浪费时间和精力,检索时应根据研究课题的背景确定检索的时间范围。
时刻关注相关学科的最新动态。
●课题需要的主语种。
●了解课题对查新、查准、查全诸方面有无具体要求。
幻灯片14● 2.7.2 选择检索工具● 2.7.3 确定检索标识●应尽量选用规范化词●选用本学科具有检索意义的关键词或自由词●关键词(自由词)检索,这时还应选取该词的同义词、近义词、狭义词、分子式、分类号、登记号、专利号、化学物质俗名、商品名等,使用多个词试检●规范词或代码的选择需利用词表或分类表进行自然语言到规范语言的转换幻灯片15● 2.7.4 选择检索途径●分类途径:是利用目次表分类索引进行的检索,关键是确定类目或分●类号。
●主题途径:是利用主题索引进行的检索,关键是确定主题词或关键词。
●篇名途径:是根据书刊篇名进行查找的一条途径。
●著者途径:是利用著者索引进行的检索,包括个人著者和团体著者。
●注意外国与中国著者书写上的区别。
●序号途径:是利用代码索引进行的检索。
常见的号码索引:ISBN号、●索书号、ISSN号、专利号、入藏号、报告号、标准编号等。
●其他途径:有些检索工具还编有一些特殊索引,如引文索引、会议索●引等。
幻灯片16● 2.7.5 选择检索方法●手检方法●(1)常用法●顺查法:检索全面、不易漏检,但费时费力,适于撰写综述性文章。
●倒查法:查询近期文献,效率高、省时省力,但有可能漏检。
●抽查法:重点检索某一时期的文献,检索效率高易漏检。
●(2)追溯法●由远及近地追溯:能查到越来越新的文献,但要依靠专门的引文索引工具。
●由近及远地追溯:适合于查找以往的研究情况或对背景资料的查询,但越●查文献越旧,易漏检。
●分段法:交替使用以上所提的两种方法,一般只追溯5年左右的●时间,然后再用检索工具查出一批文献进行追溯。
幻灯片17● 2.7.6 实施检索● 2.7.7 索取原始文献●利用图书馆馆藏目录或公共联机目录(OPAC)查找文献馆藏地●到附近的图书馆或文献情报中心借阅或复印文献●利用有关全文数据库,打印、下载原始信息●利用联机信息系统或网络信息系统,用联机传递、E-mail、Fax或脱机邮寄的方式获取原始信息,或网上提出订购请求,获取原始信息●搜索网上免费信息资源,可以获得一些有用的文献信息●通过图书情报机构文献传递服务索取原始文献信息等幻灯片18第3章学术评价及信息组织● 3.1 学术评价● 3.2 信息的组织与管理●参考文献类型标识。
●根据GB3469-83《文献类型与文献载体代码》规定,以单字母方式标识:专著 M;报纸 N;期刊 J;专利文献 P;技术标准 S;学位论文 D;科技报告 R;幻灯片193.2.4信息管理所谓信息管理,是指对人类社会信息活动的各种相关因素(主要是人、信息、技术和机构等)进行科学的计划、组织、控制和协调,以实现信息资源的合理开发与有效利用的过程。
它既包括微观上对信息内容的管理—信息的组织、检索、加工、服务等,又包括宏观上对信息机构和信息系统的管理。
信息管理是由活动主体、活动对象、活动手段等要素构成的。
在信息管理活动中,表现为信息人员利用掌握的信息技术,控制和利用信息资源来达到组织目标的活动过程。
幻灯片20● 3.3信息交流与使用●知识产权:●在中国,发明专利的保护期限为20年,著作权保护期限一般是作者有生之年加死后50年,商标权一次性注册有效期为10年。
在法律规定的有效期限内知识产权受到保护,超过法定期限,知识产权权利自行消失。
幻灯片213.4信息研究3.4.1 信息交流3.4.2 信息分析1.信息分析的原则对文献信息进行分析,是通过对众多信息的整理、辨析、评价,提取出共性的、特征性的或方向性的内容,达到去粗取精、去伪存真的目的。
因此,信息分析应遵循可靠性、科学性、新颖性、适用性的原则。
幻灯片22第4章信息检索服务●2.1图书馆信息咨询服务内容:●参考咨询服务●新书通报服务●馆际互借与文献传递●定题服务●科技查新●代查代检●学科服务●教学与培训●馆际合作幻灯片23馆际合作机构1.江西昌北高校图书馆联盟2.C A L I S(h t t p://w w w.c a l i s.e d u.c n)中国高等教育文献保障系统(C h i n a A c a d e m i c L i b r a r y&I n f o r m a t i o n S y s t e m,C A L I S)。
3.C A S H L(h t t p://w w w.c a s h l.e d u.c n)C A S H L是中国高校人文社会科学文献中心(C h i n a A c a d e m i c H u m a n i t i e s a n d S o c i a lS c i e n c e s L i b r a r y)的英文简称,中文称之为开世览文。
4.N S T L(h t t p://w w w.n s t l.g o v.c n/)N S T L是国家科技图书文献中心(N a t i o n a l S c i e n c e a n d T e c h n o l o g y L i b r a r y)的英文简称。
幻灯片242.3 网络搜索引擎搜索引擎常用的检索技巧:“”—精确匹配(-)—消除无关性(|)—并行搜索i n t i t l e—把搜索范围限定在网页标题中s i t e—把搜索范围限定在特定站点中i n u r l—把搜索范围限定在u r l链接中f i l e t y p e:—特定格式的文档检索幻灯片25第5章常用中文数据库1 中国知识资源总库(CNKI):2 中文科技期刊全文数据库(维普)3 万方数据资源系统4 超星资源检索系统5 方正电子图书数据库6 国研网(教育版)7 考试辅导系统8 昌北高校图书馆联盟服务系统幻灯片26检索图书的数据库:超星资源检索系统;方正电子图书数据库检索期刊的数据库:中国知识资源总库(C N K I);中文科技期刊全文数据库(维普);万方数据资源系统检索学位论文的数据库:中国知识资源总库(C N K I);万方数据资源系统。