第三章:信息检索基本方法(信息检索,符绍宏)
- 格式:ppt
- 大小:112.50 KB
- 文档页数:22
信息检索与利用实用教程随着互联网的普及,我们可以轻松地获取到大量的信息,但是如何高效地检索和利用这些信息却是一个需要学习的技能。
本文将为大家介绍一些实用的信息检索与利用技巧,帮助大家更好地利用互联网资源。
一、信息检索1.关键词检索关键词检索是最常用的检索方式,通过输入关键词来搜索相关信息。
在使用关键词检索时,需要注意以下几点:(1)关键词的选择:关键词应该尽可能准确地描述所需信息的内容,避免使用过于笼统的词汇。
(2)关键词的组合:可以使用多个关键词组合进行检索,以提高检索结果的准确性。
(3)关键词的排除:在检索时,可以使用“-”符号排除某些关键词,以避免检索到无关信息。
2.高级检索高级检索是一种更加精细的检索方式,可以通过设置检索条件来筛选出符合要求的信息。
在使用高级检索时,需要注意以下几点:(1)检索条件的设置:需要根据所需信息的特点设置相应的检索条件,以提高检索结果的准确性。
(2)检索条件的组合:可以使用多个检索条件组合进行检索,以进一步提高检索结果的准确性。
(3)检索条件的调整:如果检索结果不理想,可以适当调整检索条件,以获得更好的结果。
3.文献检索文献检索是一种专门用于检索学术文献的方式,可以通过学术搜索引擎或学术数据库进行检索。
在使用文献检索时,需要注意以下几点:(1)选择合适的学术搜索引擎或学术数据库。
(2)使用正确的检索词语和检索语法。
(3)根据需要选择不同类型的文献,如期刊论文、会议论文、学位论文等。
二、信息利用1.信息筛选在获取到大量信息后,需要进行筛选,以找到最有价值的信息。
在信息筛选时,需要注意以下几点:(1)根据需求确定筛选标准。
(2)对信息进行分类,以便更好地进行筛选。
(3)根据筛选标准逐一筛选信息,保留最有价值的信息。
2.信息整理在筛选出有价值的信息后,需要进行整理,以便更好地利用这些信息。
在信息整理时,需要注意以下几点:(1)对信息进行分类,以便更好地进行整理。
(2)对信息进行归纳总结,以便更好地理解和记忆。
1 计算机信息检索的基本方法4.3.1 明确检索要求和检索目标计算机检索的第一步准备工作是明确检索要求和检索目标。
明确检索要求就是要搞清楚本课题属于什么学科,所需文献的类型及语种,查找文献的年代,所需文献的最佳篇数,允许支配的检索费用。
这些要求对选择数据库、构造检索策略都是十分重要的。
确定检索目标也是进行计算机信息检索前应搞清楚的准备工作。
例如:如果属于开题调研,则应尽可能地检索出与之相关的全部文献,即要求较高的查全率;以便充分地做好开题的准备工作;如果属于探索性、开创性的课题,则只需要查出一些启发性的文献,对查准率和查全率要求都不一定有很高的要求。
4.3.2 课题分析1. 课题概念的分析方法分析课题就是分析出课题所涉及的主要概念,并找出能代表这些概念的若干个词或词组,进而分析概念之间的上、下、左、右关系。
对于新学科、交叉学科和边缘学科的课题,则要搞清楚这些概念之间的关系。
概念分析的结果应以概念组为单元的词或词组的形式列出,以便下一步制订检索策略时使用。
2. 隐含概念的分析方法有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。
例如:"社会保障"包含"养老保险"、"失业保险"、"医疗保险"和"社会救济"等概念,如果要检索社会保障方面的文献,应该析出上述概念,才能保证文献的查全率。
3. 核心概念的选取有些检索词中已经含有的某些概念,在概念分析中应予以排除。
例如:课题"公司劳动奖励、职工培训和养老保险制度管理的理论和实践",如果把"劳动奖励","职工培训","养老保险","公司","制度","管理"六个概念全部组配起来,则会造成大量文献漏检。
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找;2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息;3.为什么说信息存储和检索是两个不可分割的有机体检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的;存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较;检索过程是存储过程的逆过程;因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来;4.信息检索的方法1顺查法2倒查法3抽查法4追溯法5循环法5.信息检索的途径1内部特征途径a)分类途径b)主题途径2外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:1简单,形式简洁,易于理解;2可操作性强,应用广泛;3构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;4能处理结构化提问;缺点:1表达用户复杂需求效果欠佳2准确匹配无法提供定量比较3匹配标准不尽合理7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的;8.什么是计算机信息检索所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程;实质上计算机信息系检索是利用计算机信息检索系统存储和查找信息的技术,是计算机硬件资源、系统软件、检索软件和数据库的综合;9.计算机信息检索的类型:(1)根据检索系统的工作方式,可分为:a.脱机信息检索脱机信息检索是利用单台计算机的输入装置进行检索的系统,用磁带作为存储介质,并且为连续的顺序检索方式,适合大批量的定题信息检索;b.联机信息检索联机信息检索是利用计算机终端设备,通过通信线路或网络,与世界上的信息检索系统相连,从信息检索系统的数据库中进行检索并获取信息的过程;联机检索模式是主从式,即为所有的工作都在主机上进行,主机负担重,一旦主机瘫痪,整个系统都将处于瘫痪状态,因此对主机的性能要求极高;c.光盘信息检索d.网络信息检索(2)根据信息的服务方式,可分为:a.定题检索计算机的存储器中,每次系统加入新的信息,系统便会按检索要求,找出用户所需的资料,并把结果分给用户,用户能及时得到最新的文献信息;具有定期性、新颖性和批处理性的特点;b.回溯检索回溯检索是追溯查找过去的信息,让用户一次检索一段时间内与某一课题有关的信息;也可以查找最新的信息,可以适应多数用户的查询需要;c.日常检索10.计算机信息检索技术初级检索6个1)布尔逻辑检索2)位置限制检索3)短语检索4)截词检索5)字段限制检索6)区分大小写检索11.计算机信息检索技术高级检索6个1)加权检索2)自然语言检索3)相关信息反馈相似检索4)概念检索5)模糊检索6)聚类检索布尔逻辑检索(2)逻辑或用“OR”或“+”表示(3)逻辑非用NOT或—表示ANOTBA当中除去B所剩下的字段名称及缩写ABabstractTItitleAUauthorJNjournalname LAlanguagePYpublicationyearSPsourcepublication分类和聚类的异同相同点:基于“类”的思想进行检索;不同点:1分类基于分类法,其类目体系主要是先组式,有系统性的;类目与文献之间具有相对独立性;而聚类则先有文献后聚类,类的性质及整体类目体系完全由系统中的文献决定;2从类目形成过程看,分类是总到分,聚类由分到总;会构建检索式主要是积木型12.计算机信息检索策略含义狭义的计算机信息检索策略是指检索提问式的构建,即运用系统特定的检索技术,确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问式;广义的计算机信息检索策略是指在分析检索课题的实质内容和明确检索目标的基础上,选择检索工具,确定检索途径与检索用词,以及检索词之间逻辑关系与查找步骤最佳方案的一系列科学安排;13.计算机信息检索策略类型即联机检索五原则(1)最专指面优先:从最专指的概念入手(2)最低登录量面优先(3)积木型重点掌握,会构建此检索式(4)引文珠型增长14.网络信息资源的评价方法:(1)定性评价法:是指按照一定的评价标准从主观角度对网络信息资源所做的优选和评估,主要有指标体系法和调查表法;(2)定量评价法:国内外比较典型的定量评价方法有信息计量法、层次分析法和对应分析法等三种;(3)综合评价法:是定性评价和定量评价相结合的一种方法,有包括分析法、模糊综合评价法等;(4)分类方法:分为第三方评价法、用户评价法和网络计量法;15.搜索引擎的类型:(1)按检索机制划分:检索型、目录型和混合型检索工具(2)按检索内容划分:综合型、专题型和特殊型检索工具(3)按包含检索工具数量划分:单独型和集合型检索工具(4)按检索资料类型分:万维网检索工具和非万维网检索工具16.元搜索引擎的含义所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作;17.元搜索引擎的特点:(1)虚拟索引数据库(2)查全率高(3)用户界面友好(4)适宜二次加工18.元搜索引擎的工作原理19.实现跨语言信息检索的方法:1提问式翻译方法2文献翻译方法唯一结果是源语言描述 3提问式—文献翻译方法将查询语言提问式翻译成目标语言提问式,与目标语言描述的信息库进行匹配,检索相关信息,然后再把检索结果的全部或部分内容翻译成查询语言描述的信息;检索结果一般选择部分翻译,这样工作量较小,容易提高翻译的效率和质量,部分翻译一般是对结果文本的前两行、文摘或文本中重要的词进行翻译,在重要词的翻译中,如何确定重要词是决定这种方法效果的关键;4中间语种翻译方法5非翻译方法20.语义网的应用(1) Web 服务(2) 智能信息检索(3) 基于语义的网页搜索引擎(4) 企业数据管理(1)Compendex数据;数据的内容全面,主要包括:论文标题;作者;作者单位;英文文摘;论文所在期刊名称;卷,期;论文页码;分类码;主题词等等;其中:分类码;主题词需要专业人员单独给出;(2)PageOne数据:数据内容主要包括:论文标题;作者;作者单位;论文所在期刊名称;卷,期;论文页码;少数数据带有英文文摘;不需要任何专业人员再做工作;22pendex数据和PageOne数据的主要区别在于:数据中是否有分类码和主题词;有这两项内容的数据是Compendex数据,反之是PageOne数据;有没有主题词和分类号是判断论文是否被Compendex数据正式收录的唯一标志;23.主题指南按字母顺序列出与分类表中类目名称相关的主题词,并注明相关的分类号,实际上是分类表的主题索引,是从分类途径检索文献的指南;便于不能确定分类号的读者实现从主题查到分类号,再由分类号查到文献所在页码;24.SCI科学引文索引的编制结构及检索方法(1)引文索引(2)来源索引(3)机构索引(4)轮排主题索引25.如何决定收录期刊的数量和种类1“加菲尔德文献集中定律”——确定适宜的期刊数量该定律认为:在几万种科技期刊中,最重要的期刊即核心期刊不过一千种,甚至可能在内;2“费用—效果原则”——用来选择每一种期刊,具体方法是“引用频率统计法”先计算一种期刊在一年内被引用的总次数,再计算其中每篇论文的平均引文章,其他因素对引文章的影响通过加某些修正系数来解决,引用频率越高,说明该刊质量越高;通过上述两个指标决定了收录期刊的数量和种类26.什么是专利这种受法律保护的发明就称专利;含义:专利权——法律受专利法保护的发明创造——专利技术专利说明书等专利文献——文献这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体表现;27.什么是同族专利同族专利指同一个发明为了在不同国家得到保护,而在这些国家分别申请的一系列内容相同或基本相同的专利;由于同族专利或相同专利都具有相同的优先权项,所以通过优先权项可以方便、快捷地检索出有关同一发明的全部相同专利或同族专利;28.专利的类型(1)发明专利(3)外观设计专利(4)植物性专利(5)防卫性专利知识产权:工业产权和着作产权29.学位论文的文献价值:(1)较高价值的一次文献:写作不受篇幅限制,论述详尽:从研究背景、技术线路、实验方法到数据获取、分析结论论述翔实;(2)珍贵的信息资源价值:能集中反映所在单位的科研领域、学术活动、研究进展和最新成果,论文的使用者可以跟踪名校导师的科研进程;(3)综述性二次文献:对相应研究领域有系统深入的讨论和综述,拥有详尽的参考文献,可得到课题研究现状综述;(4)写作技巧的启发蓝本:通过对学位论文的阅读,可大致梳理出作者的写作思路和研究方法,学习学位论文的写作方法;30.信息检索评价方法(1)测试文档集合法(2)人机交互(3)用户体验日志分析法(4)自然观察法31.召回率:R=检索出的相关文献量/数据库中的全部相关文献x100%准确率:P=检索出的相关文献量/检出的文献总量x100%32.平均准确率并会计算平均准确率是一个通过所有相关文献测定系统绩效的单值指标;如果检索系统能快平均准确率是求各个相关文献准确率的平均值;因此平均准确率的计算只考虑相关文献的数量,而与检出文献的总量无关;。