计算机信息检索的策略和方法
- 格式:doc
- 大小:43.50 KB
- 文档页数:4
信息检索的策略和方法【摘要】随着数据信息库积累的数据和主题越来越多,怎样快速,有效,经济地检索某个主题的所有信息,就成了一个十分热门的课题.本文中给出了计算机信息检索的策略和方法,以及最终有助于网络用户查找信息的检索技术。
【关键词】信息检索检索策略随着计算机技术和通讯技术的发展,信息检索的理论与实践也随之不断地推陈出新。
其历史沿革可划分为手工检索,联机检索、光盘检索、网络信息检索等阶段。
目前,计算机信息检索呈现出联机信息检索、光盘信息检索、网络信息检索并存的格局。
如何判断计算机信息检索技能的高低?最重要的衡量指标之一,就是能否构造出合适的检索策略。
只有构造出最佳检索策略,才能快速、准确地检索到所需信息。
一、检索策略的含义和作用信息需求产生之后,如何在茫茫的信息海洋中查找需要的信息?利用哪些信息检索系统?检索提问怎么设计才能得到好的检索效果?信息检索策略对于解决这些问题具有重要的意义。
检索策略是指分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。
信息检索策略的实质是对检索过程的科学规划,其中关键在于构造能够确切表达信息需求的检索式。
检索策略的优劣是影响检索效果的非常重要的因素。
正确的检索策略会优化检索过程,有助于取得最佳的检索效果。
二、检索策略的构造步骤信息检索策略的构造一般包括分析用户信息需求、选择检索系统、确定检索用词、构造检索式、分析检索结果等。
具体过程如下:1.分析信息需求,明确检索要求。
这是人们进行信息检索的出发点,不同类型的检索课题,信息需求的范围和程度也不尽相同。
在这一环节中,要明确检索目的,明确检索课题内容涉及的主要学科范围和相关概念。
对检索需求作出全面的认识。
2.选择检索系统。
计算机检索系统主要包括各种数据库、搜索引擎等。
依据对信息需求的分析,选择与检索课题相符、收录信息质量较高、检索功能比较完善的信息检索系统。
检索系统的选择要求我们对目前可利用的检索系统有一个大概的了解,如检索系统所涉及的学科领域、文献类型、时间范围、检索方式、检索途径等。
检索策略及条目随着信息技术的不断发展,检索策略及条目的重要性也越来越凸显。
在信息爆炸的时代,如何快速、准确地获取所需信息,成为了每个人都需要面对的问题。
因此,本文将从检索策略及条目的角度,探讨如何更好地进行信息检索。
一、检索策略1.关键词检索关键词检索是最常用的检索策略之一。
通过输入关键词,搜索引擎会根据关键词匹配相关的网页、文章等信息。
在使用关键词检索时,需要注意以下几点:(1)关键词的选择:关键词应该准确、简洁、具有代表性,避免使用模糊、重复或无关的关键词。
(2)关键词的组合:可以使用多个关键词进行组合检索,以提高检索结果的准确性。
(3)关键词的排除:在检索时,可以使用“-”符号排除某些关键词,以避免检索到无关信息。
2.分类检索分类检索是将信息按照一定的分类体系进行检索。
分类检索的优点是可以快速定位所需信息,缺点是分类体系可能不够完善,导致信息检索不全面。
在使用分类检索时,需要注意以下几点:(1)选择合适的分类体系:不同的网站、数据库可能采用不同的分类体系,需要根据具体情况选择合适的分类体系。
(2)熟悉分类体系:熟悉分类体系的结构和内容,可以更快速地定位所需信息。
(3)结合关键词检索:分类检索和关键词检索可以结合使用,以提高检索结果的准确性。
二、检索条目1.网站网站是信息检索的重要来源之一。
在使用网站进行信息检索时,需要注意以下几点:(1)选择可信赖的网站:应选择权威、可信赖的网站,避免受到虚假信息的干扰。
(2)熟悉网站的结构和内容:熟悉网站的结构和内容,可以更快速地定位所需信息。
(3)注意网站的更新频率:一些网站的更新频率较低,可能会导致信息不够及时。
2.数据库数据库是专门收集、整理、存储信息的系统。
在使用数据库进行信息检索时,需要注意以下几点:(1)选择合适的数据库:不同的数据库可能涵盖的信息范围不同,需要根据具体情况选择合适的数据库。
(2)熟悉数据库的检索方式:不同的数据库可能采用不同的检索方式,需要熟悉其检索方式,以提高检索效率。
检索方法与检索策略制定一、检索方法(一)布尔逻辑检索组配检索已成为当代信息检索的一种广泛的应用手段。
最为常见的是使用布尔逻辑算符(and、or、not)将检索词联系起来,进行逻辑运算检索。
1、逻辑“与”逻辑运算符:“AND”、“*”逻辑表达式:“A AND B”或写成“A*B”。
2、逻辑“或”逻辑运算符:“OR”、“+”逻辑表达式:“A OR B”或写成“A+B”。
3、逻辑“非”逻辑运算符:“NOT”、“-”逻辑表达式:“A NOT B”、“A-B”(二)位置算符检索位置算符又叫全文查找逻辑算符,检索式中词与词之间的逻辑关系有时需用位置算符来组配。
1、NEAR:检索表达式为:A NEAR B检索语义:检出文献中,要求A、B两个词语必须同时出现在同一句中。
为缩小检索词之间的距离,使检索文献更加切题,还可用数字限定A、B两词之间允许间隔的词语数量。
2、WITH:检索表达式为:A WITH B检索语义:A、B两词必须同时出现在同一字段。
(三)加权检索对每个检索词赋予一个数值,这个数值就是“权”。
权值的大小,表示被检文献的切题程度。
例如,MEDLINE检索系统,它不赋予检索词权值,而是在文献标引时,对不同的检索词作加权标志,系统中的MJME(主要主题词)就是具有加权标志的词,MeSH(主题词)就是无加权标志的词。
(四)截词检索大多数检索系统都提供有截词检索功能。
为预防漏检,提高查全率,常需要采用截词检索技术。
检索方式有右截断、左截断、左右同时截断和中间截断等。
例如,MEDLINE系统用“*”。
右截断即前方一致,目的是查找某一词干右面不同的词尾形式,从而提高查全率。
(五)限制检索是利用限制符号对检索字段进行限定,简化了布尔检索中的逻辑或功能。
使用位置检索,只能限制检索词之间的相对位置,不能完全确定检索词在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要利用字段限制查找范围。
常用的字段代码有标题(TI)、文摘(AB)、作者(AU)、语种(LA)、刊名(JN)、文献类型(DT)、年代(PY)等。
计算机信息检索的方法与策略1. 计算机信息检索过程中的相关概念(1)数据库:数据库是“至少由一个文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合”。
通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。
数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源,也是信息检索的重要资料来源。
根据载体的不同,数据库可分为:联机数据库(online-database),光盘数据库(CD-ROM-database)和网络数据库(networked-database)三种。
(2)检索界面:指在进行计算机检索时,检索者与计算机交互对话的界面。
(3)检索方式:以检索过程的繁简程度或从何入手来区分的不同检索过程。
在数据库中往往设有初级检索/简单检索/基本检索(单途径检索);高级检索(多途径组合检索);专业检索(构造检索式);按类检索;按刊检索(刊物查询、刊名导航),篇目检索/论文查询;引文检索等方式供选择。
(4)检索途径:又叫检索入口、检索项,也有的数据库称之为检索字段。
指输入的检索条件所查询的数据区域。
不同数据库所设的途径并不相同。
一般都设有篇名、作者、关键词、全文等途径。
(5)检索词:检索词是检索者给出的字、词、字符或短语,用于查找含有它(它们)的记录。
(6)排序:指检索结果输出时的排列顺序。
输出结果按相关度排序时,则检索结果按检索词在检索字段中发现的频度由高到低依次排列。
无相关度时,输出结果则按文献的出版日期逆序排列或随机排列。
(7)二次检索:指在前一次检索结果的基础上,进一步限定检索条件所进行的再次检索。
二次检索可以多次使用,逐步缩小检索范围。
(8)限制条件:在检索对象的时间、文献类型、语种、同义词等方面做限制,与检索途径配合使用,以精化检索结果。
(9)检索词匹配:指输入的检索词在数据库的可检索字段值中的位置关系。
一般表示为前方一致、后方一致、完全一致(精确匹配)、任意一致(模糊匹配)等。
网络信息检索的方法与策略随着互联网的普及和发展,信息化时代的到来,网络信息已经成为人们获取信息和知识的主要渠道,而信息检索技能也逐渐成为了人们必备的基本技能。
网络信息检索可以帮助我们快速准确地找到需要的信息,提高我们的工作和学习效率。
但是,网络信息检索也需要一定的方法和策略,本文将从以下几个方面介绍网络信息检索的方法与策略。
一、确定搜索关键词网络信息检索的第一步是确定搜索关键词。
搜索关键词是我们检索信息的重要依据,只有正确选择关键词,才能得到准确的搜索结果。
在选择关键词时,我们要根据所要求的信息内容,从多方面考虑,尽可能的综合考虑,选择与其相关的词汇。
同时也可以尝试使用相关性搜索,即相似或相关的词汇,以得到更加精细的搜索结果。
二、选择搜索引擎网络搜索引擎是我们在网络中检索信息的主要工具,它可以帮助我们快速地找到与我们想要查询的信息相关的网站和资料。
目前,市面上有许多搜索引擎可供选择,如谷歌、百度、搜狗等,不同的搜索引擎有着各自的优缺点和特点,我们要根据实际需要选择合适的搜索引擎。
三、使用高级搜索网络搜索引擎大多数提供了高级搜索的功能,通过高级搜索,我们可以更加准确、快速地找到所需的信息。
高级搜索可以根据我们的需求,调整搜索结果的时间、格式、语言、位置、网站等多个维度,以得到更加符合我们需求的搜索结果。
四、查看搜索结果在查看搜索结果时,我们要根据所需信息的重要性和优先级,仔细查看每个搜索结果的标题和简介,以决定进一步查看详细信息的必要性和关注度。
同时,我们要注意排除一些与自己搜索内容无关的信息和广告等。
五、筛选和整理信息在通过搜索引擎获取到需要的信息后,我们还需要对这些信息进行筛选和整理,以便更好地使用和管理。
筛选和整理的重点是抓取有用的信息,剔除无用信息。
可以将信息进行分类、整理,制定个人信息管理系统,新近信息有计划地进行整理和更新。
六、保持持续学习网络信息检索是一个不断学习和提高的过程,我们需要始终保持学习的态度和意识,定期学习和了解新的搜索技巧和方法,以逐步提高自己的搜索能力和效率。
2.4计算机信息检索的方法与策略2.4.1计算机信息检索过程中的相关概念(1)数据库:数据库是“至少由一个文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合”。
通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。
数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源,也是信息检索的重要资料来源。
根据载体的不同,数据库可分为:联机数据库(online-database),光盘数据库(CD-ROM-database)和网络数据库(networked-database)三种。
(2)检索界面:指在进行计算机检索时,检索者与计算机交互对话的界面。
(3)检索方式:以检索过程的繁简程度或从何入手来区分的不同检索过程。
在数据库中往往设有初级检索/简单检索/基本检索(单途径检索);高级检索(多途径组合检索);专业检索(构造检索式);按类检索;按刊检索(刊物查询、刊名导航),篇目检索/论文查询;引文检索等方式供选择。
(4)检索途径:又叫检索入口、检索项,也有的数据库称之为检索字段。
指输入的检索条件所查询的数据区域。
不同数据库所设的途径并不相同。
一般都设有篇名、作者、关键词、全文等途径。
(5)检索词:检索词是检索者给出的字、词、字符或短语,用于查找含有它(它们)的记录。
(6)排序:指检索结果输出时的排列顺序。
输出结果按相关度排序时,则检索结果按检索词在检索字段中发现的频度由高到低依次排列。
无相关度时,输出结果则按文献的出版日期逆序排列或随机排列。
(7)二次检索:指在前一次检索结果的基础上,进一步限定检索条件所进行的再次检索。
二次检索可以多次使用,逐步缩小检索范围。
(8)限制条件:在检索对象的时间、文献类型、语种、同义词等方面做限制,与检索途径配合使用,以精化检索结果。
(9)检索词匹配:指输入的检索词在数据库的可检索字段值中的位置关系。
一般表示为前方一致、后方一致、完全一致(精确匹配)、任意一致(模糊匹配)等。
2.4.2 信息检索方法为了迅速、准确地查找所需要的文献信息,必须了解和掌握一定的检索方法。
常用的检索方法有下列三种:(1)常用法利用检索工具或检索系统来查找文献的方法,这是文献检索中最常用的一种检索方法。
常用法又可以分为顺查法、倒查法和抽查法三种。
①顺查法这是一种由远及近的检索方法, 从课题分析所得出的该课题研究的起始年代起, 由远及近地进行逐年查找。
顺查法有较高的查全率。
用顺查法逐年检出的文献可以在一定程度上反映出该课题研究发展的全过程。
但是这种方法耗时费力, 效率较低。
②倒查法倒查法与顺查法正相反, 是利用选定的检索工具, 由近及远地逐年逐卷地进行查找。
根据课题需求获取近期文献, 即以“查准”为主时, 最好采用倒查法。
对于一些新的研究课题可以采用倒查法, 这样比顺查法节省时间, 效率较高。
③抽查法抽查法是在课题研究所处的发展高峰期的若干年中进行查找。
抽查法往往是用来解决要求快速检索的课题。
抽查法有较高的检索效率,但使用这种方法的前提是必须事先了解课题研究发展的历史背景。
(2)回溯法回溯法又称追溯法、引文法,是利用文献末所附的参考文献或引用文献,由近及远地进行追踪查找。
这种检索方法,可以从已经掌握的一篇最新文献入手,查找到它所引用的文献,再依据这些查出的文献,查找到它们所引用的文献。
如此反复,即可获得大量的文献信息。
通过追溯法所获得的文献,有助于对论文的主题背景和立论依据等内容有更深的理解。
但由于是由近及远追溯,年代越远与原文关系越少。
(3)循环法实际上就是常用法与回溯法的结合,即先利用检索工具查找出一批有用的文献,然后利用这些文献所附的参考文献或原文中涉及的重要线索进行追溯查找。
通过对已有的相关文献的主题分析,提出新的检索项,再利用检索工具检索,如此循环(分段)使用常用法和追溯法进行检索,直到检索结果满足检索提问需要为止。
在检索实践中,要根据检索课题的具体目的和要求,有针对性地采用适当的检索方法。
2.4.3检索策略的含义和作用信息需求产生之后,如何在茫茫的信息海洋中查找需要的信息?利用哪些信息检索系统?检索提问怎么设计?才能得到好的检索效果,信息检索策略对于解决这些问题具有重要的意义。
所谓检索策略,即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。
信息检索策略的实质是对检索过程的科学规划,其中关键在于构造能够确切表达信息需求的检索式。
依据信息检索手段,可以分为手工检索策略和计算机检索策略。
影响检索效果的因素有很多,但对于己经建成的信息检索系统而言,检索策略的优劣则是非常重要的因素。
正确的检索策略会优化检索过程,有助于取得最佳的检索效果。
2.4.4检索表达式检索表达式是检索策略的具体体现之一,简称检索式。
检索式一般由检索词和各种逻辑运算符组成。
具体来说,它是用检索系统规定的各种算符将检索词之间的逻辑关系、位置关系等连接起来,构成的计算机可以识别和执行的检索命令式。
检索式构造的优劣关系到检索策略的成败。
检索表达式主要有逻辑表达式、截词表达式等,其中,最为常用的是逻辑表达式。
2.4.4.1逻辑表达式逻辑表达式是指利用布尔逻辑算符,对检索词的关系进行表达,又称布尔逻辑表达式。
布尔逻辑是目前计算机检索最简单、最基本的匹配模式,也是计算机检索领域广泛采用的逻辑表达方式。
布尔算符有“逻辑与”(“AND”)、“逻辑或”(“OR”)、“逻辑非”(“NOT”)等。
(1)逻辑“与”:表示它所连接的两个检索词必须同时出现在结果中,逻辑检索式可写为:A AND B。
也有些数据库中用“*”或其他符号表示。
例如,要查找关于“计算机检索”方面的信息,检索需求可以表述为:“计算机AND检索”。
目前,在一些数据库(如中国期刊网)中提供的二次检索,实质上也是逻辑“与”的运算。
逻辑“与”的检索能增强检索的专指性,使检索范围缩小。
A ANDB A OR B A NOT B图2—1 布尔逻辑算符示意图(2)逻辑“或”:表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件,检索式可写为:A OR B。
在一些中文数据库中,用“+”表示逻辑“或”。
例如,想检索关于“计算机”的信息,可以表达为:计算机+电脑。
逻辑“或”主要用于表达检索词的近义词、同义词、全称和缩写等,以便全面、完整地表达相关的概念。
(3)逻辑“非”:表示它所连接的两个检索词中,应从第一个概念中排除第二个概念,检索式可写为:A NOT B。
在一些中文数据库中用“-”表示逻辑“非”。
例如,想查找关于“研究生教育”的资料,但要求不包括在职研究生,可以将检索式写为:“(研究生*教育)-在职研究生”或“研究生-在职研究生*教育”。
逻辑“非”表示具有不包含某种概念关系的一组组配,用来缩小检索范围。
但在实际检索中要慎重使用。
逻辑表达式在实际检索过程中,易于理解,便于使用。
例如,想检索“中国高等教育的发展趋势”,用逻辑表达式可写成:中国*高等教育*发展趋势。
表示要求查找的文献的相应字段中同时包含“中国”、“高等教育”、“趋势”这三个词,而排列形式不限。
以上逻辑运算符中,其运算优先级顺序为“非”、“与”、“或”,但是可以用括号改变它们之间的运算顺序。
还要注意的就是对于同一个逻辑运算式来说,不同的运算顺序有不同的运算结果。
2.4.4.2截词检索表达式截词检索表达式指在检索式中用专门符号(截词符号)表示检索词的某一部分,检索词允许有部分变化,检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词。
截词检索表达式在西方语言检索中应用比较广泛,在中文信息检索中也有一定的应用。
采用截词检索表达式,既能防止漏检,又能节省时间,是提高检索效率的有力措施。
不同检索系统采用的截词符不完全相同,一般常采用“?”、“*”等。
截词方式有多种,按截断的位置来分,截词有前截断、中间截断、后截断等;按截断的字符数量来分,可分为有限截断和无限截断两种。
后截词,又称右截词、前方一致,允许检索词尾部有若干变化形式。
例如检索式“Comput?”将检出包含Computer、Computing、Computed、Computerization等词汇的结果。
检索式“交际?”,表示检索以“交际”打头的信息,可以检索出“交际艺术”、“交际语言”、“交际行为”等。
中间截词,允许检索词中间有若干变化形式,例如“wom * n”就可同时检索到含有woman 和women的结果。
前截词,又称左截词、后方一致,允许检索词的前端有若干变化形式,例如检索“*physics”就可检得包含physics、astrophysics、biophysics、chemicophysics等词的结果。
截词检索表达式在使用时,一定要合理使用,截断部分要适当,不要截得太短,以免增加检索噪音,查出很多无关的文献。
2.4.5检索策略的构造步骤信息检索策略的构造一般包括分析用户信息需求、选择检索系统、确定检索用词、构造检索式、分析检索结果等。
具体过程如下:分析信息需求,明确检索要求选择检索系统选择检索途径和方法,确定检索词或检索式实施信息检索获取原始文献。
(1)分析信息需求(检索课题),明确检索要求这是人们进行信息检索的出发点,不同类型的检索课题,信息需求的范围和程度也不尽相同。
在这一环节中,要明确检索目的,明确检索课题内容涉及的主要学科范围和相关概念。
在分析课题的基础上,要清楚自己检索信息的类型,是查文献,或是查事实,还是查数据,以及要求查找文献信息的时间范围、学科范围等。
通过以上分析,对检索需求作出全面的认识。
(2)选择检索系统在手工检索中选择相应的工具书,在计算机检索中主要是利用数据库,包括搜索引擎。
依据对信息需求的分析,选择与检索课题相符、收录信息质量较高、检索功能比较完善的信息检索系统。
检索系统的选择要求我们对目前可利用的检索系统有一个大概的了解,如检索系统收录的信息所涉及的学科领域、收录的文献信息类型、时间范围、检索途径和检索方法、检索费用等等。
(3)选择检索途径和检索方法,确定检索词或检索式检索系统选定后,要对检索途径和方法做出判别和选择。
大部分数据库可以提供篇名、作者、主题词、关键词以及全文检索等途径,而且还能利用多种途径的组配进行复合检索。
检索词的确定是建立在检索课题概念分析的基础上,有时,检索课题会包含较复杂的主题内容,应明确组成课题内容的直接概念和相关概念,通过一定的逻辑组配或其它方式形成一定的复合概念或概念关系来表达信息需求。
(4)实施信息检索确定了检索词或检索式之后,即可开始实质性检索。
在实施检索的过程中根据已得到的检索结果的情况,可以调整检索词、检索式、检索途径和检索方法等,也可以充分利用信息检索系统提供的缩检和扩检功能,完善检索结果,直至达到满意的效果。