信息检索第六章计算机信息检索概
- 格式:docx
- 大小:18.93 KB
- 文档页数:6
第二章信息与信息资源第一节信息、知识、情报和文献一、信息、知识、情报和文献的1、信息信息是客观存在的事物现象,是生物体或具有一定功能的机器可以感知的客观事物发出的一切有意义的信号和信息。
2、知识知识就是人类认识的成果或结晶,知识也就是信息,是信息的高级形式。
3、情报情报是指用不同的方法和手段,在有效的时间内所获得的有针对性和有价值的知识。
4、文献人们用文字、图形、符号、声频和视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或设置在感光胶片上,或录制在胶片上,或存储在磁带、磁盘上。
这种附着在各种载体上的知识,统称为文献。
文献就是记录有知识的一切载体。
5、信息社会建立在以知识生产、分配、加工和利用基础的新型社会。
第二节信息资源的类型一、按出版形式分1、图书2、期刊3、科技报告4、会议文献5、学位论文6、专利文献7、标准文献8、技术档案9、产品资料10、政府出版物二、按加工内容的深度分1、零次文献未经公开发表或未交流的文献2、一次文献是指以作者本人的研究成果为依据而创作的原始文献。
如学术报告、报刊论文、科研报告、学位论文、档案资料、会议论文等。
3、二次文献二次文献是对具有信息检索价值的一次文献进行搜集、整理、加工、提炼,按一定顺序组织起来的文献。
主要包括书目、索引、文摘、题录等。
是用来报道和检索一次文献的检索工具或检索系统。
4、三次文献是指利用二次文献,搜集大量一次文献进行研究,经过系统整理综合分析而撰写出来的文献。
主要包括综述、年鉴、词典、手册等。
第三章信息检索第一节信息检索概述一、信息检索的定义广义的讲,信息检索就是将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
它包括信息存储和检索两个过程。
狭义的讲,信息检索是从信息集合中找出所需要的过程,即信息的检索过程。
二、信息检索原理信息检索的基本原理就是将信息存储和检索两个过程中的存储特征标识和检索提问标识进行对比,二者匹配达到一致,即可获取符合条件的信息。
计算机信息检索02139自考资料第一章信息检索概述1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
2.根据检索手段的不同,信息检索能够分为手工检索、光盘检索、联机检索和网络检索。
3.信息检索的基本原理经过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并经过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
4.信息检索语言信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三者统称为计算机信息检索。
6.与手工检索相比,计算机信息检索的特点表现在:(1)速度快、效率高,仅几分钟就能够从成千上万条记录中找到所需信息;(2)检索范围广,能够迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中,几乎每一台个人计算机都能够成为信息源;(3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就能够在任何地方借助光盘和通信网络查询所需信息。
7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。
信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。
8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。
10.数据库由字段、记录和文档构成。
11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。
12.信息检索系统评价的核心是检索性能评价。
13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一步完善检索工作的过程。
第六章计算机信息检索概述6.1计算机信息检索的含义和特点一、计算机信息检索的含义计算机信息检索:人们根据特定的信息需要,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。
包括信息存储过程和信息检索过程。
二、计算机信息检索发展简史1、脱机批处理检索:20世纪五六十年代是脱机批处理检索的试验和实用化阶段。
这一时期,计算机尚未连接通信网和远程终端装置,主要利用计算机进行现刊文献的定题检索和回溯检索。
当时的信息检索是脱机批处理检索,即用户向计算机操作人员提问,操作人员对提问内容进行主题分析,编写提问式输入计算机建立用户提问档,按提问档定期对新到的文献进行批量检索,并及时通知用户。
同时这一阶段开始利用计算机编辑出版检索性刊物。
2、联机检索阶段:20世纪60-80年代是联机检索的试验和实用化阶段。
第三代集成电路计算机,存储介质,存储容量,数据库管理,通信技术的发展为联机检索提供了技术支持。
随着国际联机检索系统的发展,信息检索在这一阶段实现了远程实时检索。
3、光盘检索阶段:20世纪80年代以来,新型信息载体激光光盘在信息检索领域得到广泛应用。
光盘检索操作方便,不受通信线路影响。
早期是单机驱动器和单用户,为解决多用户同时检索的要求,出现了复合式驱动器,自动换盘机,光盘网络技术。
4、网络化联机检索阶段:20世纪80年代以来,随着TCP/IP协议的普遍采用,美国国家科学基金会的接入,计算机检索发展到了今天的网络化联机检索阶段。
互联网具有广泛性方便性的特点,使许多联机检索系统纷纷上网,除保留原来服务项目和内容外,还增加了许多新的动态信息服务。
同时以搜索引擎为核心的网上搜索技术也日益发展,成为当前最具有普遍意义的信息检索形式。
三、计算机信息检索的分类(不同标准不同类型)1、根据所检索数据库的形式:①书目检索:查出某一主题的文献条目的检索,包括题录检索,文摘检索等②数据检索:查出有关数据的检索,以求得某一问题量化的准确数值,包括统计数据和科学数据③事实检索:查出有关事件或实在情报,以求得对某一问题的解答。
④全文检索:直接利用原始文献建库进行的检索。
2、根据计算机检索服务方式:①定题检索:根据用户检索课题内容,定期从新到资料库中为用户提问进行计算机检索的服务方式。
特点:定期性新颖性批处理性②回溯检索:指追索过去的信息,也可用于查找最新信息,能适应多数用户的查询需要。
可用于申请专利的新颖性,科研立项的查新,撰写论文和编写教材的信息收集。
③日常检索:用户根据自己的信息需求,直接利用终端检索,检索系统即使提供用户所需的信息。
3、根据检索方式:①脱机检索:成批处理检索提问的计算机检索方式,计算机检索的初期类型②联机检索:利用检索终端和通信线路,直接查询检索系统数据库的计算机检索方式③光盘检索:以光盘数据库为基础的一种独立的计算机检索,包括单机光盘检索和光盘网络检索④网络检索:利用检索工具在互联网上进行信息存取的行为,目前主要利用的信息检索系统是搜索引擎。
四、计算机信息检索的特点手工检索:人们长期以来采用的文献信息检索的传统方法,人们借助简单的机械工具,直接凭头脑进行判断,对记录在普通载体上的资料进行相应的检索。
优点:①直观性强②灵活性高③费用比较低缺点:①检索速度慢②时空限制强③更新周期长④新颖性时效性低⑤检索途径少1、检索范围大:由于计算机的运算速度高和数据库存储量大,计算机信息检索系统收录了数量巨大内容全面的信息。
仅联机检索系统就能提供成百上千个数据库的检索,搜索引擎更是收录了庞大的网路信息资源。
2、检索速度快:计算机的快速检索能力保证了计算机检索系统的检索速度,手工检索需要数日数周的课题,计算机检索几分钟甚至几秒钟就可以完成检索。
3、检索功能强,组配灵活:①布尔检索词组检索限定检索截词检索字段检索等②提供多途径检索4、检索途径多:①除手工检索的途径外,还能满足多途径交叉检索的需要,尤其适用于综合性课题的检索②大部分检索系统还能提供题名作者关键词等等检索途径。
5、数据更新及时,时效性强:光盘多为每月更新一次,网络则为每天更新一次6、检索结果输出形式多样:①检索结果可选择直接浏览,存盘,打印,E-mail传输检索结果等②部分检索系统还提供不同字段输出形式③或者选择简单格式和详细格式两种检索结果显示形式缺点:①计算机信息检索系统所收录的数据回溯时间有限,不能满足所有的信息查询需要②计算机检索需要有一定的计算机知识,需要一定的计算机环境,不适合每一个信息需求者。
当前,计算机检索成为人们检索信息的主要途径,但手工检索和计算机检索还将在长时间内共存。
6.2计算机信息检索策略一、检索策略的含义和作用检索策略:在分析检索课题内容实质基础上,选择检索系统检索途径,确定检索词及相关的逻辑关系等的信息检索方案。
实质是对检索过程的科学规划。
关键是构造确切表达信息需求的检索表达式。
作用:①优化检索过程②有助于提高查全率查准率③节约检索时间费用④取得最佳检索效果(正确的检索策略的作用)二、检索表达式检索表达式:是检索策略的具体体现,简称检索式。
一般由检索词和各种逻辑运算符组成,将检索词之间的逻辑关系位置关系等用检索系统规定的各种逻辑算符连接起来,成为计算机可以识别和执行的命令形式。
(一)逻辑表达式:逻辑表达式:利用布尔算符,对检索词的关系进行表达,又称布尔逻辑表达式。
布尔算符是19世纪英国数学家乔治.布尔发明的,以集合论和布尔逻辑为理论基础,是目前计算机检索最简单最基本的匹配模式。
有逻辑与“and”逻辑或“or”逻辑非“not”逻辑与“AND”表示它所连接的两个检索词必须同时出现在结果中,检索式可写为:A AND B,含义为A与B重合部分。
有些数据库中用“*”表示。
可用来提高查全率。
逻辑或“OR”表示它所连接的两个检索词任意一个出现在检索结果中就满足检索条件,检索式可写为:A OR B,含义为A与B的并列关系,用来表达概念的同义词近义词相关词等扩大检索范围保证查全率。
有些数据库中用“+”表示。
逻辑非“NOT”表示它所连接的两个检索词要从第一个概念中排除第二个概念,检索式可写为:A NOT B。
表示具有不包含某种概念关系的一组组配,用来缩小检索范围,在实际检索中要慎用。
一些中文数据库中用“-”来表示。
优点:①可表达与用户思维习惯相一致的查询要求②与计算机逻辑运算功能一致③表达意义比较直观明显缺点:①不能反映检索式中检索词的重要性②不能实现检索结果的相关性排序③若用户的检索课题中涉及的检索词较多可能要写出一个相当复杂的检索式。
(二)加权表达式:加权检索:在检索提问中,根据每个检索词在检索式中的重要程度,分别给予一个数值加以区别,这个数值就为权值;然后对含有这些检索词的文献进行加权计算,其和在规定阀值以上的即为命中文献。
采用这种方法表达信息需求的成为加权表达式。
采用此方法,要对比检索词和标引词,还要统计检索词的权重。
还有一种加权检索的形式,就是不直接对检索词进行赋值,而是对文献重点内容的检索词做加权标识,这样就可以将重点反映该主题的文献查出来。
如目前网络搜索引擎采用“+”“—”表示检索词在检索提问中的分量,“+”表示检索词必定要在检索结果中出现,“—”表示检索词一定不能出现在检索结果中。
优点:①明确各检索词在检索中的重要程度②检索结果按切题顺序排列③在提高查全率和查准率方面均有一定作用。
缺点:具体应用不如布尔逻辑表达式广泛。
(三)位置检索表达式:位置检索表达式:邻近检索,通过位置算符来表示两个检索词之间的距离和位置关系。
不同检索系统可能采用不同的位置算符,目前常用的主要是“(W)”、“(nW)”、“(N)”、“(nN)”(W)表示两个检索词相邻,前后顺序不能颠倒,W是with的缩写,检索式表示为:A(W)B。
(nW)表示连个检索词之间最多可插入n个词(中文状态下表示n个字)而且前后顺序不能颠倒,检索式表示为:A(nW)B(N)表示两个检索词相邻,前后顺序可以颠倒,N是near的缩写,检索式表示为:A (N)B。
(nN)表示两个检索词之间最多可插入n个词(中文状态下表示n个字)而且前后顺序可以颠倒,检索式表示为:A(nN)B。
(四)截词检索表达式:截词检索表达式:在检索式中用专门符号(截词符号)表示检索词的某一部分允许有一定的词汇变化,即检索词的不变部分加上由检索符号所代表的任何检索形式所构成的词汇都是合法检索词。
在西文检索中应用广泛。
优点:①防止漏检②节省机时③提高检索效率。
不同检索系统采用的截词符号不同,一般采用“?”“*”类型:①按截断的位置来分:可分为前截断,中间截断,后截断②按截断的字符数量来分:可分为有限截断和无限截断。
后截词:又称右截词前方一致,允许检索词的尾部有若干变化。
Comput?可检索出computer,computing等中间截词:允许检索词中间有若干变化。
Wom*n可检索出woman,women前截词:又称左截词后方一致,允许检索词的前端有若干变化。
*physics可检索出physics,astrophysics等注意:合理使用截断部分要适当不要截的太短以免增加检索噪音查出许多无关的文献(五)限制检索表达式:限制检索表达式:用限制符限定检索词出现范围的检索式,如将检索词限制在标题作者中等。
不同的检索系统限制符的表示方法不同,一般字段限制代码有:标题(TI,title)、作者(AU,author)、主题词(SU,subject)、年代(PY,publication year)等一些网络检索工具也允许使用限制检索,可将检索范围限制在标题,统一资源定位地址,超链接等部分。
三、检索策略的构造步骤1、分析信息需求(检索课题),明确检索要求:①不同类型的检索课题,信息需求的学科范围和程度不同,要明确检索课题涉及的学科范围信息类型相关概念,对检索需求做出全面认识。
②应尽可能掌握检索课题的研究背景,利用工具书获得相关文献,增加检索途径。
2、选择检索系统:在计算机检索中检索系统主要是数据库包括搜索引擎。
应选择与检索课题相符合的收录信息质量较高的检索功能比较完善的检索系统。
3、选择检索途径和检索方法,确定检索词或检索式:①大多数检索系统都提供篇名作者主题词关键词以及全文检索等检索途径,还可通过组配进行交叉检索②经过对检索课题的概念分析后确定检索词,若检索课题包含较复杂的主题,应明确其直接概念和相关概念,通过一定的逻辑组配或其他方式形成复杂概念表达信息需求。
4、处理检索结果:①根据检索结果的实际情况,可调整检索词检索式检索途径检索方法等,或利用缩检和扩检功能完善检索结果,以达到最满意的结果。
②对检索结果加以系统整理,筛选出符合课题要求的相关文献信息,选择检索结果的著录格式,输出检索结果。