第二章 文献信息检索概述讲义(教学用)
- 格式:doc
- 大小:177.50 KB
- 文档页数:11
第二章文献信息检索概述导入:面对以下问题怎么办?知识更新的速度越来越快,当代大学生如何应对挑战?将来从事的工作与所学专业完全不相关,你如何应对?信息检索的重要性:有效、快速地获取所需信息☐为什么要进行文献信息检索(know why)?☐什么是文献信息检索(know what)?☐怎么去做文献信息检索(know how)?第一节文献信息检索的基本原理第二节文献信息检索途径与策略第三节文献信息检索的方法与步骤第一节文献信息检索的基本原理一、信息检索(Information Retrieval)1、检索:所谓检索是指查找、寻求、获取的意思。
2、信息检索:指将信息按一定的方式组织和存储起来,根据信息用户的需求,找出信息的过程。
广义的检索包括信息存储与检索两个过程。
狭义的信息检索指后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查询。
3、信息检索原理:原始文献——加工整理——数据库(存储)提问——检索——输出(检索)简而言之:文献信息检索是指从信息集合中找出所需要的信息的过程,仅指检索一个过程。
二、文献检索的分类按其检索对象分为:1、文献检索:凡是以文献为检索对象的称为文献检索。
它不直接解答用户所提出的技术问题本身,只是提供相关的文献供用户参考。
2、数据检索:凡是以数据作为检索对象的称为数据检索,它直接回答用户提出的技术问题,即直接提供用户所需要的确切的数据或事实3、事实检索:凡是以事实为检索对象的成为事实检索,直接查询事实性答案,提供用户所需要的确切事实,是一种确定性检索。
例:同类产品中,哪个品牌销售量最大?4、概念检索:就是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。
数据、事实、概念检索得到的是能够确切解答问题的信息,或者说是文献中的具体信息。
文献线索检索则是检索出包含所需要信息的文献,其结果是与某一课题有关的若干篇论文。
文献检索是最典型、最重要和最常用的文献信息检索。
文献信息检索基础知识一.基本概念1.文献:定义:文献是记录有知识或信息的一切载体。
具体地说文献是以文字、符号、图形、声频、视频等手段将信息、知识记录在各种载体上所形成的物质实体。
即记录有信息、知识的纸张、胶片、磁带、磁盘、光盘及一些网络资源都可以称之为文献。
文献的主要功能是存储信息、传递信息。
文献的特征:包括文献的内容特征和文献的外表特征两个方面。
2.信息:定义:信息是事物运动的状态与方式的反映。
简言之,信息就是事物发出的消息。
人与人间传递信息可通过:肢体语言、口头语言、书面语言等。
信息的特征:①普遍性;②时效性;③客观性;④可加工性;⑤共享性;⑥可变换性;⑦传递性;⑧可转化性3.知识:关于知识的定义亦有种种,西方20世纪60年代以来一直流行的说法是经济合作与发展组织(OECD)在《以知识为基础的经济》专题报告中所提的知识定义:“4个W”:● Know what (知道是什么)——关于事实方面的知识。
● Know why(知道为什么)——关于自然原理和规律方面的知识。
● Know how(知道怎么做)——关于技能或能力方面的知识。
● Know who(知道谁有知识)——关于到哪里寻求知识的知识。
定义:知识是人类认识的成果和结晶,是人类在认识和改造世界的社会实践中获得的对事物本质的认识和经验的总和。
这是广义的知识概念。
知识具有主观性、抽象性、客观性的特点。
二.文献的基本类型与特征对文献类型的划分,由于所选标准以及分析方法不同,有各种不同的划分方法,一般可按下面几种情况来划分。
1根据载体材料、存储技术和传递方式的不同:印刷型(又称纸制文献、印本文献)以纸张为载体,用印刷方式(雕版印刷、活字印刷、石印、照相影印、计算机排印)记录知识的文献,是传统的文献形式,也是现代的文献信息资源的主要形式之一。
印刷型文献因方便实用,直观性强,是人类交流和传播信息的主要形式。
缺点:存储的信息密度低,占据空间大,难以实现加工和利用的自动化,不便于对其进行长期管理和长期保存。
第二章文献信息检索概述导入:面对以下问题怎么办?知识更新的速度越来越快,当代大学生如何应对挑战?将来从事的工作与所学专业完全不相关,你如何应对?信息检索的重要性:有效、快速地获取所需信息☐为什么要进行文献信息检索(know why)?☐什么是文献信息检索(know what)?☐怎么去做文献信息检索(know how)?第一节文献信息检索的基本原理第二节文献信息检索途径与策略第三节文献信息检索的方法与步骤第一节文献信息检索的基本原理一、信息检索(Information Retrieval)1、检索:所谓检索是指查找、寻求、获取的意思。
2、信息检索:指将信息按一定的方式组织和存储起来,根据信息用户的需求,找出信息的过程。
广义的检索包括信息存储与检索两个过程。
狭义的信息检索指后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查询。
3、信息检索原理:原始文献——加工整理——数据库(存储)提问——检索——输出(检索)简而言之:文献信息检索是指从信息集合中找出所需要的信息的过程,仅指检索一个过程。
二、文献检索的分类按其检索对象分为:1、文献检索:凡是以文献为检索对象的称为文献检索。
它不直接解答用户所提出的技术问题本身,只是提供相关的文献供用户参考。
2、数据检索:凡是以数据作为检索对象的称为数据检索,它直接回答用户提出的技术问题,即直接提供用户所需要的确切的数据或事实3、事实检索:凡是以事实为检索对象的成为事实检索,直接查询事实性答案,提供用户所需要的确切事实,是一种确定性检索。
例:同类产品中,哪个品牌销售量最大?4、概念检索:就是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。
数据、事实、概念检索得到的是能够确切解答问题的信息,或者说是文献中的具体信息。
文献线索检索则是检索出包含所需要信息的文献,其结果是与某一课题有关的若干篇论文。
文献检索是最典型、最重要和最常用的文献信息检索。
三、文献信息检索系统的构成:(四大要素:1、检索文档2、检索设备3、系统规则4、作用于系统的人)☐1、检索文档检索文档就是经过序列化处理并附有检索标识的信息集合。
例:手工检索系统使用的检索文档是又卡片式目录、文摘、索引所构成的系统;计算机检索系统使用的是存储在磁性或光性介质上的目录、文摘、索引或全文以及多媒体信息所构成的数据库。
☐2、检索设备检索设备即用以存储信息和检索标识,并实现信息检索标识与用户需求特征的比较、匹配和传递的技术手段,即检索所需的硬件环境、在手工检索系统中指印刷型检索工具,在计算机检索系统中包含各种类型的主机、终端、计算机外围设备和网络通信传输设备。
☐3、系统规则系统规则是用以规范信息采集分析、标引著录、组织管理、检索与传输等过程的各项标准体系,例如检索语言、著录规则、检索系统构成与管理、信息传输与控制标准、输出标准等规则。
☐4、作用于系统的人:包括信息用户,信息采集分析、信息标引员,系统管理与维护员,检索服务人员等。
四、信息检索的意义和作用1、意义1)信息检索是现代人才的基本生存技能2)信息检索是现代人才信息素质的重要方面信息素质主要包括三方面的内容:信息意识、信息能力、信息道德。
☐信息意识是指人对各种信息的自觉心理反应,这种反应取决于两方面的因素,即对信息科学正确的认识和对自身信息需求的自我意识。
☐信息能力包括:信息技术应用能力,信息查询、获取能力,信息组织、加工、分析能力,信息的有效利用、评估、传播能力等。
☐信息道德则指整个信息活动中的道德规范,它是调节信息生产者、加工者、传递者以及使用者的道德准则。
3)信息检索是科学交流的重要途径4)信息检索是开发信息资源的工具5)信息检索是管理决策的基础6)信息检索是继承和借鉴前人成果,避免重复研究的必由之路2、作用◆有利于减少课题的重复研究、提高科研成功率◆有助于节约时间、提高科研效率◆是获取新知识的捷径德国柏林图书馆门前有这样一段话:“这里是知识的宝库,你若掌握了它的钥匙,这里的全部知识都是属于你的。
”这里所说的“钥匙”即是指信息检索的方法。
第二节信息检索途径与策略一、信息检索的类型1、按技术手段上分:☐手工检索(卡片、工具书)☐计算机检索(1)手工检索手工检索使用的多为印刷型或书本型检索工具,早些有检索卡片,现在使用最多的是检索刊,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。
手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。
手检工具能提供的检索点十分有限,检索结果往往不尽人意。
(2)计算机检索通过数据库系统来实现的。
检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施,还需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。
检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。
计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。
计算机检索明显优于手工检索,主要表现:1)检索的信息量大2)数据更新快3)检索功能强4)检索结果输出的多样性2、按检索途径分☐分类检索(classification)☐主题检索(subject)☐作者检索(author)作者(author)检索是从文献的作者姓名出发来检索其文献。
“作者”广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoring body)、译者(translator)等。
此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单位(author's affiliation)。
☐名称检索(title)名称(title)检索点是从各种事物的名称出发来检索文献信息。
这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。
检索的对象既包括对应的文献,也包括有关的信息、事项等。
比如个人电话簿(white pages)或公司电话簿(yellow pages),查找的是号码信息。
☐号码检索(number、code)号码包括文献的编号(number)、代码(code)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。
号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。
比如科技报告有报告号,还有其合同号、拨款号等,比如专利文献有专利号、入藏号、公司代码等;比如分类号也是号码(特殊的号码检索),等等。
它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。
二、检索途径(检索语言)1、检索途径:检索途径即检索语言(retrieval language),也称检索点,是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。
检索语言也称索引语言,后者是从检索系统的标引角度出发的,而前者是从用户的信息检索角度出发的。
2、检索语言分类(1)描述文献外部特征的语言书名、篇名等;著者;号码;文献类型;文献出版事项(2)描述文献内部特征的语言☐分类语言:分类语言:按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。
由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。
☐主题词语言:关键词语言、标题词语言、叙词主题词语言:包括关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。
主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。
(3)分类1)分类检索分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(classification system)。
分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。
⏹《中国图书馆分类法》:简称“中图法”。
是目前我国图书馆普遍使用的一部综合性的分类法, 涵盖了从社会科学、自然科学到人文科学所有的方面。
《中图法》采用汉语拼音字母与阿拉伯数字相结合的混合号码,用一个字母代表一个大类,以字母顺序反映大类的次序,在字母后用数字作标记。
为适应工业技术发展及该类文献的分类,对工业技术二级类目,采用双字母。
目前通用的是《中国图书馆图书分类法》(第四版)。
⏹《中国图书馆分类法》是我国当代具有代表性的图书分类法,被推荐为我国标准图书分类法.广泛使用于图书馆和情报部门。
⏹中国图书馆分类法的体系结构(5个部类)马克思主义、列宁主义、毛泽东思想;哲学;社会科学;自然科学;综合性图书。
2)主题检索:是按照表达文献信息主题内容的主题词进行信息检索的一种途径。
主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。
检索按主题词的音或形的字顺进行,其方式如查字典、词典。
主题词有多种类型:有规范词和自由词,有单元词和多元词,有先组结构和后组结构等。
主题词的合理选择与使用对检索结果的优劣直接相关。
关键词:是文献标题、文摘或原文中抽选出来的对表达文献主题内容起关键作用的、具有实质意义的词汇。
它的主要特点是:关键词属于自然语言,未经规范处理,不受词表控制,它来自文章标题或文摘、正文中,专指度高,用作检索词,查准率高,但查全率低,并适宜用计算机快速编制关键词索引。
⏹优点:检索方便,直接简明,适用于不懂得主题词的用户。
不受词表控制,能及时检索到最新概念的各类文献。
⏹缺点:同义词容易遗漏,多义词容易误检,原因有:1.取名的多样:同物异名、全名与简称、异称(学名、俗名、音译名。
2. 构词的多样:派生词、单复数、拼写变体。
3. 大量的复合词)例:如电脑和计算机是同义词,如果选择电脑为检索词,势必要遗漏许多文献;标题词与单元词☐标题词语言:以标题词作为文献内容标识和检索依据。
标题词是从文献题名和内容中挑选出来的,并经过规范化处理的词和词组,标题词的规范化处理是通过标题词表来实现的。
☐单元词:以单元词作为文献内容标识和检索的依据。
单元词是从文献题名和内容中挑选出来的,并经过规范化处理的不能分解的词。
叙词:☐所谓叙词是从文献内容中抽选出来的、从概念上不可再分的、能表达信息主题内容的规范化的词汇。
经规范化处理的词或词组,后组式语言,可自由灵活组配。
如检索汽车发动机制造方面的文献,可用汽车、发动机、制造三个叙词来标引。