信息检索基本理论
- 格式:doc
- 大小:33.00 KB
- 文档页数:13
信息检索基本理论信息检索基本理论信息、知识、文献及其之间的关系信息源信息检索及分类信息检索原理信息检索语言信息检索技巧信息检索方法信息检索的策略与步骤源于拉丁字informatio 。
港台地区又译为资讯。
辞海1989 年版的解释为音讯、消息。
信息论创始人香农(non ): 信息是用于消除信宿对信源发出何种消息的不确定性的东西. 控制论的创始人维纳(N.Wiener ):信息是人们同外部世界进行交换的内容的名称。
信息既不是物质也不是能量国家标准对信息的定义:物质存在的一种方式,一般指数据、消息中所包含的意义,可以使消息中所描述的事件的不定性减少。
狭义:主体通过各种认知方法获得并经过收集、记录、处理后以某种形式存储起来的事实或数据。
信息的特性:物质性、传递性、可扩充性、共享性、价值不定性。
知识(knowledge )概念:是人类社会实践的总结,是人的主观世界对客观世界的如实反映。
分类:按载体分:隐性知识和显性知识。
按领域分:哲学知识,社会科学和自然科学。
按用途分:科学知识,技术知识和文化知识。
同信息的关系:将反映自然现象和社会现象的信息经过加工,上升为对自然和社会发展客观规律的认识。
文献(document) 国际标准化组织《文献情报术语国际标准》对文献的描述是:“为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,摄制在感光片上,或录到唱片上,或存贮在磁盘上,这种附着在各种载体上的记录统称为文献”我国颁布的《中华人民共和国国家标准??文献著录总则》对文献定义为:“文献是记录有知识和信息的一切载体。
”三者的关系信息源(information sources )信息源概念源:“水流起头的地方”(《现代汉语词典》)信息源:信息的来源、出处。
广义的信息广义的信息源的概念“万物皆是信息源”狭义的信息狭义的信息源的概念信息源的类型按信息源产生的时间顺序来划分:先导信息源、即时信息源、滞后信息源。
信息检索第一章信息检索的基础理论第一节基础概念一、信息概述(一)信息的定义:信息指的是事物的存在方式和运动状态,是对客观世界中各种事物变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。
世界三大基本要素:信息物质能量(二)信息的特征1.客观性①信息来源于物质,又不是物质本身;它从物质的运动中产生出来,又可以脱离物质相对独立地存在。
②信息业来源于精神世界,但又不限于精神的领域。
③信息是具体的,并且可以被人所感知、提取、识别,可以传递、存储、变换、显示、检索和利用。
2.普遍性3.可存储性4.可传递性5.扩散性6.共享性7.时效性(三)信息的功能1.经济功能①运用信息可以使非资源转化为资源创造财富。
②使用信息取代劳动力、资金、材料等资源创造财富,实现经济效益倍增。
③直接让信息作为商品在市场流通中创造财富。
④通过信息进行科学决策,减少失误,创造财富。
2.管理与协调功能5M资源:人、财、物、设备、管理办法信息的管理与协调功能在组织活动中的作用:①传递整个组织的运行目的,有效管理5M资源。
②调节和控制物质流和能源流的数量、方向和速度。
③传递外界对系统的作用,保持组织的内部环境稳定。
3.选择和决策功能4.研究与开发功能二、知识1.知识的概念:知识是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,是人类对自然界、人类社会以及思维方式与运动规律的认识。
2.知识的类型①显性知识和隐性知识。
②实体知识和过程知识。
③核心知识和非核心知识。
三、情报1.情报的概念:情报是具有特定传递对象的特定知识货有价值的信息。
2.情报的特征①动态性②按特定的方式传递③为特定目的服务的④常常有一定的时效性和机密性3.情报的类型零次情报:私人笔记、手稿、设计草图、会议记录、口头言论等。
一次情报:调查报告、研究报告、科学论文、专利说明书、会议文献、专著等。
二次情报:书目、索引、文摘等三次情报:综述、专题评论、年度总结、研究进展报告、数据手册、专业年鉴等。
章节:第二章信息检索基本理论学时:2学时教学目的:1 了解信息检索工具的概念、类型。
2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。
3 了解《中国图书分类法》、《汉语主题词表》的主要结构。
4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。
5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。
重点难点:1 简述信息检索工具的类型。
2 论述分类语言、主题检索语言的原理与特点。
3 简述信息检索的主要步骤。
4 论述提高信息检索效果的方法。
教学进程:1 信息检索工具(15分)。
2 信息检索语言(30分)。
3 信息检索的步骤(25分)。
4 检索效果的评价(25分)5 小结(5分)。
思考题:1简述信息检索工具的种类。
2简述分类语言与主题语言的含义及其特点。
3简述信息检索的步骤、方法。
4简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。
参考资料:1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社备注:第二章信息检索基本理论1 信息检索工具信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。
在文献检索里面就是我们前面讲到的二次文献。
按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘、索引。
检索工具的作用:1、存储作用检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。
只有先进行了存储我们才能进行查找。
这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关主题的目录介绍等来确定我们所需的资料。
在有限时间内提高了工作效率。
2、检索作用存储在检索工具中的资料,可根据我们的需要按一定的方法和规则进行查找。
既然是检索工具集必然具有检索的作用。
3、报道作用检索工具搭建了文献管理者和文献利用者之间沟通联系的桥梁。
第三章信息检索的基本理论目的要求了解信息检索系统的概念;了解手工信息检索系统的类型;熟悉手工信息检索系统的结构;掌握手工信息检索系统的著录格式和常用的手工信息检索系统的信息检索方法。
掌握计算机信息检索系统的构成和类型;掌握信息检索语言的基本类型;掌握信息检索原理。
第一节信息检索系统一、信息检索系统的概述信息检索系统是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。
简单地说,信息检索系统即信息的存贮和检索的系统。
广义:信息检索系统是包括了从信息采集到检索全过程的服务体系。
狭义:信息技术系统就是用户检索信息时所使用的检索工具。
信息检索系统具有输入功能、存贮功能、处理功能、输出功能及控制功能。
根据信息存贮和检索所设备和手段的不同,信息检索系统可分为两大类型,即:手工信息检索系统和计算机信息检索系统。
目前,信息检索系统已从传统的手工检索系统发展到计算机网络信息检索系统。
二、手工信息检索系统1、手工信息检索系统的类型书本式检索工具(期刊式检索工具、单卷式检索工具、附录式检索工具)和卡片式检索工具。
期刊式检索工具:指在一个题名之下,定期连续发行的一种检索工具。
它具有及时性、连续性和稳定性的特点。
例如各种文摘杂志、索引刊物、连续的馆藏目录等。
这种形式的检索工具,及时反映新出版、新发表、新入藏的文献信息,它随着新文献的不断出现而不断连续出版,保持与文献的平行发展关系。
因此科研工作者为了掌握和了解本学科的科研动态,定期查阅期刊式检索工具是一种非常有效的方法。
同时由于期刊式检索工具的连续性的特点,不少期刊式检索工具,每到一定时间累积后,对于回溯检索极为方便。
单卷式检索工具:这种检索工具多数是以一定的专题内容而编印的,选题一般具有独立的意义。
它专业性强,收集的文献比较集中,往往积累反映一个相当长时间的文献,并以特定范围的读者作为对象。
单卷式检索工具收录文献一般比较全面系统,排列组织比较切合专业研究的需要,因此,对于专题文献检索比较方便,使用价值较高。
章节:第二章信息检索基本理论学时:2学时教学目的:1 了解信息检索工具的概念、类型。
2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。
3 了解《中国图书分类法》、《汉语主题词表》的主要结构。
4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。
5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。
重点难点: 1 简述信息检索工具的类型。
2 论述分类语言、主题检索语言的原理与特点。
3 简述信息检索的主要步骤。
4 论述提高信息检索效果的方法。
教学进程: 1 信息检索工具(15分)。
2 信息检索语言(30分)。
3 信息检索的步骤(25分)。
4 检索效果的评价(25分) 5 小结(5分)。
思考题:1 简述信息检索工具的种类。
2 简述分类语言与主题语言的含义及其特点。
3 简述信息检索的步骤、方法。
4 简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。
参考资料: 1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社 2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社 3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社备注: 1第二章信息检索基本理论 1 信息检索工具信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。
在文献检索里面就是我们前面讲到的二次文献。
按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘、索引。
检索工具的作用:1、存储作用检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。
只有先进行了存储我们才能进行查找。
这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关主题的目录介绍等来确定我们所需的资料。
在有限时间内提高了工作效率。
2、检索作用存储在检索工具中的资料,可根据我们的需要按一定的方法和规则进行查找。
既然是检索工具集必然具有检索的作用。
3、报道作用检索工具搭建了文献管理者和文献利用者之间沟通联系的桥梁。
它可以向我们使用者展示管理者所收藏的文献类型、数量等情况,提高了文献的利用率。
例:图书馆的门口专供检索的机子,他将图书馆的馆藏数据存在一套图书馆专用管理系统中,我们可以通过利用这套系统,来检索图书馆都有哪些书,书名作者是什么?放在什么地方?借出去基本几本?还有几本在库里,甚至你们读者证的一些信息,包括超期没有,罚金多少等等都可以查询。
他也是一个检索工具。
检索工具类型: 1.1 目录目录是揭示出版物外部特征的检索工具,如书名、作者、出版社等等,并不涉及书中的具体章节或期刊中的具体文章。
他以“本”为单位报道文献。
目录的种类主要有:书名目录:如《全国总书目》、《全国新书目》;著者目录:;分类目录:;主题目录:。
1.2 题录题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。
内容包括文献号、文献篇名、作者及工作单位、原文出处等,他也不涉及文献内容,没有内容摘要。
文献深度比目录大,是用来查找最新文献的重要工具。
1.3 文摘 2文摘也是以单篇文献为报道单位,是描述文献外部特征和主要内容特征的检索工具。
我们可以通过文摘内容了解文献基本内容,从而决定文献的取舍,起到筛选文献的作用。
因此其检索功能强于题录,是检索工具的主体性类型。
1.4 索引索引是将文献中某些主要的、具有检索意义的内容特征标识或外部特征标识按某种顺序排列,并注明文献条目线索的检索工具。
如主题索引、著者索引。
索引常附于检索工具的后部,是检索工具的主要组成部分,它为查找文献提供了多种检索途径。
有的本身全由索引构成,如美国《科学引文索引》(SCI),美国工程索引EI。
索引的组成主要有索引款目和参照系统两部分。
索引款目是索引的主要部分,每条索引款目通常由文献特征标识(标目)、说明语、地址三项组成。
标目:识别特定款目的主要标志,他控制款目在索引中的位置,检索者可以通过他迅速找到有关款目。
作者姓名、主题词等都可作为标目。
采用不同形式标识,就构成不同类型索引。
如关键词索引、分类号索引、作者索引。
说明语:用来限定和进一步细分同一标识下的文献,达到改善索引的功能。
文献题名、自编的短语或短句都可作为说明语。
材料出处:指明了索引中款目的文献线索,如页码、题录或文摘的顺序号等。
一般文献描述项和索引之间常用文摘号相连,文摘号是检索系统编织者给每篇文献确定的一个能代表该篇文献的号码,我们可通过所引种的文摘号的指引检索文献的描述项,从而获得文献详细信息。
5、搜索引擎他是以网页为著录单元,在Web 中自动搜索信息并将其自动所引到Web服务器。
索引信息包括文档地址,文档中单字出现的频率、位置等。
网络搜索引擎很多,著名的有Yahoo! Google百度、搜狐、网易、新浪等。
2 信息检索语言 2.1 信息检索语言的概念举例:每天经邮局寄出的信件来自四面八方,杂乱无章。
而代表地址的邮政编码和文字确使这些信件成为有序。
邮政编码使邮件分检速度加快,有序化程度提高。
他不是随意组合的,而是代表了一定的编号。
信息也是如此,全世界每年产生的信息何止千万,信息中心将这些信息搜集起来,制定出有关规则,如使用哪种信息系统,使用哪种分类法和主题词表,著录信息的标准是什么等等。
信息人员根据规定的规则将信息加工后按一定的排序送入信息系统。
用户可以按一定得条件去检索信息了。
因此说信息的有序化是由信息著录标准、信息系统的排序方法及检索语言等决定的。
3检索语言(Retrieval Language)是保证存储和检索的一致的一种共同性的人工语言,它把文献的存储与检索联系起来,使文献的标引者和检索者取得共同理解,从而实现检索。
就检索语言的实质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信息内容或外在特征及其相互关系的概念标识体系。
检索语言由词汇和语法两部分组成。
词汇是指登录在类表、词表中所有的标识(分类号、检索号、代码等),是可识别的语词;语法是指如何运用标识来准确表达信息内容和特征,以有效实现信息检索的规则。
在存贮和检索过程中,检索语言起着重要的语言保障作用。
它既是编制检索工具的依据,也是计算机信息存储及检索系统用以表达文献主题概念的人工语言。
如果没有检索语言作为标引人员与检索人员的共同语言,就很难使得标引人员对文献主题内容的表达(文献标引)与检索人员对相同内容的课题文献需求(课题标引)取得一致,文献检索也就不可能顺利实现,甚至根本无法实现。
2.2 信息检索语言的分类检索语言的种类很多。
按描述文献特征不同,检索语言分为描述文献外表特征的检索语言和描述文献内容特征的检索语言,见下图。
分类语言关键词语言描述信息内容特征的语言单元词语言主题语言标题词语言叙词语言检索语言书/刊名著者描述信息外表特征的语言出版事项代码/序号图2-2 信息检索语言题名语言:是按文献题名字顺逐字排检,西文起首冠词一律不排。
著者语言:是按著者姓名,按姓前名后的字顺逐字排检。
号码语言:是按文献代码,发专利号、标准号、报告号、ISBN号、ISSN号等的顺序排检。
2.3 分类语言 42.3.1 概述分类语言是一种直接体现学科知识分类的等级制概念标识系统,是通过对概括性文献信息内容及某些外表特征的概念进行逻辑分类和系统排列而构成的,用分类号作为检索标识,用于存储和检索文献信息的一种信息标识系统。
建立体系分类语言的基础是概念的划分。
所谓“类”是指具有某种共同属性的事物或概念的集合。
一类事物可以根据其不同的属性进行层层划分。
一个概念经过一次划分后形成的一系列概念就是种概念(下位类),而被划分的概念被称为种概念(上位类)。
同一属概念划分出来的各个种概念彼此之间相互称为并列概念(同位类)。
分类语言包括体系分类语言和综合分类语言(分面组配分类语言)。
我们只对体系分类语言进行研究。
2.3.2 《中国图书分类法》简介《中国图书分类法》简称《中图法》,是我国图书情报界为实现全国信息资料统一分类编目而编制的一部大型信息分类法。
《中图法》1973年出版第一版,1980年和1982年相继出版第二版、第三版,现行的第四版1999年正式出版。
《中图法》由分类表、编辑及使用说明和索引三部分组成。
编辑及使用说明为了解和掌握分类表提供指导。
索引则是使用分类表的辅助工具。
分类表是分类法的主体,是类分信息的主要依据。
因此,以下重点介绍分类表的结构。
(1) 基本部类。
它是分类法类目表中最先确定、最概括、最本质的类目。
《中图法》确定为五大部类:马列主义、毛泽东思想、邓小平理论,哲学,社会科学,自然科学,综合性图书。
(2) 基本大类。
它是在基本部类的基础上进一步展开而形成的。
基本大类构成分类表的第一级类目。
《中图法》的基本大类有22个。
见图2-3。
(3) 简表。
简表是整个分类法的基本类目表,一般由基本大类在作一、二度划分出来的类目和基本大类构成。
(4) 详表。
是整个分类法的正文,亦称主表,由所有不同级类目组成。
它是类分信息资料的依据。
(5) 辅助表。
也称复分表,它是用于辅助主表的不足,对主表中列举的类目进一步细分。
基本部类基本大类 5马克思主义.列宁主义、毛泽东思想、邓小平理论―――――――――――― A 马克思主义、列宁主义、毛泽东思想、邓小平理论哲学――――――――――――――- B 哲学、宗教社会科学――――――――――――― C 社会科学总论 D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字 I 文学 J 艺术 K 历史、地理自然科学―――――――――――― N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学综合性图书――――――――――― Z 综合性图书图2-3 《中国图书分类法》基本大类《中图法》的标记符号采用汉语拼音与阿拉伯数字相结合的混合制号码。
用一个字母表示一个大类,用字母的顺序反映大类的顺序,在字母后面用数字反映大类下类目的划分。
分类号码的排列严格按照小数制的排列方法。
数字的位置尽可能使号码的级数代表类目的级数,基本上遵循层累制的编制原则。
见图2-4。
G 文化、科学、教育、体育 G0 文化理论 G1 世界各国文化与文化事业 G2 信息与知识传播图书馆学、图书馆事业 G25 读者工作G252 文献检索 G252.7 科学、科学研究 G3 教育 G4 体育 G8 图2-4 《中国图书分类法》类目展开示例 62.3.3 体系分类语言的优势: (1) 族性检索效果强。
能较好地体现学科的系统性,便于人们从某一学科或专业角度查找文献。
(2) 便于随时放宽或缩小检索范围。
(3) 分类标识简单明了,易于掌握。