文献信息检索基础知识
- 格式:pdf
- 大小:289.87 KB
- 文档页数:17
第二章文献检索基本知识一、文献检索的基本概念信息检索:广义:将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。
狭义:指用户找出有关信息的过程。
信息检索的类型(根据不同的检索对象):数据检索:检索的结果是数据。
如某种材料的电阻;某变压器的参数;化学分子式、数据图表等<手册>事实检索:检索的结果是事实结论。
查询某一事物(事件)的性质、定义、原理以及发生的时间、地点过程等。
如某产品是哪个厂家生产,哪个牌子的最好;第一颗人造卫星是什么时候升空的<年鉴>文献检索:检索的结果是文献资料。
查找相关文献的内容、出处、收藏单位等。
如系统地查找水压伺服控制阀原理方面的相关文献<论文>自然语言:自然表达某一概念的语言,没有强制性的规定。
通俗地说,就是对于一个概念你想怎么表达就怎么表达。
在文献检索中,关键词(key words)等用的就是自然语言.人工语言:人为规定的概念表达语言。
通俗地说就是对于一个概念你必须使用规定的语言来表达。
在文献检索中,主题词(subject)通常用的就是人工语言图书分类号1、中国图书馆图书分类法(中图法)为全国公共图书馆和信息研究所等机构所采用,是我国通用的综合性书资料分类法。
1973年试用版,1975年第一版,1980年第二版,1990年第三版,1999年第四版。
共分22个大类例如:A马、列、毛、邓B哲学、宗教S农业科学T工业技术TN无线电电子学电信技术TN.3半导体技术中国图书馆分类法(中图法)2、中国科学院图书馆分类法(科图法)目前中科院系统和部分高等院校采用。
1958年第一版,1980年第二版、1994年第三版。
例如:00 马、毛10 哲学20 社会科学总论21 历史历史学73 电技术、电子技术76 冶金学3、中国人民大学图书馆分类法(人大法)部分图书馆和信息资料机构使用该分类法1953年第一版,1980年第五版,1989年第版增订本,1996年第六版例如:1马、列、毛2哲学11工程技术15历史4、国外主要分类法:杜威十进制分类法(Decimal Classification,简称《杜威法》或DC,DDC)国际十进制法(Universal Decimal Classification,简称或UDC)美国国会图书馆图书分类法(Library of CongressClassification,简称《国会法》或LC)概念匹配:计算机计算机电脑微机PC 机文字匹配:计算机计算机电脑电脑微机微机输入输出使用人工语言通常为概念匹配使用自然语言通常为文字匹配四、检索工具定义:是人们用来存储、报道和查找文献的工具。
文献信息检索基础知识文献信息检索基础知识第一节概论科学技术的发展,具有连续性和继承性,科学技术的发明创造,需要依靠经验、材料和理论的不断积累,没有科学上的继承和借鉴,就没有提高。
任何一个科技工作者,都有赖于在前人已经取得成就的基础上进行不断的研究和探索。
在科研选题过程中,要首先了解所研究的学科领域发展现状与趋势,对自己挑选的课题进行查新,以免重复别人的劳动。
在课题研究过程中,要借鉴别人已有的成果,比如一些统计、实验数据,可以直接利用,没有必要自己再做一次,节省研究经费与时间;对别人研究没有取得成功的地方,要分析原因,可以避免研究走入歧途。
要完成这一切,都离不开科技文献的检索与利用。
科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科技信息的主要来源。
科技文献数量急剧增长,可以说是“知识爆炸”,在浩如烟海的文献面前,盲目地查找自己所需要的文献很困难,对信息污染难以分辨;专业文献出版分散,如果只注意查找本专业的核心期刊,已看不到专业文献的全貌,仅能了解其中的一小部分而已,因为大量的专业文献分散出版在其它刊物里。
文献老化加快,出版种类繁多,我们如果想了解某一数据、某一事件或事实,更如大海捞针,无从下手。
要快速、全面、准确地获得所需要的文献信息,就必须掌握科学的文献查找方法,因此就必须学习科技文献检索知识。
掌握了科技文献检索的方法,首先可以节省查找文献的时间,据调查统计,一个科技工作者在其科学研究生涯中花在查找文献上的时间占整个科研时间的40~50%,如果掌握正确的文献检索方法,将缩短查找文献时间,从而延长科研寿命。
其次有利于专题文献查全,由于专题文献出版分散特点,使得只从核心期刊上获取专题文献很难查全,掌握文献检索方法,在检索工具或数据库中去检索,就能克服这一不足。
再者可以克服自然语言和学科专业语言障碍,由于当今文献语种很多,而一般科技工作者除母语之外仅掌握1~2门外语,这就为了解世界先进技术带来困难。
第三章文献信息检索基本知识随着信息技术的发展,互联网的应用得到广泛普及,信息环境发生了相当大的变化,应用现代化技术手段获取各种信息、知识成为高等院校师生与广大科技工作者的一种必备知识和技能。
为此,首先就必须了解文献信息检索的基本知识。
第一节信息检索的基本原理一、信息检索的概念信息检索(Information Retrieval)全称为“信息存储与检索”(Information Storage and Retrieval),其概念有广义和狭义之分。
广义上认为,信息检索包括文献信息的存储和检索两个方面,即一个完整的信息检索系统由信息存储子系统和信息检索子系统两部分组成。
信息存储子系统:首先对一定数量的信息进行筛选,把能够描述文献信息的外部特征和内部特征进行加工、整理,使之有序化,形成信息特征标识集合,然后将之存储在某种载体上,编制成为检索工具或建立一个数据库。
信息检索子系统:根据信息用户的特定需求,对用户需求进行主题分析,利用一定的检索方法和检索技术,对存储子系统中的特征标识进行比对,把需要的文献线索或知识信息从系统中查找出来的过程,即信息检索。
这就是通常人们所说的信息检索过程,也就是狭义上的信息检索。
信息存储与信息检索是意义不同却又相互联系、相互依存、不可分割的两个过程。
信息存储是为了检索,信息检索又必须先有信息存储。
如果没有存储,检索就无法实现;没有检索,信息存储也就变得没有意义。
所以说存储是检索的前提和基础,检索是存储的目的。
信息检索系统的工作原理如图3-1所示。
图3-1 信息检索系统的工作原理二、 信息检索的类型信息检索可以按不同的划分标准划分为不同的类型。
(一)、 根据检索内容划分根据检索信息内容不同可划分为文献信息检索、事实信息检索和数据信息检索。
1、文献信息检索(document retrieval ):是以文献(包括目录、索引、文摘等二次文献或全文)为检索对象,查找有关文献的出处和收藏处等信息,都属于文献信息检索范畴。
文献信息检索基础知识第一节概论科学技术的发展,具有连续性和继承性,科学技术的发明创造,需要依靠经验、材料和理论的不断积累,没有科学上的继承和借鉴,就没有提高。
任何一个科技工作者,都有赖于在前人已经取得成就的基础上进行不断的研究和探索。
在科研选题过程中,要首先了解所研究的学科领域发展现状与趋势,对自己挑选的课题进行查新,以免重复别人的劳动。
在课题研究过程中,要借鉴别人已有的成果,比如一些统计、实验数据,可以直接利用,没有必要自己再做一次,节省研究经费与时间;对别人研究没有取得成功的地方,要分析原因,可以避免研究走入歧途。
要完成这一切,都离不开科技文献的检索与利用。
科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科技信息的主要来源。
科技文献数量急剧增长,可以说是“知识爆炸”,在浩如烟海的文献面前,盲目地查找自己所需要的文献很困难,对信息污染难以分辨;专业文献出版分散,如果只注意查找本专业的核心期刊,已看不到专业文献的全貌,仅能了解其中的一小部分而已,因为大量的专业文献分散出版在其它刊物里。
文献老化加快,出版种类繁多,我们如果想了解某一数据、某一事件或事实,更如大海捞针,无从下手。
要快速、全面、准确地获得所需要的文献信息,就必须掌握科学的文献查找方法,因此就必须学习科技文献检索知识。
掌握了科技文献检索的方法,首先可以节省查找文献的时间,据调查统计,一个科技工作者在其科学研究生涯中花在查找文献上的时间占整个科研时间的40~50%,如果掌握正确的文献检索方法,将缩短查找文献时间,从而延长科研寿命。
其次有利于专题文献查全,由于专题文献出版分散特点,使得只从核心期刊上获取专题文献很难查全,掌握文献检索方法,在检索工具或数据库中去检索,就能克服这一不足。
再者可以克服自然语言和学科专业语言障碍,由于当今文献语种很多,而一般科技工作者除母语之外仅掌握1~2门外语,这就为了解世界先进技术带来困难。
而文摘型检索工具选登的文摘覆盖的语种较多,即使是一个不掌握外语的人也可能通过文摘的阅读,就能了解各语种文献的主要论点、研究方法、结论等,能够广泛了解有关领域的发展趋势。
下面主要是通过介绍科技文献检索的基础知识和典型检索工具的使用方法,引导科技人员掌握检索科技文献的方法。
一、关于信息的几个基本概念(一)信息1、信息的定义信息在我们的生活中随处都能见到,信息化社会、信息时代、信息产业、信息技术……我们的生活和信息紧密联系在一起。
那么信息到底是什么呢?作为日常用语,信息就是信息,我们的生活中到处都存在有信息,如手机铃声、上网浏览的网页、电视节目等等。
对人类而言,人的五官就是为了感知信息,他们是信息的接收器,它们所感受到的一切都是信息。
信息普遍存在于自然界、生物界和人类社会中。
根据发生源的不同,信息一般可分为自然信息、生物信息、机器信息和人类信息四大类。
湖光山色、刮风下雨是自然信息;细胞染色体的遗传基因是生物信息;电讯系统中的电流脉冲、计算机中使用的“0”与“1”的二进制代码是机器信息;人类社会活动中的各种语言、文字、图形符号是人类信息。
到目前为止,信息还没有一个统一、确切的定义,各个学科对信息的定义都不相同。
信息的内容是客观的;信息的形式是主观的;信息是一切物质的普遍属性;任何物质都可以成为信息源;任何物质都可以产生信息;任何物质的运动过程都离不开信息的运动过程。
现代信息论创始人申农从研究通信理论出发,把信息定义为“用来减少随机不确定性的东西”。
《中国大百科全书》(1993年)的解释为:按照狭义的理解,信息是用来消除不定性的东西。
按照广义的理解,又有两种认识:从本体论意义上说,信息泛指一切事物运动的状态和运动的方式,包括事物内部结构的状态和方式以及外部联系的状态和方式;从认识论意义上说,信息是关于事物运动状态和运动方式的反映。
而从文献检索的角度来说,通常把经过搜集、记录、处理和存储的可供检索的文献、数据和事实?。
2、信息的特征信息是所有事物的存在方式和运动状态的反映,信息不是物质本身,但它来源于物质,正是因为信息的物质性才决定了它的一般属性。
它的一般属性包括:普遍性、客观性、抽象性、依附性、可加工性、传递性、共享性等。
(1)普遍性。
世界上任何运动着的事物无时无刻不在生成信息,只要有事物存在、事物运动,就存在着信息。
信息无所不在,物质的普遍性以及物质运动的规律性决定了信息的普遍性。
(2)客观性。
信息不是虚无缥缈的东西,是现实中各种事物运动的状态与方式的客观反映。
由于事物及其状态、特征和变化是不以人的意志为转移的客观存在,所以反映这种客观存在的信息也具有客观性。
信息不仅其实质内容具有客观性,经形成且与载体结合,其本身也具有客观性。
(3)抽象性。
信息本身是看不见、摸不着的,我们能够看得见、摸得着的只是信息载体,如:语言、文字、图画、符号、纸张、光盘等,而非信息内容。
对于认识主体而言,获得信息和利用信息要具备抽象能力,正是这种能力决定着人的智力和创造力。
信息的抽象性增加了信息认识和利用的难度,并从而对人类提出了更高的要求。
(4)依附性。
也称寄载性。
依附性是抽象性的延伸,信息的记录、存储以及交流和共享必须依附于或借助于物质载体,以某种载体形式表现出来,没有载体就没有信息。
(5)可加工性。
信息数量庞大,质量高低不一,而人们对信息的需求往往具有一定的选择性。
信息价值的发挥也需要进行不同层次的加工处理,由原始信息可以加工成二次信息,再经过分析、研究与综合,又可加工成三次信息。
每次加工都可改变原有信息的结构,赋予信息新的价值。
(6)传递性。
信息在运动中产生,在传递中发挥价值。
信息传递可跨越时空,信息的获取利用以及反馈必须借助于信息的传递。
信息传递是通过信道进行的。
信息系统就是由信源、信道、信宿组成的有机整体。
(7)共享性。
信息能够通过时空进行传递,因此能够被人类所共享,信息价值的实现需要通过信息的使用。
与实物使用不同,同一信息可以同时被两个以上的多个用户使用,而且并不因为信息的多人多次重复使用而丢失其内容。
正如萧伯纳所举的“苹果与思想”的例子。
苹果交换之后交换双方各有而且仅有一个苹果,但思想交换后交换双方都拥有了两种思想。
信息除了上述特征之外还有时效性、动态性、可转化性、可伪性等。
3、信息的类型从不同角度对信息进行划分,可产生不同的类型。
如从信息性质划分,有语法信息、语义信息和语用信息。
从信息应用部门划分,有工业信息、农业信息、政治信息、科技信息、文化信息、经济信息等。
从信息的记录符号划分,有语声信息、图像信息、文字信息和数据信息等。
依据不同的标准,划分信息的结果不同。
(1)按信息内容划分可分为主观信息和客观信息。
①主观信息:一般是指依据事实和分析说明个人的观点和见解。
主观信息是对一个事件、论题进行评估时能提供很多有价值的信息。
②客观信息:一般是指不加主观如实反映客观的信息,它一般全面客观地描述一个问题的各个方面,使人们对问题有一个全面的概念。
(2)按信息的传播渠道划分可分为口传(口语)信息、体语信息、实物信息、文献信息、电子信息。
4、信息的作用对于由物质构成的整个客观世界而言,信息的基本作用就是增强世界的有序性。
没有物质就没有我们生活的世界;没有能量,世界就将消亡;没有信息,物质和能量只能形成一个混浊、杂乱的空间。
信息资源与物质资源、能量资源一起,共同构成现代社会资源的三大支柱。
物质向人类提供材料,能量向人类提供动力,而信息向人类提供的则是知识和智慧。
有人把这三者比作一个人的体质(材料)、体力(能量)和智力(信息),只有体质、体力和特别是智力都发展的人,才是一个真正健康的人。
信息对于人类社会生存和发展的基本作用是信息增强世界的有序性在特定的人类社会范畴中的具体表现,这种具体表现就是:消除人的认识的不确定性。
关于信息对人类社会生存和发展的作用,人们可以从不同的角度加以阐述。
维纳(N.Wiener)在他的《人当作人来使用》一书中指出“要有效地生活就要有足够的信息。
所以,正像通信和控制属于人的社会生活那样,它们也是人们的内部生活的要素”;申农(C.E.Shannon)则把信息的作用寓于其定义中。
“信息是用以消除随机不确定性的东西”。
我们认为,分析研究信息对人类社会生存和发展的作用,可以以其最为基本的作用——能够消除人们认识的不确定性为出发点,考察信息与人类社会生存和发展关系十分密切的主要方面及其在这方面的作用。
(1)信息是人类社会生存的条件,信息是人类社会发展的资源无机物向有机物跃变以后,有机物经历了复杂的自然选择,在漫长的进化过程中,演化形成了一个重要的动物种类。
其间的每一次质变。
无不与信息的接收能力、信息的处理能力的变化有关;其间每一个阶段性各类的生存、延续和繁衍,其相应的信息能力为基本保证。
没有信息能力的这种保证,人的进化和生存也就无从谈起。
时至今日,乃至将来,人类的生存都离不开信息。
人正是由于自身所具有的信息能力,接收和处理着来自客观世界的各种信息,不断地确定和调整着自己每时每刻所处的生存空间,维系着自己的生命,延续和繁衍着自己的种类。
有史以来,人类并不仅仅满足于生命的延续和繁衍,而是在同客观世界的斗争中,不断地认识世界、发行世界,在提高生产力水平的同时,极大限度地创造和发展物质文明和精神文明。
人类在发行客观世界的同时,也形成和改造了自己的主观世界,积累了大量有关客观事物运动状态和方式的知识,这是人类社会的宝贵财富,也是人类社会进一步发展的基础。
历史已经证明,在人类的发展进程中,开发利用信息资源同开发利用物质资源和能源一起构成了人类创造物质文明和精神文明的主体结构,三者缺一不可。
(2)信息是主客体的中介,信息是思维的材料人类的生存和发展,不是在真空中进行,而是无时无刻不在同客观的事物打资产,其首先要条件就是要对客观事物的运动状态和方式有所认识、有所了解,在一定程度上消除对客观事物的认识上的不确定性。
这种认识和了解无疑是以信息的存在为前提条件的。
因此,没有信息作为人和客观事物的中介,人和客观事物之间的关系只能是物与物的关系,而不是认识和被认识的关系。
从这种意义上讲,信息的存在是人类发挥认识能力的必要条件。
从进化论角度看,信息促进了人的认识能力的改善和提高。
人不同于其他动物种类的根本原因,在于人具有思维能力。
思维能力是人的认识能力的核心所在,它是人脑这种特殊物质构成的一种功能。
其功能的实现是以信息为原材料而进行的,没有信息材料,人的思维能力只具有一种潜在的功能,并不会产生任何东西。
信息是思维不可缺少的原材料,同时,思维的结果——同样是信息。
而新的信息又可以转变为自己的或他人的信息材料,再一次经过思维功能的变换,生出新的信息。