信息检索复习整理课件
- 格式:doc
- 大小:58.50 KB
- 文档页数:10
信息检索(第二篇)天津理工大学信息检索教研中心第一章信息检索基本知识介绍信息检索的基本知识,主要是让大家了解一些文献、信息、检索等常识,初步建立起信息意识。
♦第一节信息的基本知识♦第二节检索的基本知识第一章信息检索基本知识第一节信息的基本知识这一节的中心内容包括:信息、知识、情报信息与文献科技文献种类及特点第一章信息检索基本知识三者的关系信息与知识、文献的关系•信息是知识的基础,知识是信息的核心。
•文献是传播知识与信息的主要手段和途径。
•知识、载体、记录是构成文献的三要素。
•文献是获取信息的重要来源;信息与情报的关系•情报包含于信息,是信息的一部分。
信息知识情报文献第一章信息检索基本知识科技文献种类及特点依出版类型划分•图书、连续出版物、特种文献(科技报告、会议论文、学位论文、专利文献、标准文献、政府出版物、档案、产品样本等)依文献内容加工深度划分•零次文献、一次文献、二次文献、三次文献依文献载体划分•印刷型、缩微型、电子型、声像型(作业10练习总结的一个方面)各种信息源的特点♦书:系统、全面(历史悠久,多用于学习参考)♦刊:动态、量大、内容新、影响广(研究价值高,利用率高)♦报告:新颖、专深、具体(情报价值高、获取成本高)♦会议录:专业、及时、可靠(与科技期刊相似,利用率仅次期刊)♦学位论文:独创性强、水平参差♦专利:新颖、具体、题材广(经济和技术价值不容忽视)♦标准:系统性、指令(指导)性、时效性(可关注阶段性技术底线)♦政府出版物:权威性♦(Internet:综合性、交互性、包容性、即时性)♦一次文献:原始文献,新颖、具体。
如期刊、专利等♦二次文献:工具文献,汇集性、检索性。
如目录、题录、索引等♦三次文献:综述性文献,参考性、可检索性。
如年鉴、手册等♦零次文献:未公开文献,原始、详尽、具体。
如手稿、记录等(所用的方法:比较与分类,归纳与演绎)第二节检索的基本知识这一节的中心内容包括:信息检索检索语言检索工具检索方法、途径和步骤信息检索♦按存储和检索的内容划分–文献检索(过程、方法和策略)–资料检索(数据、数值检索)–事实检索–多媒体检索♦按检索手段划分–手工检索–计算机检索检索工具♦检索工具的形式–按加工程度划分•目录、题录、索引、文摘–参考工具书•百科全书、年鉴、手册、名录、字典、词(辞)典–按收录范围划分•综合性检索工具、专业性检索工具、单一性检索工具♦检索工具的内容结构–编辑使用说明、正文部分、索引部分、附录部分(产品说明书、网站帮助等可以参考此内容结构)检索工具的特点♦目录:以单位出版物为著录对象,按“种”为单位记录与报道。
信息检索期末课件整理资料第一章1.2信息检索的原理就是将特定的信息市场需求与存储在检索系统的信息标识展开优劣的比较与相匹配,挑选出两者吻合或部分吻合的信息不予输入。
无论是手工检索还是计算机检索,其基本原理都就是一样的。
即为检索系统对所要存储的信息,按照其外部特征和内部特征展开叙述并剥夺特征标识,然后步入系统;检索时,将所须要信息特征标识与所余信息的特征标识展开比较。
凡是两边标识一致的,就将具备这些标识的信息从检索系统中输入。
涵盖信息存储和信息以获取两个环节。
(书本上的p14)1.3信息检索系统(手绘p17)1.3.2逻辑构成一个完备的信息检索系统通常由以下几个功能模块共同组成:信息挑选子系统、标引子系统、建库子系统、词表管理子系统、用户USB子系统、回答处置子系统。
1.信息选择子系统根据系统的目标和服务对象的须要,确认信息搜集范围,并广为地、定期地收集各种信息源,为系统提供更多充裕而适用于的信息。
2.标引子系统将收录的信息源利用检索语言表达和组织,并赋予检索标识的过程。
3.词表管理子系统管理保护系统中尚无的词表,并使它与标引、建库等子系统相连接,积极支持用户查阅操作方式,从加、对话或其他文本中收集代莱词汇信息,并输入各种形式的词汇数据或词表产品。
4.回答处置子系统专门负责处理用户输入的提问式,将提问式中的检索元和算符区分,并转换成系统内部的可接受的命令方式。
在对提问进行转换后,与数据库中存储的数据进行比较运算,然后,把运算结果输出给用户。
5.用户接口子系统分担用户与系统之间的交流功能。
通常由用户模型、信息表明、命令语言和反馈机制等部分形成。
6.建库子系统创建和保护可以轻易用作检索的数据库,包含系统所用的各索引文档。
其工作流程主要包含数据录入、错误检查与处置、数据格式切换、分解成并定期更新各种文档。
1.4信息检索方法1)顺查法:是指按照时间的顺序,由远及近地利用检索系统进行信息检索的方法。
这种方法能收集到某一课题的系统信息,适用于较大课题的检索。
一、什么是信息(Information)?在西方英文中information一词有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,统一译成“信息”。
在我国台湾、香港地区,该词被译为“资讯”。
信息是被反映物的属性再现,信息的属性在于表现它物。
也就是说,信息不是事物的本身,而是由事物发出的消息、情报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。
一切事物包括自然界和人类社会都会产生信息。
一个完整的信息过程,包括信息的传递、接收、贮存、加工和利用。
2、信息具有以下特征:1)普遍性(2)时效性:信息在一定的时间内是有效的信息,在此时间之外就是无效信息。
而且任何信息从信源传播到信宿都需要经过一定的时间,都有其时滞性。
(3)传递性(4)可转换性:信息是可以由一种形态转换成另一种形态。
信息一般有4种形态:数据、文本、声音、图像。
这4种形态可以相互转化,例如,照片被传送到计算机,就把v图像转化成了数字。
(5)可再生性(6)共享性:同一信源可以供给多个信宿,因此信息是可以共享的,且不因共享而减少(7)可识别性:信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。
不同的信息源有不同的识别方法。
(8)可存储性:信息是可以通过各种方法存储的。
二、信息检索广义:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。
其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。
取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。
狭义:仅仅指信息查找的过程。
即取的环节。
三、信息检索的发展1、第一阶段:完全手工检索阶段2、第二阶段:半机械检索系统-机电、光电检索系统的发展阶段3、第三阶段:计算机检索系统的发展阶段4、第四阶段:基于Internet 的网络化检索系统阶段信息资源的分类:1、信息源可分为自然信息源和社会信息源。
2、按信息资源所依附的载体划分(不用全背)(1)体裁信息资源:以人体为载体并能为他人识别的信息资源。
按其表述方式又可分为口语信息源和体语信息源。
口语信息源是人类以口头方式表述但未被记录下来的口语信息,如:谈话、讲课、讲演、讨论、唱歌等。
体语信息源是以人的体态为载体表述出来的信息资源,如:表情、手势、姿态等方式表述的体语信息。
(2)实物信息资源:以实物为载体的信息资源。
又分为自然实物信息源与人工实物信息源。
如:化石、产品、样品等。
(3)文献信息资源:以文字、图形、符号、声频、视频等发生记录在各种载体上的知识和信息资源。
(4)网络信息资源:以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储的手段与形式的信息资源。
3、按信息资源传递的范围划分:(1)公开信息资源:又称共享信息资源或白色信息资源(white information),指公开发行、流通和传递的信息资源,其蕴涵的信息人人可以使用。
一般来说,公开信息资源的数量最大,而且能够作为信息商品进行流通领域。
(2)半公开信息资源:又称灰色信息资源(grey information),指非公开发行、流通和传递,从常规途径难以获取的信息(内部信息)。
这类信息出版量小,发行渠道复杂,流通传递范围有限,不易收集。
例如:内部的刊物、技术报告、会议资料等。
(3)非公开信息资源:又称黑色信息资源(black information),指人们未破译或未被识别的,也指处于保密状态的信息。
例如:考古发现的古老文字、未解密的政府文件、内部档案、个人日记、私人信件等。
自然信息均属于不可检信息。
超文本型(Hypertext):是用超链结的方法,将各种不同空间的文字信息组织在一起的网状文本。
文献信息资源1、按信息资源所依附的载体的物质形态划分(1)刻写型:包括手稿、日记、信件、原始档案、碑刻等。
(2)印刷型:主要是指以纸张为载体,以印刷为记录手段,把信息内容固化在纸张上的形式。
其优点是便于直接阅读、使用方便,其缺点是较笨重、存储密度低、收藏占用空间大、加工保存等花费人力物力大、识别和提取难以实现机械化和自动化。
(3)缩微型:以感光材料为载体,以缩微照相为记录手段而产生的一种载体形式,如缩微胶卷、缩微胶片等。
其优点是存储密度较大、体积小、便于收藏保存和远距离传递。
缺点是不能直接阅读、需借助缩微阅读机或阅读复印机才能使用。
缩微型一般针对于数量大、利用率低但又有较大保存和利用价值的信息资源。
(4)声像型:以磁性和感光材料为载体,借助特殊的机械装置(如复录机、摄像机、录像机等)直接记录声音、图像信号的信息载体,又称视听资料,如唱片、录音带、录像带、幻灯片、电影片、多媒体资料等。
其优点是可以闻其声、观其形,直观而真切,给人以生动鲜明的印象。
其缺点是制造成本较高,且需要借助于一定的设备才能使用。
2、按信息资源的加工深度和结构等级划分(1)零次文献:指未经过任何加工的原始文献。
如:实验记录、手稿、日记、原始录音、原始录像、谈话记录。
(2)一次文献:未经加工或粗略加工的原始信息资源,以本人的研究成果为基本素材而创作的文献,具体、详尽和系统化。
如期刊论文、专利文献、科技报告、会议录、学位论文等等。
(3)二次文献:它是将大量分散、零乱、无序的一次文献进行进行加工、整理、标引、著录、浓缩,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。
如:目录、题录、索引、文摘。
具有报道和检索功能。
(4)三次文献:通过二次信息资源提供的线索,对某一范围内的一次信息资源进行分析、研究、加工而成的信息资源,它包括综述、述评、专题情报研究报告、百科全书、年鉴、指南、手册、词典等。
特点:一次文献是最重要的文献,是全部文献的基础。
数量庞大、内容分散、无系统性,不便于管理和传播。
二次文献作为寻找一次文献的指南与向导,能提供多种检索途径(分类、主题、著者、团体著者、会议名称等)。
三次文献可以充分利用反映某一领域研究动态的综述类文献信息,在短时间内了解其历史、动态、水平等。
一次文献是二次文献和三次文献的基础,是文献检索的主要对象;二次文献具有浓缩性,是一次文献的简略及有序化,是文献检索的工具;三次文献具有综合性,既是检索对象,又可提供一定的检索途径与检索手段。
总之,文献经过加工、压缩,从零次信息到三次信息,使科技信息由分散到集中,由无序到有序,由无组织到系统化,由博而精的对知识信息进行不同层次的加工的过程。
信息的不同出版类型划分为:图书期刊科技报告会议文献[C]论题集中、新颖、丰富、专深、学术性强,是了解各国科技发展水平和动向的重要文献来源。
(5)专利文献[P]:(6)技术标准和规范[S]:7)政府出版物(8)学位论文[D]:(9)产品资料(10)技术档案(11)报纸[N]3)科技报告[R] (理解)scientific and technical report :报道(记录)研究工作和开发调查工作的成果或进展情况的一种文献类型。
又称研究报告、报告文献。
出现于20世纪初,第二次世界大战后迅速发展,成为科技文献中的一大门类。
大多与政府的研究活动、国防及尖端科技领域有关,发表及时,课题专深,内容新颖、成熟,数据完整,且注重报道进行中的科研工作,是一种重要的信息源。
查寻科技报告有专门的检索工具。
特点:①反映新的科研成果迅速。
以科技报告形式反映科研成果比这些成果在期刊上发表,一般要早一年左右,有的则不在期刊上发表。
②内容多样化。
它几乎涉及整个科学、技术领域和社会科学、行为科学以及部分人文科学领域。
③保密性。
大量科技报告都与政府的研究活动、高新技术有关,使用范围控制较严。
④报告质量参差不齐。
大部分科技报告是合同研究计划的产物,由工程技术人员编写,由于撰写受时间限制、因保密需要以工作文件形式出现等因素影响,使报告的质量相差很大。
⑤每份报告自成一册,装订简单,一般都有连续编号,出版发行不规则。
通常载有主持单位、报告撰写者、密级、报告号、研究项目号和合同号等。
附:美国四大科技报告(AD,PB,NASA ,DOE )按检索对象的内容区分:(1)文献检索(document retrieval)(2)数据检索(data retrieval)(3)事实检索(fact retrieval)手工检索:以手工操作的方式,利用检索工具书进行信息检索。
手工信息检索是信息检索的传统方式,已经历经了一个多世纪的发展历程。
检索效率高;直接性灵活性好,浏览功能差附:查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。
查全率=(检出相关文献量/系统中相关文献总量)*100%查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度。
查准率=(检出相关文献量/检出文献总量)*100%三、按检索对象区分:(1)文本检索:查找含有特定信息的文本文献的检索,其结果是以文本形式反映特信息反映的文献。
这是一种传统的信息检索类型,在信息检索中至今占据主要地位。
(2)多媒体检索:多媒体是指将声音、图像、通信等在内的多种媒体的功能有机结合在一起,并用某种新媒体代替传统媒体的多种媒体。
多媒体检索是指根据用户的需求,对文字、声音、图像、图形等多种媒体信息进行组织、存储从而识别、查找并获取所需信息的过程。
在因特网上存在着大量的多媒体文献,用户常常需要查找特定的声音、图像、动画等。
多媒体文献的信息组织与处理传统文本的处理截然不同,其检索要求和检索途径也别具特色,这是现代信息检索的新课题。
(3)超媒体检索(hyper media retrieval)如果超文本节点中的信息除文本块以外,还有图形、图像、声音、视频等多媒体信息,则称为超媒体(hyper media )。
即存储对象超出了文本范畴,融入了静、动态图像(形)以及声音等多种媒体信息。
(同样具有超文本检索的优点,并且检索内容与形式更为丰富)(1)强相关检索:强调检索的准确性,也称作特性检索。
这种检索注重查准率。
只要检索得到的文献信息能满足用户的需求就行,对于检索结果的数量多少不作要求。
(2)弱相关检索:强调检索的全面性,向用户提供系统完整的信息的检索。
也称族性检索。
这种检索注重查全性,要求检索出一段时间期限内有关特定主题的所有信息。
为了尽可能避免漏检相关信息,对于检索的准确性相对要求较低。
要注意的是,这是两种检索要求比较极端的检索类型。
实际上是介于两者之间,保证一定的查全率和查准率。
按时间跨度(1)定题检索SDI (selective dissemination of information)查找有关特定主题最新信息的检索。