第1讲 信息检索概述
- 格式:ppt
- 大小:13.02 MB
- 文档页数:75
第一讲信息检索概述1 信息的概念文献的概念信息是对客观世界中各种事物的特征、变化及其相互联系的最新反映。
信息是有用的知识。
文献的概念:凡是人类的知识用文字、图形、符号、声频、视频的手段记录下来的东西,统称为文献。
文献也可称为固化在一定载体上的知识。
或者更简单地说,文献就是记录下来的知识。
甲骨、竹简、纸本图书、期刊、录音带、录像带、CD-ROM、磁盘、磁带. (文献载体)2 从文献检索到信息检索(1)文献检索指从文献中检索你所需要的知识、信息。
(2)文献检索作为检索类型时,检索包含你所需知识、信息的文献。
信息检索是最近几年的提法,这种提法和网络信息的迅速发展有很大的关系,因为人们在使用网络信息资源时不知道或不关心它存储在哪里。
我们不关心它的存储载体,只关心其内容,所以网络信息资源又被称为虚拟信息资源。
当我们检索所需知识或信息的资源从文献信息资源扩散到网络信息资源时,文献检索也就顺理成章地发展到信息检索。
文献检索是以工作的对象而命名,信息检索则是以工作的目的而命名。
当然,信息检索从广义上还包括其它非文献信息的检索,比如储存于大脑或其它实物上的信息的获得。
本课程主要讲述文献信息和网络信息(本质上还可以理解为电子文献)的检索。
3 信息检索的类型与渠道信息检索就是从众多信息中查找并获取有用信息的过程。
早期一般认为,信息检索(information retrival――情报检索)包括三个方面:(1)数据检索(data retrieval)例如:1982年1月每盎司黄金的价格;世界上最长的隧道有几米?(2)事实检索(fact retrieval)例如:世界上最长的隧道是哪条?到目前为止,惠泱河先生发表了哪些著作?现任哈佛大学校长是谁?(3)文献检索(document retrieval)例如:关于张恨水的作品评论有哪些文献资料。
数据检索与事实检索是要检索出包含在文献中的信息本身,而这里的文献检索指的是要检索出包含你所需信息的文献。
信息检索概述信息检索概述摘要:信息检索模型是判断文本是否与查询相关和对相关文本进行排序的数学模型。
信息检索可分为传统的信息检索与网络信息检索。
传统的信息检索主要以手工检索为主。
网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。
随着计算机技术、通讯技术、网络技术的迅猛发展,网络信息检索已成为当今信息社会主要检索信息技术对于传统的基础教育影响越来越大,基于网络的教育教学资源剧增,成为高校文献检索课的教学重点。
本文介绍了传统的信息检索与网络信息检索的优缺点。
关键词:信息检索传统信息检索网络信息检索一、前言信息检索系统的研究是伴随着科学技术的发展和信息数量的俱增而兴起的,是指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、文献的活动及过程,其主要研究范围包括:信息检索理论、信息检索语义、信息检索系统的构建和评价、信息检索技术和方法等。
信息检索的研究已经有多年的历史,20世纪中叶以前,信息的存储和传播主要以纸质介质为载体,信息检索的研究主要围绕文献的获取和控制展开,主要关注如何检索和利用文献中记载的信息。
直到50年代,计算机被图书馆等部门广泛用来存储和管理文档,信息检索技术作为新的热点被广泛地研究。
到了80年代,信息检索领域在索引模型,文档内容表示以及匹配策略等方面取得了许多突破性的研究成果,并且成功地开发了一些系统。
例如Cornell大学的SMART系统和Massachusetts大学的INQUERY系统等。
Web的出现为信息检索提供了一个前所未有的实验环境和应用情景,许多Web信息检索系统应运而生,例如Yahoo!,Alta-vista等[1]。
本文介绍了传统的信息检索模型与网络信息检索的优缺点。
二、传统信息检索优缺点传统的信息检索主要以手工检索为主。
因此其灵活性较高,费用也较为低廉;此外传统信息检索能了解标引规则,按规则进行各项的著录,便于检索者根据文献标引规则查阅相关文献;同时能够了解各类检索刊的收录范围、专业覆盖面、特点和编制要点,检索回溯期长,可以提高查全率和查准率。
《信息检索》课程第一讲信息检索概述授课人:***2013年5月25日《信息检索》课程Beihang内容提要•第一部分:信息与文献的基本概念•第二部分:信息检索的基本知识•第三部分:信息检索的技术背景与原理《信息检索》课程Beihang一. 信息与文献的有关概念二. 科技文献的系统结构三. 科技文献的类型四. 参考文献标准著录格式五. 文献源-文献馆藏系统六. 北航图书馆简介信息与文献的基本概念《信息检索》课程Beihang•什么是信息?•狭义:信息是信号和消息的简称,主要对应于人们的视觉和听觉。
•广义:信息是一切事物在人们大脑中的反映,既包括客观世界的表征,又包括主观世界的产品。
•信息和知识、文献、情报在词义上密切相关。
《信息检索》课程Beihang•信息与情报•在英汉词典中,“information”可译为“信息”,也可译为“情报”•钱学森对情报的解释是“为解决一个特定问题所需要的知识”,还特别强调情报有“及时性和针对性”。
《信息检索》课程Beihang•信息与知识、文献•知识可分为主观知识和客观知识,在人类生活环境中,普遍存在着信息,信息经过人脑接收、选择、处理而形成知识,这种存在于人类头脑中的知识称为主观知识。
•主观知识借助语言符号,通过各种物质载体记录下来,就变成可以传递的客观知识,即文献。
•文献:记录有知识的一切载体(文献三要素:知识、记录方式、载体)•科技文献:记录科学技术信息的载体《信息检索》课程Beihang《信息检索》课程Beihang•从情报的层面上理解1. 信息决定战争的胜负2. 信息决定企业的兴衰3. 信息是领导决策的依据《信息检索》课程Beihang•从知识的层面上理解•知识经济建立在知识利用与创新的基础上,知识创新需要大量的信息作原料。
•信息与材料、能源被称为当今社会三大资源。
材料、能源消耗性不可共享不可再生信息非消耗性可共享可再生《信息检索》课程Beihang•从文献的层面上理解•高尔基说:“书籍是人类进步的阶梯。
[信息检索]第⼀讲布尔检索BooleanRetrieval第⼀讲布尔检索Boolean Retrieval主要内容:1. 信息检索概述2. 倒排记录表3. 布尔查询处理⼀、信息检索概述什么是信息检索?Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).信息检索是从⼤规模⾮结构化数据(通常是⽂本)的集合(通常保存在计算机上)中找出满⾜⽤户信息需求的资料(通常是⽂档)的过程。
Document –⽂档Unstructured – ⾮结构化Information need –信息需求Collection—⽂档集、语料库⼆、倒排记录表1、什么是布尔查询?布尔查询是指利⽤ AND, OR 或者 NOT操作符将词项连接起来的查询如:信息 AND 检索2、⼀个信息检索的例⼦(莎⼠⽐亚全集)不到100万单词,假设每个英⽂单词平均长度为8字节,则整个全集不到10MB查询需求:莎⼠⽐亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?查询的布尔表⽰:Brutus AND Caesar AND NOT Calpurnia解决⽅案:⽅法⼀:暴⼒⽅法从头到尾扫描所有剧本,对每部剧本判断它是否包含Brutus AND Caesar ,同时⼜不包含Calpurnia不⾜之处:速度超慢 (特别是⼤型⽂档集)处理NOT Calpurnia 并不容易(不到末尾不能停⽌判断)不太容易⽀持其他操作 (e.g., 寻找靠近countrymen的单词Romans)不⽀持检索结果的(灵活)排序 (排序时只返回较好的结果)优点:实现简单很容易⽀持⽂档动态变化⽅法⼆:倒排记录表词项-⽂档(term-doc)关联矩阵若某剧本包含某单词,则该位置为1,否则为0.关联矩阵的每⼀列(对应⼀篇⽂档)都是 0/1向量,每个0/1都对应⼀个词项关联矩阵的每⼀⾏(对应⼀个词项)也可以看成⼀个0/1向量,每个0/1代表该词项在相应⽂档中的出现与否给定查询Brutus AND Caesar AND NOT Calpurnia取出三个词项对应的⾏向量,并对Calpurnia 的⾏向量求反,最后按位进⾏与操作110100 AND 110111 AND 101111 = 100100.问题:当出现更⼤的⽂档集假定N = 1 百万篇⽂档(1M), 每篇有1000个词(1K)假定每个词平均有6个字节(包括空格和标点符号),那么所有⽂档将约占6GB 空间.假定词汇表的⼤⼩(即词项个数) M = 500K此时,词项-⽂档矩阵将⾮常⼤矩阵⼤⼩为 500K x 1M=500G但是该矩阵中最多有10亿(1G)个1:词项-⽂档矩阵⾼度稀疏(sparse)更好的办法:仅仅记录1的位置,即倒排索引对每个词项t, 记录所有包含t的⽂档列表.每篇⽂档⽤⼀个唯⼀的 docID来表⽰,通常是正整数,如1,2,3…磁盘上,顺序存储⽅式⽐较好,便于快速读取内存中,采⽤链表或者可变长数组⽅式倒排记录表按docID排序索引构建过程:1、词条序列:<词条,docID>⼆元组2、排序按词项排序,然后每个词项按docID排序1. 词典&倒排记录表某个词项在单篇⽂档中的多次出现会被合并拆分成词典和倒排记录表两部分每个词项出现的⽂档数⽬(doc frequency, DF)会被加⼊3、布尔查询的处理假定索引已经构建好了,如何利⽤索引来处理查询?AND查询的处理:考虑如下查询(从简单的布尔表达式⼊⼿):Brutus AND Caesar在词典中定位 Brutus返回对应倒排记录表(对应的docID)在词典中定位Caesar再返回对应倒排记录表合并(Merge)两个倒排记录表,即求交集合并过程:每个倒排记录表都有⼀个定位指针,两个指针同时从前往后扫描, 每次⽐较当前指针对应倒排记录,然后移动某个或两个指针。
第一章信息检索概述常见问题1.什么叫文献?信息、知识、文献三者的关系如何?答:文献是记录有知识的一切物质载体。
具体地说是用文字、图形、符号、声频、视频等技术手腕记录人类知识的一切物质载体。
信息、知识、文献之间的关系是事物发出信息,信息经人脑形成知识。
只有将自然现象和社会现象的信息通过加工,上升为对自然和社会进展客观规律的熟悉,这种再生信息才组成知识。
知识信息被记录在载体上,形成文献。
二、什么叫一次文献、二次文献、三次文献?彼此之间有什么关系?举例说明。
答:凡是以著者本人的体会、研究或研制功效为依据而撰写的原始文献,经公布发表或交流后,称为一次文献。
一次文献是文献的主体,是最大体的信息源,是文献检索的对象。
其特点是论述比较具体、详细和系统化,有观点、有事实、有结论。
一样括期刊论文、专著、研究报告、会议文献、学位论文、说明书、技术标准、技术、科技报告等。
二次文献是通过对一次文献的、提炼和浓缩而形成的。
它将大量分散、无序的信息转变成有序的、便于的系统。
文献被紧缩成条款,也称记录(entry, reference, citation, record),并以必然的序列组织起来,成为可用于查找一次文献的工具。
二次文献也称二手资料,它包括目录、题录、文摘和索引等检索工具,可对一次文献进行报导和线索指引。
三次文献是对一次文献和二次文献进行聚集、综合、分析、详述等深度加工而形成的。
它包括手册、百科全书、年鉴、名录、指南等参考工具书。
还有二次书目、指南和综述性、评论性文献都属三次文献范围。
从一次文献、二次文献到三次文献的加工反映了文献的集中和有序化进程,而用户对原始文献的索求那么往往是一个逆向的进程。
3、依照文献的媒体形式的不同,文献有哪些类型?它们的特点是什么?答:依照文献媒体形式的不同,文献可分为以下几种形式:⑴型(printed form):也称介型(paper type), 是一种以纸介质为载体、以书写或印刷方式为记录手腕而形成的文献类型。