信息储存与检索考点归纳
- 格式:doc
- 大小:125.50 KB
- 文档页数:7
信息资源:经过人类主观或客观处理了的,并且能够被传播或传输的文字、声音、图像、数据索引:是存取信息资源“地址”或“出处”的标识系统,是信息存储与检索的基本形式检索词:用户或检索者在检索活动开始前提出的字词或字符(叙词、标题词、自由标引词、关键词、全文检索自由词等),是检索式的基本单元提问检索式:检索提问表达式,简单为一个检索词和一个字段名,复杂为多个检索词及字段名由关系算符连接组成关系符:用于表示检索项在记录中出现的逻辑关系或位置关系的符号或位置算符(W)或():在检索结果中(W)算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,同时两个检索词之间不允许有其他词或字母,但可留空格或连字符(nW):算符两侧的检索词之间允许n个实词或虚词,两个检索词的词序不允许颠倒(N):由(N)连接的检索词的记录中出现的顺序可以调换,但必须彼此相邻(nN)::算符的检索词之间可以插入n个词,且两个检索项的位置可以调换(F):算符两侧的检索词必须同时出现在文献记录的同一字段中(S):算符两侧的检索词必须同时出现在文献记录的相同子字段内,其检索词的顺序不限,夹在期间的词汇数量限(L):算符两侧的检索词是从属关系(C):算符两则的检索词须同时出现在一篇文献记录中,为and 关系(X):两个相邻且词形相同的检索词作为词组出现,其间只能用“-”不得有其他字母或词gas(X)gas 即gas-gas(nX):两个户型相同的检索词,其间夹有n-1个其他词时,可作为词组进行检索word by word可用word(2X)word表示截词检索:在检索词的某个局部截断,利用检索词的词干或不完整的词形加上截词符号所进行的检索前截断(后方一致检索):将截词符号放在检索词词干的左边,以允许词干左边有若干个字符变化):?magnetic后截断(前方一致检索):将截词符号置于检索词词干的右方,以允许其右方有多个字符的变化):geolog?中截断(前后方一致检索):将截词符作为通用字符旋转在检索词的中间,以有有限个字符变化,符号的个数所字符变化的个数相同):wom?n前后截断(:中间一致检索):在检索词词干的左右两侧同时旋转截词符号,用以表示词干两侧允许有有限或无限个字符的变化):?wave? 有限截断(在检索词干的左、中、右加上?和*,截词符的个数与允许变化的字符数相等)与无限截断(在检索词的后面加上?,允许在词干后出现的字符个数不限):检索computer, comput?Comput??记录:是书目数据库文档的基本组成单位,也是描述某一信息实体牲数据的集合,由逻辑上相关的若干字段组成。
第1章信息检索概论1.信息的定义:从认识论出发,我国大多数学者认为:信息具有物质属性,是物质的一种存在形式,它以物质的属性或运动状态为内容,并且总是借助于一定的物质载体传输或存储。
2.信息的特征:(1)传递性(2)时效性(3)共享性(4)客观性其他的特性还有开发性、存储性、价值的不定性、变换性、可伪性等。
3. 信息检索(Information Retrieval)定义:广义概念——是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,故全称:“信息存储与检索(Information Storage and Retrieval ) 。
狭义概念——仅指上述过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。
4.信息检索的基本步骤课题分析,明确检索范围选择检索系统和检索工具确定检索点和检索途径构造检索式选定检索方法索取原始文献5.计算机检索的发展历程计算机检索是在计算机技术和通信技术发展的基础上建立起来的。
它产生于20世纪50年代,发展于80年代中期,90年代后随着国际互联网技术的发展而进入了一个崭新的时期。
发展历程大致可以概括为:手工信息检索阶段(1954之前)脱机信息检索阶段(1954/1964)联机信息检索阶段(1965/1971)光盘信息检索阶段(1972/1994)网络信息检索阶段(1995年至今)6.知识的定义人们通过实践对客观事物及其运动过程和规律的认识。
在这里,知识作广义的理解,包括消息、情况、事实、数据。
知识可分为理性知识和感性知识。
理性知识,是对客观事物的本质和规律性的认识,是经过思维、逻辑加工的知识,构成知识体系;感性知识,是对客观事物的描述和对现象、事实的感知,是未经逻辑加工的知识。
知识的分类知识按不同标准可作如下分类:依照反映对象的深刻性和系统性程度,知识分为生活常识和科学知识;按知识的成熟程度,分为经验知识、理论知识。
信息检索知识点文件管理序列号:[K8UY-K9IO69-O6M243-OL889-F88688]信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
信息存储与检索考试必看一、填空1、信息资源的特征:共享性、时效性、智能性、无限性和有线性并存、增值性及物质、资源的一般特征。
2、纸质文件按文献加工深度划分:一次文献、二次文献、三次文献、零次文献。
3、索引款目的构成:索引标题、说明语、地址参考项。
4、多媒体存取技术的核心是:媒体数据库技术。
5、网络信息检索工具有:字典型查询工具、索引型查询工具、交互式检索工具。
6、按系统存取的信息特征划分:文献存取系统、事实存取系统、数值存取系统、图像存取系统。
7、按检索工具划分:关键词检索工具、分类目录、混合型检索工具。
8、纸质文献资源的四个基本要素:信息内容、载体材料、记录符号和记录方式。
9、按检索系统的工作方式划分:脱机存取、联机存取、光盘存取、因特网存取。
10、文献存取系统包括:书目、全本和超文本。
11、存取系统的检索效果指标:检全率、检准率、检新率。
12、多元性检索工具:13、中文搜索引擎:谷歌、百度、雅虎、中国搜索、搜狗搜索等。
(三个可)14、多媒体信息存取系统的特征:信息载体的多样性、交互性、实时性、集成性。
二、名称解释:1、电子信息资源是以数字化形式把文字、图像、声音、动画等多种形式的信息存储在光、磁盘等非印刷型介质上,并以光信号、电信号的形式传输,通过相应的计算机和其他外部设备再现出来的信息资源。
2、索引是存取信息资源“地址”或“出处”的表示系统,是信息存储与检索的基本形式。
其基本功能是指示知识点在正文或文献款目中得位置。
3、标准文献狭义指按规定程序制订,经公认权威机构(主管机关)批准的一整套在特定范围(领域)内必须执行的规格、规则、技术要求等规范性文献,简称标准。
广义指与标准化工作有关的一切文献。
4、网络信息资源是指通过计算机网络可以利用的各种信息资源的总和。
具体的说是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。
名词解释4*4’1.信息素质:个体在现实需求的驱动下,能有效地发现、获取、评价和利用信息。
2.信息检索广义的信息检索全称是“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
狭义的信息检索“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。
3.登记性目录(概念)也叫国家书目,它是出版物国家登记制度的产物,反映国家出版的全部图书,实际上也反映了一个国家的文化、科学和出版业的水平。
4.联合目录(概念)汇总若干个单位馆藏而形成的目录,是馆藏目录的放大。
5.年鉴(概念)年鉴是汇辑一年内的重要时事文献、学科进展,汇辑各种统计资料和重要信息,并按年度出版的连续性出版物。
6.OPAC(公共联机书目查询系统)利用计算机终端来查询基于图书馆局域网内的馆藏数据资源的一种现代化检索方式,通过联机查找为读者提供馆藏文献的线索。
7.引文索引(概念)根据美国科学信息研究所(Institute for Scientific Information,简称ISI)的定义:对于文献A和B:若文献B提到或引用了文献A,则A是B的引文。
这里,文献A被文献B 提到或引用,A是被引用文献或参考文献。
同时由于B引用了A,故B又称为引用文献。
8.垂直搜索引擎(概念)也被称为专业搜索引擎,或主题搜索引擎。
它专门收录某一方面、某一行业或某一主题内的信息,专为查询某一个学科或某一主题的信息提供检索服务,在解决某些实际查询问题的时候比综合搜索引擎更有效。
简答4*9’信息素质包含四个层面的含义:第一,用户有一定的信息需求,即在某个时候需要了解某方面信息。
第二,掌握了主要的信息源和信息工具的知识及技能。
第三,能够分析评价选择相关信息。
第四,利用信息的目的是为了有效地解决具体问题。
信息素质主要表现为信息理论素养和信息的实践能力,包括信息意识、信息知识、信息能力和信息道德等内容。
四、简答1. 简述信息组织、存储与检索的关系。
答:信息组织、存储与检索三者是不可分割的。
信息检索是通过信息存取系统(即检索工具)来实现的,任何一种信息存取系统都包括信息存储子系统和信息检索子系统,它们是同一事物中既相互对立又相互联系、互为依存的两个方面,而信息存取系统的建设,需要信息组织。
信息组织在信息资源开发中具有重要的地位,在信息管理中具有承上启下的作用,它是建立信息系统的重要条件,是信息存储与检索的基础。
所以,三者是不可分割的。
2. 简述信息存储的含义及作用。
答:信息存储是指通过多种形式记录和排序信息的过程。
它包含三层含义:一是将所采集的信息按照一定规则记录在相应的信息载体上;二是将这些载体按照一定的特征和内容性质组织成系统有序的、可供自己或者他人检索的集合体;三是应用计算机等先进的技术和手段,提高信息存储的效率和信息利用水平。
存储子系统的建设,要求根据一定的原则记录和描述信息或知识载体的内容与形式特征,然后按特征序化成各类信息集合并组织成系统。
信息存储部分是揭示信息特征、整序信息、建设系统的过程。
只有经过记录、描述与组织序化的知识集合,才能提供有效的信息检索。
因此,信息存储是基础,信息检索是目的。
3.文献的概念及分类4.什么是文献类型标识符,在什么情况下使用如何使用答:文献类型标识符:标识各种文献类型的符号。
使用范围:仅在含有各种文献类型的目录及其他检索工具中使用。
使用方法:著录在正题名后面,并用中括号“[ ]”括起来。
5.目录:是图书、期刊或其他单位出版物外表特征的揭示与报道。
它是以一本书、一种刊物为著录的基本单位,记录图书、期刊、资料等的名称、著者、出版项与馆藏项等内容,并按照一定的编排体例进行编制,但不涉及书中的章节或期刊中具体的文章。
6.信息检索语言7.追溯法:8.文献信息资源9.信息的概念是什么信息有哪些特征10.影响查全率和查准率的因素有哪些11试比较分类语言与主题词语言分类语言是运用概念划分的原理,以分类号为标识,将各种概念按学科性质加以划分和排列,用以分门别类地、系统地组织信息的一种检索语言,它又可以分为体系分类语言和组配分类语言以及混合分类语言。
1、文献:为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录在唱片上,或存储在磁盘上。
这种附着在各种载体上的记录统称为文献。
2、文献由四要素构成,即文献信息、文献载体、符号系统和记录方法。
3、信息、知识和文献三者之间的关系:由信息、知识和文献的概念可知,三者之间是密切相关的。
信息是物质存在的方式、形式和运动规律的表征。
人脑对事物属性的感知形成信息;人们对信息集合加工、整理形成系统化,表现形成人类社会实践的知识;知识被记录在载体上形成文献,文献被人类广泛传播、运用在理论和实践中又产生新的信息、知识和文献。
如此循环,不断创新,形成各种各样的新知识,从而推动人类社会前进。
由此可见,信息、知识、文献在社会系统中表现出一种不间断的延续性。
4、具有信息素质的人主要具有以下几个方面的能力:(1)运用信息工具;(2)获取信息;(3)处理信息;(4)生成信息;(5)创造信息;(6)信息增效;(7)信息协作;(8)信息免疫。
5、信息资源的构成可从不同的层次和角度来划分:一、按照信息的出版和加工划分:1 图书;2 报刊;3 会议文献;4 专利文献;5 科技报告;6 学位论文;7 技术档案;8 产品资料;9 标准文献;10 政府出版物。
二、按照信息加工层次划分:按信息加工程度可将信息分为一次文献、二次文献、三次文献。
(1)一次文献即以作者本人的生产与科研工作成果为依据而撰写并已公开发行进入社会流通使用的原始文献。
例如专著、学术论文、科技报告、会议论文、专利文献、学位论文等;(2)二次文献即将大量、分散、无序的一次文献收集起来。
按照一定的方法进行整理、浓缩和加工,使之系统化而形成各种目录、索引和文摘,即编制成具有多种检索途径的检索工具。
二次文献又称为检索性文献;(3)三次文献即根据一定的目的和需求,在大量利用一次、二次文献的基础上,对有关知识进行综合、分析、提炼、重组而再生的信息资源。
信息存储与检索复习资料一、名词解释1. 主题标引:是在主题分析的基础上,依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程。
2. INTERNET(因特网):泛指由多个计算机网络相互连接而成的一个网络,它是在功能和逻辑上组成的一个大型网络。
3. 顺查法:就是以课题研究的起始年限为出发点,利用选定的检索工具如书目、索引、文摘又远及近的逐年查找。
4. 三次文献: 是在一、二次文献的基础上,经过综合分析而编写出来的文献,人们常把这类文献称为“情报研究”的成果5. 文献信息资源:文献是记录有知识的一切载体,文献信息资源是以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息资源。
6. 倒查法:一种逆时间顺序由近而远地查找信息的方法.7. 一次文献:即原始文献。
它是作者以生产或科研为依据而创作的原始文献。
如专著、期刊论文、学位论文等。
8. 检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等。
它是根据检索的需要而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言。
9. 手工检索:是由检索者通过卡片式或书本式的目录、题录、文摘、索引等检索工具查找文献线索的过程。
10. 信息检索语言:信息检索语言是用来描述信息的内容特征、外部特征和表达信息检索提问的一种专门语言。
11. 特种文献:特种文献是指出版发行和获取途径都比较特殊的科技文献。
特种文献一般包括会议文献、科技报告、专利文献、学位论文、标准文献等。
12. 间接检索法:利用一定检索工具进行文献检索13. 专利:有三层含义:一指受专利法保护的发明,二是指专利权,三指专利说明书等专利文献。
这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体体现。
14. 搜索引擎:是一种Web 上应用的软件系统,它以一定的策略在Web 上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。
信息存储与检索1.信息存储与检索是信息管理与信息产业领域十分重要的学术概念,是处理信息、开发利用信息的重要手段,也是管理与利用信息资源的两个逆向过程。
它既包括采用多种形式记录信息、排序信息和存储信息的过程,也包括通过一定的设备、采用一定的手段与技巧从信息系统中快速、准确地搜寻所需信息的方法与过程。
2.信息检索的基本原理就是:为了促进信息资源的充分交流和有效利用,使用户在信息集合中快速、精确、全面地获得特定需要的信息资源,必须首先要对广泛、大量、分散、无序的信息进行搜集、记录、组织、存储,以建成各种检索系统。
用户则根据检索课题的需要,将需求转化成系统所能识别的检索式,再与检索系统中表征信息资源特征的标识进行逐一的相符性匹配与比较,两者完全一致或部分一致时,即为命中信息,可按用户要求从检索系统中输出。
3.学习本课程的目的、意义和方法: (1)信息存储与检索构成了信息资源开发和利用的核心环节(2)信息存储与检索是解决社会信息总量激增与特定信息用户信息需求相对专一矛盾的必要手段(3)信息存储与检索技术将大大提高人们在信息时代的生存能力.学习方法:理论联系实际结合实际展开论述4.信息的印刷存储的弊端:印刷存储的速度过于缓慢;人们从印刷文献中获取信息的速度慢; 纸张印刷文献的寿命有限5.缩微品的存储介质及特点:卤化银胶片,微泡胶片,重氮胶片缩微品的特点及检索特点:存储容量大,密度高;存储介质占用空间少;忠实原件; 保存时间长于纸张;邮寄方便;阅读需专门设备;修改困难缩微磁带检索是以缩微胶片或胶卷为信息载体,使用缩微检索机械检索文献的活动。
6.印刷品特点:存储容量大7.磁存储介质分类。
静态:磁芯、磁膜、磁泡;动态:磁带、磁鼓、磁盘、磁卡、磁性墨水8.半导体存储器的分类。
按元件类型:双极型、MOS型;按功能:随机存储器RAM、只读存储器ROM (固定ROM、可编程PROM、可擦可编程EPROM)9.光盘的分类。
信息检索知识点信息检索考点整理 1 、信息检索的概念广义的信息检索就是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储与检索两个过程; 而狭义的信息检索仅指有序化信息的检索查找。
2. 信息检索的原理就就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡就是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就就是初步命中检索所需的信息。
3 、为什么说信息存储与检索就是两个不可分割的有机体?检索的全过程包括存储与检索两个过程,存储与检索就是相辅相成、不可分割的。
存储过程主要就是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要就是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程就是存储过程的逆过程。
因此,检索者只有在全面了解存储者就是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4 、信息检索的方法 (1)顺查法 (2)倒查法 (3)抽查法(4)追溯法 (5)循环法 5 、信息检索的途径 (1)内部特征途径a) 分类途径 b) 主题途径 (2)外部特征途径 a) 题名途径 b) 著者途径 c) 文献编号途径 d) 检索途径 e) 机构检索法 f) 引文检索途径 6 、布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2) 可操作性强,应用广泛;(3) 构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4) 能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7 、概率排序原则: 如果一个检索系统对用户的每个检索提问的反应就是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果就是最好的。
一:单项选择题(共20小题,每小题2 分,共40分)二:填空题(共12个空,每空1分,共12分)三:简答题。
(共4小题,每小题6分,共24分。
)四:应用题。
(共3小题,4选3,每小题8分,共24分。
)(应用)例1 检索课题:查找中国2003年国内人口出生率和自然增长率。
1.手工检索检索工具:《中国统计年鉴—2004》通过分类途径在类目“人口”下进行查找。
2.计算机检索(1)CNKI中国统计年鉴全文数据库(2)国家统计局网站进入国家统计局网站主页——点击“数据库查询”——进入“国家统计数据库”——输入检索关键字:人口,点击“搜索”,在结果页面单击“(整表/年度资料)--1978-2006年历年人口出生率、死亡率和自然增长率”链接,得到的检索结果如下:指标名称人口出生率人口死亡率人口自然增长率(单位:‰)2003年12.41 6.40 6.01(3)搜索引擎检索式:“2003年中国人口出生率自然增长率”例2.检索课题:查找2004年上海市国民经济生产总值GDP及其增长率。
1.手工检索检索工具:《上海市统计年鉴—2005》通过分类途径在类目“国民经济核算”下进行查找。
2.计算机检索(1)国研网”主页,进入“国研网”主页,。
点击“区域经济”栏目,在“区域列表”中点击“上海”。
在检索框里输入关键词“2004年上海”,检索条件限制在“标题”,并经关键词“GDP”二次检索,得到上海市2004年的GDP相关数据。
结果如下:2004年上海市按经济普查口径核算的GDP为8072.8亿元,比年快报核算的总量增多了622.5亿元,增加8.4%。
(2)中国经济信息网地区数据>> 年度数据(3)国家统计局网站统计数据>> 年度数据_>> 国民经济核算(4)CNKI中国统计年鉴全文数据库(5)上海统计网上海统计信息网——统计数据——上海统计年鉴——国民经济核算(6)搜索引擎检索式:“2004年上海市GDP”一、纸质文献资源的存储与组织的4个基本要素信息内容、载体材料、记录符号和记录方式二、按文献加工深度划分:零次文献、一次文献、二次文献、三次文献的区分零次文献——尚未经过系统整理形成正式文献的零散资料,包括草稿、记录和谈话等。
1.信息资源基本特征:(P4)(1)共享性:这是信息资源区别于物质资源的根本属性之一,信息资源可以为众多使用者享有(2)时效性:过时的信息可能分文不值(3)智能型:是人类脑力劳动的产物,传播的是人的知识与智慧(4)无限性与有限性并存:信息资源呈现又不枯竭的特点,但在一定条件下,相对于特定需求来说是有限的(5)增值性:对信息资源的投入和使用,不但可以使自然资源、人力资源、资本资源增值,同时信息资源可以一次投入、多次开发利用,并不断产生新的信息使其自身增值2.信息资源划分为纸质文献型信息资源和电子型信息资源两大类(P6)3.按照网络信息资源的表现形式将网络信息资源分为:电子图书、电子期刊、电子报纸(P10)4.根据存储介质及存储技术,现代信息存储可以划分为以下类型:(1)信息印刷存储(2)信息微缩存储(3)信息磁存储(4)半导体存储(5)光盘存储(P34)5.信息检索模型和信息浏览模型:(P41)信息检索模型信息浏览模型基于文档内容的检索模型基于文档结构的检索模型平面浏览模型目录导航模型网状结构模型布尔逻辑模型概率统计模型向量空间模型并列链表模型层次邻接模型6.信息存储与检索类型按查询信息的特征划分:(P44)(1)书目存取:利用文献存取系统,从一个特定的书目集合中查找热定用户所需的特定主题、特定区域、特定时间文献的程序与方法(2)数据存取:以查询各类物质与材料的特性、参数、常数、价格、统计数据等数值信息为主要对象的信息存取(3)事实存取:以客观事实为对象的信息存取活动(4)全文存取:利用计算机化的全文数据库,以机器可读的字符代码形式或文献页面扫描图像形式存储文献正文内容,以便于用户从任意字、词、句、段落等为存取点查询的全文信息的活动(5)图像存取:在基于文本式的检索基础上增加了基于内容的图像存取(6)多媒体信息存取:分为基于文本方式的多媒体信息存取和基于内容特征的多媒体信息存取7.索引款目一般由索引标题词、说明语和地址参照项组成,而简单的索引款目只有索引标题词和地址参照项组成(P50)索引标题词:亦称款目、索引键、索引标题等,一般处于索引款目中最醒目的位置,是索引款目的核心,也是信息资源外部特征与内容的标志说明语:亦称上下文或修饰语,用来说明、解释、限定索引标题词含义的辅助项目,说明语可用来区别同一索引标题词的不同含义地址参照项:位于索引标题词和说明语之后,索引地址所指明的是索引标题词的出处8.全文检索系统的开发包括选择数据、建立全文数据库和实现文本检索等功能(P70)9.全面智能信息检索系统包括知识库、数据库、文本处理部分和检索推理机及人机接口(P75)10.构造提问检索式的基本要素是检索词、布尔逻辑算符、位置逻辑算符和截词算符(P78)布尔逻辑算符:现代计算机信息检索系统多采用这种方式,用户利用逻辑算法构造检索式可以将一些具有简单概念的检索词组配成为一个具有复杂概念的检索式,用以表达用户的检索需求位置逻辑算符:为了弥补逻辑算符的不足,规定了一些位置算符,主要用于全文数据库查询截词算符:只在检索词的某个局部截断,利用检索词的词干或不完整的词形加上截词符号所进行的检索11.(简答题)信息检索步骤:(P 90)(1)分析检索课题,明确检索需求。
信息检索及利用考点总结~注:考试时,务必带上2B铅笔、橡皮擦,签字笔。
考试题型:填空、简答、单选、多选、判断第一章绪论1、信息素养的概念、具体容(涵)答:概念:具有信息素养的人能够知道什么时候需要信息,能够有效地获取、评价和利用所需要的信息。
具体容(涵):信息意识:敏感度信息知识:信息基本知识,检索技术等信息能力:选择能力、收集能力、判断能力、处理能力、利用能力信息道德:抵制不良信息、过滤粗糙信息、选择有利信息2、搜商的概念答:第一:搜商仅指人们运用搜索引擎的智力。
这是狭义的“搜商”概念。
第二:搜商是指运用物质性工具进行搜索的智力。
这是一种广义搜商的概念。
第三,搜商应指人们所有搜索行为的智力。
这是最广义的“搜商”概念,我们不妨叫它“泛搜商”。
3、信息检索的意义答:1)信息检索是大学生必备的基本素质2)信息检索是科学研究的重要前提3)信息检索是培养创新型人才的重要基础4)信息检索是个人终身学习的基本保障4、信息、知识、情报和文献的定义、关系;信息的基本特征;情报的属性;构成文献的基本要素。
答:定义:信息:信息是自然界、人类社会和人类思维活动中一切事物的存在方式和运动状态的本质属性和客观反映。
知识:知识是人们在改造客观世界的实践中所获得的认识和经验的总和。
情报:人们为解决某一个特定的问题而搜索、传递且有特定效用的知识或信息。
文献:记录有知识的一切载体。
关系:1)包含关系:知识包含于信息中,信息包含了情报,文献也包含于信息。
2)转化关系:文献是记录有信息或知识的载体,当文献中记录的信息或知识传递给用户,并为用户所利用时,就转化为情报。
例:图书馆馆藏图书。
3)交叉关系:情报虽大多来自文献,但也可能来自口头和实物,所以情报与文献存在交叉关系。
信息的基本特征:客观性,时效性,价值型,传递性,共享性,开发性。
情报的属性(3种):知识性(信息性)、传递性和效用性(被用户所利用)。
构成文献的基本要素(4个):1)知识容:信息或知识3)物质载体:材料4)记录手段:即将知识、信息固化到载体上的手段5、一些文献类型的特征(ISBN,ISSN,CN,GB2763-87,GB/T,ISO,IEC)答:ISBN:国际标准书号(唯一性)。
1. 信息检索的原理:从下图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中(对于自然语言检索系统来说,不存在存储与检索的间接交汇处)。
2.信息检索系统的物理结构一般包括硬件 软件 数据库3个部分。
信息检索系统的逻辑结构3.信息检索的研究内容包括以下几个方面:(1)信息检索理论研究(2)信息检索方法研究(3)信息检索技术研究(4)信息检索语言研究(5)信息检索系统研究(6)信息检索服务研究(7)信息检索评价研究。
4. 任何检索策略都包括3 个部分:文档表示 查询表示 匹配函数。
5..信息检索模型到底是什么?其描述如下:信息检索模型是一个四元组/D ,Q ,F ,R(qi, dj)/:(1)D 是文档集中的一组文档逻辑视图(表示),称为文档的表示;(2)Q 是一组用户信息需求的逻辑视图(表示),这种视图(表示)称之为查询;信息检索过图1-1 广义信息检索的基本图1-9 信息检索系统逻辑结构(3)F是一种机制,用于构建文档表示,查询及它们之间关系的模型;(4)R(qi, dj)是排序函数,该函数输出一个与查询qi ∈Q和文档表示dj ∈D有关的实数,这样就在文档之间根据查询qi定义了一个顺序。
6经典模型: 布尔模型向量模型概率模型。
7对于布尔模型而言,标引词权值变量都是二值的,即wi,j∈{0, 1},查询q是一个常规的布尔表达式。
用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分量。
文档dj和查询q的相似度可以定义为:地址是指该行所在展开表中的地址;匹配成功时转向地址AFD,给出一旦在检索词与文献记录中标引词匹配成功时,下一步应该处理的提问检索词在提问表中的地址;匹配不成功时转向NFD地址,给出一旦检索词与标引词匹配失败时应该转向展开表中的地址;“层级值” 栏表示当前检索词在提问式中的层次级别;.8.布尔模型优缺点:优点:一是实现起来比较容易,速度快,计算的代价相对较少;二是查询语言表达简单,用户可以使用任意复杂的查询表达式,故得到广泛的应用.缺点;1布尔逻辑式的构造不易全面反映用户的需求。
2匹配标准存在某些不合理的地方。
3检索结果不能按照用户定义的重要性排序输出。
9.( t1 and t2) or ( t3 not t4) 或者qj = ( t1 ∧t2) ∨( t3 t4)。
10.计算机信息检索的基本原理仍是“匹配运算”,但是却不同于手工检索的“匹配运算”方式。
计算机匹配过程中,需要将检索提问式转化成计算机可以识别的形式,并且要使用系统中特定的检索指令、检索词和检索策略,由计算机自动对数据库中各文档记录进行查找。
当检索标示、检索策略与数据库中的信息标示关系一致时,即为命中,将结果输出给用户。
11.逻辑提问式即为Q=A*B*C*D.表展开法是将每个逻辑提问式转换成一个展开表, 如果有N个提问式就可做N个展开表。
每个检索词对应表中的一行。
其一般格式如下:展开表的生成,根据算法描述的顺序方向划分为两大部分:前处理部分和后处理部分。
前处理部分,也叫正向扫描处理部分。
按照逻辑提问式各项因子出现的先后顺序从左到右依次处理。
前处理算法描述:后处理算法: 1. 从最后一行条件满足指向栏往上推,如果遇到空,则置入下面最临近的且级位小于该栏的条件满足指向栏的内容,或最后一行条件满足指向栏的内容 2. 从最后一行条件不满足指向栏往上推,如果遇到空,则置入下面最临近的且级位小于或等于该栏的条件不满足指向栏的内容,或最后一行条件不满足指向栏的内容 例:逻辑提问式(A+B)﹡(C+D)﹡E 的展开表形式11.布尔检索 截词检索怎么实现的?布尔检索就是利用布尔代数中的逻辑与、逻辑或、逻辑非等运算符,将检索提问式转换成布尔表达式,计算机根据表达式查找符合限定条件的文献。
所谓截词(truncation ),是指检索者将检索词在自己认为合适的地方截断;而截词检索,则是用截断的检索词的一个局部去数据库中进行检索,凡是能与这个词局部中的所有字符(串)相匹配的文献,即为命中文献。
一)字段检索:字段检索是限定检索词在数据库记录中出现的字段范围的一种检索方法。
(二)使用限制符的限制检索:大部分信息检索系统都提供了一类限制符,使用这类符号进行检索,可以从文献的外部特征方面来限制检索结果。
词频加权检索:词频加权检索是根据检索词在文档记录中出现的频率来决定该词的权值,而不是由检索者来指定检索词的权值。
在这一方面,词频加权就消除了人工干预因素。
级位 条件满足指向 检索词代号 地址条件不满足指向 字段号 比较条件 检索词A B C D E 12345 3 3 5 5 1 0 1 0 0 命中 不命中 不命中 不命中2 4 ( 略 )14.全文检索的技术指标既包含几种算法:一)索引膨胀系数二)检索速度邻接检索同记录检索15多媒体包含:磁盘、磁带、光盘等;另一是指信息的表现或传播形式,如声音、文字、图像、动画等。
多媒体的含义并非多媒体本身,二是处理与应用它的一整套技术。
多媒体技术的关键特征1)多样(2)集成性(3)交互性(4)实时性(5)互补性这5个特性缺一不可。
其中,多样性、实时性和互补性是基础,集成性是手段、方式或形式,交互性是核心或灵魂。
多媒体数据模型概述:数据模型就是在计算机数据世界中建立的计算机能接受的对现实世界中所要研究对象的抽象描述。
多媒体系统的数据模型的基本任务是:1.表示各种不同媒体数据的构造及其属性特征;2.指出不同媒体数据之间的相互关系。
多媒体数据模型概述:二)多媒体数据模型的体系结构一个完整的多媒体数据模型应该是对多媒体信息系统的信息和数据的内容、不同媒体对象或由它们合成的复合对象的表现、内容与表现之间的映射/对应关系进行组织结构上的抽象概括和规范描述的一个整体。
内容表现多媒体数据压缩的基本要求。
对数据进行压缩处理一般具有以下基本要求:(1)可还原(2)压缩比高(3)重现质量好(4)计算成本低(5)实时性好视频压缩的标准.;/视频压缩的一个重要标准是MPEG,即运动图像专家组(Moving Picture Expert Group)基于内容的多媒体信息检索原理:(一)基于文本的多媒体信息检索的局限性(二)基于内容的多媒体信息检索的特点及应用(三)基于内容的多媒体信息检索系统的体系结构基于内容的图像检索:基于内容特征的图像检索技术(content-based image retrieval,简称CBIR),主要依据图像的画面内容特征和主题对象特征(即图像的实际内容)来标引和检索。
基于内容的图像检索分类:颜色检索形状检索文理检索草图检索对象检索由于传统的搜索引擎在设计方面存在局限性(集中式的体系结构,通过网络爬行器收集信息),因此它们无法提供高准确度、搜索实时更新的数据库的服务。
因此,开发一个新的搜索框架,支持“点对点”,按照层次进行分布式搜索成为今后搜索引擎发展的趋势。
17.WWW是World Wide Web的简称,又常简称为Web。
目前Internet上Web信息资源的检索方法主要有三种基本形式:基于超文本/超媒体的信息浏览、基于目录的信息查询和基于搜索引擎的信息检索。
18超文本是由信息节点和表示信息节点间相关性的链构成的一个具有一定的逻辑结构和语义的网络:①数据库层;②超文本抽象机层;③用户接口层。
节点(Node)、链(Link)和网络(Web)是组成超文本的3个要素。
每个节点都有若干指针指向其他节点,或从其他节点指向该节点,这些指针称为链。
由多个链将节点连接起来就组成了一个网络,这就是超文本结构。
超媒体=超文本+多媒体19.HTML语言是一种简单的标记型语言,用于生成超文本。
确切地说,HTML并不是程序语言,而只是被放置在文本周围和内部的一组编码,使它通过浏览器以某种方式显示出来,并被赋予一些特定的属性,如能与另一个文件链接等超文本传输协议: HTTP是一个用于在客户端和服务器间请求和应答的协议。
20.超文本浏览器:Web Browser,也称网络浏览器或网页浏览器,简称浏览器。
浏览器是个显示网页伺服器或档案系统内的HTML文件,并让用户与这些文件互动的一种软件。
ftp:是FTP(档案传送协议)URL(统一资源定位符)21.搜索引擎的概念与基本功能?搜索引擎实际上就是对WWW站点资源和其他网络资源进行标引并提供检索服务的服务器或网站,是一个基于互联网的信息搜集、组织和用户查询的平台。
(一)一般检索功能布尔逻辑检索词组检索截词检索位置检索字段检索(二)高级检索功能加权检索自然语言检索多语种检索区分大小写的检索模糊检索概念检索22.搜索引擎的结构与原理:收集器索引器检索器用户接口1收集器负责信息的采集工作。
搜索引擎的信息采集机制按照人工程度划分,可分为人工采集和自动采集;按照信息时新性,可分为定期搜集和增量搜集两种。
2索引器的功能是理解收集器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,使检索者能够快速地检索到所需信息。
建立索引需要进行以下处理:(1)信息语词切分和语词词法分析;(2)进行词性标注及相关的自然语言处理;(3)建立检索项索引。
3搜索引擎的检索器负责根据用户的检索请求,从索引数据库中快速查找相匹配的网页,并将结果按顺序以Web 方式呈现给用户。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
4用户接口接受检索者提交的查询请求(包括查询内容及逻辑关系),搜索引擎根据检索者所输入的关键词在其索引中查找,并寻找相应的Web 页地址。
搜索引擎的类型:按信息搜集方法和服务提供方式的不同,搜索引擎可以分为五大类。
目录式搜索引擎 全文搜索引擎 元搜索引擎 集成搜索引擎 智能搜索引擎23.人工智能技术24.专家系统的特征 :根据费根鲍姆的定义,专家系统是一种智能的计算程序。
(1)具备某个应用领域的专家级知识;(2)能模拟专家的思维;(3)能达到专家级的解题水平。
25专家系统与传统的计算机程序的区别:(1)从编程的角度来看:专家系统=知识库+推理机 传统程序=数据+算法(2)传统程序不具备解释功能,而专家系统能对自己的行为作出解释。
(3)传统程序是根据算法来求解的,所以答案每次都是正确的。
而专家系统则像人类的专家一样工作,答案有错误的可能。
但其能从中吸取教训,改进其求解能力。
(4)从处理的对象来说,传统程序是面向数值计算和数据处理的,数据多是精确地,对数据的检索是基于模式的布尔检索;专家系统是面向符号处理的,数据、知识多是不精确、模糊的,对知识的匹配也是不精确地。