信息检索原理期末重点背诵知识点
- 格式:doc
- 大小:154.50 KB
- 文档页数:11
信息检索知识点文件管理序列号:[K8UY-K9IO69-O6M243-OL889-F88688]信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
信息检索复习知识点1.信息(Information)信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。
* 信息的属性——客观存在性* 信息的作用——消除不确定性* 信息的形式——数据、消息等事实2.各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源3. 信息用户Information User信息的使用者即是信息用户。
使用的情况可以包括需要信息、接受信息和利用信息。
4. 信息需求Information Demand人们在社会实践活动中,为了解决各种实际问题,会产生对信息的需要,这种需要可表现为对信息的必要感和不满足感。
我们把意识到的信息需要定义为信息需求5. 信息检索Information Retrieval对信息用户而言,信息检索就是根据各自的目的和要求,选择恰当的信息资源,采用适当的检索手段、检索技术、检索方法,对所需要的信息进行查找、筛选和索取的过程或活动。
6. 信息素质:人们能够敏锐地察觉信息需求,并能进行相应的信息检索、评估以及有效利用所需信息的水平。
* 信息意识* 信息能力* 信息道德7. 信息社会是以知识和信息为基础从而促进社会高速发展的一种社会形态。
8. 经济领域的特征a.劳动力结构出现根本性的变化,从事信息职业的人数与其它部门职业的人数相比已占绝对优势;b.在国民经济总产值中,信息经济所创产值与其它经济部门所创产值相比已占绝对优势;c.能源消耗少,污染得以控制;d.知识成为社会发展的巨大资源。
9. 社会、文化、生活方面的特征10.社会观念上的特征11当代信息环境特征描述* 信息超载严重信息超载又称信息泛滥或信息爆炸。
它是指在信息时代,伴随着科学技术的迅速发展,出现的数据爆炸、信息平庸化以及噪音化趋势,人们无法根据自己的需要和当前的信息能力选择并消化自己所需要的信息。
* 信息失衡明显所谓信息失衡是对由于各国经济水平、科技水平和其它多种相关因素的影响,不同国家、不同地区以及不同阶层的人群在信息占有水平以及利用程度上存在极大差距的描述。
1、文献:为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录在唱片上,或存储在磁盘上。
这种附着在各种载体上的记录统称为文献。
2、文献由四要素构成,即文献信息、文献载体、符号系统和记录方法。
3、信息、知识和文献三者之间的关系:由信息、知识和文献的概念可知,三者之间是密切相关的。
信息是物质存在的方式、形式和运动规律的表征。
人脑对事物属性的感知形成信息;人们对信息集合加工、整理形成系统化,表现形成人类社会实践的知识;知识被记录在载体上形成文献,文献被人类广泛传播、运用在理论和实践中又产生新的信息、知识和文献。
如此循环,不断创新,形成各种各样的新知识,从而推动人类社会前进。
由此可见,信息、知识、文献在社会系统中表现出一种不间断的延续性。
4、具有信息素质的人主要具有以下几个方面的能力:(1)运用信息工具;(2)获取信息;(3)处理信息;(4)生成信息;(5)创造信息;(6)信息增效;(7)信息协作;(8)信息免疫。
5、信息资源的构成可从不同的层次和角度来划分:一、按照信息的出版和加工划分:1 图书;2 报刊;3 会议文献;4 专利文献;5 科技报告;6 学位论文;7 技术档案;8 产品资料;9 标准文献;10 政府出版物。
二、按照信息加工层次划分:按信息加工程度可将信息分为一次文献、二次文献、三次文献。
(1)一次文献即以作者本人的生产与科研工作成果为依据而撰写并已公开发行进入社会流通使用的原始文献。
例如专著、学术论文、科技报告、会议论文、专利文献、学位论文等;(2)二次文献即将大量、分散、无序的一次文献收集起来。
按照一定的方法进行整理、浓缩和加工,使之系统化而形成各种目录、索引和文摘,即编制成具有多种检索途径的检索工具。
二次文献又称为检索性文献;(3)三次文献即根据一定的目的和需求,在大量利用一次、二次文献的基础上,对有关知识进行综合、分析、提炼、重组而再生的信息资源。
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
如何判断自己具备哪些素质1能够独立决定所需要信息种类和程度2能够高效的获取所需要的信息3能够根据现有的知识背景和评价标准对信息及来源进行评价和遴选4能够有效的利用信息达到某一特定的目的5能够在信息利用过程中遵守相关的法律法规知识是信息的提炼,情报是激活了的知识文献三要素:知识、载体、记录方式文献分类,按出版方式分科技图书、科技周刊、科技文献,按内容层次分一次文献(期刊论文、专利说明书、会议论文、科学报告、学位论文)、二次文献(书目、索引、文摘)、三次文献(词典、手册、年鉴、百科全书、专著、教科书、论文丛集、述评、文献指南),按载体分印刷型、缩微型、声像型、机读型、多媒体型关于物流管理专业的核心刊物有国家发展研究中心《管理世界》、南开大学商学院《南开管理详论》、中国科学院工业经济研究所《经济管理》、中国人民大学《经济理论与经济管理》《中国软科学》《管理科学学报》《管理工程学报》《中国管理科学》《科学管理研究》《生产力研究》《中国流通经济》《物流技术》《物流工程与管理》《中国物流与采购》《物流技术》D(代)UF 指引非正式主题词S(属)BT 指引上位主题词F(分)NT 指引下位主题词C(参)RT 指引相关主题词Z(族)CC 指引族首主题词(最上位词)知网节——推目标在知识的海洋中自由遨游,从一篇文章,一个知识点,链接到更多相关知识,提供主动学习功能知识网络根据知识的体系结构和文献的内容关联来组织文献,可以形成以各种特征为节点的文献网络和知识网络,如主题网络、分类网络等。
节点文献题录摘要:篇名、作者、机构、关键词、摘要、刊名、刊期等信息及链接参考文献链接:反映本文研究工作的背景和依据引证文献链接:引用本文的文献同被引文献链接:与本文同时被作为参考文献引用的文献,与本文共同作为进一步研究的基础二级参考文献链接:本文参考文献的参考文献。
进一步反映本文研究工作的背景和依据二级引证文献链接:本文引证文献的引证文献。
一、信息检索四要素1、信息检索的前题:信息意识2、信息检索的基础:信息源3、信息检索的核心:信息获取能力4、信息检索的关键:信息利用二、信息基本特征:普遍性、客观性、扩散和传递性、增值性(创新)、可存贮性和可压缩性、可知性(信息能力)和共享性知识属性:意识性、信息性、实践性、继承性、渗透性情报属性:针对性、知识性、时间性、传递性、效用性信息、知识、情报的关系:信息经过人脑思维加工,即认识飞跃产生知识,情报属于知识的范畴。
广义的情报是信息的传递,因此,情报具有信息和知识两种性质。
三、按载体不同分为:口头信息源、实物信息源、文献信息源四、文献信息源:1、按出版形式不同可分为十种类型:图书、期刊、科技报告、会议文献、政府出版物、专利文献、标准、产品资料、学位论文、技术档案2、按记录信息的材料可分为三种类型:纸印本文献、缩微型文献、机读型文献3、按加工深度不同可划分为四种:零次文献、一次文献、二次文献、三次文献四者之间的关系:从零次文献到三次文献,是一个从分散的原始文献加工整理系统化的过程。
零次文献是一次文献的素材,一次文献是基础,是检索的对象;二次文献是检索一次文献的工具;三次文献是一次文献的浓缩,是情报信息的重要来源。
五、信息检索系统类型:⑴根据检索目标和检出文献信息形式的不同:文献检索、数据检索、事实检索⑵根据具体检索手段不同:手工检索、机械检索六、检索步骤:分析研究课题确定检索范围和检索标识选定检索工具确定检索途径查找和获取原始文献七、信息检索的方法:⒈常用法:是利用检索工具查找文献的方法.⑴顺查法⑵倒查法⑶抽查法⒉追溯法:从已知的现有文献后所列参考文献入手,逐一追查原文,从这些原文后所列参考文献再逐一追查,不断扩检的查找方法⒊循环法:指追溯法常用法混合使用的方法。
八、信息检索的途径:⒈根据外表特征划分著者途径;书名、篇名、刊名途径;序号途径⒉根据内容特征划分分类途径(SA、Ei);主题途径(SA、Ei);分子式途径(CA)九、文献检索的一般步骤:1、分析研究课题2、确定检索范围与检索标示3、选择检索工具4、确定检索途径5、查找和获取原始文献检索途径与方式:初级检索:默认的检索方式高级检索:两种检索方式组合使用,如“篇名”和“著者”。
1,、十大信息源:图书、连续出版物、学位论文、科技报告、会议文献、政府出版物、专利信息、标准信息、产品样本、档案文献2、二次信息:是对一次信息进行加工、提炼、压缩和整理后所得到的信息,如目录、题录、文摘、索引和名录等检索工具。
二次信息主要功能是检索通报控制一次信息帮助人们在较少时间内获取较多信息,故又称为检索信息或通报性信息,其具有汇集性工具性综合性系统性等特点。
3信息素质;作为具有信息素质的人必须具有一种能够充分认识到何时需要信息并有能力有效地发现检索评价和利用所需要的信息解决当前存在的问题的能力4信息素质的内容:信息意识、信息能力、信息道德1、信息检索是指依据一定的方法从已经组织好的大量有关信息组合中直接查找并获取特定的相关信息的过程。
2、信息检索的基本原理可以从信息的替代、整序、标识的匹配三方面来讲述。
3、信息检索的类型文献检索、数据检索、多媒体检索4、信息检索的发展趋势表现在智能化、可视化、个性化、专业化5、信息检索的意义:有利于培养人才提高学生自学能力和独立的科研能力;帮助科研人员继承和借鉴前人的成果避免重复研究减少重复劳动;帮助科研人员迅速准确的获取所需的全部资料提高科研效率缩短科研周期;促进信息资源的开发利用推动社会进步和经济发展。
6、检索语言是根据信息检索的需要而创制的人工语言适应文献信息的加工存储和检索的共同需要而编制的语言是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标志系统。
7、检索语言的主要作用标识文献信息内容及其外表特征保证不同标引人员标引文献的一致性;对内容相关的文献信息加以集中或揭示其相关性;使文献信息的存储集中化系统化组织化便于检索着按照一定的排列次序进行有序化检索;便于将标引用语和检索用语进行相符性比较保证不同检索人员表述相同文献内容的一致性;保证检索者按不同需要检索文献时都能获得最高查全率和查准率。
8、信息检索技术布尔逻辑检索、截词检索、位置检索、限制检索9、信息检索的评价指标体系主要包括对信息检索数据库的评价对检索结果的评价对检索功能的评价和对用户负担的评价。
大一信息检索知识点总结信息检索是指通过计算机技术和各种检索方法,从大规模文献资源中快速、准确地获取用户所需信息的过程。
在大一学习信息管理与信息系统专业的过程中,我们需要了解一些关键的信息检索知识点。
本文将对大一信息检索的相关知识进行总结,帮助同学们更好地理解和掌握这一领域的基础知识。
一、信息检索的基本概念与原理(1)信息检索的定义:信息检索是指根据用户的需求,在文献、数据库和其他信息资源中寻找与之相符合的信息的过程。
(2)信息检索的基本原理:包括索引构建和检索处理两个阶段。
索引构建阶段将信息资源进行结构化整理,并建立相应的索引表;检索处理阶段通过用户提供的检索词,结合索引表,通过匹配算法找到与之相关的信息资源。
二、信息检索的关键技术(1)词项选择与权重计算:根据用户需求,选择合适的检索词,并使用权重计算方法为词项赋予合适的权重,提高检索效果。
(2)检索模型:包括布尔模型、向量空间模型和概率模型等不同的模型,用于描述检索系统中信息资源与用户需求之间的匹配关系。
(3)评价指标:用于评价检索系统的性能,常见的指标包括召回率、准确率以及F值等。
(4)查询扩展:通过对用户查询词进行扩展,提高检索系统的召回率和准确率。
三、信息检索的常用工具和技术(1)搜索引擎:如百度、谷歌等,通过互联网收集、分析并索引网页信息,为用户提供搜索服务。
(2)数据挖掘:通过对大规模数据进行模式识别和深入分析,挖掘其中有价值的信息,为决策提供支持。
(3)文献管理工具:如EndNote、NoteExpress等,用于管理、组织和检索学术文献。
(4)信息可视化技术:通过可视化手段,将海量的信息以直观的方式展示给用户,提高信息的理解和使用效率。
四、信息检索的应用领域(1)图书馆信息服务:包括文献检索、馆藏资源管理、读者咨询等。
(2)企业信息管理:包括企业知识管理、产品信息检索、竞争情报等。
(3)科学研究与学术交流:通过信息检索工具,快速获取相关领域的最新研究进展和学术成果。
信息检索知识点范文信息检索是指从大量的信息中找到与用户需求相关的信息的过程。
以下是信息检索的一些重要知识点:一、信息需求分析:1.了解用户需求:包括明确用户的信息需求,了解用户的背景和需求的具体要求。
2.制定信息策略:确定的关键词、限定范围、排除冗余和无关信息的策略。
二、信息源:1.内部信息源:组织内部的数据库、档案等。
2.外部信息源:包括互联网上的网页、文档、图片等。
三、信息检索模型:1.自动索引:使用关键词或主题对文档进行描述和索引,并建立索引词表,方便用户检索。
2.布尔模型:将检索式表示为逻辑表达式,利用逻辑运算符对检索词进行组合,实现精确的文档检索。
3.向量空间模型:通过计算文档和查询的向量空间相似度,将文档按相关性排序。
4.概率检索模型:通过统计分析文档和查询的概率模型,计算文档的相关性概率。
5.链接分析模型:根据页面之间的链接关系和链接的权重等信息来评估页面的相关性。
四、检索评价:1.检索精度:通过计算检索结果的相关文档和非相关文档的比例,来评估信息检索系统的精确性。
2.检索效率:评估信息检索系统执行查询的速度和资源消耗程度。
3.检索一致性:评估系统在连续多次查询时的稳定性和一致性。
五、信息检索技术:1.关键词:通过输入关键词进行检索,系统会返回与关键词相关的文档。
2.高级:包括利用限定符进行、布尔逻辑、通配符等。
3.相关性反馈:根据用户的反馈信息,调整检索结果的排序,提高检索的准确性。
4.语义分析:通过对查询语句和文档的语义进行分析,找到语义上的相关性。
5.分布式检索:将索引和查询分发到多个节点上进行检索,提高速度和可靠性。
六、信息检索系统的应用:1. 网络引擎:例如Google、百度等,为用户提供互联网上的信息服务。
2. 文献检索系统:用于科研人员查找相关文献,例如PubMed、IEEE Xplore等。
3.图像检索系统:通过图像的内容特征进行检索,例如相似图片、人脸识别等。
4.音乐、视频检索系统:通过音乐或视频的特征进行检索,例如识别歌曲、相似视频等。
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进展相符性比较,但凡信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,那么具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体.检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进展标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进展标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进展比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法〔1〕顺查法〔2〕倒查法〔3〕抽查法〔4〕追溯法〔5〕循环法5.信息检索的途径〔1〕部特征途径a)分类途径b)主题途径〔2〕外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:〔1〕简单,形式简洁,易于理解;〔2〕可操作性强,应用广泛;〔3〕构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常准确的语义概念;〔4〕能处理构造化提问。
缺点:〔1〕表达用户复杂需求效果欠佳〔2〕准确匹配无法提供定量比较〔3〕匹配标准不尽合理〔4〕检索结果不易控制7.概率排序原那么:如果一个检索系统对用户的每个检索提问的反响是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索.所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那局部信息的过程。
信息检索1、信息检索概念:P12、信息检索的原理一整节内容要自己理解:P3-P4图1-1要掌握文献替代和文献整序的概念要掌握3、信息检索在历史上的不同表现:联机检索、光盘检索、网络检索的区别和特征:P6-P94、信息检索的模型概念:P95、布尔模型、向量空间模型、经典概率模型要理解并掌握各自的优缺点:P11-P126、信息检索系统的概念:P127、检索效果的评价指标:P15-P164个指标:查全率、查准率、漏检率、误检率掌握它们的含义并懂得计算8、网络检索的表达式:布尔逻辑检索、邻近检索、短语检索、截词检索的特点、区别和联系:P17-P219、信息检索的技巧要理解尤其是要掌握及时调整检索策略:P33-P3610、搜索引擎的概念:P3711、数据库知识,实验内容,特点12、引文的概念13、搜索引擎的分类:P40-41搜索引擎划分的类别以及元搜索引擎的概念要掌握12、CBR概念P11312、多媒体信息检索的原理和方法:P110-P114其中要重点理解基于内容的多媒体信息检索的检索形式(可以结合课件)13、专利的概念:P12514、专利的类型:P126(理解一下各类型的区别)15、专利文献的概念:P12716、专利文献的类型:P127(理解一下各类型的区别)17、灰色文献的概念:P14718、会议文献的概念:P15819、科技报告的概念:P16320、查新的概念:P20021、科技查新的作用:P201(每一个小标题后面要自己展开一段)关于上课讲的那几个数据库大家自己看一下PPT,掌握一下。
以上纯属个人观点题型:名词解释:5*4=20简答题:4*10=40论述题:2*20=40考试时间:1月8日上午:9:00—11:001.信息检索的概念(P1)信息检索有广义和狭义两重含义。
广义上说,信息检索是指将信息按照一定的方式组织和存储起来,并根据信息用户的需求查找相关信息的过程。
它包含信息存储和信息查找两个过程。
信息检索是对信息项进行表示、存储、组织和存取。
狭义的讲,信息检索仅仅指信息查找的过程,即从信息集合中找出所需信息的过程,相当于“信息查询”或“信息查找”。
文献替代(著录):即将表示文献资源特征的元数据替代它指代的资源,文献替代过程实际上是对原始文献的外表特征(包括题名、著者、出处等)和内容特征(包括分类号、主题词、摘要等)进行描述的过程,这项工作通常称为著录,著录的结果是将原始文献制成它的替代文献)——二次文献。
文献整序:指的是对替代文献进行标引,给出文献标识(如分类号、主题词等),将所有替代文献按其标识进行有规律的组织排列,形成可检索的信息资源集合。
信息检索系统:信息存储与信息查询功能的一类信息服务设施(或工具)。
信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理的过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推理、解释和实际校验,反过来指导信息检索实践。
搜索引擎:是一种Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,对信息处理组织后,为用户提供Web信息查询服务。
元搜索引擎:又称多元搜索引擎或集成式搜索引擎,是多个独立搜索引擎的集合,无独立的数据库,通过一个统一的用户界面,可以同时对多个搜索引擎进行检索操作,即用户只需一次输入检索式,便可检索一个或多个独立搜索引擎。
严格来说,元搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。
CBR:基于内容的多媒体信息检索,主要利用计算机自动收集、量化和存储信息内容自身的特征(如颜色、纹理、形状),表示成向量空间,建立基于内容特征的多媒体索引库,用户在查询过程中,系统会自动将用户提问转化成向量,并与已有信息的向量空间进行相似度匹配计算,具有较强的客观性。
专利:即专利权的简称。
是由专利机构依据发明申请所颁发的一种文件。
这种文件叙述发明的内容,并且产生一种法律状态,即该获得专利的发明在一般情况下只有得到专利所有人的许可才能利用(包括制造、使用、销售和进口等),专利的保护有时间和地域的限制。
我国专利法将专利分为三种,即发明、实用新型和外观设计。
(专利权、专利技术、专利说明书)专利文献:主要是指是实行专利制度的国家及国际专利组织在受理、审批、注册专利过程中产生的官方文件及其出版物的总称。
就广义而论,专利文献是指实行专利制度的国家及国际性专利组织,在审批专利过程中产生的官方事件及其出版物的总称,主要包括申请说明书、专利说明书等各类有关文件,以及专利公报、检索工具和专利分类表等出版物;就狭义而言,专利文献通常单指专利说明书。
灰色文献:通常指不经营利性出版商控制,而由各级政府、科研院所、学术机构、工商业界等所发布的各类印刷版与电子版文献资料。
会议文献:就是在各种会议上宣读和交流的论文、报告、产生的记录及发言、论述、总结等各种形式的文献资料,是国际学术交流的重要组成部分。
按其出版方式可分为会前文献、会中文献和会后文献。
(新颖性、专业针对性、及时性、连续性)查全率:是指检出文献中合乎需要的文献数量占数据库存在的合乎该需要的所有文献的比例,用来表示信息系统能满足用户需求的完备程度。
查准率:是指检出文献中合乎需要的文献数量占检出文献全部数量的比例,是衡量信息系统拒绝非相关信息的能力的量度。
科技报告:是围绕某个课题的科技活动所取得的阶段性进展或最终性成果的记录与书面报告,是科研生产活动的第一手资料。
有时又被称为研究报告,它是科技人员交流其研究活动的重要手段,是研究单位向为其提供经费的部门反映研究情况的正式技术文件,以积累、传播和交流为目的,由科技人员按照有关规定和格式撰写,真实而完整地反映科研人员所从事科技活动的内容和经验。
查新:是科技查新的简称,是指查新机构根据查新委托人提供的需要查证其新颖性的科学技术内容,按照本规范操作,并作出结论。
一、信息存储与检索原理1、原理:信息检索的实质就是将用户的检索提问标识与存储在信息检索系统中的信息特征标识进行比较、匹配,两者一致或者信息特征标识包含了检索提问标识,则具有该标识的信息就从检索系统中输出,输出的信息就是检索命中的信息。
(通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
其中,存储是检索的基础,检索是存储的目的。
)信息存储与检索的一般过程2、文献替代(著录)即用表示文献资源特征的元数据替代所指代的资源。
特征包括外表特征和内容特征。
著录的结果是将原始文献制成二次文献。
3、文献整序(标引)对文献进行标引,给出检索标识(如分类号、主题词等),将所有替代文献按照其标识进行有规律的组织排列,形成可检索的信息资源集合文献特征标识与检索提问标识的匹配二、联机检索、光盘检索、网络信息检索的特征和区别1、联机检索(1965-1990):即信息用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需的文献倍息的过程。
(1)构成:联机检索中心、通讯设施、检索终端。
(2)联机检索的特点(3)优点:检索效率高,可在几分钟内完成检索检索范围广泛全面,提供的数据量从几十到几百个不等检索内容新,实时性强,可检索到最新文献检索功能强,检索途径多缺点:检索费用高(机时/DU、记录输出打印费、通信费)检索界面单一,检索技术和技巧不易掌握2、光盘检索(1)由于光盘具有存储密度高、轻便、无机械磨损、易携带耐用等待点,从20世纪80年代中期生产后便很快被广泛用作信息载体、检索工具。
(2)光盘按存储信息的种类可分为:激光唱盘、激光视盘以及存储文字、数字等文件资料的数字光盘;按读写数据的模式可分为只读光盘、写一次光盘和可擦写光盘。
(3)光盘检索的类型1)单机(Stand-Along)光盘检索系统由微机、光驱、光盘数据库等硬件设备、操作程序、检索程序等软件组成,提供单用户、单机的使用,系统结构简单,但数据量少,利用率低。
2)联机光盘检索系统将光盘上网,一般只提供在局域网上的检索,用户可以分时共享光盘数据库的信息。
光驱常采用光盘塔(Tower)和光盘库(Jukebox)两种形式。
(4)光盘检索的特点价格低(一次购买无限次使用,无需联机检索费用)存储容量大而体积较小无需通讯联系,不受时间限制使用方便,易于操作使用寿命长机房、设备无特别要求,投资少信息获取速度和更新频率较联机检索慢3、网络信息检索(90年代至今)(1)早期的Internet信息服务模式:常见服务:、邮件、新闻组操作复杂、表现形式单调、信息以文件形式存在(2)网络信息检索(90年代至今)网络信息检索一般指因特网检索,是通过网络接口软件,用户可以在一终端查询各地上网的信息资源。
网络信息检索与联机信息检索最根本的不同在于网络信息检索是基于客户机/服务器的网络支撑环境的,客户机和服务器是同等关系,只要遵守共同协议,一个服务器可以被多个用户访问,一个客户也可以访问多个服务器。
特点:检索范围大,覆盖因特网上几乎所有的网络资源;超文本检索,结合多媒体的全文信息检索;界面友好,用户操作相当方便;良好的反馈能力和快速响应能力;与国际联机检索相比,其最大的优点在于经济;与光盘检索相比,其最大的优点在于内容更新快。
网络检索与联机检索和光盘检索有许多相同之处如需要数据库,要制定检索策略等。
1、联机检索的速度快,效率高。
检索的范围广泛、全面;检索途径多,方便、灵活;检索内容新、实时性强;检索辅助功能完善。
但是检索的费用高;对检索系统及其文档的收录、标引、特点等问题较难了解、熟悉;检索技巧和技术不易掌握。
2、光盘检索其存储容量大而体积微小;使用方便,不需要通信联系,不受时间限制;使用方便、易于操作;价格低;使用寿命长,用户易接受;机房无特别要求,投资少,要求设备简单,可随地安装。
但是光盘检索的信息获得比联机检索慢,信息更新不及时。
三、信息检索系统的评价指标1)查全率(检全率,召回率,Recall Ratio)检全率= 检出相关文献量_______________ *100%系统中相关文献总量2)漏检率(Omission factor)漏检率=漏检相关文献量___________________*100%系统中相关文献总量3)查准率(检准率,相关率,Precision Ratio)检准率=检出相关文献量___________________*100%检出文献总量4)误检率(Noise Factor)误检率=误检文献量_____________*100%检出文献总量查全率与查准率示例查询Q,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档。
查全率=80/100=0.8查准率=80/200=0.4结论:查全率较高,但是查准率较低四、布尔模型、向量空间模型、经典概率模型的优缺点(经典信息检索模型):1)基于集合论的模型(Set Theoretic models)布尔模型、扩展布尔模型2)基于代数论的模型(Algebraic models)向量空间模型3)基于概率统计的模型(Probabilistic models)经典概率模型(1)布尔模型:最简单的信息检索模型,是基于集合理论和布尔代数的一种的检索模型,被大多数检索系统所采用。