信息存储与检索
- 格式:docx
- 大小:37.45 KB
- 文档页数:10
一、名词解释信息检索:信息检索最普通的理解就是信息查找。
它是将信息按一定的方式组织起来,并根据信息用户的需求查找出有关的信息的过程和技术。
信息检索又叫做信息存储与检索(information storage and retri)。
信息检索可以分为事实检索、数据检索、文献检索。
特性检索:也称强相关性检索,强调向用户提供高度对口的信息。
强调检索的准确性,对检索结果的数量不作要求。
族性检索:也成弱相关性检索,强调向用户提供系统、完整的信息。
注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息,对准确性要求较低。
特种文献:特种文献是一种不以书刊形式出版的文献,一般不公开发行,它包括专利文献、会议资料、科技报告、技术标淮、学位论文、政府出版物、产品样本及其说明书等。
其特点是内容涉及面广、种类多、数量大、报道快、参考价值高。
OPAC:联机图书馆公共检索目录,有开放的公共查询目录演化而来,是20世纪70年代末美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
参考工具书:是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
年鉴:是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
手册:是汇集某一方面常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。
名录:是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。
搜索引擎:就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。
图书:论述或介绍某一领域知识的出版物。
期刊:期刊一般是指名称固定、开本一致的定期或不定期连续出版物。
信息检索知识点信息检索考点整理 1 、信息检索的概念广义的信息检索就是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储与检索两个过程; 而狭义的信息检索仅指有序化信息的检索查找。
2. 信息检索的原理就就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡就是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就就是初步命中检索所需的信息。
3 、为什么说信息存储与检索就是两个不可分割的有机体?检索的全过程包括存储与检索两个过程,存储与检索就是相辅相成、不可分割的。
存储过程主要就是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要就是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程就是存储过程的逆过程。
因此,检索者只有在全面了解存储者就是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4 、信息检索的方法 (1)顺查法 (2)倒查法 (3)抽查法(4)追溯法 (5)循环法 5 、信息检索的途径 (1)内部特征途径a) 分类途径 b) 主题途径 (2)外部特征途径 a) 题名途径 b) 著者途径 c) 文献编号途径 d) 检索途径 e) 机构检索法 f) 引文检索途径 6 、布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2) 可操作性强,应用广泛;(3) 构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4) 能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7 、概率排序原则: 如果一个检索系统对用户的每个检索提问的反应就是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果就是最好的。
信息检索概念及分类
一、概念
信息检索(Information Retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。
狭义的信息检索仅指信息查询(Information Search)。
即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。
广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。
又称信息的存储与检索。
一般情况下,信息检索指的就是广义的信息检索。
二、分类
(一)按存储与检索对象划分,信息检索可以分为:
文献检索
数据检索
事实检索
以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。
(二)按存储的载体和实现查找的技术手段为标准划分:
手工检索
机械检索
计算机检索
其中发展比较迅速的计算机检索是“网络信息检索”,
也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。
(三)按检索途径划分:
直接检索
间接检索。
一、单项选择题1. 以下哪个数据库提供同名作者检索功能:(D )A.万方数据库 B.中国期刊全文数据库C.复印报刊资料全文数据库 D.中文科技期刊全文数据库2. _______提供一次文献的线索。
( B ) A.文摘、索引等 B.图书 C.百科全书 D.手册3. 以下属于特种文献的是( B )。
A.图书B.科技报告C.报纸 D.期刊4. 用主题词检索只可以检索出对应的()5. 我国制定专利法的主要目的就是为了保护发明创造的(D )A.著作权 B.发明权 C.发现权 D.专利权~6. 利用分类途径进行检索,其检索标识为( C ) A.主题词B.关键词C.分类号D.分子式7. 在一般的著录格式中可以通过_______来判断该文献为会议文献( C )A. Journal B. Report C. Conference D. Patent8. 下列选项中,不属于信息能力的有( B ) A.鉴别 B.传递 C.评价 D.有效利用9. 从狭义上说专利文献就是指(专利注明书)10. Google搜索引擎的首页面上有一个“手气不错”的按钮,这个按钮的作用是什么( D )A.测试你当天的手气 B.提供最相关的一组检索结果列表C.提供最相关的一个检索结果的链接D.直接跳转到系统认为是最相关的页面…11. 利用___索引,我们可以检索任一知名专家的文献被引用的情况( D )A、Citation Index;B、Corporate Index;C、Permuterm Subject Index;D、Source Index;12. 文献信息检索的全过程包括文献信息的______两个过程( C )A.存贮和检索B.存贮和编排C.标引和编排D.存贮和标引13. 利用分类途径进行检索,其检索标识为( C )。
A.主题词 B.关键词 C.分类号 D.分子式14. 已知名叫孙钱章的作者99年出版了一本书,若想找到书名及其他信息,应在下列哪个数据库中查找( C. )A.中文科技期刊全文数据库B.复印报刊资料全文数据库C. 超星数字图书馆D.万方数据资源系统…15. 利用搜索引擎检索有关知识管理方面的学术论文,其检索式采用哪种比较好( C )A.关键词摘要 intitle: 知识管理B.论文知识管理 PDFC.学术论文知识管理D.学术论文 intitle:知识管理16. 在中国知网提供的检索服务中,(检索词扩展)起到扩展检索的作用。
专业科训信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。
信息检索有广义和狭义的之分。
广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。
狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。
一·按存储与检索对象划分,信息检索可以分为:1·文献检索·2数据检索 3·事实检索以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。
二·按存储的载体和实现查找的技术手段为标准划分:1·手工检索 2·机械检索 3·计算机检索其中现在发展比较迅速的计算机检索是“网络信息检索”,也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。
按检索途径划分:(1)直接检索,(2)间接检索三·检索方法信息检索方法包括:普通法、追溯法和分段法。
1.普通法是利用书目、文摘、索引等检索工具进行文献资料查找的方法。
运用这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程,从不同角度查找。
普通法又可分为顺检法和倒检法。
顺检法是从过去到现在按时间顺序检索,费用多、效率低;倒检法是逆时间顺序从近期向远期检索,它强调近期资料,重视当前的信息,主动性效果较好。
四、简答1. 简述信息组织、存储与检索的关系。
答:信息组织、存储与检索三者是不可分割的。
信息检索是通过信息存取系统(即检索工具)来实现的,任何一种信息存取系统都包括信息存储子系统和信息检索子系统,它们是同一事物中既相互对立又相互联系、互为依存的两个方面,而信息存取系统的建设,需要信息组织。
信息组织在信息资源开发中具有重要的地位,在信息管理中具有承上启下的作用,它是建立信息系统的重要条件,是信息存储与检索的基础。
所以,三者是不可分割的。
2. 简述信息存储的含义及作用。
答:信息存储是指通过多种形式记录和排序信息的过程。
它包含三层含义:一是将所采集的信息按照一定规则记录在相应的信息载体上;二是将这些载体按照一定的特征和内容性质组织成系统有序的、可供自己或者他人检索的集合体;三是应用计算机等先进的技术和手段,提高信息存储的效率和信息利用水平。
存储子系统的建设,要求根据一定的原则记录和描述信息或知识载体的内容与形式特征,然后按特征序化成各类信息集合并组织成系统。
信息存储部分是揭示信息特征、整序信息、建设系统的过程。
只有经过记录、描述与组织序化的知识集合,才能提供有效的信息检索。
因此,信息存储是基础,信息检索是目的。
3.文献的概念及分类4.什么是文献类型标识符,在什么情况下使用如何使用答:文献类型标识符:标识各种文献类型的符号。
使用范围:仅在含有各种文献类型的目录及其他检索工具中使用。
使用方法:著录在正题名后面,并用中括号“[ ]”括起来。
5.目录:是图书、期刊或其他单位出版物外表特征的揭示与报道。
它是以一本书、一种刊物为著录的基本单位,记录图书、期刊、资料等的名称、著者、出版项与馆藏项等内容,并按照一定的编排体例进行编制,但不涉及书中的章节或期刊中具体的文章。
6.信息检索语言7.追溯法:8.文献信息资源9.信息的概念是什么信息有哪些特征10.影响查全率和查准率的因素有哪些11试比较分类语言与主题词语言分类语言是运用概念划分的原理,以分类号为标识,将各种概念按学科性质加以划分和排列,用以分门别类地、系统地组织信息的一种检索语言,它又可以分为体系分类语言和组配分类语言以及混合分类语言。
1)信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
所以,它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。
狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。
相当于我们所说的信息查询(information search)。
2)零次文献:也叫灰色文献,未经公开发表或未交流于社会的文献。
如私人笔记,设计草图、实验记录、文章草稿、会议记录、书信文书、以及档案等。
其主要特点是内容新颖,但不成熟,不公开交流,难以获得。
3)一次文献(Primary Document): 以著者本人的研究或研制成果为依据而创作或撰写的文献,习惯上称做原始文献。
如期刊论文、科技报告、专利说明书、会议论文、学位论文等。
体现创作性。
其主要特点是内容新颖丰富,叙述具体详尽,参考价值大,但数量庞大、分散。
4)二次文献(Secondary Document):就是检索工具。
是将大量分散的无组织的一次文献经浓缩,整序的加工整理,编辑成目录、题录、文摘、索引等检索工具或数据库。
如文摘,目录、索引等。
它有存贮、检索、报道的功能。
体现高度的浓缩性。
其主要功能是检索、通报、控制一次文献,帮助人们在较少时间内获得较多的文献信息。
二次文献具有汇集性、工具性、综合性、交流性等特点。
5)三次文献(Tertiary Document):在一、二次文献的基础上,经过综合分析而编写出来的文献,如专题述评、动态综述、学科年度总结,进展报告以及数据手册、百科全书等参考工具书。
三次文献是情报研究的产物和成果。
具有很强的的综合性。
总之,一次文献(创造性),二次文献(有序化),三次文献(高度浓缩,提炼,再创造)。
6)以上四个级别的文献中,零次文献由于没有进入出版、发行和流通这些渠道,收集利用十分困难,一般不作为我们利用的文献类型。
一、单项选择题1. 以下哪个数据库提供同名作者检索功能:〔D〕A.万方数据库B.中国期刊全文数据库C.复印报刊资料全文数据库D.中文科技期刊全文数据库2. _______提供一次文献的线索.〔B〕A.文摘、索引等B.图书C.百科全书D.手册3. 以下属于特种文献的是〔 B〕. A.图书 B.科技报告 C.报纸D.期刊4. 用主题词检索只可以检索出对应的〔〕5. 我国制定专利法的主要目的就是为了保护发明创造的〔D〕A.著作权 B.发明权 C.发现权 D.专利权6. 利用分类途径进行检索,其检索标识为〔C〕A.主题词B.关键词C.分类号D.分子式7. 在一般的著录格式中可以通过_______来判断该文献为会议文献〔C〕A.Journal B.Report C.Conference D.Patent8. 下列选项中,不属于信息能力的有〔 B〕A.鉴别 B.传递 C.评价 D.有效利用9. 从狭义上说专利文献就是指〔专利注明书〕10. Google搜索引擎的首页面上有一个"手气不错"的按钮,这个按钮的作用是什么?〔D〕A.测试你当天的手气B.提供最相关的一组检索结果列表C.提供最相关的一个检索结果的 D.直接跳转到系统认为是最相关的页面11. 利用___索引,我们可以检索任一知名专家的文献被引用的情况〔D〕A、Citation Index;B、Corporate Index;C、Permuterm Subject Index;D、Source Index;12. 文献信息检索的全过程包括文献信息的______两个过程〔C〕A.存贮和检索B.存贮和编排C.标引和编排D.存贮和标引13. 利用分类途径进行检索,其检索标识为〔C〕.A.主题词 B.关键词 C.分类号D.分子式14. 已知名叫孙钱章的作者99年出版了一本书,若想找到书名与其他信息,应在下列哪个数据库中查找?〔C.〕A.中文科技期刊全文数据库B.复印报刊资料全文数据库C. 超星数字图书馆D.万方数据资源系统15. 利用搜索引擎检索有关知识管理方面的学术论文,其检索式采用哪种比较好?〔C〕A.关键词摘要intitle:知识管理B.论文知识管理PDFC.学术论文知识管理D.学术论文intitle:知识管理16.在中国知网提供的检索服务中,〔检索词扩展〕起到扩展检索的作用.17. 下列哪种语言不属于规范化语言______〔B〕A.分类语言B.叙词语言C.关键词语言D.标题词语言18. 数据库检索中,布尔逻辑检索的逻辑关系中A OR B 又可以表示成〔A〕A.A+B B.A-B C.A*B D.B OR A19. 下列哪些不属于主题途径?〔D〕A.标题B.关键词C.摘要D.ISBN20. 《中华人民共和国专利法》开始实施的时间是〔B〕A.1984年4月l日B.1985年4月1日C.1990年9月7日D.1987年1月1日21. 赵一.科技成果向现实生产力转化.科学学研究,1996,14〔2〕:33-38是< A >A.期刊论文B.专著C.书目D.论文集22. 在检索式中,下列哪一个不能为提高检索的查全率而起到扩展检索范围的作用.〔D〕A.逻辑或B.截词检索C.位置运算符W D.逻辑与23. 在中文网络数据库中,能查到企业名录的是哪一个?〔C〕A.中国知网B.维普中文科技期刊数据库C.万方数据库D.超星数字图书馆24.读者阅读万方资源数据库的全文,需要安装的阅读器是〔PDF〕25. 检索最新的学术动态方面的信息,最好用哪种检索工具书?〔A〕A.手册 B.年鉴 C.期刊 D.书目26. 根据"Anon D..Biomedical applications of nanoscale devices[J].Materials Technology, 2004, 19<2>: 118-119."的著录特点,可以判断,该文献属于〔A〕.A.期刊论文B.图书C.科技报告D.会议论文27. 哪种不属于常规检索方法〔D〕A.直接检索法B.顺查法C.抽查法D.引文法28.根据"林福宗.多媒体技术基础[M].:清华大学,2006."的著录特点,可以判断,该文献属于〔B〕.A.期刊论文B.图书C.科技报告D.会议论文29. 世界三大检索刊物是指SCI<科学引文索引>、EI<工程索引>、ISTP<科技会议录索引>30. 检索2009年中国房地产方面的统计信息,最好用哪种检索工具书?〔A〕 A.年鉴B.手册C.书目D.百科全书31. 课题"查找王安石的相关资料"应用____〔B〕A.分类途径B.主题途径C.作者途径D.高级途径32.在《科学引文索引》中,下列哪个索引能提供从著者单位名称检索文献〔〕33. 查找中文科技期刊全文文献的数据库有〔维普〕二、名词解释1. 主题标引:是依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程.具体而言,主题标引是在主题分析的基础上,以一定的词表或标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词,并将其组织成表达信息资源内容特征的标识的过程.2. INTERNET〔因特网〕:泛指由多个计算机网络相互连接而成的一个网络,它是在功能和逻辑上组成的一个大型网络.3. 顺查法:就是以课题研究的起始年限为出发点,利用选定的检索工具如书目、索引、文摘又远与近的逐年查找.4. 三次文献:是在一、二次文献的基础上,经过综合分析而编写出来的文献,人们常把这类文献称为"情报研究"的成果5. 文献信息资源:文献是记录有知识的一切载体,文献信息资源是以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息资源.6. 倒查法:一种逆时间顺序由近而远地查找信息的方法.7. 一次文献:即原始文献.它是作者以生产或科研为依据而创作的原始文献.如专著、期刊论文、学位论文等.8. 检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等.它是根据检索的需要而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言.9. 手工检索:是由检索者通过卡片式或书本式的目录、题录、文摘、索引等检索工具查找文献线索的过程.10. 信息检索语言:信息检索语言是用来描述信息的内容特征、外部特征和表达信息检索提问的一种专门语言.11. 特种文献:特种文献是指和获取途径都比较特殊的科技文献.特种文献一般包括会议文献、科技报告、专利文献、学位论文、标准文献等.12. 间接检索法:利用一定检索工具进行文献检索13. 专利:有三层含义:一指受专利法保护的发明,二是指专利权,三指专利说明书等专利文献.这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体体现.14. 搜索引擎:是一种 Web 上应用的软件系统,它以一定的策略在 Web 上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务.用户可以通过主题浏览和关键词检索的方式搜索所需信息.15. 技术档案:指生产、设计、建设、科研等专业部门,在科技活动中形成的文件、图书、照片、数据等原始记录文献,包括项目规划、设计、实施方案、任务说明书、协议书、技术指标、实验计划等,具有##性和内部使用的特点.16. 索引:根据标题法的原理,将类目与其注释改成标题形式,按字顺排列,并注明相应的分类号.这样不仅可方便查表,而且还可将分类表中因为按学科分类而被分散的同一事物不同方面的类目集中,使分类法在某种程度上兼有主题法的性能.17. 抽查法:针对研究课题发展的特点,选择有关的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法.18. 回溯检索:又叫追溯法,是以某一篇文献末尾所附的参考文献为依据,由近与远进行逐一追踪的查找方法.19. 循环检索:先利用检索工具查出一批有用文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找.20. 追溯法:以已获文献后面所附参考文献为线索进行追溯查找,又称为参考文献法.21. 分类标引:对档案给予分类号标识的过程.22. 目录:是图书、期刊或其他单位出版物外表特征的揭示与报道.它是以一本书、一种刊物为著录的基本单位,记录图书、期刊、资料等的名称、著者、出版项与馆藏项等内容,并按照一定的编排体例进行编制,但不涉与书中的章节或期刊中具体的文章.23. 竞争情报:竞争情报是20世纪80年代在国际上迅速发展起来的一种信息业务,是关于竞争环境、竞争对手和竞争策略的情报研究.三、简答题1. 光盘检索与手工检索相比有哪些优势?使用光盘检索系统,可免除联机检索系统所必须使用的电讯设备,节省了电讯费和联机系统使用费,还可免除由通信线路传输过程中所造成的失误光盘系统向用户随盘提供相当于联机信息检索系统功能的软件,并提供菜单驱动与命令驱动两种方式光盘存贮容量大,耐用,复制费用低可以把文本,图形,图像,声音与动态形象结合在一起如果光盘数据库量不够多,则信息资源就显得有限,购买大量光盘数据库,又要受到经费限制在信息需求的适时性上,光盘检索不如联机检索系统,因为光盘只能定期提供数据库费用大手工检索的优势〔1〕手工检索能了解标引规则,按规则进行各项的著录,便于检索者根据文献标引规则查阅相关文献.〔2〕手工检索能了解各类检索刊的收录范围、专业覆盖面、特点和编制要点,检索回溯期长,可以提高查全率和查准率.〔3〕手工检索灵活性高、费用低.〔4〕手工检索也便于检索策略的制定和修改,所得到的文献信息一般能符合检索者的信息要求,并且手工检索过程中发现问题,可以与时地修改和提出.手工检索过程中,直接查找任务的是人,在查找过程中,人的思维一直起着主导作用.检索者可以在检索过程中,结合检索的结果不断明确自己的信息需求和不断地修改自己的检索提问.检索提问标识与检索系统中文献特征标识的组配完全可以做到内容、概念和形式上的一致,而无须严格的字面的组配.因此,检索到的文献信息一般能符合检索者的信息要求.〔5〕在载体内容的直观性方面,手工检索也优越于计算机检索.利用手工检索工具,人们无须借助任何转换设备便可一目了然地判读具体文献的描述内容,也能够比较准确地了解其全部.而计算机检索则不然,必须借助于相应的读取工具,如计算机、光盘阅读器等,才能得以判读.手工检索的缺憾:<1> 检索速度慢 <2 >检索受时空的限制 <3> 检索受馆藏资源的限制 <4> 更新周期长 <5> 检索途径少2. 信息的特征有哪些?答:普遍性、无限性、传递性、可知性与可贮性、动态性、共享性3. 简述联机检索的基本原理.信息用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程.一个典型的计算机信息系统,能完成数据收集,分析,加工处理,存储,传递通信和检索信息的全过程.4. 信息的概念是什么?信息有哪些特征?广义的信息概念:即信息是事物运动的状态和方式,也叫本体论信息狭义的信息概念:即信息是认识主体对事物运动状态和方式的反映,也叫认识论信息信息具有如下几个特征:普遍性、无限性、传递性、可知性与可贮性、动态性、共享性5. 检索系统必备四大要素是什么?答:检索文档〔数据库〕、检索设备〔检索硬件与通讯设施〕、系统规则、相关人员、.6. 简述信息检索语言的功能.信息检索语言是沟通信息存储和信息检索的桥梁;对信息组织人员来说,它是表达信息主题内容,形成标识并赖以组织信息的依据;对信息检索人员来说,它是表达检索需求的依据.7. 简述信息检索的作用.答:全面掌握必要信息;提高信息利用效率;提高信息素质;具有一定经济性.8. 简述信息检索原理〔可以用图描述〕.9. 简述网络信息资源的特点.<1>信息量大,有污染.在Internet上的信息资源数量究竟有多少,谁也说不清楚,因为它是世界上联系在网络上的所有主机里存储的信息总和.有人估计,在Internet上每天发布的新信息约有14万件,它的信息量是过去任何一种存储信息方法所无法比拟的.但同时也产生了信息的污染,任何人只要同网络相联系,就既是网上的信息使用者,也是信息生产者.这就使网上存在有大量信息的同时也产生了一定的垃圾,出现了信息污染.当我们在检索时,往往会出现许多无关的信息,而信息的真伪是需要鉴别的.<2>信息共享性好,更新快.Internet上的信息共享性最好,只要在网上的任何一个主机上发表信息,在全世界范围内都能看到.许多聪明的商家充分利用这一特点在网上大做广告,树立企业形象,推销产品.Internet网络信息的另一特点是新陈代谢快,可以说Internet网络信息资源要比其他信息资源更新得快.<3>信息源分散无序.Internet上的信息源是在每个独立的计算机服务器上,使网上的信息源呈现出分散、无政府状态.用户无法判断网上有多少同自己需求有关的信息,给用户的信息检索带来一定的困难.<4>信息商品化.刚刚利用Internet查询信息时,你可能会感到网上的大量信息在利用时都不需要付费,只要付少量的通讯费就可以了.但只要细心观察就会发现,免费信息多数都是具有一定宣传作用的,真正有用的信息多数是要付费的,可以说Internet上的网络信息具有一定的商品化.10. 什么是检索策略?以Google搜索引擎为例,论述检索策略的优化方法.检索策略,就是在分析课题内容具有哪些概念单元的基础上,确定检索系统、检索文档、检索途径和检索词,并科学安排各检索词之间的位置关系和逻辑关系以与查找步骤等.检索策略考虑得是否周全,直接影响文献的查全率和查准率.优化方法略11. 简述信息检索的本质.答:本质就是提问标识语文献标识的对比和匹配.12. 举例说明什么是一次文献、二次文献、三次文献.一次文献指以作者本人的研究成果为依据而创作的原始文献,如期刊论文、研究报告、专利说明书、会议论文等.二次文献是对一次文献进行加工整理后产生的一类方面,如书目、题录、简介、文摘等检索工具.三次文献是在一、二次文献的基础上,经过综合分析而编写出来的文献,人们常把这类文献称为"情报研究"的成果,如综述、专题述评、学科年度总结、进展报告、数据手册等.13. 如果要查找有关"转基因生物和细胞与其制备方法"方面的中外文文献,如何查找?请写出具体的检索步骤.1、分析课题,明确检索要求;2、选择检索系统:要考虑文献类型3、选择检索途径4、选择检索方法5、查找文献线索6、获取原始文献14. 简述文献检索步骤答:明确信息检索需求、选择检索系统、确定检索词、构造检索表达式、实施检索策略并分析结果、检索策略的修改与完善15. 影响查全率和查准率的因素有哪些?查全率:R=检出的相关信息量/检索系统中相关信息总量使用泛指性较强的检索语言<如上位类、上位主题词>能提高查全率,但查准率下降.使用专指性较强的检索语言<如下位类、下位主题词>能提高查准率,但查全率下降主要从以下几个方面考虑:选词、选择数据库是否全面;时间,文献类型16. 信息检索系统都包含哪些子系统?答:文献信息选择子系统;检索语言和名称规范子系统;标引著录子系统;查询子系统;交互子系统;匹配子系统.17. 简述信息检索的特征.答:相关性;不确定性;逻辑性.18. 信息检索智能化主要体现在哪些方面?答:检索技术智能化;检索结果处理智能化;检索服务智能化.19. 某同学在检索一个课题时,第一次检索的结果有200条文献,你建议一下她采用何种方式来缩小检索范围?增加文献的检准率,减少文献的检全率第一,变逻辑或为逻辑非,增加"and"的检索词第二,限定文献的类别,〔如该文献是医学方面的,就将其限定在医学这个大类下〕第三,或变模糊检索为精确检索第四,增加其他的限度,这就要看你自己的,如有没有年限现在啊,作者之类20. 什么是检索策略?计算机检索策略的制定一般经过哪几个步骤?检索策略,就是在分析课题内容具有哪些概念单元的基础上,确定检索系统、检索文档、检索途径和检索词,并科学安排各检索词之间的位置关系和逻辑关系以与查找步骤等.检索策略考虑得是否周全,直接影响文献的查全率和查准率.检索步骤〔1〕弄清信息需求,明确检索目的〔2〕选择数据库,确定检索途径〔3〕确定课题的概念组面和检索标识21. 简述专利的新颖性、创造性与实用性的含义,并说明中国保护的专利有哪几种类型?专利的新颖性,是指申请日前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中. 专利的创造性:是指在有新颖性的情况下,不同的技术之间实际上是没有产生意想不到的技术效果,简单说,就是两者之间的差异不明显,而且效果无进步. 专利的实用性:指该理论或者观点的提出对实践的知道程度. 中国保护的专利类型有3种类型,分别是:发明专利、实用新型专利和外观设计专利.22. 什么是信息检索查全率和查准率?两者之间的关系如何?查全率<Recall Ratio> 当用户要全面检索某一信息库时,检出的成功度可用检出的所有相关信息在信息库所有相关信息中所占的比例来表示.这种对信息库检索全面性的测量指标即为查全率.查全率与系统能够检索出的相关文献能力有关.可定义为:查全率 =<检出的相关信息数/信息库中相关信息总数>×100%查准率<Precision Ratio> 当用户要对检索到的结果进行分析时,检出的相关信息数在所有检出信息中所占的比例往往成了较重要的评判指标.这种对检索结果中的相关信息的测量指标即为查准率.也有称为信号噪声比<signal-to-noise ratio>.查准率与检索出的相关信息数有关.可定义为:查准率 =<检出的相关信息数 /检出的信息总数>×100%查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效果的好坏.若检出 1 篇相关信息,必能达到100% 的查准率,但查全率却会非常低;同样,若检出的信息数等于库##息的总量 a + b + c + d ,则必能获得 100% 的查全率,但很显然查准率必定也低得可怜.查全率和查准率是评价检索效果好坏的指标,而漏检率和误检率则是测量检索误差的指标.23. 影响信息检索效果的因素有哪些?<1> 影响查全率的因素从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等.此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等.<2> 影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词与词间关系不正确;标引过于详尽;组配错误;检索时所用检索词〔或检索式〕专指度不够,检索面宽于检索要求;检索系统不具备逻辑"非"功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑"或"不当等等.实际上,影响检索效果的因素是非常复杂的.根据国外有关专家所做的实验表明,查全率与查准率是呈互逆关系的.要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率.企图使查全率和查准率都同时提高,不是很容易的.强调一方面,忽视另一方面,也是不妥当的zx.应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果.24. 信息检索的方法有哪几种?从检索手段看,信息检索分为: 手工信息检索机械信息检索计算机信息检索25. 什么是信息检索漏检率和误检率,二者之间的关系如何?误检率为检出的结果中,不相关信息占检出信息的比例.这种对检索结果中不相关信息数的测定即为误检率.可定义为:误检率 =<检出的非相关信息数/检出的信息总数>× 100%漏检率为系统未检索出的相关信息占库中相关信息总数的比例.这种对检索结果中不包含系统中存在的相关信息数的测定即为漏检率.可定义为:漏检率 =<未检出的相关信息数/信息库中相关信息总数>× 100%其实,查全率和漏检率是互补的;而查准率和误检率也是互补关系.即:查全率 + 漏检率 = 1 ;查准率 + 误检率 = 1 .漏检率和误检率则是测量检索误差的指标.26. 试比较分类语言与主题词语言分类语言是运用概念划分的原理,以分类号为标识,将各种概念按学科性质加以划分和排列,用以分门别类地、系统地组织信息的一种检索语言,它又可以分为体系分类语言和组配分类语言以与混合分类语言.主题语言是直接以表达主题内容的语词作为检索标识,以字顺为主要检索途径的标引和检索信息的语言.主题语言是一种描述性语言,它使用自然语言中的词语或规范化的词语来描述文献所论述或研究的事物概念,具有较强的直观性、专指性和灵活性.。
课件第一章1 纸质文献资源的存储与组织的4个基本要素:信息内容、载体材料、记录符号和记录方式2 零次文献、一次文献、二次文献、三次文献的区分(课本P23)零次文献:尚未经过系统整理形成正式文献的零散资料,包括草稿、记录和谈话等。
它与一次文献的重大区别在于前者没有形成正式文献,没有正式发表。
一次文献:作者最初发表的原始文献。
主要类型有期刊论文、专利文献、科技报告、会议录、学位论文等等,这些文献具有创新性、实用性和学术性等明显特征,是科技查新工作中进行文献对比分析的主要依据。
二次文献:对一次文献进行加工整理后的产物,用做文献检索工具。
它是将大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,并按照一定的逻辑顺序和科学体系加以编排存储文学类型,如书目、索引、文摘等都是二次文献。
三次文献:在运用一次文献成果并借助二次文献检索的基础上,用科学的研究方法,对一次文献进行综合分析、比较研究,从而揭示某种规律性认识的文献类型。
如综述、述评、百科全书等。
从零次文献、一次文献、二次文献到三次文献,是一个由分散到集中,由无序到有序,由博而精的对知识信息进行不同层次的加工过程。
它们所含信息的质和量是不同的,对于改善人们的知识结构所起到的作用也不同。
零次和一次文献是最基本的信息源,是文献信息检索和利用的主要对象;二次文献是一次文献的集中提炼和有序化,它是文献信息检索的工具;三次文献是把分散的零次文献、一次文献、二次文献,按照专题或知识的门类进行综合分析加工而成的成果,是高度浓缩的文献信息,它既是文献信息检索和利用的对象,又可作为检索文献信息的工具。
3 (课件第二章)信息存储与检索定义信息存储与检索是信息检索的全称形式或广义的信息检索,又称为信息存取,它既包括采用多种形式记录信息、排序信息的信息存储过程,也包括通过一定的设备、采用一定的手段与技巧从信息系统中快速、准确地搜寻所需信息的方法与活动。
广义的信息检索包括信息的存储和检索两个过程。
第一章1.信息的涵义:申农(信息论创始人):用于消除随机不确定性的东西(信源、信宿)广义信息是物质、能量存在和运动状态的表征.狭义信息是人类社会共享的一切知识、学问以及从客观现象中提炼出来的各种消息的总和,即现代信息2.资源的涵义资源是一切被人类开发和利用的客观存在。
3.信息资源的涵义狭义指文献资源或数据资源,抑或各种媒介和形式的信息的集合,包括文字、声像、印刷品、电子信息、数据库等。
这都是限于信息的本身。
广义信息资源是信息活动中各种要素的总称。
这既包含了信息本身,也包括了与信息相关的人员、设备、技术和资金等各种资源(1)原始数据与信息的区别原始数据经过加工处理变为信息(2)信息与信息资源的区别经过加工、可被利用的信息称为信息资源。
information resource为复数时,常指信息及与信息有关的设备、人员等集合,是经过人类选取、组织、序化的有用信息的集合。
(1)信息资源是信息的集体;(2)信息资源是经过人类选择、获取的有用信息的集合;(3)信息资源是经过人类组织序化的信息的集合。
4.信息的基本性质(1)信息是内容是客观的(2)信息的形式是主观的(3)信息是一切物质的基本属性5.与信息有关的概念(1)知识。
是对客观事物规律性认识,是系统化和精炼化的信息知识的三种存在方式:大脑、实物、文献知识的七个特征:①不可替代性②不可相加性③不可逆性④不可磨损性⑤不可分性⑥可共享性⑦无限增值性知识分类:①事实知识(Know What)②原理知识( Know why)③技能知识( Know how)④人力知识( Know who)⑤时间知识( Know When)⑥空间知识( Know Where)⑦数量知识( Know Quantity )(2)文献。
是记录知识的一切载体,即用文字、图形、符号、或声视频等记录方式在一定介质上所生成的物质成果文献的三要素:记录、知识、载体文献的功能:①存储功能②传递功能③认识功能(3)情报。
指为一定目的而搜集和传递的有特定效用的知识情报的基本属性:传递性、效用性6.信息资源的基本特征(1)普遍性(2)传递性(3)时效性(4)价值性(5)可转换性(6)可利用性(7)可共享性7.按性质划分(1)自然信息资源(2)社会信息资源按信息包含范围划分(1)广义信息资源(2)狭义信息资源按信息资源的载体(1)印刷型信息资源(2)微缩型信息资源(3)声像性信息资源(4)电子型信息资源按内容(1)文献型信息资源(2)数据型信息资源(3)多媒体信息资源按保密程度(1)公开性信息资源(2)半公开性信息资源(3)非公开性信息资源按表现形式(1)文字性信息(2)图像性信息(3)数值数据性信息(4)语音性信息按信息资源的加工程度(1)一次信息(2)二次信息(3)三次信息按传输方式(1)网络信息资源(2)非网络信息资源按数据资源信息的生产途径和发布范围分(1)商用电子资源(2)网络公开学术资源(3)特色信息资源8.信息素质教育信息素质教育:是从各种信息资源中检索、评价使用信息的能力。
是培养信息意识的一条重要的途径。
9.电子信息资源含义与特点(1)、存储形式多样化,文本、超文本、多媒体、超媒体(2)、资源数字化(3)、交流程度高(4)、提高利用率(5)、内容丰富(6)、载体容量大10.网络信息资源的类型按照网络传输协议不同分(1)Web信息资源:通过HTTP在网上传输(2)Telnet信息资源:基于网络通讯协议(3)FTP信息资源:通过FTP协议可完成完整的文件拷贝(4)用户服务组信息资源:由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛。
(5)Gopher信息资源:Gopher是一种基于菜单的网络服务,允许用户以一种简单的、一致的方式快速找到并访问所需的网络资源。
按信息传播交流过程分(1)稳定的电子信息资源(2)不稳定的电子信息资源按网络信息资源的表现形式分(1)电子图书型(2)电子期刊型(3)电子报纸型(4)联机系统与联机数据库(5)数字图书馆按照存取方式分(1)邮件型(2)电话型(3)揭示板型(4)广播型(5)图书馆型(6)书目型(7)交互型按电子数据库内容分(1)参考数据库(2)源数据库(3)混合型数据库(1)参考数据库指导用户到另一个信息源中获取原文或其他细节的数据库。
分为:书目数据库和指南数据库指南数据库(REERRENCE DATABASES)也称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户从其他有关信息获取更详细的信息的一类数据库。
如产品目录、机构名录、研发项目、基金项目等数据库均属于此类型。
(2)源数据库(source databases):直接提供原始资料和具体数据的数据库全文数据库数值数据库科学技术数据统计数据库文本-数值数据库公司信息库产品市场数据库术语数据库汉语主题词数据库图象数据库建筑图纸数据库(3)混合型数据库磁媒体数据库光盘数据库多媒体数据库11.网络信息资源的特征(1)、信息内容丰富(2)、信息变化频繁(3)、信息结构复杂(4)、格式多样化(5)、信息价值不一网络信息资源的发展变化(1)、网络信息资源数量规模的急剧增大(2)、信息资源内容趋于规范网络信息资源的评价(1)资源内容评价指标①数据库的规模②数据库的范围③数据库的质量控制④数据库的实效性(2)信息组织管理的评价指标①信息收集方法②信息更新周期③信息管理方式(3)信息检索功能的评价指标①布尔逻辑检索②精确检索③截词检索(4)检索结果评价指标①结果满意度②相关性排序③显示内容形式印刷型信息资源的特点(1)实用性:携带、书写、保存方便(2)直观性:阅读不需借助计算机等工具。
(3)不可替代性:以纸质为载体的艺术作品的不可替代性(4)增值性:质文献作为收藏品的不可替代性按文献的加工深度划分零次文献:指未经公开交流的最原始的文献。
如论文手稿、新闻稿、未审核的工程图纸、实验记录、会议记录。
特点:内容庞杂,来源真实,成熟度差一次文献:以著者本人的研究成果为依据而形成,并在社会上公开交流或发表的文献。
如期刊论文、研究报告、预印本、会议论文、专利说明书、学位论文、技术标准等。
特点:零散、无序、难获取第一,创造性;第二,原始性;第三,多样性;二次文献:是把分散、无组织一次文献进行收集、加工、整理压缩而形成的并能按期外部特征提供查找线索的文献形式。
如目录、题录、文摘、索引等特点:第一,集中性;第二,工具性;第三,系统性;三次文献:利用二次文献对一次文献进行综合、归纳和分析的基础上而形成的述评性、综述性文献形式。
特点:第一,综合性;第二,针对性;第三,科学性;12.其他载体文献信息资源印刷型文献信息资源特点:存储密度小、占据空间大、阅读携带方便微缩型文献信息资源特点:存储密度小、占据空间大、阅读携带方便声像型文献信息资源特点:直观、形象电子型文献信息资源特点:存储密度高、存取快、数据可修改、删除、更新第二章1.信息存储与检索概念(1).广义信息检索:指将信息按有序的方式组织和贮存,并根据用户的需求查找出有关信息的过程。
包括存入和输出两个方面。
(2).狭义的信息检索:单指查寻信息的过程,即从信息集合之中查寻出所需要的符合要求的信息的过程。
(3).信息存储:是按主题词表或分类表及使用原则对原始信息资源进行处理,形成信息特征标识,为检索提供整序(即提供检索途径的)的信息集合的过程。
(4).信息存储与检索的基本原理:查询语言(检索提问)和系统标识语言所进行的“相符性比较”与“匹配运算”。
(5).直接检索:直接从信息源或信息文献载体中获取信息(6).间接检索:通过检索工具指引来获取所需信息。
(7)、信息检索通常包括4种类型:一是关于文献的检索;二是关于某事实或事项的知识检索;三是关于数值或数据的情报检索;四是关于图象信息的信息检索。
2.信息存储(1).信息的印刷存储特点:直观易读、携带方便。
缺点:存储信息密度低、存储传输慢,难以长期保存(2).信息的微缩存储特点:容量大、密度高,忠实于信息原件、不出差错;成本低、保存时间长(3).信息的磁存储(1)磁存储的特点能存储一切可转换成电信号信息。
文字、声、像;可长久保存、重复使用、可擦写;可同时进行多路信息存储,并保证信息之间的时间和位相关系;存储频带宽广;可高速存储高频信息慢速播放或慢速存入低频信息快速播放(2)磁存储类型计算机磁带硬盘软盘光盘温盘(4),半导体存储是采用集成化的技术将存储单元电路及其外围电路直接置放在半导体芯片上支撑的。
(5),光盘存储特点:信息存储密度高价格低方便存取、方便与计算机连接显示信息种类多坚固耐用,存储寿命长计算机的存取技术与设备网络存储3.按检索活动的执行主体手工检索利用人工信息存取系统检索信息的活动,如各类纸质书目、索引、文摘、卡片检索过程:人工的手翻、眼看、大脑分析和判断优点:①不需要辅助设备,适应性好②成本低,检索工具可长期无限制使用③检索前随时获得反馈信息,及时修改检索策略④可以把几种检索工具进行对比参照。
缺点:①费时费力②检索工具提供检索点有限,主题专深文献按检索工具类型(1)目录与题录检索(2)文摘检索(3)字典型检索(4)交互式检索(5)索引检索按照检索方式划分有先组式索引和后组式索引。
按照索引所包括的对象划分有综合索引和专门索引依据索引标题词的性质划分有揭示信息资源内容特征的主题索引、分类索引、关键词索引、分子式索引、结构式索引;有揭示信息资源形式特征的题名索引、人名索引、物名索引、代码索引、引文索引。
依据索引标题词的排序方式划分有按照标题词字顺组织的主题索引、题名索引、人名索引、关键词索引、语词索引等;有按照文献代码组织的报告号索引、合同号索引、标准号索引等;有按其它排序方式组织的网络信息自动索引、重量索引、速度索引、专用索引等4.主题索引优缺点(1)能把属于不同学科、不同知识体系中论述的同一主题的资源集中标引出来,届时资料比较深入、广泛。
(2)查考文献资料时,需要正确选取主题词,否则难以准确查到5.关键词索引自然语言检索标识;自然语言多指关键词,直接从文献篇名、正文或文摘中抽取,未经优选和规范化自然语言检索优点(1)不受词表控制,能及时检索到最新概念的各类文献(2)可任意选取专指性强的语言,提高查准率(3)非受控词具有数量大的特点,比叙词表大2~3个数量级。
(4)避免在标引人员和用户之间造成不必要的交流障碍自然语言检索缺点(1)不规范,存在大量同义词、多义词和含义模糊现象。
(2)没有显示词语之间的关系规范语言检索标识。
6.组配索引1 按组配方式(1)先组式检索语言指检索前,检索词已被预先组配好的一种检索语言分为定组型和散组型编制检索语言词表的时已经预先固定组配(2)后组式检索语言指表达文献信息主题的标识,在编制检索语言词表和标引文献的时候,都不预先固定组配,而是在检索进行时根据检索的实际需要,按照组配规则临时进行组配的检索语言先后组式检索语言评价(1)先组式有利于提高检索词的专指度,减少标引到每个词的文献数量,减少和避免假组配,从而有利于查准率(2)先组式的词在数量上是有限的,不能适应各种角度和深度的符合概念检索(3)后组式便于各种角度和深度的检索,有利于查准率的提高,但有可能出现假组配,致使误检的增多。