现代信息检索第8章
- 格式:pdf
- 大小:565.97 KB
- 文档页数:50
《信息检索导论》课后练习答案王斌最后更新日期 2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。
文档 1 new home sales top forecasts文档 2 home sales rise in july文档 3 increase in home sales in july文档 4 july new home sales rise习题1-2 [*] 考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;解答:breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0b. 画出该文档集的倒排索引(参考图 1-3中的例子)。
解答:参考a。
习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a.schizophrenia AND drug解答:{文档1,文档2}b.for AND NOT (drug OR approach)解答:{文档4}习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。
如果不能的话,那么我们能达到的时间复杂度是多少?a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答:a.可以在O(x+y)次完成。
第一章信息检索概论思考题:1.什么是信息?简述信息的特点和分类?我们认为,信息是事物或事物之间不确定性的量度,即负熵。
掌握的信息越多,所需认识的事情的确定性就会越少。
信息由信源,信宿和信道(载体)构成。
信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性(3)针对性:信息的作用和价值可以随着接受者的不同而不同(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)信息源:是信息的发出者信宿:是信息的接收者信息的传播是双向的,多维的。
信息源和信宿是相对的,也是可以相互转换的。
信道:就是在传播过程中,编码经过的物理通道(5)时效性:指信息发出、接收到利用的时间间隔及效率,也包括信息的本身更新速度。
客观物质不断的变化,反映事务的运动状态和运动方式的信息也会发展变化一般而言,随着时间的推移,信息的价值会逐渐减少也有反例:如考古信息(恐龙、古钱币),年代越久,使用价值越大衡量信息的时效性参数不只是时间参数,还有地理环境(6)可转换性:信息可以从一种形态转换成另一种形态(7)可处理性(可识别性):可以通过人们的感觉器官所感知,也可以通过仪表、器械来检测进而予以识别。
(8)可共享性:指同一内容的信息可以在同一时间里被若干个用户使用,此时信息载体本身的信息量不会被磨损、消失信息的类型:(1)按信息表现形式划分,可分为文字信息,图象信息,数值数据信息,语音信息。
▪文字信息:文字是人们为了实现信息交流、通信联系所创造的一种约定的形象符号。
▪图象信息:图象(形)是一种视角信息,它比文本信息直接,易于理解。
如,一幅画、一部电影。
▪数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。
▪语音信息:人讲话实际是大脑的某种编码形式的信息转换成的语言信息的输出,是一种最普遍的信息表现形式。
第8章思考与练习1.掌握工具书的定义及其特点,了解工具书的类型及其主要用途。
答:工具书又称资料型检索工具,指能为读者提供各种所需的具体资料的工具。
工具书按特定的方式汇编某学科或某范围的知识及资料,大都以图书的形式出版,具有一般图书所具有的各种属性,属于三次文献,但内容及编排方面,与普通图书有本质的区别。
特点:(1)知识性。
(2)检索性。
(3)概括性。
类型及主要用途:(1)字典、词典。
字典是解释字的形、音、义及其用法,词典则是解释语词的概念、意义与用法。
(2)百科全书。
百科全书是汇集人类一切门类知识或某一学科门类所有知识的概述性工具书。
(3)年鉴。
年鉴是汇集过去一年内的重要时事文献和统计资料,按年度连续出版的工具书。
为我们掌握某学科领域一年内的发展趋势和一年中的新成果提供了一个重要途径。
(4)手册。
手册又称指南、要览、全书等,它是把某一主题或学科常需参考的文献资料、专业知识等汇集在一起以供人们随时查阅的工具书。
(5)名录。
名录是提供人名、地名、机构名等简要资料的工具书。
(6)表谱。
表谱是汇集某一方面、某一专题的有关资料,采用图表、谱系形式简明、扼要地汇载史实的工具书。
(7)图录。
图录是汇集某一方面的事物并用图形、图像加以描绘,再按一定的方式编排而成的工具书。
2.学会快速利用百科全书、年鉴、机构名录、词典等手工检索和网上的各类型参考工具。
略3.某同学在看一本文言文书籍的时候遇到两个生字“刈”和“谥”,请帮他检索这两个字的读音与意义。
要求用记事本写出检索步骤和检索结果。
答:检索步骤:1)打开网上搜索引擎“百度”,输入“在线新华字典”,点击【百度一下】;2)点击首条检索结果的题名链接“在线新华字典”,进入“汉语字典”电子版网页界面;3)选择按照部首查字法,查偏旁部首笔画找“刂”和“讠”;再按字的总笔画“4划”和“12划”找到“刈”和“谥”。
检索结果:“刈”拼音:yì;字义:割(草或谷类):刈除。
《信息检索》课程教学大纲课程类别:专业基础课适用专业:计算机应用技术适用层次:高起专适用教育形式:成人教育考核形式:考试所属学院:计算机科学与技术学院先修课程:无一、课程简介《信息检索》是高等教育自学考试信息管理与服务(专科)专业的统考课程。
通过本课程的学习,要求学生掌握互联网信息检索的基本方法和技巧,较为熟练地掌握使用互联网检索工具对网络信息进行检索的基本方法,掌握信息检索的基本原理,了解重要的多媒体信息、学术信息、参考信息等各类信息的中英文搜索引擎,能将检索的技能用于日常的学习、生活和工作,从而培养学生的信息素养和终身学习的能力。
二、课程学习目标本课程主要进行信息检索理论和实务的教育,帮助学生建立起信息检索与利用的观念,培养学生运用信息检索技能发现问题、分析问题和解决问题的能力。
三、课程主要内容和基本要求第1章绪论1.1 信息及其相关知识【识记】1、信息的概念2、知识的概念3、文献的概念【领会】1、信息的分类标准2、零次信息,一次信息,二次信息,三次信息的差异【应用】1.2 信息素质【识记】【领会】1、信息素质的内涵【应用】1.3 图书馆与Internet【识记】1、OPAC的概念2、CALIS的概念【领会】【应用】第2章信息检索基础2.1 信息检索概述【识记】【领会】【应用】1、信息检索的历史2、信息检索的发展趋势3、信息检索的意义2.2 信息检索语言【识记】1、检索语言的概念2、《中图法》概念【领会】【应用】2.3 信息检索技术【识记】【领会】1、限制检索2、位置检索【应用】1、布尔逻辑检索2、截词检索2.4 信息检索评价【识记】1、查准率概念2、查全率概念【领会】【应用】1、信息检索的评价指标第3章信息检索工具3.1 工具书【识记】1、工具书的概念2、数目的概念【领会】1、工具书的排检方法【应用】3.2 数据库【识记】【领会】【应用】3.3 搜索引擎【识记】1、索引概念2、搜索引擎的概念3、元搜索引擎的概念4、Google是全球第一大搜索引擎5、百度是全球最大的中文搜索引擎【领会】1、搜索引擎的4个功能模块【应用】1、搜索引擎的工作原理第4章中文图书馆信息的检索4.1 图书基本知识【识记】1、图书的概念2、ISBN的概念【领会】【应用】4.2 古籍信息的检索【识记】1、古籍的概念2、善本的概念3、四库全书概念4、二十四史概念【领会】【应用】4.3 近代以来图书信息的检索【识记】1、《全国总书目》概念【领会】1、图书信息的检索【应用】4.4 电子图书及其检索【识记】1、电子图书概念2、超星数字图书馆概念3、书生之家数字图书馆概念【领会】【应用】第5章中文期刊论文信息的检索5.1 期刊基础知识【识记】1、期刊的概念【领会】1、期刊的构成【应用】5.2 中国期刊全文数据库【识记】1、CNKI概念2、维普数据库概念【领会】【应用】1、CNKI的检索技巧5.3 中文科技期刊数据库【识记】【领会】【应用】5.4 中国数字化期刊群【识记】1、万方数据库的概念【领会】【应用】5.5 人大复印报刊资料全文数据库【识记】【领会】【应用】5.6 中文社会科学引文索引【识记】1、引文索引SCI概念2、中文社会科学引文索引CSSCI概念【领会】1、引文索引的作用2、CSSCI检索方法【应用】5.7 其它专业学术期刊论文的检索【识记】1、中国科技论文网概念【领会】【应用】第6章学位论文和会议信息的检索6.1 学位论文信息检索【识记】1、学位论文的概念呢2、PQDD的概念【领会】1、学位论文的特点与类型【应用】6.2 会议信息及其检索【识记】1、会议文献的概念2、ISTP概念【领会】1、会议文献的特点2、会议文献的类型【应用】第7章专利信息、标准信息和科技报告的检索7.1 专利信息的检索【识记】1、专利的概念2、专利文献的概念【领会】1、专利的类型2、专利的特点【应用】1、国际专利分类法IPC7.2 标准信息的检索【识记】1、标准的概念【领会】1、标准文献的特点【应用】7.3 科技报告信息的检索【识记】1、科技报告的概念【领会】1、科技报告的特点【应用】第8章外文信息的检索8.1 外文综合性信息的检索【识记】1、Web of science的概念2、Elsevier电子期刊3、Springer电子期刊4、Wiley-BlackWell电子期刊5、EBSCO全文数据库【领会】【应用】8.2 外文专业性信息的检索【识记】1、EI的概念2、IEEE/IETL 的概念3、ACM全文数据库概念【领会】【应用】第9章数值、事实型信息资源及OA信息资源的检索9.1 数值、事实型信息资源概述【识记】【领会】1、数值和事实数据库的主要类型【应用】9.2 人物信息和企业产品信息的检索【识记】1、Dialog企业信息检索系统【领会】【应用】9.3 年鉴的检索和利用【识记】1、年鉴的概念【领会】1、年鉴的类型2、年鉴的作用【应用】1、网络信息检索系统功能结构9.4 百科全书的检索和利用【识记】1、百科全书概念2、典型的百科全书【领会】1、百科全书的特点2、百科全书的类型【应用】9.5 字、词典的检索和利用【识记】1、词典,辞典,字典概念2、典型字典、辞典、辞典、网上在线辞典【领会】【应用】9.6 经济统计数据的检索和利用【识记】1、典型经济统计数据信息【领会】【应用】9.7 OA信息资源的检索【识记】1、OA概念【领会】1、OA出版模式的优势【应用】第10章网络信息检索10.1 网络基础知识【识记】1、万维网概念2、超文本传输协议(HTTP)概念3、超文本标记语言(HTML)概念4、通用资源定位程序(URL)概念5、主页概念6、链接概念7、浏览器概念8、Telnet资源概念9、FTP信息资源概念【领会】1、通用资源定位程序(URL)的组成部分2、浏览器的类型3、FTP信息资源的功能4、用户组信息资源的种类【应用】1、网络信息资源的种类与特点2、访问Telnet信息资源的过程3、通过FTP获取文件的步骤10.2 网络信息检索【识记】1、P2P概念【领会】1、网络信息检索的构成2、网络信息检索的特点【应用】1、网络信息检索的发展趋势10.3 多媒体信息检索【识记】【领会】1、图像信息检索2、音频信息检索3、视频信息检索【应用】1、多媒体信息检索原理2、多媒体信息检索服务的系统结构第11章学术规范与论文写作11.1 学术规范【识记】1、学术规范的概念【领会】1、学术规范的内容2、学术规范的原则【应用】11.2 论文写作【识记】1、学术论文概念【领会】1、学术论文特点【应用】1、学术论文的结构2、学术论文的写作程序四、课程学习的方法及特点对于信息检索系统原理的学习,应重在理解;对信息检索既能部分的学习,因实务性强,应针对搜索引擎的特点,认真学习,一方面从理论上掌握基本方法,另一方面通过练习和案例分析加深理解和运用,注重实际问题的解决;对文献检索,年鉴,论文撰写的学习,由于此部分问题较复杂,涉及面广,需要综合运用相关理论和方法,因此针对学生特点,主要是熟悉相关基本内容,通过案例阅读加深理解。
第一讲一、单选题1、ISBN 978-7-302-20062-8是( D )。
A.强制标准文献的编号 B.国际连续出版物标准刊号C.图书分类号 D.国际标准书号2、一篇论文列出的参考文献如下:郑义.房屋建组外墙渗水成因与防治[J].科技资讯,2005(35):184—185.其中的(35):184—185应该是(A)。
A.35期184—185页 B.35卷184—185期C.35卷184—185页 D.35期184页185行3、下列选项中不属于特种文献类型的有( B )。
A.学位论文 B.图书C.科技报告 D.标准文献4、1、文献是记录有知识的( A)。
A. 载体B. 纸张C. 光盘D. 磁盘5、中国国家标准的代码是(A)A. GBB. CBC. ZGD. CG二、填空题1、情报的三个属性(知识性)、(传递性)、(效益性)。
2、填空题:文献按起加工深度不同,可以划分为(零次信息)、(一次信息)、(二次信息)、(三次信息)。
3、(核心期刊)是指少数刊载某一学科大量高质量专业论文的期刊。
三、判断题1、从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。
( 1)2、在众多的信息源中,期刊是最重要的信息源。
(1)3、连续出版物主要包括期刊、报纸、年度出版物等。
( 1)四、简答题1、常用的特种文献有哪些?答:科技报告、会议文献、政府出版物、专利文献、标准文献、公司产品资料、学位论文、档案资料等2、我国信息系统结构。
答:图书馆系统(高校图书馆、公共图书馆、科学研究系统图书馆)、科技信息服务系统、档案系统、专利系统、标准系统3、信息道德主要内容。
答:信息道德是指在信息领域中用以规范人们相互关系的思想观念与行为准则。
信息道德主要包括:1)遵守信息法律、法规,尊重知识产权,保护个人隐私;2)保守商业秘密,维护信息安全;3)不制作、传播和消费不良信息;4)不制作和传播病毒等有害的东西;5)不窃取和盗用非法的信息;6)不非法进入他人的系统;7)不利用信息能力进行计算机犯罪等。
国科大2013年秋季《现代信息检索》第二次作业(第六章到第十五章)以下1—16每题6分,第17题3分,共计100分。
1. 习题 6—10 考虑图6—9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf 情况,采用图6—8中的idf 值来计算所有词项图6-9 习题 6—10中所使用的tf 值car 在三篇文档中的tf —idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39。
6 auto 在三篇文档中的tf -idf 值分别为:Doc1:3*2.08=6。
24;33*2。
08=68。
64;0*2。
08=0 insurance 在三篇文档中的tf —idf 值分别为:Doc1:0*1。
62=0;33*1.62=53。
46;29*1.62=46。
98best 在三篇文档中的tf —idf 值分别为:Doc1:14*1。
5=21;0*1。
5=0;17*1.5=25。
52. 习题 6—15 回到习题6—10中的tf—idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其中每个向量有4维,每维对应一个词项。
Doc1=(44.55,6.24,0,21), Len(Doc1)=49。
6451对其长度归一化得到Doc1=(0。
897,0。
126,0,0.423) Doc2=(6。
6,68。
64,53.46,0),Len (Doc2)=87。
2524对其长度归一化得到Doc2=(0.076,0.787,0.613,0)Doc3=(39。
6,0,46。
98,25.5),Len (Doc3)=66。
5247对其长度归一化得到Doc3=(0.595,0,0。
706,0。
383) 3.习题 6-19 计算查询digital cameras 及文档digital cameras and video cameras 的向量空间相似度并将结果填入表6-1的空列中。
《信息资源检索与利用100题集及答案》姓名:陈晨学号:110803021101班级:11级材料一班第一章绪论1.简述科技文献检索的意义。
答:人们无论学习、工作,还是进行科学研究,都离不开文献的检与利用。
具体来说,科技文献检索具有以下六个方面的意义:(1)有利于大学生信息素养的培育;(2)有利于复合性、开拓性人才的培养;(3)有利于促进智力资源的开发利用,推动社会进步与发展;(4)有利于帮助研究人员继承和借鉴前人的成果,避免重复研究和走弯路;(5)有利于节省研究人员查找文献的时间,提高科研效率;(6)有利于为决策提供科学依据。
2.信息、知识、情报、文献的概念是什么?答:(1)信息是被反映事物属性的再现。
信息不是事物本身,而是由事物发出的消息、指令、数据等所包含的内容。
(2)知识是人类认识的成果和结晶,是人类在认识和改造世界的社会实践中获得的对事物本质的认识。
(3)情报是人们在一定时间内为一定目的而传递的具有使用价值的知识或信息。
(4)文献是各种知识或信息载体的总称。
其由知识信息内容、载体材料和记录方式三要素组成。
3.试述科技文献检索的定义及作用。
答:所谓科技文献检索,是指文献资料的查找与获得。
其作用是检索者利用检索工具按照文献编排特点,采取一定的途径、方法和步骤迅速、准确地查获自己所需要的文献资料,便于学习、工作和进行科学研究。
4.科技文献有什么特点?答:现代科技文献的发展具有以下明显特点:(1)数量急剧增长;(2)内容交叉重复;(3)文献出版分散;(4)文献失效加快;(5)文献语种增多;(6)文献载体电子化,文献传播网络化。
5.试述一、二、三次文献的概念?它们之间的关系如何?答:(1)一次文献是作者在科学研究、教学和生产实践中以自己的研究成果为依据创作而成的文献,又称一级文献或原始文献;(2)二次文献是文献情报人员将大量分散的、无序的原始文献进行筛选、整理、报道和组织所形成的文献,又称二级文献或检索性文献;(3)三级文献是利用二级文献的线索,系统地检索出一批相关文献,并对其内容进行综合、分析、研究和评述而编写出来的文献,又称三级文献或参考性文献。