中国科学院大学现代信息检索课后习题答案
- 格式:docx
- 大小:163.01 KB
- 文档页数:19
中国科学技术大学上海工程硕士第八期《信息检索》考试试题姓名:陶亮学号:SG15010018成绩:第一章息检索及其主要功用3、你通常利用什么样的文献传播渠道来获取有关文献信息?答:文献信息的传播渠道是多种多样的,归结起来有以下三种基本形式:(1)人际传播渠道:是通过人们之间的直接交流,如相互交谈、相互借还或传阅资料、交换意见、参加会议、听课、听讲座等。
(2)组织传播渠道:是通过一定的形式无偿或部分有偿地向社会公众提供文献资料的中介交流形式,如图书馆、档案馆、各类文献情报中心、学校、美术馆乃至教堂等。
(3)大众传播渠道:借助于各种传统及现代化手段来传播的一种方式。
如通过订阅杂志、购买图书、观看影视作品或网上浏览下载等形式。
以上三种形式各有所长,相互补充,长期共存,各自发挥着独特的功能。
在我的日常生活中,上述三种文献传播渠道都有,但人际传播和大众传播是最多的传播渠道。
4、对于信息检索的五大功用,你最有体会的是什么?最不了解的是什么?你认为这五大功用以外还可以总结出来有关信息检索的其他功用吗?(请简介)答:信息检索五大功用分别为:(1)开阔视野,正确决策:能够及时、系统地了解前人的工作经验与成果,掌握事物最新动态及发展趋势。
适时做出正确决策,使所开展的工作取得最快、最有效的进展。
(2)提高功效,事半功倍:能节省人们对有用信息进行搜集利用的时间及精力,提高工作效益,做到事半功倍。
同时还能培养人们的自学能力、科学研究及鉴赏能力。
(3)学习借鉴,推动创新:有利于及时把握各种信息,促进科技发明和发现不断涌现,同时对人们开展终身学习不断提升综合素质、创作出更多、更优秀的成果及文献也具有强大的支持和推动作用。
(4)规避风险,维护权益:可以避免重复劳动、少走弯路、免去低水平复制所带来的损失,使各种科研、经营、生产等活动实现投入少、收效高,还可使人们规避风险,利用知识产权保护法等法律规范,维护自身或单位(国家)的正当权益。
一、单项选择题1、分类途径是按照文献所属的学科分类,利用(C)进行检索的途径。
A学科名称B专业名称C分类号及分类名D以上均可2、利用文献后所附参考文献进行检索的方法叫(A )。
A.追溯法B.直接法C.抽查法D.综合法3、逻辑算符包括(D)算符。
A.逻辑与B.逻辑或C.逻辑非D.以上三项4、机检效果与检索人员的素质有着密切的关系。
人员的素质主要包括(D )。
A.对检索策略的掌握程度B.对数据库的掌握程度C.对检索语言的掌握程度D.以上三项5.最早的网络搜索引擎是(A)A. Yahoo B .Excite C. Archie D .Google6、我国最早的图书馆学专业教育机构创立于___年,它是__A____ 创始人_____A. 1920 武昌文华大学图书馆学专修科韦棣华B. 1922 武汉大学图书馆学专修科杜定友C.1927 南京金陵大学图书馆学系韦棣华D.1947 北京大学中国语言文学系图书馆学杜定友7、“我思故我在”,是____C____的名言,这句话说明思想的重要性。
人类的认知是不断进步的,随着人们不断的认识到新的事物思想也在不断转变A.帕斯卡尔B.伏尔泰C.笛卡儿D.孟德斯鸠8、Google和Baidu在其高级搜索中都提供特定格式文件的搜索,他们分别支持几种文件格式(D)A. 6 4 B .6 5 C.6 6 D. 6 79、4 中国互联网络信息中心(CNNIC)是在信息产业部的授权和领导下的,得到国际互联网络管理机构认可的,中立的,非盈利性的服务和管理机构,行使国家互联网络信息中心的职责,属于国家事业单位。
CNNIC在行政上受____A___的领导。
A. 信息产业部;B. 国务院信息化办公室;C. 中国互联网络协会;D. 中国科学院计算机网络信息中心;10、2003年12月1日是第16个“世界艾滋病日”,到目前为止,中国已有84万艾滋病病毒感染者,其中艾滋病病人8万名。
请问艾滋病的医学全名是什么?(C)A 、先天性免疫缺陷综合症B 、获得性免疫缺陷综合症C 、人类免疫缺陷综合症D 、动物免疫缺陷综合症11、1999年被列入“世界文化遗产”的大足石刻现有唐宋时期的摩崖造像75处,雕像共___C_____余尊。
第一章测试1【判断题】(4分)在大多数情况下,检索的目的是为了找到相关文献,而不是答案。
A.错B.对2【单选题】(4分)关于信息的概念,下面不同定义中不正确的说法是()A.信息是用以消除随机不定性的东西B.信息是指对消息接受者来说预先不知道的报道C.信息是那些只能由计算机进行处理的数据资料D.在计算机技术中,信息是经过组合后具有一定意义,能表明客观属性的数据集合3【单选题】(4分)信息论的创始人是()A.巴达拉科B.维纳C.香农D.野中郁次郎4【单选题】(4分)文献是记录有知识的()A.载体B.纸张C.磁盘D.光盘5【判断题】(4分)文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体()A.对B.错6【单选题】(4分)文献虽然是信息、知识、记录符号和物质载体的统一体,它的内涵是()A.知识B.专利C.图书D.期刊7【判断题】(4分)知识是人们通过信息对自然办、人类社会以及思维活动规律的认识与掌握,是人的大脑通过思维重新组合的信息集合。
A.错B.对8【单选题】(4分)广义的信息检索包含两个过程()A.存储与利用B.检索与报道C.检索与利用D.存储与检索9【单选题】(4分)小刘计划今天与好友到郊外野营,他从报纸上获得了天气情况良好,于是他们出发了。
不料,中午时分狂风暴雨大作,于是他们埋怨天气预报不准确。
当他回到家里再拿出报纸核实,原来那是几天前的报纸。
经分析,由于小刘对信息的()特征没有做出慎重判断,以致野营不能顺利进行。
A.信息的价值性B.信息的时效性C.信息的来源D.信息的共享性10【单选题】(4分)逻辑运算符包括()A.逻辑非B.A,B和CC.逻辑或D.逻辑与11【单选题】(4分)使用分类语言对信息进行描述和标引,主要是可以把()的信息集中在一起A.A+B+CB.同一主题C.同一作者D.同一学科12【单选题】(4分)根据检索对象不同,信息检索可分为()A.分类检索、主题检索B.数据检索、事实检索、文献检索C.计算机检索、手工检索D.二次检索、高级检索13【单选题】(4分)通过追溯检索获得的相关文献与原文献相比在发表时间上()A.不确定B.晚C.相同D.早14【判断题】(4分)分类检索语言又称分类法,是用分类号和类名来表达信息的主题概念,并且按照知识门类的逻辑次序将信息系统地组织和划分的语言。
信息检索上机考试试卷学生姓名:学号:一、作文题:信息检索课主要内容综述。
(将老师课堂讲解的主要内容用自己的话作概述性的总结,以下方式所写论文都以零分计入成绩:①写成日记、②把书本内容抄一部分、③在网上摘一篇信息检索内容小结(与老师讲解内容完全不符)、④同学之间抄袭。
要求字数1000-1200字)(10分)信息检索课主要内容综述在我们迈入21世纪时,在这个信息化、数字化、全球化的知识经济时代,信息已经成为最重要的发展资源之一。
随着现代科学技术尤其是计算机技术和网络技术的迅猛发展,社会信息量速度爆增,信息呈现出爆炸式的增长趋势。
在信息的汪洋之中,存在着大量虚假信息和无用信息,海量规模的文献资源给广大读者带来了新的困惑,从找不到资源转变为不知如何最方便快捷地找到所需资源。
因此,信息检索能力已成为新时代人才的一项必备技能。
而作为新时代的大学生,信息检索能力的培养显得尤为重要。
这一学期,我们有幸学习了《电子文献检索教程》这门课程,使我初步懂得了一些信息检索的基本原理和基本技能,也将会为我往后的学习、工作生活打下坚实的基础。
信息检索是一门关于信息资源的存储、整理和查找的理论及方法的学问。
学习这门课主要是让我们明白信息检索的原理和方法及中外常用的检索工具,及最主要的电子资源文献检索方法和技巧。
在信息检索当中,检索系统也是至关重要的。
检索系统主要由计算机、通信网络、检索终端设备和数据库组成,检索有网络检索、联机检索、光盘检索等类型,检索技术主要有位置检索、字段限定检索、截词检索、布尔检索、自然语言检索等。
一般在不同的数据库里或查找不同的资源中会运用到不同的检索技术。
那么,如何在不同的数据库寻中查找不同的信息资源就至关重要了。
数据库主要有超星数字图书馆、CNKI中国知网、万方数据库、维普咨询中心网站、百链、中国期刊网、EBSCO以及其他外文数据库,其中不同的数据库有不同的数据资源,也有着不同的检索方法。
我们在实验课也着重练习了在不同的数据库、在同一数据库用不同的检索方法寻找信息资源。
国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章)以下每题10分,共计100分。
1、习题1-4a.时间复杂度O(x+y)。
因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果x<y那么x在结果集中,brutus指针后移,如果x=y,x不在结果集中,两个指针都后移,如果x>y,caesar指针后移。
b.时间复杂度是O(N),N是全部的文档数。
因为结果集的大小取决于文档数N,而不是倒排记录表的长度。
2、习题1-7对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度(tangerine OR trees) = O(46653+316812)=O(363465)(marmalade OR skies) = O(107913+271658) = O(379571)(kaleidoscope OR eyes) = O(46653+87009) = O(300321)即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies)3、习题1-10UNION(p1,p2)answer ←{ }while p1!=NIL and p2!=NILdo if docID(p1)=docID(p2)then ADD(answer,docID(p1))p1<- next(p1)p2<-next(p2)else if docID(p1)<docID(p2)then ADD(answer,docID(p1))p1<- next(p1)else ADD(answer,docID(p2))p2<-next(p2)while p1!=NILdo ADD(answer,docID(p1))p1<- next(p1)while p2!=NILdo ADD(answer,docID(p2))p2<- next(p2)return(answer)4、习题2-7a.由24跳到75这一次跳转b.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (75,89)(75,89) (92,89) (75,89)(92,89) (81,89) (84,89) (89,89) (92,95) (115,95)(96,95) (96,97) (97,97) (100,99) (100,100) (115,101)总共21次比较c.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (39,89) (60,89) (68,89) (75,89) (81,89) (84,89) (89,89) (92,95) (96,95) (96,97)(97,97) (100,99) (100,101) (115,101) 总共19次比较56、习题3-116*6*6*6=12967、习题4-1倒排索引的构建需要两步:1.扫描文档,建立词项文档对。
注意:1、通读教材,根据页码提示完成下列题目。
2、最后一次上机课在线测试,范围不超出如下题目。
第一章一、单选1、报道范围主要为能源方面的科技报告为(D)。
A、ADB、PBC、NASAD、DOE{第7页}2、(C)是出版周期最短的定期连续出版物。
A、图书B、期刊C、报纸D、学位论文{第6页}3、(A)是高校或科研机构的毕业生为获取学位而撰写的。
A、学位论文B、科技报告C、会议文献D、档案文献{第6页}4、了解各个国家政治、经济、科技发展政策的重要信息源是(B )A、科技报告B、政府出版物C、标准文献D、档案文献{第8页}5、年鉴属于下列哪一类别(D)A、零次信息B、一次信息C、二次信息D、三次信息{第7页}(一次信息:图书、期刊论文、科技报告、会议论文、专利说明书及科技日记、杂记、实践记录)6、下列哪种文献属于一次文献(A )。
A、图书B、百科全书C、综述D、文摘{第4页}7、下列文献中属于一次信息的是(A )A、专利说明书B、百科全书C、目录D、综述{第4页}8、以下各项属于二次信息的是(A)A、索引B、期刊C、学位论文D、百科全书{第4页}(二次信息;目录、题录、文摘、索引、书目对一次信息有指引和报道作用)二、多选9、二次信息主要包括()等。
A、手册B、年鉴C、目录D、题录{第4页}10、信息的属性包括()A、客观性B、时效性C、传递性D、共享性{第3页}11、信息素质的内涵主要包括()。
A、信息意识素质B、信息能力素质C、信息道德素质D、信息职业素质{第9页}12、以下类型的信息属于三次信息的是()。
A、目录B、词典C、百科全书D、科技报告{第4页}附加:I)信息道德规范信息行为,主要包括()。
A、不制作、传播、消费不良信息B、不侵犯他人的知识产权、商业秘密、隐私权C、恰当使用与合理开发信息技术D、私下交易个人信息(第10页)II)根据信息的载体和表达方式的不同,信息源可分为()。
A、语言信息源B、二次信息C、实物信息源D、文献信息源(第4页)III)文献的基本要素有()。
信息检索题目答案一、名词解释0、文献及其要素“文献”是泛指“有历史价值或参考价值的图书资料。
”要素:1、构成文献内核的信息、知识、数据、事实2、载体信息、知识、数据、事实的物质载体。
3、记录信息、知识、数据、事实的符号系统。
1、专利文献专利文献是实行专利的国家、地区及国际专利组织在批审专利过程中产生的官方文件及出版物,包括专利说明书、专利权利要求书、专利公报、专利分类表、专利检索工具等。
2、三大检索系统三大检索系统是:SCI(《科学引文索引》,英文全称为Science Citation Index)是美国科学情报研究所(Institute for Scientific Information,简称ISI)出版的一部世界著名的期刊文献检索工具,其出版形式包括印刷版期刊和光盘版及联机数据库,现在还发行了互联网上Web 版数据库。
EI是美国《工程索引》(TheEngineeringIndex)的简称。
EI创刊于1884年,由美国工程情报公司(EngineeringInformationCo.)出版发行。
EI是工程技术领域内的一部综合性检索工具,报道内容包括:电类、自动控制类、动力、机械、仪表、材料科学、农业、生物工程、数理、医学、化工、食品、计算机、能源、地质、环境等学科。
ISTP是IndextoScientific&TechnicalProceedings的缩写,是美国科学情报研究所的网络数据库WebofScienceProceedings中两个数据库(ISTP和ISSHP)之一。
专门收录世界各种重要的自然科学及技术方面的会议,包括一般性会议、座谈会、研究会、讨论会、发表会等的会议文献,涉及学科基本与SCI相同。
(自己总结一下)3、二次文献二次文献又称二级次文献,它是文献检索工具,能比较全面、系统地反映某个学科、专业或专题在一定时空范围内的文献线索,是积累、报道和检索文献资料的有效手段.4、受控语言受控语言是一种规范化的人工语言,包括具有较强族性检索功能的分类语言和具有较强特性检索功能的主题语言。
一、选择题1、字段代码JN、DE、TI分别代表(A )50页A·刊名字段、主题字段、标题字段B·文摘号、文献类型、文摘字段C·分类号、机构来源、公司2、在信息检索技术中,算符AND、OR、NOT指的是哪一中信息检索技术方法(C )A、截词检索B、位置检索C、布尔检索3、在主题语言中,不能再分解的、最小的并经过规范化处理的词语是( D )A 关键词语言B标题语言C 叙词语言 D单元词语言3、查找“中国计算机学会”的有关资料使用下列那种工具书?(A )A、《学术世界》B、《世界知识年鉴》C、《世界地名录》4、在主题语言中,不能再分解的、最小的并经过规范化处理的是(D)A、关键词语言B、标题语言C、叙词语言D、单元词语言5、中国高等教育文献保障体系的英文简称是( C )A. OCLCB. CALISC. CERNET6、全文搜索引擎以( B )检索为主。
A网站B网页C网页全文6、布尔逻辑算符构造的检索提问式“A-B”的检索结果是( A )A 只含有A 的文献B 不含B的文献C 同时含有A和B的文献D 含有A而不含B的文献7、自然语言检索标识包括下列那一组选项( C )A、类号、类名B标题词、叙词C、著者姓名、题名8、三次文献是在合理利用二次文献的基础上,对一次文献内容进行归纳综合撰写的专著。
下列属于三次文献的是( C )A报纸、教材、期刊目录B图书、专利、产品资料C手册、述评、进展报告9、根据检索的目的和要求,信息检索常用的方法可分为( B )三种:A合取法、交替法、限定法B直接法、追溯法、综合法C排除法、跟踪法、引文法10、就书目而言,下列何种书目为推荐书目( C )A全国总书目全国新书目B馆藏目录专题目录C每周新书目中外名著目录11、字段代码AU、AB、 PY所代表的字段是(B)A标题、注释、文摘类型B著者、文摘、出版年C叙词、分类、语言12、手册的别称很多,下列正确的一组是(A)A指南、须知、便览B大全、提要、综录C题记入门、必备手册的别称很多有指南、便览、大全、必备、须知、入门等。
信息检索答案第一单元知识点一考试时间2011-4-18 8:00:00 到2011-5-18 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共2题,100分)1 用图书馆目录查找由机械工业出版社出版,“王莉”主编的《大学物理》,最佳(结果最准确)的检索项选择是( ) ( 到图书馆目录去试试看)——(难度:容易)A: 题名B: 题名和著者C: 著者D: 题名和出版社答案:B2 查找关于汽车发动机类的图书,应在哪一大类目录中浏览?《中图分类法简表》——(难度:容易)A: U类B: V类C: X类D: Z类答案:A第一单元知识点二考试时间2011-4-18 8:00:00 到2011-5-18 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共1题,100分)1 以下的一组索书号,按先后顺序哪种排列是正确的?——(难度:容易)A: TM133/Z082 TP2/B012 TM1/P023 TM133/Q041B: TM133/Z082 TM1/P023 TP2/B012 TM133/Q041C: TP2/B012 TM133/Z082 TM1/P023 TM133/Q041D: TM1/P023 TM133/Q041 TM133/Z082 TP2/B012答案:D第一单元知识点三考试时间2011-4-18 8:00:00 到2011-5-18 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共1题,50分)1 用CNKI中国期刊全文数据库查找作者“王巍”在2010年发表的有关“中国画”方面的文章,下面哪一篇是正确的?——(难度:容易) A: 大众“现代”绘画欣赏原则琐议B: 直写心性入氤氲——读张德刚花鸟画C: 中国水墨色彩的视觉感受D: CG时代的水墨答案:D多选题(共1题,50分)1 用CNKI检索期刊《现代电影技术》2007年第十期上,发表了下列哪些文章?——(难度:容易)A: 数字电影拍摄中的技术问题浅析B: 电影《云水谣》开篇长镜头的数字合成制作C: 纪录片《惠待农民》的后期制作体会D: 电影放映机在多媒体剧场的应用实例答案:A, C, D第一单元知识点四考试时间2011-4-18 8:00:00 到2011-5-18 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共1题,100分)1 用关键词来揭示图书《普通话朗读指导与点评》的主要内容,最优的关键词组合是:——(难度:容易)A: 普通话朗读指导点评B: 普通话朗读指导点评C: 普通话朗读指导点评D: 普通话朗读答案:D第一单元知识点五考试时间2011-4-18 8:00:00 到2011-5-18 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共2题,100分)1 检索式“篇名=(汽车发动机—噪声)”的含义是?——(难度:容易)A: 查找篇名中包含汽车发动机但不含噪声的记录B: 查找篇名中同时包含汽车发动机和噪声两个词的记录C: 查找篇名中包含汽车发动机或噪声两个词的记录D: 查找篇名中包含汽车发动机及噪声两个词的记录2 检索式“汽车发动机AND(异响OR噪声)”的含义是?——(难度:容易)A: 查找同时包含以上全部关键词的记录B: 查找同时包含异响和噪声两个词的记录C: 查找包含异响或噪声两个词,但不包含汽车发动机的记录D: 查找同时包含汽车发动机与异响或同时包含汽车发动机与噪声的记录答案:D第一单元考核考试时间2011-4-18 8:00:00 到2013-12-18 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共8题,80分)1 用图书馆目录查找由机械工业出版社出版,“江荣先”编著的《园林景观植物花卉图典》,最有可能一次检到正确结果的检索项选择是:——(难度:容易)A: 出版年B: 题名和著者C: 著者D: 著者和出版社2 查找关于观赏园艺的图书,应在哪一分类目录中浏览?——(难度:容易)A: J59B: S68C: J51D: S61答案:B3 以下的一组索书号,按先后顺序哪种排列是正确的?——(难度:容易) A: S68/J377 S688.4/W761 S66/A355 S68/H082 B: S688.4/W761 S68/J377 S66/A355 S68/H082C: S68/J377 S66/A355 S688.4/W761 S68/H082D: S66/A355 S68/H082 S68/J377 S688.4/W761答案:D4 用维普科技期刊数据库检索园艺类的期刊,一共有多少种?A: 约60种B: 约100种C: 约30种D: 约50种答案:A5 用CNKI或维普科技期刊数据库查找作者“康锴”在2010年发表在《中国花卉园艺》上的文章,下面哪一篇发表于第3期?——(难度:容易)A: “帮手”还是“杀手”——花卉叶面光亮剂使用情况调查B: 消费者:享受家庭园艺C: 君子兰:价格波动明显年宵大战提前打响D: 中国花卉协会绿化观赏苗木分会在萧山成立答案:B6 如用关键词来揭示图书《高雅的礼品花创意组合与插栽》的主要内容,错误的关键词组合是:A: 高雅礼品花创意B: 礼品花插花C: 花卉装饰D: 插花答案:A7 检索式“(植物配置景观)-道路-高速公路”的含义是?——(难度:容易)A: 查找同时包含前3个词,不包含最后一词的记录B: 查找同时包含所有4个词的记录C: 查找同时不包含所有4个词的记录D: 查找同时包含前2个词,不包含后2词的记录答案:D8 网络检索园林业界新闻,按最佳在前的原则,选择信息源或检索工具的排序是:——(难度:容易)A: 中国风景园林网(行业门户网站)/ 中国期刊网/百度或谷歌B: 百度或谷歌/中国风景园林网(行业门户网站)/ 中国期刊网C: 中国期刊网/中国风景园林网(行业门户网站)/百度或谷歌D: 中国风景园林网(行业门户网站)/百度或谷歌/中国期刊网答案:D多选题(共1题,20分)1 用CNKI或维普科技期刊数据库检索期刊《果树学报》2012年第1期上,发表了下列哪些文章?——(难度:容易)A: 不同肥料种类对黄金梨果实内在品质及风味的影响B: 北京28号桃芽变株系的ISSR和SSR鉴定C: ‘寒富’苹果花芽呼吸代谢途径对低温胁迫的响应特征D: ABA对葡萄花色苷合成相关基因表达的影响答案:A, B, D第二单元知识点一考试时间2011-4-21 8:00:00 到2011-4-21 15:00:00 出卷人:wy 组卷方式:手工出卷单选题(共1题,100分)1 以下检索流程正确的是:——(难度:容易)A: 开始检索-选择检索点及检索词-分析与调整-选择检索工具与信息源B: 选择检索工具与信息源-开始检索-分析与调整-选择检索点及检索词,制订检索式C: 分析检索要求-开始检索-分析与调整-选择检索点及检索词,制订检索式D: 分析检索要求-选择检索工具与信息源-选择检索点及检索词-开始检索答案:D第二单元知识点二考试时间2011-4-22 8:00:00 到2011-5-22 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共2题,100分)1 分析检索问题“搜集涂料及油墨行业的生产企业、专业网站及专业期刊”的要求特点是什么?——(难度:容易)A: 要求查全B: 特别强调资料新C: 只要检索结果准确,有少量结果就可以D: 行业相关度高答案:A2 分析检索问题“搜集涂料及油墨行业的生产企业、专业网站及专业期刊”,以下哪种说法是正确的?——(难度:容易)A: 本检索问题可以分解为并列式结构B: 本检索问题可以分解为中心环列式结构C: 本检索问题可以分解为推导式结构D: 本检索问题不可分解答案:A第二单元知识点三考试时间2011-4-22 8:00:00 到2011-5-22 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共1题,100分)1 关于问题“2010年度深圳市工业生产总值及进出口贸易总额是多少”应该首选何种检索工具?——(难度:容易)A: 百度或谷歌B: CNKI期刊全文数据库C: 维基百科D: 深圳统计信息网答案:D第二单元知识点四考试时间2011-4-22 8:00:00 到2011-5-22 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共1题,100分)1 关于检索问题“搜集涂料及油墨行业的专业图书和专业期刊”选择哪一组检索点较为有利?——(难度:容易)A: 标题、作者B: 期刊名、书名C: 主题词或关键词、学科分类D: 全文、摘要答案:C第二单元知识点六考试时间2011-4-22 8:00:00 到2011-5-22 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共1题,100分)1 如将检索问题“涂料及油墨行业的主要产品”用检索式来表达,以下哪一个是正确的?——(难度:容易)A: 涂料行业OR(油墨行业AND主要产品)B: (涂料行业OR油墨行业)AND主要产品C: (涂料行业AND油墨行业)AND主要产品D: (涂料行业OR油墨行业)OR主要产品答案:B第二单元知识点七考试时间2011-4-22 8:00:00 到2011-5-22 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共1题,100分)1 使用百度检索关于主题“捷克斯洛伐克的儿童文学概况”的资料,制订检索式“捷克斯洛伐克AND儿童文学”进行初次检索后,发现检索结果遗漏了很多用斯洛伐克或捷克表述的资料,但又有太多的结果只是关于《鼹鼠的故事》这部作品,在进行二次检索前,应该采取何措施来调整检索策略呢?备选措施如下,①把检索词“捷克斯洛伐克”更换为“捷克和斯洛伐克”②把检索词“捷克斯洛伐克”更换为“捷克”、“斯洛伐克”两个词,两词之间为逻辑“与”③把检索词“儿童文学”更换为“儿童文学作品”④把检索词“捷克斯洛伐克”更换为“捷克”、“斯洛伐克”两个词,两词之间为逻辑“或”⑤增加检索词“鼹鼠的故事”,与其他检索之间为逻辑“或”⑥增加检索词“鼹鼠的故事”,该词之前为逻辑“非”⑦增加检索词“鼹鼠的故事”,该词之前为逻辑“与”正确的组合是:——(难度:容易)A: ①和⑤B: ④和⑥C: ②和⑦D: ③和④答案:B第二单元考核考试时间2011-4-22 8:00:00 到2013-10-22 12:00:00 出卷人:wy 组卷方式:手工出卷单选题(共7题,84分)1 本次作业是:为了完成专业老师布置的作业“查找本地区的化工企业(主要产品)情况,就本地区化工产业如何发展提出你的建议和看法”,完成资料收集工作。
《信息检索导论》课后练习答案王斌最后更新日期2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。
文档1 new home sales top forecasts文档2 home sales rise in july文档3 increase in home sales in july文档4 july new home sales rise1 2 322 3121 2 3习题1-2 [*] 考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;解答:文档1文档2文档3文档4drug1100for1011hopes0001new0111of0010patients0001schizophrenia1111treatment0010b. 画出该文档集的倒排索引(参考图1-3中的例子)。
解答:参考a。
习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a.schizophrenia AND drug解答:{文档1,文档2}b.for AND NOT (drug OR approach)解答:{文档4}习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次内完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。
如果不能的话,那么我们能达到的时间复杂度是多少?a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答:a.可以在O(x+y)次内完成。
通过集合的减操作即可。
具体做法参考习题1-11。
b.不能。
不可以在O(x+y)次内完成。
因为NOT Caesar的倒排记录表需要提取其他所有词项对应的倒排记录表。
所以需要遍历几乎全体倒排记录表,于是时间复杂度即为所有倒排记录表的长度的和N,即O(N) 或者说O(x+N-y)。
习题1-5 [*] 将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询c.(Brutus OR Caesar) AND NOT (Antony OR Cleopatra)我们能在线性时间内完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗?解答:时间复杂度为O(qN),其中q为表达式中词项的个数,N为所有倒排记录表长度之和。
也就是说可以在词项个数q及所有倒排记录表长度N的线性时间内完成合并。
由于任意布尔表达式处理算法复杂度的上界为O(N),所以上述复杂度无法进一步改进。
习题1-6 [**] 假定我们使用分配律来改写有关AND和OR的查询表达式。
a. 通过分配律将习题1-5中的查询写成析取范式;12b. 改写之后的查询的处理过程比原始查询处理过程的效率高还是低?c. 上述结果对任何查询通用还是依赖于文档集的内容和词本身?解答:a. 析取范式为:(Brutus And Not Anthony And Not Cleopatra) OR (Caesar AND NOT Anthony AND NOT Cleopatra)b. 这里的析取范式处理比前面的合取范式更有效。
这是因为这里先进行AND操作(括号内),得到的倒排记录表都不大,再进行OR操作效率就不会很低。
而前面需要先进行OR操作,得到的中间倒排记录表会更大一些。
c. 上述结果不一定对,比如两个罕见词A和B构成的查询(A OR B) AND NOT(HONG OR KONG),假设HONG KONG一起出现很频繁。
此时合取方式可能处理起来更高效。
如果在析取范式中仅有词项的非操作时,b中结果不对。
习题1-7 [*] 请推荐如下查询的处理次序。
d.(tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)其中,每个词项对应的倒排记录表的长度分别如下:词项倒排记录表长度eyes 213 312kaleidoscope 87 009marmalade 107 913skies 271 658tangerine 46 653trees 316 812解答:由于:(tangerine OR trees) 46653+316812 = 363465(marmalade OR skies) 107913+271658 = 379571(kaleidoscope OR eyes) 87009+213312 = 30321所以推荐处理次序为:(kaleidoscope OR eyes)AND (tangerine OR trees) AND (marmalade OR skies)习题1-8[*] 对于查询e.friends AND romans AND (NOT countrymen)如何利用countrymen的文档频率来估计最佳的查询处理次序?特别地,提出一种在确定查询顺序时对逻辑非进行处理的方法。
解答:令friends、romans和countrymen的文档频率分别为x、y、z。
如果z极高,则将N-z作为NOT countrymen的长度估计值,然后按照x、y、N-z从小到大合并。
如果z极低,则按照x、y、z从小到大合并。
习题1-9 [**] 对于逻辑与构成的查询,按照倒排记录表从小到大的处理次序是不是一定是最优的?如果是,请给出解释;如果不是,请给出反例。
解答:不一定。
比如三个长度分别为x,y,z的倒排记录表进行合并,其中x>y>z,如果x和y的交集为空集,那么有可能先合并x、y效率更高。
习题1-10 [**] 对于查询x OR y,按照图1-6的方式,给出一个合并算法。
解答:1 answer<- ( )2 while p1!=NIL and p2!=NIL3 do if docID(p1)=docID(p2)4 then ADD(answer,docID(p1))5 p1<- next(p1)6 p2<-next(p2)7 else if docID(p1)<docID(p2)8 then ADD(answer,docID(p1))9 p1<- next(p1)10 else ADD(answer,docID(p2))11 p2<-next(p2)12 if p1!=NIL // x还有剩余13 then while p1!=NIL do ADD (answer, docID(p1))14 else while p2!=NIL do ADD(answer,docID(p2))15 return(answer)习题1-11 [*] 如何处理查询x AND NOT y?为什么原始的处理方法非常耗时?给出一个针对该查询的高效合并算法。
解答:由于NOT y几乎要遍历所有倒排表,因此如果采用列举倒排表的方式非常耗时。
可以采用两个有序集合求减的方式处理x AND NOT y。
算法如下:Meger(p1,p2)1 answer ()2 while p1!=NIL and p2!=NIL3 do if docID(p1) =docID(p2)4 then p1next(p1)5 p2next(p2)6 else if docID(p1)<docID(p2)7 then ADD(answer, docID(p1))8 p1next(p1)9 else ADD(answer, docID(p2))10 p2next(p2)11 if p1!=NIL // x还有剩余12 then while p1!=NIL do ADD (answer, docID(p1))13 return(answer)习题1-12 [*] 利用Westlaw系统的语法构造一个查询,通过它可以找到professor、teacher或lecturer 中的任意一个词,并且该词和动词explain在一个句子中出现,其中explain以某种形式出现。
解答:professor teacher lecturer /s explain!习题1-13 [*] 在一些商用搜索引擎上试用布尔查询,比如,选择一个词(如burglar),然后将如下查询提交给搜索引擎(i) burglar;(ii)burglar AND burglar;(iii) burglar OR burglar。
对照搜索引擎返回的总数和排名靠前的文档,这些结果是否满足布尔逻辑的意义?对于大多数搜索引擎来说,它们往往不满足。
你明白这是为什么吗?如果采用其他词语,结论又如何?比如以下查询(i) knight;(ii) conquer;(iii) knight OR conquer。
第二章词汇表和倒排记录表习题2-1 [*] 请判断如下说法是否正确。
a. 在布尔检索系统中,进行词干还原从不降低正确率。
b. 在布尔检索系统中,进行词干还原从不降低召回率。
c. 词干还原会增加词项词典的大小。
d. 词干还原应该在构建索引时调用,而不应在查询处理时调用。
解答:a错b 对c错d 错习题2-7 [*] 考虑利用如下带有跳表指针的倒排记录表和一个中间结果表(如下所示,不存在跳表指针)进行合并操作。
3 5 89 95 97 99 100 101采用图2-10所示的倒排记录表合并算法,请问:a.跳表指针实际跳转的次数是多少(也就是说,指针p1的下一步将跳到skip(p1))?一次,24—>75b.当两个表进行合并时,倒排记录之间的比较次数是多少?【如下答案不一定正确,有人利用程序计算需要21次,需要回到算法,本小题不扣分,下面不考虑重新比较同意对数字】解答:18次:<3,3>, <5,5>, <9,89>,<15,89>,<24,89>,<75,89>,<92,89>,<81,89>,<84,89>,<89,89>,<92,95>,<115,95>,<96,95>, <96,97>,<97,97>,<100,99>,<100,100><115,101>c.如果不使用跳表指针,那么倒排记录之间的比较次数是多少?解答:19次:<3,3>,<5,5>,<9,89>,<15,89>,<24,89>,<39,89>,<60,89>,<68,89>,<75,89>,<81,89>,<84,89 >,<89,89><92,95>, <96,95>,<96,97>,<97,97>,<100,99>,<100,100>,<115,101>习题2-9 [*] 下面给出的是一个位置索引的一部分,格式为:词项: 文档1: 〈位置1, 位置2, …〉; 文档2: 〈位置1, 位置2, …〉。