信息检索导论-王斌-第三次课后作业(13-21)
- 格式:docx
- 大小:1.54 MB
- 文档页数:8
信息检索导论第三次课后作业1、习题13-2答:(i)贝努利模型:三个文档具有相同的模型表示(ii)多项式模型:文档1和文档2相同,文档3与它们都不同。
文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。
2、习题13-53、习题14-6在图14-14 中,3 个向量→a、→b及→c中哪一个满足:(i) 采用内积计算的情况下与→x最近?(ii) 采用余弦相似度计算的情况下与→x最近?(iii) 采用欧氏距离计算的情况下与→x最近?4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)?答:一个数据集里支持向量的最小数目是2个。
因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。
5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。
请问这两个条件是否等价?答:这两个停止条件是等价的。
当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均值算法计算出的文档的分配也就不再改变。
6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么?b. 当使用HAC 算法时,预期的结果是否仍然一样?答:a.预期的结果:文档根据语言的大致分成两类。
b.预期的结果不一样。
HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。
层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。
7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。
整个文档集如图18-4所示。
图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。
《信息检索导论》课后练习答案王斌最后更新日期 2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。
文档 1 new home sales top forecasts文档 2 home sales rise in july文档 3 increase in home sales in july文档 4 july new home sales rise习题1-2 [*] 考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;解答:breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0b. 画出该文档集的倒排索引(参考图 1-3中的例子)。
解答:参考a。
习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a.schizophrenia AND drug解答:{文档1,文档2}b.for AND NOT (drug OR approach)解答:{文档4}习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。
如果不能的话,那么我们能达到的时间复杂度是多少?a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答:a.可以在O(x+y)次完成。
《信息检索技术》(第三版)书后习题及参考答案(部分)第1章绪论【综合练习】一、填空题1.文献是信息的主要载体,根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。
2.追溯法是指利用已经掌握的文献末尾所列的__________,进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。
3.用规范化词语来表达文献信息__________的词汇叫主题词.主题途径是按照文献信息的主题内容进行检索的途径,利用能代表文献内容的主题词、关键词、叙词、并按字顺序列实现检索.4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。
5.无论是手工检索还是计算机检索,都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。
检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。
6.检索工具按信息加工的手段可以分文__________、____________、___________.7。
《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。
8.索引包括4个基本要素:索引源、___________、___________、和出处指引系统.答案1。
零次,一次,二次,三次2.参考文献,引文3.内容特征4。
检索提问词,文献记录标引词5。
分析课题,选择检索工具,确定检索途径及检索式,进行检索,获取原文6。
手工检索工具,机械检索工具,计算机检索工具7.五,228.索引款目,编排方法二、判断题1.在检索信息时,使用逻辑符“AND”可以缩小收缩范围。
()2.逆查法是由近及远地查找,顺着时间的顺序利用检索工具进行文献信息检索的方法。
( )3.按编制方法划分,信息检索工具可以分为:手工检索工具、机械检索工具、计算机检索工具。
试题专用纸课程名称: 信息检索导论学生姓名:学号:培养单位:分数:一、选择题(单选,每题2分,共20分)1.关于布尔检索,以下说法正确的是()A)在布尔检索系统中,进行词干还原从不降低正确率B)在布尔检索系统中,进行词干还原从不降低召回率C)词干还原会增加词项词典的大小D)词干还原应该在构建索引时调用,而不应在查询处理时调用2.关于倒排索引,以下说法错误的是()A)词典的开销通常小于倒排记录表的开销B)倒排索引中往往会存储词项的频率C)词典中存储的都是词D)倒排索引可以加快搜索的速度3.关于向量空间模型的特点,下面说法不正确的是()A)支持部分匹配和近似匹配,结果可以排序B)理论上不够严谨,往往基于直觉的经验性公式C)词项之间的独立性假设与实际不符D)应用于检索问题时,效果不如概率检索模型4.关于tf-idf,以下说法不正确的是()A)一个罕见词的idf往往很高B)idf的大小是无限的C)词项的tf-idf权重可以超过1D)词项t在所有文档中出现,则权重取值很小5.关于隐式相关反馈,下面说法错误的是()A)不需要用户显式参与,减轻用户负担B)对行为分析有较高要求C)一定能提升检索准确率D)某些情况下需要增加额外设备6.SVM中的正则化因子(也称为惩罚因子)是指()A)交叉验证的次数B) 用到的核函数C)分类准确性和模型复杂度之间的权衡D) Lagrange乘子7.把一个连接的Web网络看作一个蝴蝶结结构,其中20%的页面为IN,60%页面在SCC区域,20%的页面为OUT。
假设从3个起始页面开始爬取网页,目标是尽可能多地访问此Web中的页面。
请问从下面哪一个选项中选取三个网页作为初始种子网页能爬取最多的网页?()A) 从IN、OUT各选一页B) SCC选一页,IN选两页C) SCC选两页,IN选一页D) 从IN中选三页8.关于聚类结果评价的外部准则,不包括以下哪种方法()A)兰迪指数(Rand Index)B) 残差平方和(RSS)C)归一化互信息(NMI)D) 纯度(Purity)9.假设有两个Web搜索引擎A和B,现从各自索引中随机均匀地生成大量网页。
《大学生信息检索概论》模拟试题一、填空题1、文献的级次分为零次文献、一次文献、二次文献、三次文献2、《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思想_、哲学;社会科学;自然科学和综合性图书,在此基础上又划分为_22_个大类。
3、按内容可将计算机检索系统的数据库类型分为:文献书目型数据库、事实型数据库、数值型数据库和全文型数据库。
4、我国标准可分为国家标准、部标准和企业标准三大类。
5、在实际检索中,文献的检索方法主要有:直查法、追溯法、工具法和综合法。
6、国际标准化组织简称:ISO 、本标准每 5 年修订一次二、选择题1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。
A.分类索引B.作者索引C.引文索引 D.主题索引2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库是( D )。
A.超星数字图书馆 B.万方学位论文 C.国研网 D.维普科技期刊 E.高校财经库3、如果检索有关多媒体网络传播方面的文献,检索式为(A D)。
A.多媒体and 网络传播 B.多媒体+网络传播 C.多媒体or 网络传播D.多媒体*网络传播4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E )。
A.关键词 B.作者 C.刊名 D.题名 E.文摘5、二次文献又称检索工具,包括:( A C D )。
A.书目B.百科C.索引D.文摘E.统计数据一、单项选择题(请将正确答案的序号填在括号内,每题分,共30分)1. 文献是记录有知识的( A )A 载体B 纸张C 光盘D 磁盘2. 下列哪种文献属于一次文献( A )A 期刊论文B 百科全书C 综述D 文摘3. 下列哪种文献属于二次文献( D )A 专利文献B 学位论文C 会议文献D 目录4. 下列哪种文献属于三次文献( C )A 标准文献B 学位论文C 综述D 文摘5. 下列选项中属于连续出版物类型的选项有( C )A 图书B 学位论文C 科技期刊D 会议文献6. 下列选项中属于特种文献类型的有( D )A 报纸B 图书C 科技期刊D 标准文献7. 纸质信息源的载体是( D )A 光盘B 缩微平片C 感光材料D 纸张8. 以刊载新闻和评论为主的文献是( B )A 图书B 报纸C 期刊D 会议文献9. 使用分类语言对信息进行描述和标引,主要是可以把( B )的信息集中在一起。
1111111111111111111111试题1 单项选择题(5.0分得分:5.0难度:基本题)不同的数据库系统的字段代码是有所不同的,其中题名的常见表述有正确答案0 TI□AU □KW □AB 学生答案□□□试题2判断题(5.0分得分:5.0难度:水平题)期刊是有固定名称,有一定的出版规律,标有刊期序号的一种论章成册的出版物。
止确答案学生答案□真□0假□试题3单项选择题(5.0分得分:5.0难度:基本题)在进行信息检索的过程中, 公式“(检索出的相关信息量/检索出的信息总量)X 100%”计算的是:正确答案学生答案0查准率□查全率□□漏检率□□误检率□试题4单项选择题(5.0分得分:5.0难度:基本题)信息侵权主要包括侵犯和侵犯个人隐私权等。
正确答案学生答案□社会隐私权□□著作权□0知识产权□人权□试题5 多项选择题(5.0分得分:5.0难度:难度题)下列哪些语句能被检索式“information N/2 retrieval”命中()正确答案学生答案[3 "information retrievaF,H "retrieval information^□0 "information computer aided retrievaF9□0 "retrieval of education in formation^□试题6单项选择题(5.0分得分:5.0难度:基本题)按照信息的载体类型,可将信息资源划分为:、缩微型、声像型、电子型和多媒体。
正确答案学生答案0印刷型□书本型□□视频型□□音频型□试题7多项选择题(5.0分得分:0.0难度:难度题)以下类型的文献属于三次文献的是()正确答案□目录0词典0百科全书□科技报告学生答案□□□试题8判断题(5.0分得分:5.0难度:水平题)信息可以记载在印刷纸本中,也可以存储在声、光、电、磁等介质中,如磁带、光盘、硬盘等。
一、选择题1、字段代码JN、DE、TI分别代表(A )50页A·刊名字段、主题字段、标题字段B·文摘号、文献类型、文摘字段C·分类号、机构来源、公司2、在信息检索技术中,算符AND、OR、NOT指的是哪一中信息检索技术方法(C )A、截词检索B、位置检索C、布尔检索3、在主题语言中,不能再分解的、最小的并经过规范化处理的词语是( D )A 关键词语言B标题语言C 叙词语言 D单元词语言3、查找“中国计算机学会”的有关资料使用下列那种工具书?(A )A、《学术世界》B、《世界知识年鉴》C、《世界地名录》4、在主题语言中,不能再分解的、最小的并经过规范化处理的是(D)A、关键词语言B、标题语言C、叙词语言D、单元词语言5、中国高等教育文献保障体系的英文简称是( C )A. OCLCB. CALISC. CERNET6、全文搜索引擎以( B )检索为主。
A网站B网页C网页全文6、布尔逻辑算符构造的检索提问式“A-B”的检索结果是( A )A 只含有A 的文献B 不含B的文献C 同时含有A和B的文献D 含有A而不含B的文献7、自然语言检索标识包括下列那一组选项( C )A、类号、类名B标题词、叙词C、著者姓名、题名8、三次文献是在合理利用二次文献的基础上,对一次文献内容进行归纳综合撰写的专著。
下列属于三次文献的是( C )A报纸、教材、期刊目录B图书、专利、产品资料C手册、述评、进展报告9、根据检索的目的和要求,信息检索常用的方法可分为( B )三种:A合取法、交替法、限定法B直接法、追溯法、综合法C排除法、跟踪法、引文法10、就书目而言,下列何种书目为推荐书目( C )A全国总书目全国新书目B馆藏目录专题目录C每周新书目中外名著目录11、字段代码AU、AB、 PY所代表的字段是(B)A标题、注释、文摘类型B著者、文摘、出版年C叙词、分类、语言12、手册的别称很多,下列正确的一组是(A)A指南、须知、便览B大全、提要、综录C题记入门、必备手册的别称很多有指南、便览、大全、必备、须知、入门等。
《信息组织与检索》作业答案第一章布尔检索习题1-2考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;b. 画出该文档集的倒排索引(参考图1-3中的例子)。
Term-Documentmatrix:1 2 3 4approach 0 0 1 0breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1of 0 0 1 0patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0Inverted Index:approach -> 3breakthrough ->1drug ->1->2for ->1->3->4hopes ->4new ->2->3->4of ->3patients ->4schizophrenia ->1->2->3->4treatment >3注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于查找。
这里我们暂不考虑词的正规化处理(如hopes->hope)。
补充习题1写出AND查询的伪代码面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。
这里应用了“化归”思想(将新问题转化归为旧问题来解决)。
一1.搜索引擎:百度结果:《MATLAB使用详解》著作者:董霖出版社:科学出版社总结方法:非纸质资源可通过搜索引擎(百度文档)和专业图书网站等来搜索,来查看相关图书的信息。
纸质资源可以通过OPAC系统来查询,找到相关图书,可以直接去图书馆借到并查看纸质资源。
二.检索工具:万方数字化期刊/Default.aspx检索词:数控加工技术整体叶轮多轴首关键词:数控加工技术结果:2238 条中选太多,结果纷杂,与期望值相去甚远。
应进一步增加关键字,以增加精准度。
次关键字:整体叶轮结果:13 条较精确,可以逐条查看终关键字:多轴结果: 2条所得为最终结果,极为精确,达到期望。
∙ 1 基于UG NX6.0的整体叶轮多轴加工技术∙[期刊论文] 《风机技术》 -2011年1期陈德存Chen Dechun∙本文详细介绍TUG NX6.0软件对叶轮加工的全过程以及加工过程中的注意事项,为同类产品的模型建立和多坐标数控编程提供了设计思路和方法.关键词:UG NX6.0 整体叶轮多轴加工∙ 2 基于UG NX6.0的整体叶轮的多轴加工技术∙[期刊论文] 《成组技术与生产现代化》 -2010年1期陈德存CHEN De-cun叶轮加工是当今多轴联动数控加工最常见的实例,也是数控加工的难点之一.本文从实际出发,使用UG/CAM五坐标编程系统对整体式叶轮进行数控编程,采用插值方式对刀轴矢量进行匀化处理,采用SWARF方法对叶片进行精加工,同时合...关键词:UG 整体叶轮多轴加工三.检索工具中国学术期刊网(CNKI)/grid2008/index/ZKCALD.htm 时间从2004-1-1到2004-12-31文献来源南京航空航天大学学报主题数控铣削文献类型学术论文四.1.Gong Huajun Design and implementation of gust alleviation control system forhelicopter 1990 报告2.Bir G S;Chopra I Gust response of hingeless ro-tors 1985 报告3.Azuma A;Saito S Study of rotor gust response by means of the local momentum theory[外文期刊] 1982(01) DOI:10.4050/JAHS.27.58 期刊文章4.Norman D C;Hynes R J;Gaangsas D An integr-ated maneuver enhancement and gustalleviation mode for the AFTI/F-111 MA W aircraft 1992 论文集5.Xiao Y elun;Jin Changjiang Flight principle in at-mospheric disturbances 1992 学位论文6.Woods-V edeler J A;Pototzky A S;Hoadley S T Rolling maneuver load alleviation usingactive control [外文期刊] 1995(01) DOI:10.2514/3.46685 期刊文章7.Sarathy S;Murthy U R An advanced rotorcraft flight simulation model: parallelimplementation and performance analysis 1993 期刊文章8.Y ang Yidong;Gao Lixin The development of the digital flight control system operationalsoftware using C language 1990(04) 专著9.Chen R T N;Lebacqz J V;Aiken E W He-licopter mathematical models and control lawdevelopment for handling qualities research 1988 报告10.Taylor R B;Zw icke P E;Gold P Analytical design and evaluation of active control systemfor helicopter vibration reduction and gust response alleviation 1980 期刊文章五.three dimensional538750 records in Compendex & Inspec for 1969-20113D374827 records in Compendex & Inspec for 1969-2011“three dimensional”473344 records in Compendex & Inspec for 1969-2011结果对比:搜索广度不同,第一个关键词结果显示最多,可选范围更广。
一元搜索元搜索引擎又称多搜索引擎,通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。
(搜索引擎分类:全文搜索引擎、目录索引、元搜索引擎)元搜索引擎的另外一个定义:元搜索引擎(Metasearch Engine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母(The mother of searce engines)”。
在这里,“元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。
相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(source Engine),或“搜索资源”(searcing resources),整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”(Meta-searching technique),元搜索技术是元搜索引擎的核心。
一个真正的元搜索引擎由三部分组成,即:检索请求提交机制、检索接口代理机制、检索结果显示机制。
"请求提交"负责实现用户"个性化"的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。
"接口代理"负责将用户的检索请求"翻译"成满足不同搜索引擎"本地化"要求的格式。
"结果显示"负责所有源搜索引擎检索结果的去重、合并、输出处理等元搜索引擎的出现,对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说,是一个福音。
使用元搜索引擎同时对几个搜索引擎进行检索,获得分级编排的检索结果。
主要元搜索引擎列表国内:·搜魅网(someta)集合了百度、google、搜狗、雅虎多家主流搜索引擎的结果,提供网页、资讯、网址导航等聚合查询。
另外,搜魅网突破了元搜索引擎没有自己的蜘蛛的瓶颈,提供了网站查询的功能。
信息检索课后答案作业习题《信息检索》思考题及参考答案(根据新编教学大纲内容选答)第一讲信息检索基础知识1.简述大学图书馆的地位和作用。
大学图书馆是大学的文献信息中心,是为教学和科研服务的学术性机构,是学校信息化和社会信息化的重要基地。
高等学校图书馆的工作是学校教学和科学研究工作的重要组成部分。
现代化的大学图书馆与学校高水平的教师队伍、先进的教学实验设备,共称为现代化大学的三大支柱。
大学图书馆既是是学校的文献信息中心又是学习资源中心,是培养人才的重要基地,是自学深造的场所,是学生构建合理知识结构的第二课堂。
2.简述信息、知识、文献的概念及相互关系。
答:信息的概念:一般来说,信息是指与客观事物相联系,反映客观事物的运动状态,通过一定的物质载体被发出、传递和感受,对接受对象的思维产生影响并用来指导接受对象的行为的一种描述。
从本质上说,信息是反映现实世界的运动、发展和变化状态及规律的信号与消息。
知识的概念:知识是人类通过信息对自然界、人类社会以及思维方式与运动规律的认识和掌握,是人的大脑通过思维重新组合的系统化的信息的集合。
知识是人类在改造客观世界的实际中所获得的认识和经验的总和,是信息的一部分,是一种特定的人类信息。
文献的概念:文献是记录有知识的一切物质载体。
具体地说是用文字、图形、符号、声频、视频等技术手段记录人类知识的一切物质载体。
信息、知识和文献之间的关系是:信息是事物发出的消息,信息经过人脑加工形成知识。
只有将自然现象和社会现象的信息经过加工,上升为对自然和社会发展客观规律的认识,这种再生信息才构成知识。
知识信息被记录在载体上就形成文献。
3.何谓信息资源?网络信息资源有何特点?所谓信息资源,就是信息的来源。
各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源。
网络信息资源具有数量大、类型多、多媒体、非规范、跨时间、跨地域、跨行业、多语种等特点。
正式出版物和非正式信息交流交织在一起,使传统的人类信息交流链的格局被打破,各方在网络上既可以是信息的生产者、发布者,也可以是传播者和使用者,对学术交流环境和信息利用产生了深刻的影响。
信息检索复习提纲及答案第一篇:信息检索复习提纲及答案“信息获取与利用”复习大纲1.什么是信息素养?简述评判是否具备信息素养的标准是什么?结合自己的实际工作,谈谈提高信息素养的途径。
答:指个人“能认识到何时需要信息,和有效地搜索、评估和使用所需信息的能力”。
标准:⑴能够独立决定所需信息种类和程度。
⑵能够高效地获取所需信息。
⑶能够根据现有的知识背景和评价标准对信息及其来源进行评价及遴选。
⑷能够有效地利用信息达到某一特定的目的。
⑸能够在信息利用过程中遵守相关的法律法规。
途径:⑴通过网络搜索⑵信息检索课⑶参加“图书馆利用系列讲座”等信息实践活动。
2.信息、知识、情报的概念?举例说明概念间的区别和联系文献?答:信息,由事物发出的消息、指令、数据等所包含的内容。
如花的生长方向。
知识,是人类社会实践的总结,是人的主观世界对于客观世界的概括和如实反映。
如每天吃一个苹果有利健康。
情报,是激活了、活化了的知识,是为特定目的服务的信息。
如搜索汽车替代燃料时,获得有关乙醇汽油的信息就是情报。
3.文献有那些类型?将文献划分成这些类型的依据是什么?答:纸张文献、缩微文献、电子文献、音像文献。
依据知识内容、记录载体、记录方式。
4.科技文献的作用是什么? 答:⑴科技进步的阶梯。
⑵传递科技信息或知识。
⑶加速科学技术的进步,促进了社会的发展。
5.比较图书和期刊,他们各自有哪些特征,其特点和用途是什么?答:图书特点,内容系统、全面、成熟、可靠,但时效性较差。
用途,对范围较广的问题获得一般知识、或对陌生的问题获得初步了解。
特征,书名、著者、出版社名称、出版地点、出版时间、图书总页数、ISBN。
期刊特点,品种多、数量大、出版周期短、报道速度快、内容新颖、及时反映当前科技水平。
用途,是科技人员吸取成果、掌握进展、了解动态、开阔思路的重要参考文献。
特征:论文题名、著者、期刊刊名、卷号、期号、起止页号、ISSN。
6.特种文献有哪几种类型,简述其中任意两种的特点。
第一次作业1.定义:情报检索语言是根据情报检索的需要而创制的人工语言,专门用于各种手工的和计算机化的情报检索系统,表达文献主题概念和检索课题概念。
类型:情报检索语言可分为分类检索语言、主题检索语言和代码检索语言三大语系,此外,还有一种引证关系追溯法,按其作用来看,也可以说是情报检索语言的一种类型。
2. 具有直接性、专指性、灵活性的优点。
3.文献数据库类型:(1)题录数据库(2)文摘数据库(3)图书馆馆藏目录数据库(4)全文数据库(5)光盘数据库(6)多媒体数据库(7)网络数据库4.检索式:(作者单位:重庆医科大学) and (第一作者:文明)题录:超小型Fe3O4纳米的磁学性能测定作者:文明(1); 柏玮(2); 李少林(2); 李建(3); 李必波(4); 李强(3); 张志伟(1) 作者单位:(1)重庆医科大学附属第一医院放射科,重庆400016; (2)重庆医科大学基础医学院放射医学教研室,重庆400016; (3)西南大学物理学院,重庆400715; (4)重庆医科大学药学院,重庆400016出处:西南师范大学学报?自然科学版2007; 32(6) : 15-18相关链接:主题相关5.检索式:(缺省[智能]:糖尿病肾病) and (缺省[智能]:醛糖还原酶抑制剂预防)题录:醛糖还原酶抑制剂对糖尿病大鼠肾小球蛋白激酶C活性的影响作者:杨君作者单位:海军总医院肾内科100037出处:海军总医院学报2003.03.30; 16(1) : 11-13相关链接:参考文献主题相关6.检索式:(缺省[智能]:肿瘤) and (缺省:奥沙利铂or 草酸铂or 乐沙定or 草铂)题录:草酸铂联合不同方法静脉输注5-氟尿嘧啶治疗晚期消化道肿瘤的观察及护理作者:黄宗琼; 何敏; 许辉琼; 易琼作者单位:四川大学华西医院肿瘤二病房,四川成都610041出处:华西医学2008; 23(2) : 375-376相关链接:主题相关7.检索式:(缺省[智能]:视盘) and (主题词:血管炎)题录:中药为主治疗视盘血管炎作者:温树东; 李勋赤; 李长海作者单位:广州中山医科大学中山医科中心510060出处:中国中医眼科杂志1999.08.11; 9(3) : 153-154相关链接:参考文献主题相关第二次作业1.检索式:(机构=南京医科大学)*(题名或关键词=流行病学)*全部期刊*年=2000-2010命中文献数:共找到189条题录:BL教学模式在流行病学教学中的应用胡志斌彭志行沈红兵南京医科大学流行病与卫生统计学系,江苏南京210029摘要:在流行病学的教学中分别应用PBL教学模式和传统教学模式教学.并对教学效果进行量化比较。
信息检索导论第三次课后作业
1、习题13-2
答:(i)贝努利模型:三个文档具有相同的模型表示
(ii)多项式模型:文档1和文档2相同,文档3与它们都不同。
文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。
2、习题13-5
3、习题14-6
在图14-14 中,3 个向量→a、→b及→c中哪一个满足:(i) 采用内积计算的情况下与→x最近?(ii) 采用余弦相似度计算的情况下与→x最近?(iii) 采用欧氏距离计算的情况下与→x最近?
4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)?
答:一个数据集里支持向量的最小数目是2个。
因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。
5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。
请问这两个条件是否等价?
答:这两个停止条件是等价的。
当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均值算法计算出的文档的分配也就不再改变。
6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么?
b. 当使用HAC 算法时,预期的结果是否仍然一样?
答:a.预期的结果:文档根据语言的大致分成两类。
b.预期的结果不一样。
HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。
层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。
7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。
整个文档集如图18-4所示。
图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。
当然,该术语表只用于帮助理解,对检索系统来说是不可见的。
答:(1)词项-文档矩阵:
d1 d2 d3 d4 d5 d6
hello 1 0 0 0 0 1
open 0 1 0 0 0 0 house 0 1 0 0 0 0 profess0 0 0 1 0 0 and 0 0 0 0 0 1 welcom0 0 0 0 0 1 mi 0 0 1 0 0 0 case 0 0 1 0 0 0 hola 0 0 0 1 1 0 y 0 0 0 0 1 0 bienven0 0 0 0 1 0
(2)经过SVD分解,得到:
U2 = 0.00000 0.70711
0.00000 0.00000
0.00000 0.00000
-0.27639 0.00000
0.00000 0.50000
0.00000 0.50000
0.00000 0.00000
0.00000 0.00000
-0.72361 0.00000
-0.44721 0.00000
-0.44721 0.00000
Σ'2= 1.90211 0 0 1.84776
V2 = -0.00000 0.38268 -0.00000 -0.00000 -0.00000 -0.92388 -0.00000 -0.00000 1.00000 -0.00000 -0.00000 -0.00000
2-秩逼近矩阵为:
C2 = 0.00000 0.00000 1.30656 0.00000 0.00000 0.00000
0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.20119 0.00000 0.00000 0.00000 0.48571 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.52672 0.00000 0.00000 0.00000 1.27161 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 (3) C C T 的元素(i,j)代表了文档i 和文档j 的相似度。
(4) 22C C T
的元素(i,j)代表了在新的2维空间中文档i 和文档j 的相似度。
与22C C T
中的(i,j)元素不同,是因为在新的低秩表示空间中,将共现上相似的词
项合在一起,隐含地参照了英语与西班牙语的术语对照表。
8、习题19-5Goto 方式根据报价的高低来对广告进行排序,出价最高的广告商获得最高的位置,出价第二高的次之,其余以此类推。
如果出价最高的广告商给出的广告与查询无关时会出现什么问题?为什么会出现这样的情况?
答:无关的广告永远不会被用户点击,由此生成的搜索引擎也就没有收入。
广告商可以推送这样的广告,在推广自己品牌的同时而没有任何花费。
9、习题20-1在分布式采集系统中,为什么按照主机进行划分会比按照每个URL 进行划分要好?
答:有两个好处:其一,使得更容易跟踪同一主机的连续请求之间经过的时间;其二,主机的robots.txt文件可以在爬行的节点处被缓存和重新利用。
10、习题21-3 对某个Web 网页x,假设给定了指向它的所有锚文本短语组成的集合,请给出某种启发式方法来从这个集合中选出针对x 的最具描述性的词项或短语。
答:若要从锚文本短语组成的集合中选出针对x的最具描述性的词项或短语,需要进行特征选择。
特征选择即从训练集合出现的词项中选出一部分子集,特征选择的指标包括互信息,2χ统计量及词项频率。
以2χ统计量为例,检测锚文本短语与Web网页x之间的独立性,2χ值越大则意味着独立性假设不成立。
如果某词项或者短语更能描述x,则两者的存在是相互依赖的,表现为2χ值越大。
THANKS !!!
致力为企业和个人提供合同协议,策划案计划书,学习课件等等
打造全网一站式需求
欢迎您的下载,资料仅供参考。