当前位置:文档之家› 中国科学院大学现代信息检索课后习题答案

中国科学院大学现代信息检索课后习题答案

中国科学院大学现代信息检索课后习题答案
中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案

王斌

最后更新日期2013/9/28

第一章布尔检索

习题1-1 [*]画出下列文档集所对应的倒排索引(参考图1-3中的例子)。

文档1 new home sales top forecasts

文档2 home sales rise in july

文档3 increase in home sales in july

文档4 july new home sales rise

习题1-2 [*]考虑如下几篇文档:

文档1 breakthrough drug for schizophrenia

文档2 new schizophrenia drug

文档3 new approach for treatment of schizophrenia

文档4 new hopes for schizophrenia patients

a. 画出文档集对应的词项—文档矩阵;

解答:

文档1 文档2 文档3 文档4 approach 0 0 1 0 breakthrough 1 0 0 0

drug 1 1 0 0

for 1 0 1 1

hopes 0 0 0 1

new 0 1 1 1

of 0 0 1 0

patients 0 0 0 1

schizophrenia 1 1 1 1

treatment 0 0 1 0

b. 画出该文档集的倒排索引(参考图1-3中的例子)。

解答:参考a。

习题1-3 [*]对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?

a.schizophrenia AND drug

解答:{文档1,文档2}

b.for ANDNOT (drug OR approach)

解答:{文档4}

习题1-4 [*]对于如下查询,能否仍然在O(x+y)次内完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。如果不能的话,那么我们能达到的时间复杂度是多少?

a.Brutus AND NOT Caesar

b.Brutus OR NOT Caesar

解答:

a.可以在O(x+y)次内完成。通过集合的减操作即可。具体做法参考习题1-11。

b.不能。不可以在O(x+y)次内完成。因为NOT Caesar的倒排记录表需要提取其他所有词项对应的倒

排记录表。所以需要遍历几乎全体倒排记录表,于是时间复杂度即为所有倒排记录表的长度的和

N,即O(N) 或者说O(x+N-y)。

习题1-5 [*]将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询

c.(Brutus OR Caesar) AND NOT (Antony OR Cleopatra)

我们能在线性时间内完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗?

解答:时间复杂度为O(qN),其中q为表达式中词项的个数,N为所有倒排记录表长度之和。也就是说可以在词项个数q及所有倒排记录表长度N的线性时间内完成合并。由于任意布尔表达式处理算法复杂度的上界为O(N),所以上述复杂度无法进一步改进。

习题1-6 [**]假定我们使用分配律来改写有关AND和OR的查询表达式。

a. 通过分配律将习题1-5中的查询写成析取范式;

12

b. 改写之后的查询的处理过程比原始查询处理过程的效率高还是低?

c. 上述结果对任何查询通用还是依赖于文档集的内容和词本身?

解答:

a. 析取范式为:(Brutus And Not Anthony And Not Cleopatra) OR (Caesar ANDNOTAnthony ANDNOTCleopatra)

b. 这里的析取范式处理比前面的合取范式更有效。这是因为这里先进行AND操作(括号内),得到的倒排记录表都

不大,再进行OR操作效率就不会很低。而前面需要先进行OR操作,得到的中间倒排记录表会更大一些。

c. 上述结果不一定对,比如两个罕见词A和B构成的查询(A OR B) AND NOT(HONG OR KONG),假设HONG KONG一起出现很频繁。此时合取方式可能处理起来更高效。如果在析取范式中仅有词项的非操作时,b中结果不对。

习题1-7 [*]请推荐如下查询的处理次序。

d.(tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)

其中,每个词项对应的倒排记录表的长度分别如下:

词项倒排记录表长度

eyes 213312

kaleidoscope 87009

marmalade 107913

skies 271658

tangerine 46653

trees 316812

解答:

由于:

(tangerine OR trees)→46653+316812 = 363465

(marmalade OR skies)→ 107913+271658 = 379571

(kaleidoscope OR eyes)→ 87009+213312 = 30321

所以推荐处理次序为:

(kaleidoscope OR eyes)AND (tangerine OR trees) AND (marmalade OR skies)

习题1-8[*] 对于查询

e.friends AND romans AND (NOT countrymen)

如何利用countrymen的文档频率来估计最佳的查询处理次序?特别地,提出一种在确定查询顺序时对逻辑非进行处理的方法。

解答:令friends、romans和countrymen的文档频率分别为x、y、z。如果z极高,则将N-z作为NOT countrymen 的长度估计值,然后按照x、y、N-z从小到大合并。如果z极低,则按照x、y、z从小到大合并。

习题1-9 [**]对于逻辑与构成的查询,按照倒排记录表从小到大的处理次序是不是一定是最优的?如果是,请给出解释;如果不是,请给出反例。

解答:不一定。比如三个长度分别为x,y,z的倒排记录表进行合并,其中x>y>z,如果x和y的交集为空集,那么有可能先合并x、y效率更高。

习题1-10 [**]对于查询x OR y,按照图1-6的方式,给出一个合并算法。

解答:

1 answer<- ( )

2 while p1!=NIL and p2!=NIL

3 do if docID(p1)=docID(p2)

4 then ADD(answer,docID(p1))

5 p1<- next(p1)

6 p2<-next(p2)

7 else if docID(p1)

8 then ADD(answer,docID(p1))

9p1<- next(p1)

10else ADD(answer,docID(p2))

11 p2<-next(p2)

12if p1!=NIL // x还有剩余

13 then while p1!=NIL do ADD (answer, docID(p1))

14 else while p2!=NIL do ADD(answer,docID(p2))

15 return(answer)

习题1-11 [*]如何处理查询x AND NOT y?为什么原始的处理方法非常耗时?给出一个针对该查询的高效合并算法。

解答:由于NOT y几乎要遍历所有倒排表,因此如果采用列举倒排表的方式非常耗时。可以采用两个有序集合求减的方式处理x AND NOT y。算法如下:

Meger(p1,p2)

1 answer ()

2 while p1!=NIL and p2!=NIL

3 do if docID(p1) =docID(p2)

4 then p1←next(p1)

5 p2←next(p2)

6 else if docID(p1)

7 then ADD(answer, docID(p1))

8 p1←next(p1)

9 else ADD(answer, docID(p2))

10 p2←next(p2)

11 if p1!=NIL // x还有剩余

12 then while p1!=NIL do ADD (answer, docID(p1))

13 return(answer)

习题1-12 [*]利用Westlaw系统的语法构造一个查询,通过它可以找到professor、teacher或lecturer中的任意一个词,并且该词和动词explain在一个句子中出现,其中explain以某种形式出现。

解答:professor teacher lecturer /s explain!

习题1-13 [*]在一些商用搜索引擎上试用布尔查询,比如,选择一个词(如burglar),然后将如下查询提交给搜索引擎

(i) burglar;(ii)burglar AND burglar;(iii) burglar OR burglar。

对照搜索引擎返回的总数和排名靠前的文档,这些结果是否满足布尔逻辑的意义?对于大多数搜索引擎来说,它们往往不满足。你明白这是为什么吗?如果采用其他词语,结论又如何?比如以下查询

(i) knight;(ii) conquer;(iii) knight OR conquer。

第二章词汇表和倒排记录表

习题2-1 [*]请判断如下说法是否正确。

a. 在布尔检索系统中,进行词干还原从不降低正确率。

b. 在布尔检索系统中,进行词干还原从不降低召回率。

c. 词干还原会增加词项词典的大小。

d. 词干还原应该在构建索引时调用,而不应在查询处理时调用。

解答:a错b 对c错d 错

习题2-7 [*]考虑利用如下带有跳表指针的倒排记录表

和一个中间结果表(如下所示,不存在跳表指针)进行合并操作。

3589959799100101

采用图2-10所示的倒排记录表合并算法,请问:

a.跳表指针实际跳转的次数是多少(也就是说,指针p1的下一步将跳到skip(p1))?

一次,24—>75

b.当两个表进行合并时,倒排记录之间的比较次数是多少?【如下答案不一定正确,有人利用程序

计算需要21次,需要回到算法,本小题不扣分,下面不考虑重新比较同意对数字】解答:18次:<3,3>, <5,5>, <9,89>,

<15,89>,<24,89>,<75,89>,<92,89>,<81,89>,<84,89>,<89,89>,<92,95>,<115,95>,<96,95>,<96,97>,<97,97>,<1 00,99>,<100,100><115,101>

c.如果不使用跳表指针,那么倒排记录之间的比较次数是多少?

解答:19次:

<3,3>,<5,5>,<9,89>,<15,89>,<24,89>,<39,89>,<60,89>,<68,89>,<75,89>,<81,89>,<84,89>,<89,89><92,95>, <96,95>,<96,97>,<97,97>,<100,99>,<100,100>,<115,101>

习题2-9 [*]下面给出的是一个位置索引的一部分,格式为:词项: 文档1: 〈位置1, 位置2,…〉;文档2: 〈位置1, 位置2,…〉。

angels: 2: 〈36,174,252,651〉; 4: 〈12,22,102,432〉; 7: 〈17〉;

fools: 2: 〈1,17,74,222〉; 4: 〈8,78,108,458〉; 7: 〈3,13,23,193〉;

fear: 2: 〈87,704,722,901〉; 4: 〈13,43,113,433〉; 7: 〈18,328,528〉;

in: 2: 〈3,37,76,444,851〉; 4: 〈10,20,110,470,500〉; 7: 〈5,15,25,195〉;

rush: 2: 〈2,66,194,321,702〉; 4: 〈9,69,149,429,569〉; 7: 〈4,14,404〉;

to: 2: 〈47,86,234,999〉; 4: 〈14,24,774,944〉; 7: 〈199,319,599,709〉;

tread: 2: 〈57,94,333〉; 4: 〈15,35,155〉; 7: 〈20,320〉;

where: 2: 〈67,124,393,1001〉; 4: 〈11,41,101,421,431〉; 7: 〈16,36,736〉;

那么哪些文档和以下的查询匹配?其中引号内的每个表达式都是一个短语查询。

a.“fools rush in”。

解答:文档2、4、7

b. “fools rush in” AND “angels fear to tread”。

解答:文档4

第三章词典及容错式检索

习题 3-5 再次考虑3.2.1节中的查询fi*mo*er ,如果采用2-gram 索引的话,那么对应该查询应该会

产生什么样的布尔查询?你能否举一个词项的例子,使该词匹配3.2.1节的轮排索引查询,但是并不满足刚才产生的布尔查询?

解答: 2-gram 索引下的布尔查询:$f AND fi AND mo AND er AND r$

词项filibuster(海盗)满足3.2.1节的轮排索引查询,但是并不满足上述布尔查询

习题 3-7 如果 |si | 表示字符串si 的长度,请证明s1和s2的编辑距离不可能超过max{|s1|, |s2|}。 证明:不失一般性,假设|s1|<= |s2|,将s1转换为s2的一种做法为:将s1中的每个字符依次替换为

s2中的前|s1|个字符,然后添加s2的后|s2|-|s1|个字符,上述操作的总次数为|s2|= max{|s1|, |s2|},根据编辑距离的定义,其应该小于|s2|= max{|s1|, |s2|}

习题 3-8 计算paris 和 alice 之间的编辑距离,给出类似于图3-5中的算法结果,其中的5 × 5 矩

阵包含每个前缀子串之间的计算结果。 解答:

习题 3-11 考虑四词查询catched in the rye ,假定根据独立的词项拼写校正方法,每个词都有5个可

选的正确拼写形式。那么,如果不对空间进行缩减的话,需要考虑多少可能的短语拼写形式(提示:同时要考虑原始查询本身,也就是每个词项有6种变化可能)? 解答:6*6*6*6=1296

习题 3-14 找出两个拼写不一致但soundex 编码一致的专有名词。

解答:Mary, Mira (soundex 相同),

本题答案不唯一,可能有其他答案,

但是soundex 编码必须一致。

57

第四章索引构建

习题4-1如果需要T log2T次比较(T是词项ID—文档ID对的数目),每次比较都有两次磁盘寻道过程。假定使用磁盘而不是内存进行存储,并且不采用优化的排序算法(也就是说不使用前面提到

的外部排序算法),那么对于Reuters-RCV1构建索引需要多长时间?计算时假定采用表4-1中的

系统参数。

解答:

对于Reuters-RCV1,T=108

因此排序时间(文档分析时间可以忽略不计)为:2*(108*log2108)*5*10-3s = 26575424s = 7382 h=308 day

习题4-3对于n = 15个数据片,r = 10个分区文件,j = 3个词项分区,假定使用的集

群的机器的参数如表4-1所示,那么在MapReduce构架下对Reuters-RCV1语料进行分布式索引需要多长时间?

【给助教:教材不同印刷版本表4-2不一样,不同同学用的不同版本,还有本题过程具有争议。暂不扣分】

解答【整个计算过程是近似的,要了解过程】:

(一)、MAP阶段【读入语料(已经不带XML标记信息了,参考表5-6),词条化,写入分区文件】:

(1) 读入语料:

基于表4-2,Reuters RCV1共有8*105篇文档,每篇文档有200词条,每个词条(考虑标点和空格)占6B,因此整个语料库的大小为8*105*200*6=9.6*108B (近似1GB,注表4-2对应于表5-1第3行的数据,而那里的数据已经经过去数字处理,因此实际的原始文档集大小应该略高于0.96G,这里近似计算,但是不要认为没有处理就得到表5-1第3行的结果)

将整个语料库分成15份,则每份大小为9.6*108/15 B

每一份读入机器的时间为:9.6*108/15*2*10-8=1.28s

(2) 词条化:每一份语料在机器上进行词条化处理,得到8*105*200=1.6*108个词项ID-文档ID对(参考表4-2和图4-6,注意此时重复的词项ID-文档ID对还没有处理),共占1.6*108*8=1.28*109个字节,词条化的时间暂时忽略不计【从题目无法得到词条化这一部分时间,从表5-1看词条化主要是做了去数字和大小写转换,当然也感觉这一部分的处理比较简单,可以忽略】。

(3) 写入分区文件:每一份语料得到的词项ID-文档ID (Key-Value)存储到分区所花的时间为:

(1.28*109/15)*2*10-8=1.71s

(4) MAP阶段时间:

由于分成15份,但只有10台机器进行MAP操作,所以上述MAP操作需要两步,因此,整个MAP

过程所需时间为(1.28+1.71)*2=6.0s

(二)、REDUCE阶段【读入分区文件,排序,写入倒排索引】:

(1) 读入分区文件【读入过程中已经实现所有Key-Value对中的Value按Key聚合,即变成Key, list(V1,V2..)。聚合过程在内存中实现,速度很快,该时间不计。另外,网络传输时间这里也不计算】:根据表4-2,所有倒排记录的数目为1.6*108,因此3台索引器上每台所分配的倒排记录数目为1.6*108/3,而每条记录由4字节词项ID和4字节文档ID组成,因此每台索引器上需要读入的倒排记录表数据为1.28*109/3字节。

于是,每台索引器读数据的时间为1.28*109/3*2*10-8=8.5s

(2) 排序:

每台索引器排序所花的时间为1.6*108/3*log2(1.6*108/3)*10-8=13.7s

(3) 写入倒排索引文件【此时倒排文件已经实现文档ID的去重,假定只存储词项ID和文档ID列表,并不存储其他信息(如词项的DF及在每篇文档中的TF还有指针等等)】:

需要写入磁盘的索引大小为(据表4-2,词项总数为4*105个) 4*105/3*4+108/3*4=4/3*108字节

索引写入磁盘的时间为:4/3*108*2*10-8=2.7s

(4) REDUCE阶段时间为:8.5+13.7+2.7=24.9

(三) 因此,整个分布式索引的时间约为6.0+8.5+13.7+2.7=30.9s

第五章索引压缩

习题5-2估计Reuters-RCV1文档集词典在两种不同按块存储压缩方法下的空间大小。其中,第一种方法中k = 8,第二种方法中k = 16。

解答:

每8个词项会节省7*3个字节,同时增加8个字节,于是每8个词项节省7*3-8=13字节,所有

词项共节省13*400000/8=650K,因此,此时索引大小为7.6MB-0.65MB=6.95MB

每16个词项会节省15*3个字节,同时增加16个字节,于是每16个词项节省15*3-16=29字节,

所有词项共节省29*400000/16=725K,因此,此时索引大小为7.6MB-0.725MB=6. 875MB

习题5-6考虑倒排记录表(4, 10, 11, 12, 15, 62, 63, 265, 268, 270, 400)及其对应的间距表(4, 6, 1, 1, 3, 47, 1, 202,3, 2, 130)。假定倒排记录表的长度和倒排记录表分开独立存储,这

样系统能够知道倒排记录表什么时候结束。采用可变字节码:

(i) 能够使用1字节来编码的最大间距是多少?

(ii) 能够使用2字节来编码的最大间距是多少?

(iii) 采用可变字节编码时,上述倒排记录表总共需要多少空间(只计算对这些数字序列进行编码

的空间消耗)?

解答:

(i) 27-1=127 (答128也算对,因为不存在0间距,0即可表示间距1,……)

(ii) 214-1=16383 (答16384也算对)

(iii) 1+1+1+1+1+1+1+2+1+1+2=13

习题5-8 [*]对于下列采用γ 编码的间距编码结果,请还原原始的间距序列及倒排记录表。

1110001110101011111101101111011

解答:

1110 001; 110 10; 10 1; 111110 11011; 110 11

1001; 110; 11; 111011; 111

9; 6; 3; 32+16+8+2+1=59; 7

9; 15;18;77;84

第六章文档评分、词项权重计算及向量空间模型

习题6-10考虑图6-9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf情况,采用图6-8中的idf 值来计算所有词项car、auto、insurance及best的tf-idf值。

图6-9习题6-10中所使用的tf值

解答:

idf car=1.65,idf auto=2.08,idf insurance=1.62,idf best=1.5,

于是,各词项在各文档中的tf-idf结果如下表:

习题6-12公式(6-7)中对数的底对公式(6-9)会有什么影响?对于给定查询来说,对数的底是否会对文档的排序造成影响?

解答:没有影响。

假定idf采用与(6-7)不同的底x计算,根据对数换底公式有。

idf t(x)=log x(N/df t)=log(N/df t)/logx=idf t/logx,

由于idft(x)和idft之间只相差一个常数因子1/logx,在公式(6-9)的计算中该常数可以作为公因子提出,因此文档的排序不会改变。

习题6-19计算查询digital cameras及文档digital cameras and video cameras的向量空间相似度并将结果填入表6-1的空列中。假定N=10000000,对查询及文档中的词项权重(wf对应的列)采

用对数方法计算,查询的权重计算采用idf,而文档归一化采用余弦相似度计算。将and看成是

121 停用词。请在tf列中给出词项的出现频率,并计算出最后的相似度结果。

表6-1习题6-19中的余弦相似度计算

习题6-23考虑习题6-10中4个词项和3篇文档中的tf和idf值,采用如下权重计算机制来计算获得得分最高的两篇文档:(i) nnn.atc ;(ii) ntc.atc。

解答:(i) 根据题意文档采用nnn,查询采用atc,然后计算内积,于是有:

于是,在nnn.atc下,Score(q,Doc3)>Score(q,Doc2)>Score(q,Doc1) (ii) 根据题意文档采用ntc,查询采用atc,然后计算内积,于是有:

于是,在nnn.atc下,Score(q,Doc3)>Score(q,Doc1)>Score(q,Doc2)

第七章一个完整搜索系统中的评分计算

习题7-3给定单个词项组成的查询,请解释为什么采用全局胜者表(r=K)已经能够充分保证找到前K篇文档。如果只有s个词项组成的查询(s>1),如何对上述思路进行修正?

解答:

词项t所对应的tf最高的r篇文档构成t的胜者表。单词项查询,idf已经不起作用了(idf用于区别不同词的先天权重),所以此时已经足够了。

对于s个词项组成的查询,有idf权重了。。因此,不再独立。【这一问本人也不知道该怎么答,不扣分吧】

习题7-5重新考察习题6-23中基于nnn.atc权重计算的数据,假定Doc1和Doc2的静态得分分别是1和2。请确定在公式(7-2)下,如何对Doc3的静态得分进行取值,才能分别保证它能够成

为查询best car insurance的排名第一、第二或第三的结果。

解答:这道题不扣分吧。。整个书上有关余弦相似度的计算这块都有问题【即按照公式(7-2) (6-12)算出的应该是0到1之间的数,但实际例子(例6-4)却是大于1的数,例子中都没有考虑查询向量的

大小。另外,按照习题6-23中nnn.atc算出的根本不是什么余弦相似度。整个一团乱】

如果相似度先采用nnn.atc计算,最后除以文档向量的大小,则三篇文档的得分分别为:1.39、1.47和1.68。

–排名第一:g(d3)+1.68>3.47, g(d3)>1.79

–排名第二:2.39< g(d3)+1.68 <3.47, 0.71< g(d3)<1.79

–排名第三:0< g(d3) < 0.71

习题7-7设定图6-10中Doc1、Doc2和Doc3的静态得分分别是0.25、0.5和1,画出当使用静态得分与欧几里得归一化tf值求和结果进行排序的倒排记录表。

第八章信息检索的评价

习题 8-8 [*] 考虑一个有4篇相关文档的信息需求,考察两个系统的前10个检索结果(左边的结果

排名靠前),相关性判定的情况如下所示: 系统1 R N R N N N N N R R 系统2

N R N N R R R N N N

a. 计算两个系统的MAP 值并比较大小。

b. 上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的MAP 得分?

c. 计算两个系统的R 正确性值,并与a 中按照MAP 进行排序的结果进行对比。 解答:

a. 系统1 (1+2/3+3/9+4/10)/4=0.6 系统2 (1/2+2/5+3/6+4/7)/4=0.492

b. 相关文档出现得越靠前越好,最好前面3-5篇之内

c. 系统1的R-Precision= 0.5, 系统2 R-Precision= 0.25

习题 8-9 [**] 在10000篇文档构成的文档集中,某个查询的相关文档总数为8,下面给出了某系统

针对该查询的前20个有序结果的相关(用R 表示)和不相关(用N 表示)情况,其中有6篇相关文档:

R R N N N N N N R N R N N N R N N N N R

a. 前20篇文档的正确率是多少?

P@20=6/20=30%

b. 前20篇文档的F 1值是多少?

R@20=6/8=75%,F1=3/7=0.429

c.

在25%召回率水平上的插值正确率是多少? 1

d. 在33%召回率水平上的插值正确率是多少?

3/9=33.3%

e. 假定该系统所有返回的结果数目就是20,请计算其MAP 值。

(1+1+3/9+4/11+5/15+6/20)/8=0.4163

假定该系统返回了所有的10000篇文档,上述20篇文档只是结果中最靠前的20篇文档,那么 f.

该系统可能的最大MAP 是多少?

从第21位开始,接连两篇相关文档,此时可以获得最大的MAP ,此时有: (1+1+3/9+4/11+5/15+6/20+7/21+8/22)/8=0.503 g.

该系统可能的最小

MAP 是多少?

(1+1+3/9+4/11+5/15+6/20+7/9999+8/10000)/8=0.4165

h. 在一系列实验中,只有最靠前的20篇文档通过人工来判定,(e)的结果用于近似从(f)到(g)的MAP 取值范围。对于上例来说,通过(e)而不是(f)和(g)来计算MAP 所造成的误差有多大(采用绝对值来计算)?

|0.4163-(0.503+0.4165)/2|=0.043

150

第九章相关反馈及查询扩展

习题9-3:用户查看了两篇文档d1 和d2,并对这两篇文档进行了判断:包含内容CDs cheap software cheap CDs的文档d1为相关文档,而内容为cheap thrills DVDs 的文档d2为不相关文档。假设直接使用词项的频率作为权重(不进行归一化也不加上文档频率因子),也不对向量进行长度归一化。采用公式(9-3)进行Rocchio相关反馈,请问修改后的查询向量是多少?其中α = 1,β = 0.75,γ = 0.25。

解答:

习题9-4:Omar实现了一个带相关反馈的Web搜索系统,并且为了提高效率,系统只基于返回网页的标题文本进行相关反馈。用户对结果进行判定,假定第一个用户Jinxing的查询是

banana slug

返回的前三个网页的标题分别是:

banana slug Ariolimax columbianus

Santa Cruz mountains banana slug

Santa Cruz Campus Mascot

Jinxing认为前两篇文档相关,而第3篇文档不相关。假定Omar的搜索引擎只基于词项频率(不包括长度归一化因子和IDF因子)进行权重计算,并且假定使用Rocchio算法对原始查询进行修改,其中α = β = γ = 1。请给出最终的查询向量(按照字母顺序依次列出每个词项所对应的分量)。

解答:

第十章XML检索

(无作业)

第十一章概率检索模型

习题11-1 根据公式(11-18)和公式(11-19)推导出公式(11-20)。

解答:代入求解即可。

习题11-3 令Xt表示词项t在文档中出现与否的随机变量。假定文档集中有|R|篇相关文档,其中有s 篇文档包含词项t,即在这s篇文档中Xt=1。假定所观察到的数据就是这些Xt在文档中的分布情况。

请证明采用MLE估计方法对参数进行估计的结果,即使得观察数据概率最大化的参数值为pt = s/ |R|。

第十二章基于语言建模的信息检索模型

习题12-3习题12-3 例12-2中按照M1 和M2 算出的文档的似然比是多少?

解答:由于P(s|M1) = 0.000 000 000 000 48

,P(s|M2) = 0.000 000 000 000 000 384,所以两者的似然比是0.00000000000048/ 0.000000000000000384 =1250

习题12-6 [*] 考虑从如下训练文本中构造LM :

the martian has landed on the latin pop sensation ricky martin 请问:

a. 在采用MLE 估计的一元概率模型中,P(the)和P(martian)分别是多少?

b. 在采用MLE 估计的二元概率模型中,P(sensation|pop)和P(pop|the)的概率是多少? 解答: a.

P(the)=2/11, P(martian)=1/11 b. P(sensation|pop)=1, P(pop|the)=0

习题12-7 [**] 假定某文档集由如下4篇文档组成:

为该文档集建立一个查询似然模型。假定采用文档语言模型和文档集语言模型的混合模型,权重均为0.5。采用MLE 来估计两个一元模型。计算在查询click 、shears 以及click shears 下每篇文档模型对应的概率,并利用这些概率来对返回的文档排序。将这些概率填在下表中。 解答:

文档及文档集MLE 估计

于是,加权以后的估计结果doc4> doc1>doc2>doc3

第十三章文本分类及朴素贝叶斯方法

习题 13-2 [*] 表13-5中的文档中,对于如下的两种模型表示,哪些文档具有相同的模型表示?哪些文档具有不同的模型表示?对于不同的表示进行描述。(i) 贝努利模型,(ii) 多项式模型。

query doc1 doc2 doc3 doc4 collection click 1/2 1 0 1/4 7/16 shears

1/8

1/4

2/16

第十四章基于向量空间模型的文本分类第十五章支持向量机及文档机器学习方法第十六章扁平聚类

第十七章层次聚类

第十八章矩阵分解及隐性语义索引

第十九章Web搜索基础

第二十章Web采集及索引

第二十一章链接分析

大学生信息检索习题以及答案

大学生信息检索概论》模拟试题 一、填空题 1、文献的级次分为零次文献、一次文献、二次文献、三次文献 2、《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思想 、哲学;社会科学;自然科学和综合性图书,在此基础上又划分为22 个大类。 3、按内容可将计算机检索系统的数据库类型分为:文献书目型数据库、事 实型数据库、数值型数据库和全文型数据库。 4、我国标准可分为国家标准、部标准和企业标准三大类。 5、在实际检索中,文献的检索方法主要有:直查法、追溯法、工具法 和综合法。 6、国际标准化组织简称:ISO 、本标准每5 年修订一次 二、选择题1、如果需要检索某位作者的文献被引用的情况,应该使用(C )检索。 A. 分类索引 B.作者索引C?引文索引D ?主题索引 2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库是( D )。 A.超星数字图书馆B ?万方学位论文 C ?国研网D ?维普科技期刊E. 高校财经库 3、如果检索有关多媒体网络传播方面的文献,检索式为( A D)。 A.多媒体and网络传播B ?多媒体+网络传播 C ?多媒体or网络传播 D.多媒体*网络传播 4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E )。 A.关键词B .作者C .刊名D .题名E .文摘 5、二次文献又称检索工具,包括:(A C D )。 A.书目 B.百科 C.索引 D.文摘 E.统计数据 三、名词解释题 1、文献 用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一 定物质载体上的知识。也可以理解为古今一切社会史料的总称。 2、体系分类语言 体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。 3、引文语言 引文语言是根据文献所附参考或引用文献的特征进行检索的语言。 4、事实检索 以事项为检索内容的文献信息检索 5、二次文献 对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检 索刊物)等

各大学教材课后习题答案网址

各大学教材课后习题答案网址 《线性代数》(同济第四版)课后习题答案(完整版) 高等数学(同济第五版)课后答案(PDF格式,共527页) 中国近现代史纲要课后题答案 曼昆《经济学原理》课后习题解答 21世纪大学英语读写教程(第三册)参考答案 谢希仁《计算机网络教程》(第五版)习题参考答案(共48页) 《概率论与数理统计》习题答案 http:// 《模拟电子技术基础》详细习题答案(童诗白,华成英版,高教版) 《机械设计》课后习题答案(高教版,第八版,西北工业大学) 《大学物理》完整习题答案 .com/viewthread.php?tid=217&fromuid=164951 《管理学》课后答案(周三多) 机械设计基础(第五版)习题答案[杨可桢等主编] 程守洙、江之永主编《普通物理学》(第五版)详细解答及辅导 .php?tid=3&fromuid=164951 新视野大学英语课本详解(四册全) 21世纪大学英语读写教程(第四册)课后答案 新视野大学英语读写教程3册的课后习题答案 1

新视野大学英语第四册答案(第二版) 《中国近现代史》选择题全集(共含250道题目和答案) 《电工学》课后习题答案(第六版,上册,秦曾煌主编) 完整的英文原版曼昆宏观、微观经济学答案 《数字电子技术基础》习题答案(阎石,第五版) 《电路》习题答案上(邱关源,第五版) 《电工学》习题答案(第六版,秦曾煌) https://www.doczj.com/doc/6716476173.html,/viewthread.php?tid=112&fromuid=164951 21世纪大学英语读写教程(第三册)课文翻译 《生物化学》复习资料大全(3套试卷及答案+各章习题集) 《模拟电子技术基础》课后习题答案(共10章)ewthread.php?tid=21&fromuid=164951 《概率论与数理统计及其应用》课后答案(浙江大学盛骤谢式千编著)《理论力学》课后习题答案(赫桐生,高教版) 《全新版大学英语综合教程》(第四册)练习答案及课文译文viewthread.php?tid=78&fromuid=164951 《化工原理答案》课后习题答案(高教出版社,王志魁主编,第三版)《国际贸易》课后习题答案(海闻P.林德特王新奎) 大学英语综合教程1-4册练习答案 read.php?tid=1282&fromuid=164951 《流体力学》习题答案 《传热学》课后习题答案(第四版) 高等数学习题答案及提示

信息检索习题与答案

注意: 1、通读教材,根据页码提示完成下列题目。 2、最后一次上机课在线测试,围不超出如下题 目。 第一章 一、单选 1、报道围主要为能源方面的科技报告为( D)。 A、AD B、PB C、NASA D、DOE{第7页} 2、( C)是出版周期最短的定期连续出版物。 A、图书 B、期刊 C、报纸 D、学位论文{第6页} 3、( A)是高校或科研机构的毕业生为获取学位而撰写的。A、学位论文 B、科技报告 C、会议文献 D、档案文献{第6页} 4、了解各个国家政治、经济、科技发展政策的重要信息源是(B ) A、科技报告 B、政府出版物 C、标准文献 D、档案文献{第8页} 5、年鉴属于下列哪一类别( D) A、零次信息 B、一次信息 C、二次信息D、三次信息{第7页} (一次信息:图书、期刊论文、科技报告、会议论文、专利说明书及科技日记、杂记、实践记录) 6、下列哪种文献属于一次文献(A )。 A、图书 B、百科全书 C、综述 D、文摘 {第4页} 7、下列文献中属于一次信息的是(A )A、专利说明书 B、百

科全书 C、目录 D、综述{第4页} 8、以下各项属于二次信息的是(A) A、索引 B、期刊 C、学位论文 D、百科全书{第4页} (二次信息;目录、题录、文摘、索引、书目对一次信息有指引和报道作用) 二、多选 9、二次信息主要包括()等。 A、手册 B、年鉴C、目录 D、题录{第4页} 10、信息的属性包括()A、客观性 B、时效性 C、传递性 D、共享性{第3页} 11、信息素质的涵主要包括()。 A、信息意识素质 B、信息能力素质 C、信息道德素质 D、信息职业素质{第9页} 12、以下类型的信息属于三次信息的是()。 A、目录B、词典 C、百科全书 D、科技报告{第4页} 附加: I)信息道德规信息行为,主要包括()。A、不制作、传播、消费不良信息B、不侵犯他人的知识产权、商业秘密、隐私权C、恰当使用与合理开发信息技术D、私下交易个人信息(第10页) II)根据信息的载体和表达方式的不同,信息源可分为()。A、语言信息源B、二次信息C、实物信息源D、文献信息源(第4页) III)文献的基本要素有()。A、有一定的知识容B、一定要记录

《信息检索》总复习题库及答案

2011-2012经济学院《文献检索与利用》总复习题库 备注:红色为不确定答案,紫色是为了个人强化记忆。 单选题题库 1.下列属于布尔逻辑算符的是(D )。 A、与 B、或 C、非 D、以上都是 2、信息素养的核心是(C ). A、信息意识; B、信息知识; C、信息能力; D、信息道德 3、20世纪70年代,联合国教科文组织提出:人类要向着( B )发展. A、终身学习; B、学习型社会; C、创新发展; D、信息素质 4.参考文献的标准著录格式是( A )。 A、著者篇名来源出处; B、篇名著者来源出处 5.请标出文献:马品仲. 大型天文望远镜研究. 中国的空间科学技术,1993,13(5)P6-14, 1000-758X 属于哪种文献类型( C )。 A、图书; B、科技报告; C、期刊; D、报纸 6.常用的检索系统有( D )。 A、目录检索系统 B、文摘检索系统 C、全文检索系统 D、以上都是 7、哪一种布尔逻辑运算符用于交叉概念或限定关系的组配?( A )。A.逻辑与()B.逻辑或() C.逻辑非()D.逻辑与和逻辑非 8、根据国家相关标准,文献的定义是指“记录有关( C )的一切载体。”A.情报 B.信息. C.知识 D.数据 9、( D )是指通过文献信息资料的主题内容进行检索的途径。 A.题名检索途径 B.作者检索途径 C.分类检索途径 D.主题检索途径 10、搜索含有“”的文件,正确的检索式为:( A )

A." " B. 11、从文献的( B )角度区分,可将文献分为印刷型、电子型文献。A.内容公开次数 B.载体类型. C.出版类型 D.公开程度 12、按照出版时间的先后,应将各个级别的文献排列成( C ) A.三次文献、二次文献、一次文献B.一次文献、三次文献、二次文献C.一次文献、二次文献、三次文献 D.二次文献、三次文献、一次文献13、利用文献后面所附的参考文献进行检索的方法称为( A )。 A.追溯法 B.直接法. C.抽查法 D.综合法 14、《中国学术期刊全文数据库》给出的检索结果为( D )。 A.仅题录 B.仅文摘. C.仅全文 D.题录、文摘和全文三种 15、以作者本人取得的成果为依据而创作的论文、报告等,并经公开发表或出版的各种文献,称为( B ) A.零次文献 B.一次文献. C.二次文献 D.三次文献 16、学术论文写作的六个步骤的正确顺序是( C ): ①搜集资料②研究资料③执笔撰写④选择课题⑤明确论点⑥修改 定稿 A.①⑤④③②⑥ B.⑤③④②①⑥C.④①②⑤③⑥D.②④ ③①⑤⑥ 17、毕业论文答辩的一般程序是( B D ) ①学生答辩②学生作说明性汇报③毕业答辩小组提问④评定成绩 A.③④②①B.②③①④C.③②①④D.②③①④ 18、下列文献中属于哪类属于一次文献( C )? A.文摘 B.索引C.科技报告D.题录 19、如果检索结果过少,查全率很低,需要调整检索范围,此时调整检索策

信息检索与利用习题与答案

医学信息检索习题 单项选择题 1. 关于信息的说法错误的是() A. 信息和物资、能量构成社会三大资源 B. 信息的运动状态和方式是固定不变的 C. 信息是客观事物的运动状态和特征的反映 D. 信息的存储形式有多种多样 2. 下列文献中属于一次文献的是() A. 期刊论文 B. 年鉴 C. 目录 D. 文摘 3. 下列文献中属于二次文献的是() A. 索引 B. 述评 C. 研究报告 D. 专著 4. 下列哪个途径是从文献的内部特征进行检索的?() A. 刊名途径 B. 号码途径 C. 作者途径 D. 分类途径 5. 非规范化检索语言是指哪一项?() A. 主题检索语言 B. 关键词语言 C. 标题词语言 D. 叙词语言 6. 计算机文献检索中,每一种文献特征对应于计算机数据库中的() A. 一条记录 B. 一篇文献 C. 一个字段 D. 一个文档 7. 在CBMdisc检索中,如果在一个检索式中同时包含多个运算符,那么它们的运算优先级次序正确的为() A. AND>OR>NOT B. ( )> OR >AND> C. AND NOT>OR>AND D. ( )>AND NOT>AND>OR 8. Medline光盘数据库的内容涵盖三种重要的纸本医学文献检索工具,它们是() A. IM、Index to Dental Literature、International Nursing Index B. BA、IM、EM C. BA、EM、International Nursing Index D. BA、Index to Dental Literature、International Nursing Index 9. 下面哪个检索式的作用与短语检索"digiatal camera"等价:() A. digiatal (W) camera B. digiatal (N) camera C. digiatal AND camera D. digiatal OR camera 10. 检索工具的功能主要体现在() A. 使用说明 B. 目次表格 C. 索引部分 D. 附录部分 11. 在中国知网中,要求比较全面的检索有关“手术治疗近视”方面的文献,较好的检索策略为()(检索项:主题) A. 手术治疗近视 B. 手术并且治疗并且近视 C. 手术并且近视 D. 术并且近视 12. 在CBMdisc检索中,查找期刊《癌症》上的文献,其正确表达式为() A. 癌症in SO B. SO=癌症 C. 癌症in TA D. TA=癌症 13. 使用CBMdisc检索主题途径“卡介苗接种预防结核”的文献,检索表达式为() A. 卡介苗/治疗应用and 结核/预防与控制 B. 卡介苗预防and 结核 C. 卡介苗/预防and 结核/治疗 D. 卡介苗and 预防and 结核 14. 在Pubmed检索中,查找林立发表的文献,检索表达式应该是()

大学计算机第四版课后习题答案

大学计算机第四版课后习题答案
第一章 1.计算机的发展经历了机械式计算机、 (B) 式计算机和电子计算机三个阶 段。 (A)电子管 (B)机电 (C)晶体管 (D)集成电路 2.英国数学家巴贝奇曾设计了一种程序控制的通用(D)。 (A)加法器 (B)微机 (C)大型计算机 (D)分析机 3. 1939 年,美国爱荷华州立大学研制成功了一台大型通用数字电子计算机 ( D) 。 (A)ENIAC (B)Z3 (C)IBM PC (D)ABC 4.爱德华?罗伯茨 1975 年发明了第一台微机(C)。 (A)Apple II (B)IBM PC (C)牛郎星 (D)织女星 5.1981 年 IBM 公司推出了第一台(B)位个人计算机 IBM PC 5150。 (A)8 (B)16 (C)32 (D)64 6.我国大陆 1985 年自行研制成功了第一台 PC 兼容机(C)0520 微机。 (A)联想 (B)方正 (C)长城 (D)银河 7.摩尔定律指出,微芯片上集成的晶体管数目每(C)个月翻一番。 (A)6 (B)12 (C)18 (D)24 8.第四代计算机采用大规模和超大规模(B)作为主要电子元件。 (A)微处理器 (B)集成电路 (C)存储器 (D)晶体管 9.计算机朝着大型化和(C)化两个方向发展。 (A)科学 (B)商业 (C)微机 (D)实用 10.计算机中最重要的核心部件是(A)。
1 / 16

(A)CPU (B)DRAM (C)CD-ROM (D)CRT 11.计算机类型大致可以分为:大型计算机、(A)、嵌入式系统三类。 (A)微机 (B)服务器 (C)工业 PC (D)笔记本微机 12.大型集群计算机技术是利用许多台单独的(D)组成一个计算机群。 (A)CPU (B)DRAM (C)PC (D)计算机 13.(C)系统是将微机或微机核心部件安装在某个专用设备之内。 (A)大型计算机 (B)网络 (C)嵌入式 (D)服务器 14.冯结构计算机包括:输入设备、输出设备、存储器、控制器、 ( B) 五大组成部 分。 (A)处理器 (B)运算器 (C)显示器 (D)模拟器 15.在冯?诺伊曼计算机模型中,存储器是指(A)单元。 (A)内存 (B)外存 (C)缓存 (D)闪存 16.指令设计及调试过程称为(D)设计。 (A)系统 (B)计算机 (C)集成 (D)程序 17.指令的数量与类型由(A)决定。 (A)CPU (B)DRAM (C)SRAM (D)BIOS 18.一条指令通常由(B)和操作数两个部分组成。 (A)程序 (B)操作码 (C)机器码 (D)二进制数 19.硬件系统可以从系统结构和系统(A)两个方面进行描述。 (A)组成 (B)分析 (C)安全 (D)流程 20.CPU 性能的高低,往往决定了一台计算机(D)的高低。 (A)功能 (B)质量 (C)兼容性 (D)性能
2 / 16

大学计算机第四版课后习题答案

第一章 1.计算机的发展经历了机械式计算机、(B)式计算机和电子计算机三个阶段。 (A)电子管(B)机电(C)晶体管(D)集成电路 2.英国数学家巴贝奇曾设计了一种程序控制的通用(D)。 (A)加法器(B)微机(C)大型计算机(D)分析机 3. 1939年,美国爱荷华州立大学研制成功了一台大型通用数字电子计算机(D)。(A)ENIAC (B)Z3 (C)IBM PC (D)ABC 4.爱德华?罗伯茨1975年发明了第一台微机(C)。 (A)Apple II (B)IBM PC (C)牛郎星(D)织女星 5.1981年IBM公司推出了第一台(B)位个人计算机IBM PC 5150。 (A)8 (B)16 (C)32 (D)64 6.我国大陆1985年自行研制成功了第一台PC兼容机(C)0520微机。 (A)联想(B)方正(C)长城(D)银河 7.摩尔定律指出,微芯片上集成的晶体管数目每(C)个月翻一番。 (A)6 (B)12 (C)18 (D)24 8.第四代计算机采用大规模和超大规模(B)作为主要电子元件。 (A)微处理器(B)集成电路(C)存储器(D)晶体管 9.计算机朝着大型化和(C)化两个方向发展。 (A)科学(B)商业(C)微机(D)实用 10.计算机中最重要的核心部件是(A)。 (A)CPU (B)DRAM (C)CD-ROM (D)CRT 11.计算机类型大致可以分为:大型计算机、(A)、嵌入式系统三类。 (A)微机(B)服务器(C)工业PC (D)笔记本微机 12.大型集群计算机技术是利用许多台单独的(D)组成一个计算机群。 (A)CPU (B)DRAM (C)PC (D)计算机 13.(C)系统是将微机或微机核心部件安装在某个专用设备之内。 (A)大型计算机(B)网络(C)嵌入式(D)服务器 14.冯结构计算机包括:输入设备、输出设备、存储器、控制器、(B)五大组成部分。(A)处理器(B)运算器(C)显示器(D)模拟器 15.在冯?诺伊曼计算机模型中,存储器是指(A)单元。 (A)内存(B)外存(C)缓存(D)闪存 16.指令设计及调试过程称为(D)设计。 (A)系统(B)计算机(C)集成(D)程序 17.指令的数量与类型由(A)决定。 (A)CPU (B)DRAM (C)SRAM (D)BIOS 18.一条指令通常由(B)和操作数两个部分组成。 (A)程序(B)操作码(C)机器码(D)二进制数 19.硬件系统可以从系统结构和系统(A)两个方面进行描述。 (A)组成(B)分析(C)安全(D)流程 20.CPU性能的高低,往往决定了一台计算机(D)的高低。 (A)功能(B)质量(C)兼容性(D)性能 21.CPU始终围绕着速度与(B)两个目标进行设计。 (A)实用(B)兼容(C)性能(D)质量 22.主板性能的高低主要由(C)芯片决定。

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案 王斌 最后更新日期 2013/9/28 第一章布尔检索 习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。 文档 1 new home sales top forecasts 文档 2 home sales rise in july 文档 3 increase in home sales in july 文档 4 july new home sales rise 习题1-2 [*] 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; 解答: breakthrough 1 0 0 0 drug 1 1 0 0 for 1 0 1 1 hopes 0 0 0 1 new 0 1 1 1

patients 0 0 0 1 schizophrenia 1 1 1 1 treatment 0 0 1 0 b. 画出该文档集的倒排索引(参考图 1-3中的例子)。 解答:参考a。 习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么? a.schizophrenia AND drug 解答:{文档1,文档2} b.for AND NOT (drug OR approach) 解答:{文档4} 习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。如果不能的话,那么我们能达到的时间复杂度是多少? a.Brutus AND NOT Caesar b.Brutus OR NOT Caesar 解答: a.可以在O(x+y)次完成。通过集合的减操作即可。具体做法参考习题1-11。 b.不能。不可以在O(x+y)次完成。因为NOT Caesar的倒排记录表需要提取其他所有词项对应的倒 排记录表。所以需要遍历几乎全体倒排记录表,于是时间复杂度即为所有倒排记录表的长度的和 N,即O(N) 或者说O(x+N-y)。 习题1-5 [*] 将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询 c.(Brutus OR Caesar) AND NOT (Antony OR Cleopatra) 我们能在线性时间完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗? 解答:时间复杂度为O(qN),其中q为表达式中词项的个数,N为所有倒排记录表长度之和。也就是说可以在词项个数q及所有倒排记录表长度N的线性时间完成合并。由于任意布尔表达式处理算法复杂度的上界为O(N),所以上述复杂度无法进一步改进。 习题1-6 [**] 假定我们使用分配律来改写有关AND和OR的查询表达式。 a. 通过分配律将习题1-5中的查询写成析取式; 12 b. 改写之后的查询的处理过程比原始查询处理过程的效率高还是低? c. 上述结果对任何查询通用还是依赖于文档集的容和词本身? 解答: a. 析取式为:(Brutus And Not Anthony And Not Cleopatra) OR (Caesar AND NOT Anthony AND NOT Cleopatra) b. 这里的析取式处理比前面的合取式更有效。这是因为这里先进行AND操作(括号),得到的倒排记录表都不大, 再进行OR操作效率就不会很低。而前面需要先进行OR操作,得到的中间倒排记录表会更大一些。 c. 上述结果不一定对,比如两个罕见词A和B构成的查询 (A OR B) AND NOT(HONG OR KONG),假设HONG KONG一 起出现很频繁。此时合取方式可能处理起来更高效。如果在析取式中仅有词项的非操作时,b中结果 不对。 习题 1-7 [*] 请推荐如下查询的处理次序。 d. (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)

网络信息检索试题及答案

第一部分 1、一条及时的信息可能使濒临破产的企业起死回生,一条过时的信息可能分文不值,甚至是企业丧失难得的发展机遇,造成严重后果,这说明信息具有()特征。 A、差异性 B、传递性 C、时效性 D、共享性 2、培养学生养成良好的信息素养,主要从四个方面进行,其中不包含(): A、信息意识 B、信息心理 C、信息能力 D、信息道德 3、哈佛大学经济学专业学生能够依据图书馆中哪些极为平常、完全公开的图书资料,撰写出核专家都感到惊异的“制造核弹的方法”的报告,反映出良好的信息素养是()。 A、获取知识的捷径 B、科学研究的向导 C、终身教育的基础 D、创新知识的源泉 4、按照信息处理的级别来划分,可以将信息分为零次、一次、二次和三次信息,下面()是一次信息的别称。 A、灰色信息 B、原始信息 C、检索性信息 D、参考性信息 5、“便于保存传递、但需要借助阅读机阅读”是以感光材料记录文字及相关信息的()信息载体类型的特点。 A、印刷型 B、电子型 C、声像型 D、微缩型 6、谈谈你对“信息”的理解。 特征:客观性和普遍性、差异性、传递性、时效性、可转换性、共享性。 7、下列文献哪个是二次文献?( A ) A. 文摘 B. 会议文献 C. 辞典 D.百科全书 8、“文章草稿”、“私人笔记”及“会议记录”属于( A )。 A. 零次文献 B. 一次文献 C. 二次文献 D. 三次文献 9、下列选项中哪一项属于“国内统一刊号”(C )。 A. ISBN 7-04-014623-1 B. ISSN 0254-4164 C. CN 11-2127/TP D. 0254-4164/TP 10、根据国标GB/T 7714-2005规定,下面的横线上的信息是对( C )参考文献的著录条目描述。 萧钰.出版业信息化迈入快车道[EB/OL] .(2001-12-19) [2002-04- 15]. http:∥www. ….htm. A、标准文献 B、期刊(杂志) C、电子文献 D、会议文献 11、根据国标GB/T 7714-2005规定,下面的横线上的信息是对( B )参考文献的著录条目描述。 昂温G,昂温P S .外国出版史[M]. 陈生铮,译. 北京:中国书籍出版社, 2001:15-20 A、期刊(J) B、图书 C、科技报告(R) D、会议文献(Z) 12、下面哪些资料属于三次信息?(ACFLOP) A、《2009年山东省统计年鉴》 B、美国《工程索引》 C、《新华字典》 D、《新华文摘》 E、《机械工业出版社2012年图书征订目录》 F、《计算机科学技术百科全书》 G、《计算机工程与应用》 H、《网络营销》 I、《NASA报告》。 J、《博士论文:论网络时代的商务模

全新版大学英语综合教程2课后习题答案.doc

全新版大学英语综合教程答案~~最最最最新版,符合书本篇章哦~~ 来源:江湉的日志 Unit 1 Key to Exercises Part I Pre-Reading Task Script for the recording: Ways of learning is the topic of this unit. It is also the topic of the song you are about to listen to, called Teach Your Children sung by Crosby, Stills and Nash. Teach Your Children Crosby, Stills and Nash You, who are on the road, Must nave a code that you can live by. And so, become yourselr, Because the past is just a goodbye. Teach your cbildren well, Their lather's hell did slowly go by. And reed them on your dreams, The one they picks, the one you'll mow by. Don't you ever ash them why, ir they told you, you will cry, So just look at them and sigh and know they love you. Appendix I - 93 - And you, oi tender years,

信息检索技术习题答案样本

《信息检索技术》( 第三版) 书后习题及参考答案( 部分) 第1章绪论 【综合练习】 一、填空题 1.文献是信息的主要载体, 根据对信息的加工层次可将文献分为_________文献、 __________文献、 ___________文献和___________文献。 2.追溯法是指利用已经掌握的文献末尾所列的__________, 进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。 3.用规范化词语来表示文献信息__________的词汇叫主题词。主题途径是按照文献信息的主题内容进行检索的途径, 利用能代表文献内容的主题词、关键词、叙词、并按字顺序列实现检索。 4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。 5.无论是手工检索还是计算机检索, 都是一个经过仔细地思考并经过实践逐步完善查找方法的过程。检索过程一般包含以下几个步骤_________、 __________、 __________、 __________、_________。 6.检索工具按信息加工的手段能够分文__________、____________、 ___________。

7.《中国图书馆图书分类法》共分___________个基本部类, 下分________个大类。 8.索引包括4个基本要素: 索引源、___________、___________、和出处指引系统。 答案1.零次, 一次, 二次, 三次 2.参考文献, 引文 3.内容特征 4.检索提问词, 文献记录标引词 5.分析课题, 选择检索工具, 确定检索途径及检索式, 进行检索, 获取原文 6.手工检索工具, 机械检索工具, 计算机检索工具 7.五, 22 8.索引款目, 编排方法 二、判断题 1.在检索信息时, 使用逻辑符”AND”能够缩小收缩范围。( ) 2.逆查法是由近及远地查找, 顺着时间的顺序利用检索工具进行文献信息检索的方法。( ) 3.按编制方法划分, 信息检索工具能够分为: 手工检索工具、机械检索工具、计算机检索工具。( ) 4.请判断下面图书的国际标准书号的格式是否正确。ISBN: 978-030-26151-X。( ) 5.文献的专利号、报告号、合同号、标准号、索取号、国

信息检索技术习题答案

《信息检索技术》(第三版)书后习题及参考答案(部分) 第1章绪论 【综合练习】 一、填空题 1.文献是信息的主要载体,根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。 2.追溯法是指利用已经掌握的文献末尾所列的__________,进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。 3.用规范化词语来表达文献信息__________的词汇叫主题词。主题途径是按照文献信息的主题内容进行检索的途径,利用能代表文献内容的主题词、关键词、叙词、并按字顺序列实现检索。 4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。 5.无论是手工检索还是计算机检索,都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。 6.检索工具按信息加工的手段可以分文__________、____________、___________。 7.《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。 8.索引包括4个基本要素:索引源、___________、___________、和出处指引系统。 答案1.零次,一次,二次,三次 2.参考文献,引文 3.内容特征 4.检索提问词,文献记录标引词 5.分析课题,选择检索工具,确定检索途径及检索式,进行检索,获取原文 6.手工检索工具,机械检索工具,计算机检索工具 7.五,22 8.索引款目,编排方法 二、判断题 1.在检索信息时,使用逻辑符“AND”可以缩小收缩范围。() 2.逆查法是由近及远地查找,顺着时间的顺序利用检索工具进行文献信息检索的方法。() 3.按编制方法划分,信息检索工具可以分为:手工检索工具、机械检索工具、计算机检索工具。() 4.请判断下面图书的国际标准书号的格式是否正确。ISBN:978-030-26151-X。() 5.文献的专利号、报告号、合同号、标准号、索取号、国际标准书号、刊号属于文献的内部特征。 6.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。 答案1.√2.×3.×4.√5.√6.× 三、选择题(单选或多选)

《大学计算机基础》(第三版)上海交通大学出版社 课后习题答案

大学计算机基础课后题答案 第1章计算机基础知识 一、选择题 1.B 2.B 3.B 4.B 5.B 6.B 7.C 8.D 9.B 10.D 11.C 12.A 13.B 14.D 二、填空题 1、1946 美国ENIAC 2、4 电子管晶体管集成电路超大规模集成电路 3、超导计算机量子计算机光子计算机生物计算机神经计算机 4、专用计算机通用计算机 5、信息基础技术信息系统技术信息应用技术 6、运算器控制器存储器输入设备输出设备 7、7445 682 3755 3008 8、0292 1717 A2FC B1B1 B7D9 E4AE 9、5000 10、72 128 三、问答题 1、运算速度快计算精度高具有记忆和逻辑判断能力具有自动运行能力可靠性高 2、巨型机大型机小型机微型机服务器工作站 3、数据计算信息处理实时控制计算机辅助设计人工智能办公自动化 通信与网络电子商务家庭生活娱乐 4、计算机的工作过程就是执行程序的过程,而执行程序又归结为逐条执行指令: (1)取出指令:从存储器中取出要执行的指令送到CPU内部的指令寄存器暂存; (2)分析指令:把保存在指令寄存器中的指令送到指令译码器,译出该指令对应的操作; (3)执行指令:根据指令译码器向各个部件发出相应控制信号,完成指令规定的操作; (4)一条指令执行完成后,程序计数器加1或将转移地址码送入程序计数器,然后回到(1)。为执行下一条指令做好准备,即形成下一条指令地址。 5、计算机自身电器的特性,电子元件一般有两个稳定状态,且二进制规则简单,运算方便。 四、操作题 1、(111011)2=(59)10=(73)8=(3B)16 (11001011)2=(203)10=(313)8=(CB)16 (11010.1101)2=(26.8125)10=(32.64)16=(1A.D)16 2、(176)8=(1111110)2 (51.32)8=(101001.011010)2 (0.23)8=(0.010011)2 3、(85E)16=(100001011110)2 (387.15)16=(001110000111.00010101)2 4、(79)=(01001111)原码=(01001111)反码=(01001111)补码 (-43)=(10101011)原码=(11010100)反码=(11010101)补码

信息检索与利用试题1答案

信息检索与利用复习题 一、单选题(20分,每题1分) 1、个人信息源又称为(C)。 A、文献信息源 B、口头信息源 C、生物信息源 D、实物信息源 2、文献是记录有知识的(A)。 A、载体 B、纸张 C、光盘 D、磁盘 3、下列哪种文献属于一次文献( A)。 A、期刊论文 B、百科全书 C、综述 D、文摘 4、下列哪种文献属于二次文献( D)。 A、专利文献 B、学位论文 C、会议文献 D、目录 5、下列哪种文献属于三次文献( C)。 A、标准文献 B、学位论文 C、综述 D、文摘 6、下列选项中属于连续出版物类型的选项有(A)。 A、人民日报 B、学位论文 C、科技期刊 D、会议文献 7、下列选项中属于特种文献类型的有(D )。 A、学位论文 B、图书 C、科技期刊 D、标准文献 8、纸质信息源的载体是(D ) A、光盘 B、缩微平片 C、感光材料 D、纸张 9、《中国图书分类法》(简称《中图法》)将图书分成(A ) A 5大部分22个大类 B 5大部分26个大类

C 6大部分22个大类 D 6大部分26个大类 10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在(A)类目下查找。 A、S类目 B、Q类目 C、T 类目 D、R类目 11、使用逻辑“与”是为了(B ) A、提高查全率 B、提高查准率 C、减少漏检率 D、提高利用率 12、使用逻辑“或”是为了(A) A、提高查全率 B、提高查准率 C、缩小检索范围 D、提高利用率 13、利用文献末尾所附参考文献进行检索的方法是(C) A、倒查法 B、顺查法 C、引文追溯法 D、抽查法 14、至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为(A)。 A、数据库 B、记录 C、字段 D、文档 15、广义的信息检索包含两个过程(B) A、检索与利用 B、存储与检索 C、存储与利用 D、检索与报道 16、要查找李平老师所发表的文章,首选途径为(A ) A、著者途径 B、分类途径 C、主题途径 D、刊名途径 17、狭义的专利文献是指(C ) A、专利公报 B、专利目录 C、专利说明书 D、专利索引

信息检索考试习题汇总(附答案)

欢迎阅读4.国际标准书号的英文简称ISBN,新版国际标准书号2007年正一、单项选择题(从下列各题四个备选答案中选出一个正确答案,式实施,国际标准书号由10位升至13位。(√)并将其代号写在答题纸相应位置处。每题2分,共30分)5.检索效果的评价指标主要有查全率和漏检率。(×)1._C_是题录型检索工具1.NSTL是(国家科技图书文献中心)的简称。A.CABIB.中国学术期刊文摘C.全国报刊索引(自然版)D.经济纵2.(信 系统 4.利用baidu 号( (_A。 称是 年开始A. 动C.数据检索、事实检索、文献检索 D.计算机检索、手工检索7.电子期刊,指以(数字或称电子)形式出版发行的期刊,英文7.国际上评价期刊最有影响力的一个指标是___A_____。为(electronic A.影响因子B.读者统计数据C.引文量D.价格 Journal),简称e-journal. 8.二次检索指的是:___C__________。8.国家知识基础设施(NationalKnowledgeInfrastructure,NKI)A.第二次检索B.检索了一次之后,结果不

满意,再检索一次的概念,由世界银行提出于1998年。CNKI是指(中国基础知识C.在检索结果中运用“与、或、非”进行再限制检索D.以上设施工程),它是以实现全社会知识资源传播共享与增值利用为都不是目标的信息化建设项目,由清华大学、清华同方发起,始建于9.国际连续出版物编号___A__________。(1999)年6月。平台的检索方式有(单库检索)、(跨库检索)、(数据10.下列搜索引擎具有书名号检索功能的有 A.2004版的“11. 人)公 A ISO在 )刊名必须有(两个)词以上才可用缩写;限定。3)单词的缩写大多数采用(减少音节)的方法,如“Chemistry”A.“”(双引号)B.()(括号)C.+(加号)D.-(减号)缩写成(chem),只有极少数常用单词用首字母表示,如“Journal”二、判断正误(在正确答案后面划√,在错误答案后面划×,每缩写成(J);小题2分,共10分)4)刊名缩写时,刊名第一个单词的首字母一定要(大写)。 1.专利文献根据发明创造的性质可以分为发明、

大学思修课后习题答案

1.大学生怎样尽快适应大学新生活? (1)认识大学生活特点,了解大学生活的变化。 大学生活的新特点:宽松与自主并存的学习环境;统一与独立并存的生活环境;丰富与平等并存的人际环境;多彩与严谨并存的课余环境。 (2)提高独立生活能力。 确立独立生活意识;虚心求教、细心体察;大胆实践、不断积累生活经验。不断提高生活上的自理能力,包括一些基本的生活能力;学会用平等的态度对待他人,正确地认识和评价自己,客观地对待别人的优势。 (3)树立新的学习理念。 树立自主学习的理念;树立全面学习的理念;树立创新学习的理念;树立终身学习的理念。(4)培养优良学风。 高度要求自己,努力做到“勤奋、严谨、求是、创新”。 2.当代大学生的历史使命和成才目标是什么? 不同时代的青年面对不同的历史课题,承担着不同的历史使命。当代大学生承担的是建设中国特色社会主义、实现中华民族伟大复兴的历史使命。 成为德智体美全面发展的社会主义事业的建设者和接班人,是历史发展对大学生的必然要求,是党和人民的殷切期望,也是大学生需要确立的成才目标。大学培养目标所要求的德智体美方面的素质是相互联系、相互制约的统一体。 德是人才素质的灵魂;智是人才素质的基础;体是人才素质的条件;美是人才素质的重要内容。大学生的全面发展,就是德智体美的全面发展,是思想道德素质、科学文化素质和健康素质的全面提高。当代大学生应努力成长为主动发展、健康发展、和谐发展的一代新人。3.谈谈你对社会主义核心价值体系的科学内涵极重要意义的理解? 科学内涵:巩固马克思主义指导地位,坚持不懈得用马克思主义中国化最新成果武装全党、教育人民,用中国特色社会主义共同理想凝聚力量;用以爱国主义为核心的民族精神和以改革创更新为核心的时代精神鼓舞斗志;用社会主义荣辱观引领风尚,巩固全党全国各民族人名团结奋斗的共同思想基础。 意义:它为当代大学生加强自身修养。锤炼优良品德、成长为德智体美全面发展的社会主义事业的合格建设者和可靠接班人指明了努力方向,提供了发展动力,明确了基本途径。当代大学生只有自觉学习和践行社会主义核心价值体系,才能健康的成长为有理想、有道德、有文化、有纪律的社会主义“四有”新人。 4. 当代大学生提高思想道德素质与法律素质为什么要自觉学习和践行社会主义核心价值体系? 社会主义核心价值体系是社会意识的本质体现。社会主义核心价值体系在构建和谐社会、建设和谐文化中应运而生;社会主义核心价值体系是建设和谐文化的根本;建设社会主义核心价值体系是构建社会主义和谐社会的重要保证;建设社会主义核心价值体系是适应新形势、迎接新挑战、完成新任务的迫切需要。 社会主义核心价值体系也是引领当代大学生成长成才的根本指针,它为当代大学生加强自身修养、锤炼优良品德、成长为德智体美全面发展的社会主义事业的合格建设者和可靠接班人指明了努力方向,提供了发展动力,明确了基本途径。 5.结合实际谈谈学习“思想道德修养与法律基础”课的意义和方法。 意义:1.学习“思想道德修养与法律基础”课,有助于当代大学生认识立志、树德和做人的道理,选择正确地成才之路;2.学习“思想道德修养与法律基础”课,有助于当代大学生掌握丰富的思想道德和法律知识,为提高思想道德和法律素养打下知识基础;3.学习“思想道德修养与法律基础”课,有助于当代大学生摆正“德”与“才”的位置,做到德才兼备、全

信息检索习题带答案

最新文献检索 一、判断题 1、《维普期刊资源整合服务平台》作者提供的关键词语言属于叙词语言。答案.(错误) 2、借助于《维普期刊资源整合服务平台》期刊导航可查阅某年限范围期刊上发表的文献。答案.(正确) 3、《维普期刊资源整合服务平台》收录的范围限人文社会科学类。答案.(错误) 4、在因特网上可任意检索《维普期刊资源整合服务平台》,并可以下载全文。 答案.(错误) 30、在文后参考文献中,如果一篇文献被第二次引用,可以在参考文献表中以“同上”或者“ibid”等简略地予以表示。答案.(错误) 31、按照惯例,在文献正文中引用文献的标示,应置于引文最末句的右上角。 答案.(正确) 32、按照惯例,在文献正文的标题处需要放置引用文献的标示时,应置于标题的右上角。答案.(错误) 33、通常只要在文后标注出所引参考文献,文中无需标注。答案.(错误) 34、当在论著正文中直接引用了他人的研究著述时,应该在文后参考文献表中列出被引用文献的相关信息。答案.(正确) 35、当提及的参考文献为论著正文中直接说明时,其序号应该与正文排齐。答案.(正确) 36、在论著正文同一处引用多篇文献时,各篇文献的序号在方括号内按从小到大的顺序全部列出。答案.(正确) 44、权利人对其获得的发明创造具有永久独占权。答案.(错误) 45、按照我国专利法的规定,专利分为发明、实用新型、外观设计三种。答案.(正确) 46、狭义的专利文献是指专利说明书。答案.(正确) 47、专利的有效期是从公告日开始计算。答案.(错误) 48、专利文献是集技术、经济和法律于一体的特种文献。答案.(正确) 49、专利是受法律保护的,其中发明专利的保护期限是10年。答案.(错误) 50、在科技论文正文后的参考文献的著录中,[M]代表该文献是一件专利。答案.(错误)

相关主题
相关文档 最新文档