当前位置:文档之家› 信息检索导论课后习题答案

信息检索导论课后习题答案

信息检索导论课后习题答案
信息检索导论课后习题答案

《信息组织与检索》作业答案第一章布尔检索

习题1-2

考虑如下几篇文档:

文档1 breakthrough drug for schizophrenia

文档2 new schizophrenia drug

文档3 new approach for treatment of schizophrenia

文档4 new hopes for schizophrenia patients

a. 画出文档集对应的词项—文档矩阵;

b. 画出该文档集的倒排索引(参考图1-3中的例子)。

Term-Documentmatrix:

1234

approach0010

breakthrough1000

drug1100

for1011

hopes0001

new0111

of0010

patients0001

schizophrenia1111

treatment0010

Inverted Index:

approach -> 3

breakthrough ->1

drug ->1->2

for ->1->3->4

hopes ->4

new ->2->3->4

of ->3

patients ->4

schizophrenia ->1->2->3->4

treatment >3

注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于查找。这里我们暂不考虑词的正规化处理(如hopes->hope)。

补充习题1

写出AND查询的伪代码

●面向过程风格的伪代码:

给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。

这里应用了“化归”思想(将新问题转化归为旧问题来解决)。这里,比较两排序列表的首元素,排除较小的docId(不可能有匹配)后,我们构造出新的剩余列表,再次进行两列表的首元素的比较。

While p1 != null AND p2 != null

If p1->docId==p2->docId //对两(剩余)列表的首元素进行比较

insert(answer, p1);

p1=p1->next;//构造新的剩余列表,迭代执行

p2=p2->next;//

Else if p1->docId < p2->docId

p1=p1->next;//p1->docId不可能有匹配;构造新的剩余列表

Else

p2=p2->next;//p2->docId不可能有匹配;构造新的剩余列表

End

●面向对象风格的伪代码:

注:为一个数据结构(对象)定义方法,通过方法操作自己的内部数据(List对象里隐含包含了一个成员变量,它是真正的链表或变长数组)。

While list1.currentItem() != null AND list2.currentItem() != null

If list1.currentItem().getDocId() == list2.currentItem().getDocId()

answer.insert(list1.currentItem());

list1.moveToNext();

list2.moveToNext();

Else if list1.currentItem().getDocId() < list2.currentItem().getDocId()

list1.moveToNext();

Else

list2.moveToNext();

End

习题1-10

写出OR查询的伪代码

●面向过程风格的伪代码:

给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId;查询结果存放在answer列表里。

While p1 != null AND p2 != null

If p1->docId == p2->docId

insert(answer, p1);

p1=p1->next;

p2=p2->next;//构造新的剩余列表,迭代执行

Else if p1->docId < p2->docId

insert(answer, p1);

p1=p1->next;//构造新的剩余列表,迭代执行

Else

insert(answer, p2);

p2=p2->next;//构造新的剩余列表,迭代执行

End

While p1 != null//条件为真时,加入list1的剩余元素(此时list2已遍历到结尾)insert(answer, p1);

p1=p1->next;

END

While p2 != null//条件为真时,加入list2的剩余元素(此时list1已遍历到结尾)insert(answer, p2);

p2=p1->next;

END

●面向对象风格的伪代码:

While list1.currentItem() != null AND list2.currentItem() != null

If list1.currentItem().getDocId() == list2.currentItem().getDocId()

answer.insert(list1.currentItem());

list1.moveToNext();

list2.moveToNext();

Else if list1.currentItem().getDocId() < list2.currentItem().getDocId()

answer.insert(list1.currentItem());

list1.moveToNext();

Else

answer.insert(list2.currentItem());

list2.moveToNext();

End

While list1.currentItem() != null

answer.insert(list1.currentItem());

list1.moveToNext();

END

While list2.currentItem() != null

answer.insert(list2.currentItem());

list2.moveToNext();

END

补充习题2

若一个文集有1000篇文档,有40篇是关于信管专业建设的。我的信息需求是了解信管专业的专业建设情况,用某搜索引擎在这个文集上搜索,查询词为“信管”,搜出100篇包含“信管”的文档,这其中有20篇是信管专业建设方面的,其它80篇是关于信管的其它情况。请问该查询的正确率和召回率是多少

正确率=20/100=0.2

召回率=20/40=0.5

第二章词项词典及倒排记录表

习题2-1

a.在布尔检索系统中,进行词干还原从不降低正确率。

错;相当于扩充出同一个词干表示的多个词,会降低正确率。

b.在布尔检索系统中,进行词干还原从不降低召回率。

对。

c. 词干还原会增加词项词典的大小。

错。

d. 词干还原应该在构建索引时调用,而不应在查询处理时调用。

错;应同时做才能保证索引中和查询词的匹配。

习题2-2

请给出如下单词的归一化形式(归一化形式也可以是词本身)。

a. ’Cos -> cos

b. Shi’ite -> shiite('是隔音号)

c. cont’d ->contd(cont

d. 可表示contained 包括;continued 继续)

d. Hawai’i ->hawaii

e. O’Rourke ->orourke

习题2-3

如下词经过Porter词干还原工具处理后会输出同样的结果,你认为哪对(几对)词不应

该输出同样的结果?为什么?

a. abandon/abandonment

b. absorbency/absorbent

c. marketing/markets

d. university/universe

e. volume/volumes

按Porter词干还原算法,这几组词都可以被还原为相应的词干。但是这里问的是哪些组做词干还原不合适,原因是某组的两个词虽然来源于同一个词干,但是它们的意思不同,如果做词干还原处理会降低正确率。

c组不做词干还原。marketing表示营销,market表示市场。

d组不做词干还原。university表示大学,universe表示宇宙。

习题2-6

对于两个词组成的查询,其中一个词(项)的倒排记录表包含下面16个文档ID:

[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]

而另一个词(项)对应的倒排记录表仅仅包含一个文档ID:

[47]

请分别采用如下两种策略进行倒排记录表合并并计算所需要的比较次数,同时简要地说明计算的正确性。

a.使用标准的倒排记录表。

比较:(4,47), (6,47), (10,47), (12,47), (14,47), (16,47), (18,47), (20,47), (22,47), (32,47), (47,47)。共比较11次。

b.使用倒排记录表+跳表的方式,跳表指针设在P1/2处(P是列表长度)。

P=16。也就说第一个列表的跳表指针往后跳4个元素。

下图蓝色表示安装了跳表指针的元素,其中120跳到180上。

[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]

比较:(4,47), (14,47), (22,47), (120,47), (32,47), (47,47)。共比较6次。

习题2-9

下面给出的是一个位置索引的一部分,格式为:

词项: 文档1: (位置1, 位置2, …); 文档2: (位置1, 位置2, …);

angels: 2: (36,174,252,651); 4: (12,22,102,432); 7: (17);

fools:2: (1,17,74,222); 4: (8,78,108,458); 7: (3,13,23,193);

fear:2: (87,704,722,901); 4: (13,43,113,433); 7: (18,328,528);

in:2:(3,37,76,444,851); 4: (10,20,110,470,500); 7: (5,15,25,195);

rush:2:(2,66,194,321,702); 4: (9,69,149,429,569); 7: (4,14,404);

to:2:(47,86,234,999); 4: (14,24,774,944); 7: (199,319,599,709);

tread:2: (57,94,333); 4: (15,35,155); 7: (20,320);

where:2: (67,124,393,1001); 4: (11,41,101,421,431); 7: (16,36,736);

那么哪些文档和以下的查询匹配?其中引号内的每个表达式都是一个短语查询。

a.“fools rush in”;

文档2、4、7。

b.“fools rush in”AND “angels fear to tread”。

文档4。

补充习题1

k词邻近AND合并算法

前提:

考虑位置索引。

要求查找这样的文档,它同时包含词A和词B,且两词文中的距离在k个词以内。

给定两个指针p1和p2,分别指向两个词A和B的两倒排列表(链表实现)的首元素;令pi->doc表示pi所指向文档对象的结构体。

对于一个文档对象,该词出现的各个位置的列表为posList。用q1(q2)表示词A(词B)当前指向文档对象指向的posList指向的位置。用qi->pos表示该位置。

查询结果存放在answer列表里。

算法:

While p1 != null AND p2 != null

If p1->docId == p2->docId //对两(剩余)列表的首元素进行比较

While q1 != null AND q2 != null

If q1->pos–q2->pos<=k OR q2->pos –q1->pos <= k

insert(answer, p1);

break; //跳出这个循环,找到一个k临近即可

ElseIf q1->pos – q2->pos> k //q2不可能被匹配上,忽略它

q2= q2->next;//生成新的剩余列表

Else If q2->pos –q1->pos > k //q1不可能被匹配上,忽略它

q1=q1->next;//生成新的剩余列表

End If

End While

p1=p1->next; //构造新的剩余列表,迭代执行

p2=p2->next;

Else if p1->docId < p2->docId

p1=p1->next;//p1->docId不可能有匹配;构造新的剩余列表

Else

p2=p2->next;//p2->docId不可能有匹配;构造新的剩余列表

End

第六章文档评分、词项权重计算及向量空间模型

习题6-2

上面的例6-1中,如果g1 = 0.2, g2 = 0.31及g3 = 0.49,那么对于一个文档来说所有可能的不同得分有多少?

得分1: 0

得分2:g1=0.2

得分3:g2=0.31

得分4:g3=0.49

得分5:g1+g2=0.51

得分6:g1+g3=0.69

得分7:g2+g3=0.8

得分8:g1+g2+g3=1.0

习题6-10

考虑图6-9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf情况,采用图6-8中的idf

值来计算所有词项car、auto、insurance及best的tf-idf值(这里改为df值的计算就假设用Doc1, Doc2 Doc3的这个文集)。

w t,d=max(1+log10(1+tf),0)

Doc1Doc2Doc3

Car 2.4314 1.6021 2.3802

Auto 1.4771 2.51850

insurance0 2.5185 2.4624

Best 2.14610 2.2304

df t idf t

car30

auto20.1761

insurance20.1761

best20.1761

这里N=3。

tf-idf t,d= w t,d*idf t

Doc1Doc2Doc3

car

00

auto0.26010.44350

insurance00.44350.4336

best0.377900.3928

例6-4

假设文档集中的文档数目N=1000000,词表为{auto, best, car, insurance} ,这四个词的df值分别为5000, 50000, 10000, 1000。

设某文档d的raw tf向量为[1,0,1,2],对查询q=”best car insurance”,问该文档-查询的相似度打分score(q,d)是?

df t idf t

auto5000 2.3010

best50000 1.3010

car10000 2.0000

insurance1000 3.0000

文档d的tf-idf向量:

raw tf t,d w t,d=max(1+log10(1+tf),0)tf-idf t,d= w t,d*idf t v(d)=归一化

tf-idf t,d

auto1 1.0000 2.30100.4646

best0000

car1 1.0000 2.00000.4038 insurance2 1.3010 3.90310.7881

raw tf t,q w t,q=max(1+log10(1+tf),0)tf-idf t,q= w t,q*idf t v(q)=归一化

tf-idf t,d

auto0000

best11 1.30100.3394

car11 2.00000.5218 insurance11 3.00000.7827

第八章信息检索的评价

习题8-8

考虑一个有4篇相关文档的信息需求,考察两个系统的前10个检索结果(左边的结果排名靠前),相关性判定的情况如下所示:

系统1 R N R N N N N N R R

系统2 N R N N R R R N N N

a. 计算两个系统的MAP值并比较大小。

b. 上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的MAP得分?

c. 计算两个系统的R-precision值,并与a中按照MAP进行排序的结果进行对比。

解答:

a.按MAP的定义,这里|Q|=1,m=4。在查询结果中遇到每个相关文档对前面的所有文档

计算一个Precision,MAP将这些Precision值求平均。

MAP(系统1)= (1/4)*(1+2/3+3/9+4/10) = 0.6

MAP(系统2)= (1/4)*(1/2+2/5+3/6+4/7)=0.49

系统1的MAP值大。

b.相关的查询结果排名越靠前,则MAP越大。

c.按R-precision的定义,假设总共有|Rel|篇相关文档,在查询结果中取前|Rel|个文档,

计算其precision。

R-precision(系统1)=2/4=1/2

R-precision(系统1)=1/4

系统1的R-precision值大。与MAP给出系统打分排序的结果一致。

习题8-10

下表中是两个判定人员基于某个信息需求对12个文档进行相关性判定的结果(0=不

相关,1=相关)。假定我们开发了一个IR系统,针对该信息需求返回了文档{4, 5, 6, 7, 8}。docID 判断1 判断2

1 0 0

2 0 0

3 1 1

4 1 1

5 1 0

6 1 0

7 1 0

8 1 0

9 0 1

10 0 1

11 0 1

12 0 1

a. 计算两个判断之间的kappa统计量;

b. 当两个判断均认为是相关文档时才认为该文档相关,此时计算上述系统的正确率、召回率及F1值;

c. 只要有一个判断认为是相关文档则认为该文档相关,此时计算上述系统的正确率、召回率及F1值。

解答:

a.计算kappa统计量:

P(A)就是实际观察到的一致意见的概率,总共12篇文档,其中2篇两人一致选Yes,2篇两人一致选No。因此,P(A)=(2+2)/12=1/3。

P(E)是随机情况下的一致意见的概率。假设每个人对每个文档的Yes(或No)打分的概率p y(或p n )是独立同分布的(i. i. d.),则P(E)= p y*p y + p n*p n。其中,p y是2*12次打分中为Yes的比例,p y=12/24=1/2;p n是2*12次打分中为No的比例,p n=12/24=1/2。代入P(E),得:P(E)=(1/2)^2+(1/2)^2=1/2。

Kappa=(P(A)-P(E))/(1-P(E))=(1/3-1/2)/(1-1/2)=-1/3<0.67,这是一个负数,说明实际的一致性结果还不如随机产生的一致性结果,因此可以判定两人给出的相关性打分不一致。

b.文档集中共有12篇文档,其中2文档相关({3,4}),其它10篇都不相关。查询结果为

{4, 5, 6, 7, 8},其中只有1篇文档相关({4})。

该查询的

Precision, P=1/5;

Recall, R=1/2;

F1=2P*R/(P+R)=0.28。

c.文档集中共有12篇文档,其中10文档相关,其它2篇都不相关({1,2})。查询结果为

{4, 5, 6, 7, 8},全部都相关。

该查询的

Precision, P=1;

Recall, R=5/12;

F1=2P*R/(P+R)=0.67。

注:因Kappa统计量认为两人打分不一致,所以修正方法b比较合理,而c非常不合理。第十三章文本分类与朴素贝叶斯方法

习题13-3

位置独立性假设的基本原则是,词项在文档的位置k上出现这个事实并没有什么有用的信息。请给出这个假设的反例。提示:可以考虑那些套用固定文档结构的文档。

解答:如果一个词出现在不同域中,它的重要性不同。比如出现在标题中的词一般很重要。

习题13-9

基于表13-10中的数据,进行如下计算:

(i) 估计多项式NB分类器的参数;

(ii) 将(i)中的分类器应用到测试集;

P(China)=2/4=1/2; P(非China)=2/4=1/2.

词典中有7个词Japan, Macao, Osaka, Sapporo, Shanghai, Taipei, Taiwan.

测试集中,China类共有5个词;非China类共有5个词。

P(Taiwan|China类)=(2 + 1)/(5 + 7)= 1/4 (加一平滑,下同)

P(Taiwan|非China类) =(1 + 1)/(5 + 7)= 1/6

P(Sapporo|China类)= (0 + 1)/(5 + 7)= 1/12

P(Sapporo|非China类)= (2 + 1)/(5 + 7)= 1/4

按单字词语言模型,

P(China类|d5) ∝ P(China类)* P(Taiwan|China类)^2* P(Sapporo|China 类)=1/2*(1/4)^2*1/12=1/384.

P(非China类|d5) ∝ P(非China类)* P(Taiwan|非China类)^2* P(Sapporo|非China 类)=1/2*(1/6)^2*1/4=1/288.

由于P(非China类|d5)> P(China类|d5),d5属于非China类。

第十六章扁平聚类

习题16-3 对于图16-4,同一类中的每个点d都用两个同样的d的副本来替换。(i) 那么,对于新的包含34个点的集合进行聚类,会比图16-4中17个点的聚类更容易、一样难还是更难?(ii) 计算对34个点聚类的纯度、RI。在点数增加一倍之后,哪些指标增大?哪些指标保持不变?(iii) 在得到(i)中的判断和(ii)中的指标之后,哪些指标更适合于上述两种聚类结果的质量比较?

解答:

(i)

我认为更难,因为34个点比17点的计算量增大了。

(ii)

节点复制为原先的一倍后,

簇1:10个x类文档,2个o类文档;

簇2:2个x类文档,8个o类文档,2类文档;

簇3:4个x类文档,6

共有N=34篇文档。

计算纯度=(1/34)*(10+8+6)≈0.71;

计算RI:

TP=(10

2)+(2

2

)+(2

2

)+(8

2

)+(2

2

)+(4

2

)+(6

2

)=97,将一对同类的文档分到相同聚

类中的对数。

TN=10?8+10?2+2?2+2?2+10?6+2?4+2?6+2?6+8?4+8?6+

2?4=288,将一对不同类的文档分到不同聚类中的对数。

RI=(TP+TN)/(34

2

)=(97+288)/561≈0.69.

(iii)

对比N=17时,纯度为0.71,RI为0.68。我们得出节点复制为原先的一倍后,指标几乎不变。

习题16-4 在K-均值算法中,为什么对同一概念car使用不同词项来表示的文档最后可能会被归入同一簇中?

解答:

考虑两篇文档,一篇含有car和其它词,一篇含有automobile和其它词。虽然第2篇文档不含automobile,但这两篇文档可能含有大量的公共词,它们的文档向量可能是相似的,聚类算法将把它们分配到同一簇中。

习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。请问这两个条件是否等价?

解答:

连续两次迭代,文档到分配簇的情况不再改变,说明簇质心的计算也不再改变。

连续两次迭代,簇质心不再改变,按照最近距离原则,文档到分配簇的情况也不再改变。

因此,条件(i)和(ii)是等价的。

信息检索课后答案

作业习题 《信息检索》思考题及参考答案 (根据新编教学大纲内容选答) 第一讲信息检索基础知识 1.简述大学图书馆的地位和作用。 大学图书馆是大学的文献信息中心,是为教学和科研服务的学术性机构,是学校信息化和社会信息化的重要基地。高等学校图书馆的工作是学校教学和科学研究工作的重要组成部分。现代化的大学图书馆与学校高水平的教师队伍、先进的教学实验设备,共称为现代化大学的三大支柱。大学图书馆既是是学校的文献信息中心又是学习资源中心,是培养人才的重要基地,是自学深造的场所,是学生构建合理知识结构的第二课堂。 2.简述信息、知识、文献的概念及相互关系。 答:信息的概念:一般来说,信息是指与客观事物相联系,反映客观事物的运动状态,通过一定的物质载体被发出、传递和感受,对接受对象的思维产生影响并用来指导接受对象的行为的一种描述。从本质上说,信息是反映现实世界的运动、发展和变化状态及规律的信号与消息。 知识的概念:知识是人类通过信息对自然界、人类社会以及思维方式与运动规律的认识和掌握,是人的大脑通过思维重新组合的系统

化的信息的集合。知识是人类在改造客观世界的实际中所获得的认识和经验的总和,是信息的一部分,是一种特定的人类信息。 文献的概念:文献是记录有知识的一切物质载体。具体地说是用文字、图形、符号、声频、视频等技术手段记录人类知识的一切物质载体。 信息、知识和文献之间的关系是:信息是事物发出的消息,信息经过人脑加工形成知识。只有将自然现象和社会现象的信息经过加工,上升为对自然和社会发展客观规律的认识,这种再生信息才构成知识。知识信息被记录在载体上就形成文献。 3.何谓信息资源?网络信息资源有何特点? 所谓信息资源,就是信息的来源。各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源。网络信息资源具有数量大、类型多、多媒体、非规范、跨时间、跨地域、跨行业、多语种等特点。正式出版物和非正式信息交流交织在一起,使传统的人类信息交流链的格局被打破,各方在网络上既可以是信息的生产者、发布者,也可以是传播者和使用者,对学术交流环境和信息利用产生了深刻的影响。 4.试述《中图法》的体系结构及其在文献信息检索中的作用。 《中图法》将人类知识分为马列主义及毛泽东思想、哲学、社会科学、自然科学和综合性图书5大基本部类、22个大类。采用汉语拼音字母与阿拉伯数字相结合的混合号码,基本采用层累制编号法,用一个字母代表一个大类,以字母顺序反映大类的次序,在字母后用

国科大信息检索作业

国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章) 以下每题10分,共计100分。 1、习题1-4 a.时间复杂度O(x+y)。因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档 号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果xy,caesar指针后移。 b.时间复杂度是O(N),N是全部的文档数。因为结果集的大小取决于文档数N,而不是倒排记录表的长度。 2、习题1-7 对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度 (tangerine OR trees) = O(46653+316812)=O(363465) (marmalade OR skies) = O(107913+271658) = O(379571) (kaleidoscope OR eyes) = O(46653+87009) = O(300321) 即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies) 3、习题1-10 UNION(p1,p2) answer ←{ } while p1!=NIL and p2!=NIL do if docID(p1)=docID(p2) then ADD(answer,docID(p1)) p1<- next(p1) p2<-next(p2) else if docID(p1)

信息检索题库+参考答案(终极版)

四川师范大学信息检索课后作业 1.(第1章?单选)联合国教科文组织分别于2003年和2005年召开了以(A)为主题的世界性大会,并发布了《布拉格宣言》和《亚历山大宣言》。 A、信息素养 B、信息安全 C、信息检索 D、信息评价 2.(第1章?多选)信息素养的基本构成具体包括(ABCD) A、信息知识 B、信息意识 C、信息能力 D、信息伦理 3.(第1章?多选)信息意识具体包括(ABCD)。 A、充分认识到信息在学习、工作和生活中的重要作用,遇到问题时首先应该想到通过信息的获取 4.(第1 A、 B、C、D、 5.(第1 A、 6.(第1《高 ABCD)。A、 7.(第1 A、 8.(第1 A、信息知识 B、信息能力 C、信息意识 D、信息伦理 9.(第1章?单选)(C)是指人类对信息需求的自我意识,是人类在信息活动中产生的认识、观念和需求的总和。 A、信息知识 B、信息能力 C、信息意识 D、信息伦理 10.(第1章?判断)以“走向具有信息素养的社会”为主题的《布拉格宣言》认为,作为一种适应社会的基本能力和参与社会的先决条件,信息素养能够确定、检索、评估、组织和有效地生产、使用和交流信息,并解决所遇到的问题,是终身学习的一种基本人权。√ 11.(第1章?判断)作为信息素养的基本构成,信息知识、信息意识、信息能力和信息伦理四个要素相辅相成、不可分割。其中,信息意识是先导,信息知识是基础,信息能力是核心,信息伦理是保障,四个要素共同构成了一个统一的整体。√ 12.(第1章?判断)2005年北京高教学会图书馆工作研究会提出了《北京地区高校信息素质能力指

标体系》。这个指标体系从信息意识、信息知识、信息能力、信息伦理四个方面提出了高校学生应具有的信息素养要求,具体由7个一级指标,19个二级指标,61个三级指标组成。√ 13.(第1章?判断)以“信息社会在行动:信息素养与终身学习”为主题的《亚历山大宣言》指出,信息素养和终身学习是信息社会的灯塔,照亮了通向发展、繁荣和自由的道路。-------T 14.(第1章?判断)信息素养是终身学习的核心。------T 15.(第1章?判断)信息检索能力也就是确定信息的能力,即把遇到的问题转换为具体信息需求的能力。------F 16.(第1章?判断)信息素养教育的目标是培养终身学习能力。具体而言,就是能够想到而且能够做到通过获取和利用信息解决所遇到的问题,并且能够把所获取的信息融入自身的知识结构,把获取信息的过程和经历内化为自身的学习能力。------T 17.(第2章?多选)信息的属性包括(ABCD) A、 *18.(第 A、 19.(第 A、 20.(第 A、 21.(第 A、 22.(第 A、 23.(第 有(AD A、、使用 24.(第 A、 25.(第 A、 26.(第 A、 27.(第 A、 28.(第2章?多选)网络检索系统的特点是(ABC)。 A、资料丰富 B、检索方便 C、费用低廉 D、资源共享 29.(第2章?多选)使用逻辑“或”是为了(AC)。 A、提高查全率 B、提高查准率 C、扩大检索范围 D、缩小检索范围 30.(第2章?多选)截词检索中,常用的截词符号有(CD)。 A、+ B、- C、* D、? 31.(第2章?多选)下列哪种情况下检索人员需要修改检索策略(AB)。 A、检索结果中无关信息量过多 B、检索结果中输出的信息量太少 C、网速太慢,检索过程中需要的时间过长 D、检索结果文献大部分比较陈旧 32.(第2章?多选)影响检索效果的因素主要来自两个方面(CD)。 A、查全率 B、查准率 C、检索系统本身 D、检索人员的检索水平

信息检索考试题库

一、单项选择题 在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。 知识是指人类对客观世界的认识。知识可分为(C) A.有用知识和无用知识 B.基础知识和高级知识 C.感性知识和理性知识 D.理论知识和实践知识 文献按载体形式可分为:印刷型、缩微型、声像型和(D)A.甲骨型 B金石型 C.电脑型 D.机读型 信息检索系统的功能为:报道文献信息、存储文献信息和(B) A.揭示文献信息 B.检索文献信息 C.宣传文献信息 D.介绍文献信息 检索系统的结构由几个部分组成:编辑使用说明、索引、附录、词表和(D) A.目次 B.题录 C.附图 D.正文(主文档) 为便于计算机识别记录的各个字段,每个字段都设有字段标识符,下列哪个字段的标识叙述是正确的(A) 是题名的标识符 是关键词的标识符 是摘要的标识符 是著者的标识符 以下不是布尔逻辑算符的是(B) B.Near 布尔逻辑算符通常的运算顺序是(A) A.有括号时,括号内的先执行;无括号时 NOT > AND > OR B.有括号时,括号内的先执行;无括号时 NOT > OR >AND C.有括号时,括号内的先执行;无括号时 AND >NOT > OR D.有括号时,括号内的先执行;无括号时 AND > OR > NOT 限定词“in”是为了缩小检索范围,提高检索速度和命中率的。下列检索表述式正确的是(B) A.“信息in OCLC” B.信息in AB” C. 信息in CNKI” D.信息in Calis” 我国高校与公共图书馆的文献资料,一般采用的分类法分类的是(A) A.《中国图书馆图书分类法》 B.《国际十进分类法》 C.《人大法》 E.《科图法》 信息检索的方法有追溯法、综合法和(C) A.须查法 B.倒查法 C.工具法 D.抽查法 CNKI数据库的全文数据输出文件的格式为(D) 和TXT 和VIP 和PDF 和PDF 超星电子图书提供快速检索和高级检索两种检索方式,利用快速检索可以按图书的单项模糊查询,这些单项包括(A) A.书名、作者、索书号和出版日期 B.书名、作者、索书号和出版社 C.书名、作者、分类号和出版社 D.书名、版本、索书号和出版社 读秀知识库是由海量全文数据及元数据组成的超大型 数据库。其提供的中文图书有(B) 万种 万种 万种 D400万种 SCienCe DireCt数据库收录2000多种期刊,其中被ISI 收录期刊种类为(C) SD数据库常用字段中“TITLE-ABSTR-KEY”字段是表示: ( D ) A.题名-作者-关键词 B.题名--作者-摘要 C.作者- 摘要-关键词 D.题名-摘要-关键词 Dialog数据库于1972年正式开始提供商用联机服务, 是世界上最大、历史最悠久的联机检索系统。目前数据 库有( A ) 多种 多种 多种 多种 网络信息资源的一次出版信息包括:网上图书、期刊、 报纸、专利、政府出版物和( D ) A.电子邮件 B.新闻 C.博客 D.会议资料 Google检索框中的两个关键词之间用空格隔开则默认 的连接是( A ) A.“AND”(“与”运算) B.“OR”(“或“运算) C.“NOT”(“非”运算) D.“W”(位置运算) 下列哪个是Google指定文件类型检索(B) A.检索词site: B.检索词filetype: C.检索词insite: D.检索词innurl 百度搜索中能实现精确匹配查询的是(C) A.单引号‘’ B.中括号[] C.双引号“” D.逗号 下列开哪个开放存取学术资源利用平台的名称是正确 的(D) :中图链接服务 : OA资源一站式检索服务平台 :开放存取期刊仓库 J – GATE:开放存取期刊门户 论文摘要的文字必须十分简炼,内容亦需充分概括,字 数一般不超过论文字数的( B ) A.6%, %, %, % 制定检索策略首先要弄清用户的提问要求,并确定要查 找的文献学科范围、类型、文种和(C) A.地点 B.样式 C.时间 D.方位 搜索引擎的由哪几个部分组成(A) A.搜索器、索引器、检索器和用户接口 B.搜索器、编辑器、检索器和用户接口 C.搜索器、索引器、整理器和用户接口 D.查询器、索引器、检索器和用户接口 下列文献哪个“参考文献”的格式著录是正确的(D) A.[1]刘付芬. 黄银安,青少年网瘾对家庭经济危害的 分析及对策,《消费导刊》,2010年第8期,25-28页 B.(1)刘付芬. 黄银安,青少年网瘾对家庭经济危害 的分析及对策,消费导刊,2010(8):25-28 C.<1>刘付芬, 黄银安.青少年网瘾对家庭经济危害的 分析及对策.消费导刊,2010(8):25-28 D.[1] 刘付芬, 黄银安.青少年网瘾对家庭经济危害 的分析及对策.消费导刊,2010(8):25-28 每个被收录的网页,在百度上都存有一个纯文本的备 份,称为:(C) A.百度文档 B.百度相似搜索 C.百度快照 D.百度百科 在百度中如果在特定站点“新浪网中搜索关于“公司治 理”方面的文献信息的检索式为:(B) A. 公司治理intitle:公司治理site: 公司治理inurl: 公司治理filetype:开放存取期刊门户”的网址为:(C) 文献综述的写作步骤包括:选题、查阅文献资料、加 工处理,拟定提纲,撰写成文,反复修改和(A) A.定稿成文 B.定题名称 C.定稿打印 D.定稿腾写 判断一篇文献综述质量高下的分界线是:(D) A.评论 B.综合归纳 C.总结 D.描述 二、多项选择题 (在每小题的备选答案中,可能有一个或多个正确的答 案,请将其代码分别填在题干的括号内,多选、少选、 错选、均无分。) 信息是事物存在的方式和运动状态及其规律的表征,是 事物的一种普遍属性。信息的特征有(A、B、C、D、E) A.客观性 B.时效性 C.传递性 D、共享性 E.中介性 以信息所依附的载体为依据,信息可分为(A、C、D) A.文献信息 B.自然信息 C.口头信息 D.电子信息 E.社会信息 文献是记录有知识的一切载体。构成文献的要素为(A、 B、D、E) A.知识、信息内容 B.信息符号 C.信息类型 D.载体材料 E.记录方式 文献按出版形式区分,可分为十大文献情报源,除图书、 期刊和报纸外下列哪些文献属于十大文献情报源(C、D、 E) A.研究报告 B.宣传手册 C.会议文献 D.政府出版物 E.专利文献 下列属于四大科技报告的有(B、C、D、E) 报告 报告 报告 报告 报告 下列属于零次文献的有(A、B、C、D) A.书信 B.手稿 C.记录 D.笔记 E.研究报告 下列属于一次文献的有(B、C、E) A.论文手稿

《文献检索》期末考试复习题及答案

《文献检索》试题 1 一、单项选择题 1.信息成为情报必须具有的三个基本要素是( C )。 A.选择、综合、分析 B.综合、筛选、重新组合 C.知识、传递、效益 D. 筛选、组合、系统化 2.下面对查全率和查准率描述错误的是( A )。 A.若某检索工具的查全率较高,则查准率也会相对较高 B.查准率为检出的相关文献量占检出文献总量的百分比 C.查全率和查准率是反映文献标引深度的两个最主要的指标 D.查准率和查全率存在互逆关系 3.下面对叙词语言描述正确的是( A )。 A.叙词语言是后组式语言 B.叙词语言是非规范性语言 C.叙词语言是字面组配 D.叙词直接取自文献中有实际意义的词 4.下面哪项不是代查代检的服务项目( D ) A.专题文献检索服务 B.论文发表快速通道检索证明 C.论文收录与引用情况报告 D.电子阅览服务 5.个性化导读服务的原则是( C )。 A.预测性原则与科学性原则 B.选择性原则与针对性原则 C.主动性原则与双向性原则 D.综合性原则与及时性原则 6.读秀电子图书的专用全文阅读器是( C )。 A. DjVu Reader C. ApabiReader

7.中国生物医学文献服务系统(SinoMed)中能检索出含有“肝炎疫苗”、“肝炎病毒基因疫苗”、“肝炎减毒活疫苗”、“肝炎灭活疫苗”等文献的检索式是( B )。 A.肝炎疫苗 B.肝炎%疫苗 C.肝炎*疫苗 D.肝炎$疫苗8.EMBASE com数据库中检索韩冬季(Han Dongji)的文章,检索式输入错误的是( C )。 A.Han B.Han D J C.Han DJ D.Han D. 9.支持视觉搜索的数据库是( D )。 A.PubMed B.SinoMed C.EMBASE.com D.CINAHL 10.通过Web of Science数据库检索北京大学附属医院师生发表的文献,可用的检索式是( B )。 A. Peking Univ AND hosp Univ SAME hosp C. Peking Univ WITH hosp Univ NEAR hosp 11.以下不属于特种文献的是( B )。 A.专利文献 B.期刊论文 C.学位论文 D.会议论文 12.我国发明、实用新型和外观设计三种类型专利的有效期分别为( C )。 A. 20年、15年、10年 B.10年、20年、10年 C.20年、10年、10年 D.15年、10年、10年 13.下面错误描述Google的是( B )。 A.Google属于综合性搜索引擎 B.Google属于元搜索引擎 C.Google属于通用型搜索引擎 D.Google不属于专题搜索引擎14.下面为开放获取期刊网站的是( D )。

网络信息检索试题及答案(DOC)

第一部分 1、一条及时的信息可能使濒临破产的企业起死回生,一条过时的信息可能分文不值,甚至是企业丧失难得的发展机遇,造成严重后果,这说明信息具有( C )特征。 A、差异性 B、传递性 C、时效性 D、共享性 2、培养学生养成良好的信息素养,主要从四个方面进行,其中不包含( B ): A、信息意识 B、信息心理 C、信息能力 D、信息道德 3、哈佛大学经济学专业学生能够依据图书馆中哪些极为平常、完全公开的图书资料,撰写出核专家都感到惊异的“制造核弹的方法”的报告,反映出良好的信息素养是()。 A、获取知识的捷径 B、科学研究的向导 C、终身教育的基础 D、创新知识的源泉 4、按照信息处理的级别来划分,可以将信息分为零次、一次、二次和三次信息,下面()是一次信息的别称。 A、灰色信息 B、原始信息 C、检索性信息 D、参考性信息 5、“便于保存传递、但需要借助阅读机阅读”是以感光材料记录文字及相关信息的()信息载体类型的特点。 A、印刷型 B、电子型 C、声像型 D、微缩型 6、谈谈你对“信息”的理解。 特征:客观性和普遍性、差异性、传递性、时效性、可转换性、共享性。 7、下列文献哪个是二次文献?( A ) A. 文摘 B. 会议文献 C. 辞典 D.百科全书 8、“文章草稿”、“私人笔记”及“会议记录”属于( A )。 A. 零次文献 B. 一次文献 C. 二次文献 D. 三次文献 9、下列选项中哪一项属于“国内统一刊号”(C )。 A. ISBN 7-04-014623-1 B. ISSN 0254-4164 C. CN 11-2127/TP D. 0254-4164/TP 10、根据国标GB/T 7714-2005规定,下面的横线上的信息是对( C )参考文献的著录条目描述。 萧钰.出版业信息化迈入快车道[EB/OL] .(2001-12-19) [2002-04- 15]. http:∥www. ….htm. A、标准文献 B、期刊(杂志) C、电子文献 D、会议文献 11、根据国标GB/T 7714-2005规定,下面的横线上的信息是对( B )参考文献的著录条目描述。 昂温G,昂温P S .外国出版史[M]. 陈生铮,译. 北京:中国书籍出版社, 2001:15-20 A、期刊(J) B、图书 C、科技报告(R) D、会议文献(Z) 12、下面哪些资料属于三次信息?(ACFLOP) A、《2009年山东省统计年鉴》 B、美国《工程索引》 C、《新华字典》 D、《新华文摘》 E、《机械工业出版社2012年图书征订目录》 F、《计算机科学技术百科全书》 G、《计算机工程与应用》 H、《网络营销》 I、《NASA报告》。 J、《博士论文:论网络时代的商务模

《信息检索》总复习题库及答案

2011-2012经济学院《文献检索与利用》总复习题库 备注:红色为不确定答案,紫色是为了个人强化记忆。 单选题题库 1.下列属于布尔逻辑算符的是(D )。 A、与 B、或 C、非 D、以上都是 2、信息素养的核心是(C ). A、信息意识; B、信息知识; C、信息能力; D、信息道德 3、20世纪70年代,联合国教科文组织提出:人类要向着( B )发展. A、终身学习; B、学习型社会; C、创新发展; D、信息素质 4.参考文献的标准著录格式是( A )。 A、著者篇名来源出处; B、篇名著者来源出处 5.请标出文献:马品仲. 大型天文望远镜研究. 中国的空间科学技术,1993,13(5)P6-14, 1000-758X 属于哪种文献类型( C )。 A、图书; B、科技报告; C、期刊; D、报纸 6.常用的检索系统有( D )。 A、目录检索系统 B、文摘检索系统 C、全文检索系统 D、以上都是 7、哪一种布尔逻辑运算符用于交叉概念或限定关系的组配?( A )。A.逻辑与()B.逻辑或() C.逻辑非()D.逻辑与和逻辑非 8、根据国家相关标准,文献的定义是指“记录有关( C )的一切载体。”A.情报 B.信息. C.知识 D.数据 9、( D )是指通过文献信息资料的主题内容进行检索的途径。 A.题名检索途径 B.作者检索途径 C.分类检索途径 D.主题检索途径 10、搜索含有“”的文件,正确的检索式为:( A )

A." " B. 11、从文献的( B )角度区分,可将文献分为印刷型、电子型文献。A.内容公开次数 B.载体类型. C.出版类型 D.公开程度 12、按照出版时间的先后,应将各个级别的文献排列成( C ) A.三次文献、二次文献、一次文献B.一次文献、三次文献、二次文献C.一次文献、二次文献、三次文献 D.二次文献、三次文献、一次文献13、利用文献后面所附的参考文献进行检索的方法称为( A )。 A.追溯法 B.直接法. C.抽查法 D.综合法 14、《中国学术期刊全文数据库》给出的检索结果为( D )。 A.仅题录 B.仅文摘. C.仅全文 D.题录、文摘和全文三种 15、以作者本人取得的成果为依据而创作的论文、报告等,并经公开发表或出版的各种文献,称为( B ) A.零次文献 B.一次文献. C.二次文献 D.三次文献 16、学术论文写作的六个步骤的正确顺序是( C ): ①搜集资料②研究资料③执笔撰写④选择课题⑤明确论点⑥修改 定稿 A.①⑤④③②⑥ B.⑤③④②①⑥C.④①②⑤③⑥D.②④ ③①⑤⑥ 17、毕业论文答辩的一般程序是( B D ) ①学生答辩②学生作说明性汇报③毕业答辩小组提问④评定成绩 A.③④②①B.②③①④C.③②①④D.②③①④ 18、下列文献中属于哪类属于一次文献( C )? A.文摘 B.索引C.科技报告D.题录 19、如果检索结果过少,查全率很低,需要调整检索范围,此时调整检索策

信息检索试题

信息检索试题 单项选择题: 1、以下各项属于二次信息的是(A ) A、索引 B、期刊 C、学位论文 D、百科全书 2、下列文献中属于一次信息的是( A ) A、专利说明书 B、百科全书 C、目录 D、综述 3、年鉴属于下列哪一类别( D ) A、零次信息 B、一次信息 C、二次信息 D、三次信息 4、( C )是出版周期最短的定期连续出版物。 A、图书 B、期刊 C、报纸 D、学位论文 5、为了有效地存储和传播知识,人类利用各种( C )来记录信息。 A、知识 B、文献 C、载体 D、视听资料 6、报道范围主要为能源方面的科技报告为(D )。 A、AD B、PB C、NASA D、DOE 7、了解各个国家政治、经济、科技发展政策的重要信息源是( B ) A、科技报告 B、政府出版物 C、标准文献 D、档案文献 8、利用截词技术检索“?英语考试”,以下检索结果正确的是(D ) A、英语四级考试 B、英语考试成绩 C、英语考试报名 D、六级英语考试 9、我国最早的分类法是( B) A、《中经新簿》 B、《七略》 C、《四库全书总目》 D、《隋书经籍志》 10、《四级英语阅读与完型填空》这本图书的分类号是( D )。 A、G636.33 B、G216.2 C、I247.4 D、H319 11、按照《中国图书馆分类法》,《新编六级英语阅读解析》这本书应属于哪个类目(A )。 A、H大类 B、I大类 C、T大类 D、O大类 12、《信息检索》这本书的分类号为G252.7,这是按照( B )分类。 A、科图法 B、中图法 C、杜威分类法 D、刘国钧分类法 13、布尔逻辑表达式:在职人员NOT(中年AND教师)的检索结果是(A ) A、检索出除了中年教师以外的在职人员的数据

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案 王斌 最后更新日期 2013/9/28 第一章布尔检索 习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。 文档 1 new home sales top forecasts 文档 2 home sales rise in july 文档 3 increase in home sales in july 文档 4 july new home sales rise 习题1-2 [*] 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; 解答: breakthrough 1 0 0 0 drug 1 1 0 0 for 1 0 1 1 hopes 0 0 0 1 new 0 1 1 1

patients 0 0 0 1 schizophrenia 1 1 1 1 treatment 0 0 1 0 b. 画出该文档集的倒排索引(参考图 1-3中的例子)。 解答:参考a。 习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么? a.schizophrenia AND drug 解答:{文档1,文档2} b.for AND NOT (drug OR approach) 解答:{文档4} 习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。如果不能的话,那么我们能达到的时间复杂度是多少? a.Brutus AND NOT Caesar b.Brutus OR NOT Caesar 解答: a.可以在O(x+y)次完成。通过集合的减操作即可。具体做法参考习题1-11。 b.不能。不可以在O(x+y)次完成。因为NOT Caesar的倒排记录表需要提取其他所有词项对应的倒 排记录表。所以需要遍历几乎全体倒排记录表,于是时间复杂度即为所有倒排记录表的长度的和 N,即O(N) 或者说O(x+N-y)。 习题1-5 [*] 将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询 c.(Brutus OR Caesar) AND NOT (Antony OR Cleopatra) 我们能在线性时间完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗? 解答:时间复杂度为O(qN),其中q为表达式中词项的个数,N为所有倒排记录表长度之和。也就是说可以在词项个数q及所有倒排记录表长度N的线性时间完成合并。由于任意布尔表达式处理算法复杂度的上界为O(N),所以上述复杂度无法进一步改进。 习题1-6 [**] 假定我们使用分配律来改写有关AND和OR的查询表达式。 a. 通过分配律将习题1-5中的查询写成析取式; 12 b. 改写之后的查询的处理过程比原始查询处理过程的效率高还是低? c. 上述结果对任何查询通用还是依赖于文档集的容和词本身? 解答: a. 析取式为:(Brutus And Not Anthony And Not Cleopatra) OR (Caesar AND NOT Anthony AND NOT Cleopatra) b. 这里的析取式处理比前面的合取式更有效。这是因为这里先进行AND操作(括号),得到的倒排记录表都不大, 再进行OR操作效率就不会很低。而前面需要先进行OR操作,得到的中间倒排记录表会更大一些。 c. 上述结果不一定对,比如两个罕见词A和B构成的查询 (A OR B) AND NOT(HONG OR KONG),假设HONG KONG一 起出现很频繁。此时合取方式可能处理起来更高效。如果在析取式中仅有词项的非操作时,b中结果 不对。 习题 1-7 [*] 请推荐如下查询的处理次序。 d. (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)

信息检索题库答案 2

信息检索练习题 第一章 一、单选 1、报道范围主要为能源方面的科技报告为(D )。A、AD B、PB C、NASA D、DOE{第7页} 2、(C )是出版周期最短的定期连续出版物。A、图书B、期刊C、报纸D、学位论文{第6页} 3、(A )是高校或科研机构的毕业生为获取学位而撰写的。A、学位论文B、科技报告C、会议文献D、档案文献{第6页} 4、了解各个国家政治、经济、科技发展政策的重要信息源是(B)A、科技报告B、政府出版物 C、标准文献 D、档案文献{第8页} 5、年鉴属于下列哪一类别(D )A、零次信息B、一次信息C、二次信息D、三次信息{第7页} 6、下列哪种文献属于一次文献(A )。A、图书B、百科全书C、综述D、文摘{第4页} 7、下列文献中属于一次信息的是(A )A、专利说明书B、百科全书C、目录D、综述{第4页} 8、以下各项属于二次信息的是(A )A、索引B、期刊C、学位论文D、百科全书{第4页} 二、多选 9、二次信息主要包括(CD)等。A、手册B、年鉴C、目录D、题录{第4页} 10、信息的属性包括(ABCD )A、客观性B、时效性C、传递性D、共享性{第3页} 11、信息素质的内涵主要包括(ABC )。A、信息意识素质B、信息能力素质C、信息道德素质 D、信息职业素质{第9页} 12、以下类型的信息属于三次信息的是(C )。A、目录B、词典C、百科全书D、科技报告{第4页} 三、判断 13、档案文献具有原始性特点,客观真实地反映了历史。(T ){第8页} 14、年鉴和百科全书属于二次信息。F{第4页} 15、图书一般不能反映最新的信息,时效性差,相比之下,期刊出版发行速度快,内容新颖。(T ){第6页} 16、文献信息源是各种信息源中检索与利用的主体。(T ){第3页} 17、一次信息也称为第一手资料,如书目和索引。(F ){第4页} 18、语言信息源,即零次信息,也就是指非正式的、口头交换的信息。(T ){第4页} 19、知识被包含于信息,是信息的组成部分。(T){第2页} 20、专利说明书属于二次信息的范畴。(F ){第4页} 第二章 一、单选 21、D()是指未检出的相关信息量与检索系统中实际与课题相关的信息总量的比率。A、查全率

《文献信息检索》习题答案文献信息检索(答案)

《文献信息检索》习题答案 一、单选题 1、文献是记录有知识的(A) A.载体 B.纸张 C.光盘 D.磁盘 2、如果需要检索某位作者的文献被引用的情况,应该使用(C)检索。 A.分类索引 B.作者索引 C.引文索引 D.主题索引 3、下列哪种文献属于二次文献( D.) A.专利文献 B.学位论文 C.会议文献 D.目录 4、纸质信息源的载体是(D) A.光盘 B.缩微平片 C.感光材料 D.纸张 5、《中国图书馆分类法》(简称《中图法》)将图书分成( A.) A.5大部分22个大类 B.5大部分26个大类 C.6大部分22个大类 D.6大部分26个大类 6、利用文献末尾所附参考文献进行检索的方法是(C) A.倒查法 B.顺查法 C.引文追溯法 D.抽查法 7、广义的信息检索包含两个过程(B) A.检索与利用 B.存储与检索 C.存储与利用 D.检索与报道 8、中国国家标准的代码是(A) A.G B. B.CB. C.ZG D.CG 9、( D )是报道文献出版或收藏信息为主要功能的工具。 A.题录 B.索引 C.文摘 D.目录 10、逻辑运算符包括(D) A.逻辑与 B.逻辑或 C.逻辑非 D.A,B和C 11、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于(C),在书目数据库中,一条记录相当于() A.一条文摘,一篇完整的文献 B.一条文摘,一条题录 C.一篇完整的文献,一条题录或文摘 D.一条题录,一条文摘 12、《中国学术期刊全文数据库》提供的文献内容特征检索途径有(B) A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者 13、根据反映新内容的程度从大到小,下列文献类型的排序正确的是:(A) A.会议论文,科技期刊,科技报告,科技图书 B.科技图书,科技期刊,科技报告,会议论文 C.科技报告,会议论文,科技图书,科技期刊 D.以上都不对 14、《中国科研机构数据库》、《中国科技名人数据库》属于:(B) A.书目数据库 B.指南数据库 C.全文数据库 D.数值数据库 15、下列检索工具中,主要收录化学与化工类文献的是:(D) A.SCI B.OCLC C.EI

1文献检索导论

Zhejiang University
文献检索导论
冀海峰/侯迪波
浙江大学控制科学与工程学系

Zhejiang University
1 文献的基本概念
文献的定义 文献的类型 现代科技文献的特点

Zhejiang University
1.1 信息、知识和文献
信息:事物运动的状态 与方式。 知识:人类对事物本质 认识的成果和结晶。 文献:记录知识 的一切载体。
文献 知识 信息

Zhejiang University
信息:
《辞海》:信息是指对消息接收者来说预先不知道的报道。 《传播学概论》:信息是用语言、文字、数字、符号、图象、声 音、情景、表情、状态等方式传递的内容。 《情报学概念》:信息是生物以及具有自动控制系统的机器通过 感觉器官和相应的设备与外界进行交换的一切内容。 香农(Shano): 信息是熵(不确定性)的减少。 维纳(Wiener): 信息就是信息,不是物质,也不是能量。 信息是事物属性的再现,是事物存在的方式、形态和运动规律的 表征,是事物具有的一种普遍属性。
知识:知识是人类在认识和改造世界的社会实践中获得 的对事物本质认识的成果和结晶。

Zhejiang University
1.2 文献的定义
文献是记录有知识的一切载体的统称。即用文字、 图像、符号、声音、音频、视频、编码等手段记 录的人类知识的各种载体。 文献的三要素:知识、载体、记录方式。 文献的属性:知识信息性:客观物质性;人工记 录性;动态发展性。

文献检索平时作业答案带图(温医)

1.简述文献的构成。 答:现代文献由四要素构成:文献信息、文献载体、符号系统和记录方式。 2.简述医学文献的特点。 答:数量庞大、载体多样化、多文种化、学科交叉出版分散、知识信息更新加快、交流传播速度加快、电子化发展趋势。 3.简述文献检索的概念和类型。 答:概念:广义的文献检索包括信息的存储和检索两个过程,是指将文献按照一定方式集中组织和存储起来,并按照文献用户需求查找出有关文献或文献中包含的信息内容的过程。 狭义的信息检索即从检索工具或检索系统中,通过一定的检索途径或检索方式查找出需要的信息的过程。 类型:①按照检出结果的形式划分:书目检索、全文检索、引文检索。 ②从情报检索角度划分:文献检索、数据检索、事实检索。 ③按照线索手段划分:手工检索、计算机检索。 4.简述文献检索系统的评价因素。 答:报道信息的准确性、报道信息的及时性、索引体系的完善程度、对信息标引的深度、查全率和查准率。 5.什么事查全率和查准率,二者之间有何关系? 答:查全率(R)和查准率(P)是检索系统最为流行和重要的两个性能和效果评价指标。 R=检出的相关信息量/检索工具中相关信息总量X100% P=检出的相关信息量/检出的信息总量X100% 两者之间存在互逆关系,即如果检索工具的查全率较高,则其查准率将相对下降;反之查准率高,则查全率低;而且查全率和查准率只能相对提高,二者永远不可能同时达到100%。 6.试述文献信息的类型。

答:①按文献信息表现形式划分:文字型、视频型、音频型、数字型 ②按文献信息的出版类型划分:图书、期刊、政府出版物、科技报告、专利文献、会议文献、学位论文、标准文献、产品样本说明书、技术档案 ③按文献信息的载体形式划分:印刷型、缩微型、声像型、电子型 ④按文献信息的加工程度划分: ⑴零次文献信息:书信、手稿、实验数据、观察记录、笔记、内部档案等。特点:内容新颖,但不成熟,难以查询。 ⑵一次文献信息:期刊论文、专利说明书、会议论文、学位论文、科技报告等。特点:内容新颖、详尽,因而是文献信息的最主要来源和检索对象,但其量大、分散而无序,对其查找与利用带来不便。 ⑶二次文献信息: 目录、索引和文摘等。特点:报道性和检索性,主要作用是提供查找文献信息的线索,故又称为检索工具。 ⑷三次文献信息:综述、进展、年鉴和百科全书等。 7.试述电子文献资源的概念与特点。 答:电子文献资源是以电子数据的形式,把文字、声音、图像、视频、等多种形式的文献存储在光、磁等非印刷纸质的载体中,以电信号、光信号的形式传播,并通过网络通信、计算机或终端和其他外部设备等方式再表现出来的一种新型文献资源。 特点:1.存储介质和传播形式的改变 2.信息的表现形式多样化 3.文献资源类型多样化 4.多层次的信息服务功能 5.更新速度快、时效性强 6.具备检索系统或功能 7.检索访问不受时空限制 8.试述医学电子文献资源的类型。

信息检索导论-王斌-第三次课后作业(13-21)

信息检索导论第三次课后作业 1、习题13-2 答:(i)贝努利模型:三个文档具有相同的模型表示 (ii)多项式模型:文档1和文档2相同,文档3与它们都不同。文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。 2、习题13-5

3、习题14-6 在图14-14 中,3 个向量→a、→b及→c中哪一个满足:(i) 采用内积计算的情况下与→x最近?(ii) 采用余弦相似度计算的情况下与→x最近?(iii) 采用欧氏距离计算的情况下与→x最近?

4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)? 答:一个数据集里支持向量的最小数目是2个。因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。请问这两个条件是否等价? 答:这两个停止条件是等价的。当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均值算法计算出的文档的分配也就不再改变。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么? b. 当使用HAC 算法时,预期的结果是否仍然一样? 答:a.预期的结果:文档根据语言的大致分成两类。 b.预期的结果不一样。HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。 7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。整个文档集如图18-4所示。图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。当然,该术语表只用于帮助理解,对检索系统来说是不可见的。 答:(1)词项-文档矩阵: d1 d2 d3 d4 d5 d6 hello 1 0 0 0 0 1

信息检索题库(含答案)

注意: 1、通读教材,根据页码提示完成下列题目。 2、最后一次上机课在线测试,范围不超出如下题 目。 第一章 一、单选 1、报道范围主要为能源方面的科技报告为(D)。A、AD B、PB C、NASA D、DOE{第7页} 2、(C)是出版周期最短的定期连续出版物。A、图书B、期刊C、报纸D、学位论文{第6页} 3、(A )是高校或科研机构的毕业生为获取学位而撰写的。A、学位论文B、科技报告C、会议文献D、档案文献{第6页} 4、了解各个国家政治、经济、科技发展政策的重要信息源是(C)A、科技报告B、政府出版物C、标准文献D、档案文献{第8页} 5、年鉴属于下列哪一类别(D)A、零次信息B、一次信息C、二次信息D、三次信息{第5页} 6、下列哪种文献属于一次文献(A )。A、图书B、百科全书C、综述D、文摘{第4页} 7、下列文献中属于一次信息的是(A )A、专利说明书B、百科全书C、目录D、综述{第4页} 8、以下各项属于二次信息的是(A )A、索引B、期刊C、学位论文D、百科全书{第4页} 二、多选 9、二次信息主要包括(CD)等。A、手册B、年鉴C、目录D、题录{第4页} 10、信息的属性包括(ABCD)A、客观性B、时效性C、传递性D、共享性{第3页} 11、信息素质的内涵主要包括(ABC)。A、信息意识素质B、信息能力素质C、信息道德素质D、信息职业素质{第9页} 12、以下类型的信息属于三次信息的是(BC)。A、目录B、词典C、百科全书D、科技报

告{第4页} 三、判断 13、档案文献具有原始性特点,客观真实地反映了历史。(∨){第8页} 14、年鉴和百科全书属于二次信息。(×){第4页} 15、图书一般不能反映最新的信息,时效性差,相比之下,期刊出版发行速度快,内容新颖。(∨){第6页} 16、文献信息源是各种信息源中检索与利用的主体。(∨){第3页} 17、一次信息也称为第一手资料,如书目和索引。(×){第4页} 18、语言信息源,即零次信息,也就是指非正式的、口头交换的信息。(×){第4页} 19、知识被包含于信息,是信息的组成部分。(×){第2页} 20、专利说明书属于二次信息的范畴。(×){第4页} 第二章 一、单选 21、(D)是指未检出的相关信息量与检索系统中实际与课题相关的信息总量的比率。A、查全率 B、查准率 C、误检率 D、漏检率{第43页} 22、《四级英语阅读与完型填空》这本图书在中图法体系中的分类号可能是(D)。A、G636.33 B、G216.2 C、I247.4 D、H319{第21页} 23、布尔逻辑表达式:在职人员NOT(中年AND教师)的检索结果是(A)A、检索出除了中年教师以外的在职人员的数据B、中年教师的数据C、中年和教师的数据D、在职人员的数据{第34-35页} 24、布尔逻辑检索中检索符号“OR”的主要作用在于(C)。A、提高查准率B、提高查全率C、排除不必要信息D、减少文献输出量{第35页} 25、根据一定的需要,将特定范围内的某些文献中的有关知识单元或款目按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具是(C)。A、目录B、题录C、索引D、文摘{第30页} 26、将存储于数据库中的整本书、整篇文章中的任意内容查找出来的检索是(A )A、全文检索B、文献检索C、超文本检索D、超媒体检索{第14页}

相关主题
文本预览
相关文档 最新文档