当前位置:文档之家› 信息检索

信息检索

信息检索
信息检索

海南大学课程论文

评阅教师:

2014年 11 月

09 日

课程名称: 文献信息检索与利用

题目名称: 2000以来中国土地征收补偿制度研究

学 院: 政治与公共管理学院

专业班级: 土地资源管理2班

姓 名: 邓钰英

号: 2013060731005

考前注意事项:

●试卷统一用A4纸打印后交给任课老师。

●试题中的题录保存统一按以下标准格式著录:

1.期刊论文格式

主要责任者.文献题名[J].刊名,出版年份,卷号(期号):起止页码.如:袁庆龙,候文义.Ni-P合金镀层组织形貌及显微硬度研究

[J].太原理工大学学报,2001,32(1):51-53.

2.学位论文格式

主要责任者.文献题名[D].保存地:保存单位,年份

如:张和生.地质力学系统理论[D].太原:太原理工大学,

1998.

3. 图书格式

主要责任者.书名.出版地:出版者,出版年

如:刘国钧,郑如斯.中国书的故事[M].北京:中国青年出版社,1979.

●拷贝屏幕的操作如下:点击键盘Print Screen键,或者登录QQ后用

CTRL+ALT+A三键进行截屏,在题目结尾处点击鼠标右键粘帖界面即可。

屏幕图可适当缩小。

2014-2015第一学期

《文献信息检索与利用》考核题

姓名:邓钰英

学号: 20130607310055

学院:政治与公共管理学院

年级: 2013级

专业:土地资源管理

任课老师:邓玲

成绩:

一、自拟一道与本专业有关的检索课题进行检索,至少应包括三个(含三个)

以上的主题。(温馨提示:自拟的题目不能和其他同学重复,主题重复,试卷退回重做或做不及格处理。)

题目: 2000以来中国土地征收补偿制度研究

(如:检索2000以来有关海南国际旅游岛制度建设方面的信息)

1、使用CNKI数据库、重庆维普期刊数据库或者万方数据资源系统检索与课题密切相关学

术论文,写出检索词、检索式(检索式包括检索词、检索途径、检索词之间的逻辑关系)、检

出的结果数,保存三条记录的题录。(10分)

选择的检索工具: CNKI数据库

检索词:土地征收补偿

检索式:主题=土地*题名=(征地+ 征收)*题名=补偿

(如:主题=海南 * 题名=国际旅游岛 * 题名=(体制+制度+架构))

检出结果数: 1318条。

三条题录:

a.李木子. 中国土地征收补偿制度——弊病与构建[J]. 法制与经济(下旬刊),2010,01:77+79.

b.孙亮亮. 中国土地征收补偿制度研究[D].中央民族大学,2012.

c.屈茂辉,周志芳. 中国土地征收补偿标准研究——基于地方立法文本的分析[J]. 法学研究,2009,03:163-177

(拷贝屏幕粘贴处)

2、使用CNKI学位论文数据库或万方学位论文数据库,检索该课题的学位论文,写出检索

词、检索式(检索式包括检索词、检索途径、检索词之间的逻辑关系)、检出的结果数,保存

题录三条。(10分)

选择的检索工具: CNKI学位论文数据库

检索词:土地征收补偿

检索式:主题=土地*题名=(征收 + 征收)*题名=补偿

其他检索限制(如:模糊、精确、时间等) 日期:2000-2014

检出结果数: 224条

三条题录:

a. [1] 柴涛修.中国土地准征收制度研究[D].南京农业大学,2009 b. [2] 米超锋.我国集体土地征收补偿分配制度研究[D].西南政法大学,2012.

c. [3] 侯旭.论我国国有土地上房屋征收与补偿法律制度的完善[D].北京交通

大学,2013.

(拷贝屏幕粘贴处)

3、找出研究该课题的经典文献、学科牛人及权威研究机构各一个。(5分)

a.经典文献农地征收的补偿问题研究

b.学科牛人刘卫东

c.权威研究机构郑州大学中国土地法律与公共政策研究中心

(拷贝屏幕粘贴处)

4、使用百度、Google等搜索引擎的高级搜索检索该课题的文献,写出5条检索结果,并将检索结果与题1中的检索结果进行比较分析,写出你的使用评价。(5分)

选择的搜索引擎:百度文库

检出结果数: 97869条

5条记录:

a.中国土地征用补偿制度之功能分析

b.中国土地征收补偿制度——弊病与构建

c.中国土地征收补偿标准研究——基于地方立法文本的分析

d.土地征收补偿研究

e.农村土地征收补偿安置

(拷贝屏幕粘贴处)

使用评价:万方数据库检索方向更加明确,检索结果可用性强,文档清晰度高,浏览方便,

资源有优势万方数字化期刊库也提供多字段检索:论文标题,作者,年,关键词,摘要。万方可以

二次检索,可以多次进行二次检索,万方支持逻辑检索, 逻辑关系词“与”、“或”、“非”;

万方可以跨库检索也可以单库检索;而百度在这些方面比起来明显不足。百度、谷歌这样的搜

索引擎等检索系统而言能够找寻到更多的相关资讯,它所搜出的论文还包括了各个方面的,例

如说论坛的贴吧,其他网站,同时能够获取额外的重要信息;也使得我们在检索的时候需要花

费大量时间去筛选我们要找的消息。

5、根据EBSCO、CALIS外文期刊网、Wiley、国道、读秀、学术谷歌或其他外文数据库的

收录范围,任选其中一个数据库检索与课题密切相关的外文论文,写出检索词、检索式(检索

式包括检索词、检索途径、检索词之间的逻辑关系,以及可能存在的位置算符和截词符)、检

出的结果数,保存三条记录的题录,并打开其中一篇论文。(10分)

选择的检索工具: EBSCO

检索词: china’s land expropriation compensation 检索式: TI china AND TX expropriation of land AND TX compensation

其他检索限制(如:模糊、精确、时间等)限定条件出版日期: 20000101-20141231

检出结果数: 80个

三条题录:

a.Yang, Yi-fan1 BASIC LAND SECURITY AND LIVELIHOOD: A STUDY OF COMPENSATION AND SOCIAL SECURITY POLICY FOR LAND-EXPROPRIATED PEASANTS IN CHINA.

[D] Public Administration & Development. Oct-Dec2012, Vol. 32 Issue 4/5,

p385-401. 17p. b. Zhou, Chao Banik, Dan Access to Justice and Social Unrest in China's Countryside: Disputes on Land Acquisition and Compensation.[D] Hague Journal

of the Rule of Law. Sep2014, Vol. 6 Issue 2, p254-275. 22p.

c. KELIANG, ZHU1keliangz@https://www.doczj.com/doc/5f1857282.html, PROSTERMAN, ROY2 Land Reform Efforts

in China. [D] China Business Review. Oct-Dec2012, Vol. 39 Issue 4, p46-49. 4p.

1 Color Photograph,

2 Graphs.

(拷贝屏幕粘贴处)

6、利用所学数据库,查找相关文献(需截图),写出该课题的研究现状或动态(研究的最新进展情况,10分)。

(拷贝屏幕粘贴处)

二、学者及引文检索

1、检索你的某个专业老师发表的论文情况,写出发表论文数量、论文被引用次数,保存论文题录1-3条。(5分)

选择的检索工具:万方数据库

选择的专业老师名字:黎兴强

发表论文数量: 7篇期刊论文

论文被引用次数: 5次

三条记录:

a.黎兴强,黄朝明,王萍等.海南与浙江两省城市化发展水平的实证比较分析[J].华南热带农业大学学

报,2007,13(1):55-60.DOI:10.3969/j.issn.1674-7054.2007.01.014.

b.黎兴强.包容性发展棱锥模型对海南后现代旅游房地产开发的启示[J].海南大学学报(人文社会科学版),2012,30(3):94-101.DOI:10.3969/j.issn.1004-1710.2012.03.016.

c.栾乔林,董强,黎兴强等.我校土地资源管理专业测量学教学改革的探讨[J].华南热带农业大学学报,2004,10(4):59-61.DOI:10.3969/j.issn.1674-7054.2004.04.016.

(拷贝屏幕粘贴处)

2、根据上一题的检索结果,找出该专业老师被引最多的一篇论文,列出引用该专业老师论文的1-3篇论文题录。(5分)

被引论文题录: [期刊论文] 黎兴强, 黄朝明, 王萍, Li Xingqiang, Huang Chaoming, Wang Ping - 《华南热带农业大学学报》 2007年1期

该论文被引次数: 3次

引用论文题录

a. 龚珊珊福建与浙江两省城市化发展水平的实证比较分析[期刊论文] -科技信息2009(22)

b. 黎兴强华南四省区第三产业结构效益的实证比较分析[期刊论文] -浙江大学学报(理学版)2008(4)

c. 潘孝军比较城市化研究文献综述[期刊论文] -科技情报开发与经济2010(13)

(拷贝屏幕粘贴处)

三、使用“海南教育科研数字图书馆”或“读秀学术搜索”检索某种图书,并通过文献传递方式发送到你的邮箱。(10分)

(拷贝屏幕粘贴处)

四、任选超星、书生之家或APABI电子图书,简述检索方法,并检索出你感兴趣的3种图书(本专业书、小说、英语学习书),保存图书题录3条。(10分)选择的检索工具:超星电子图书馆

检索方法:进入超新电子图书首页,可以“一框式”搜索图书,还可以在高级搜索里面精确搜索本专业书:搜索土壤学;小说:巴黎圣母院;英语学习书:新东方英语。然后找到自己喜欢的,打开,保存题录。

三条题录:

a.孙向阳主编;(加)Scott X.Chang等编写.土壤学[M].北京市:中国林业出版社.2005.

b.(法)雨果(Victor Hugo)著;管震湖译.巴黎圣母院[M].上海市:上海译文

出版社.2001.

c.俞敏洪主编.新东方英语[M].北京市/西安市:世界图书出版公司.2001.

(拷贝屏幕粘贴处)

五、写出你的5个专业网站,加以简单介绍(5分)

1.中华人民共和国国土资源部https://www.doczj.com/doc/5f1857282.html,/中华人民共和国国土资源部是中华

人民共和国国务院的组成部门之一,1998年3月10日,第九届全国人民代表大会第一次会议

第三次全体会议表决通过关于国务院机构改革方案的决定。由地质矿产部、国家土地管理局、

国家海洋局和国家测绘局共同组建国土资源部。保留国家海洋局和国家测绘局(后更名为“国

家测绘地理信息局”)作为国土资源部的部管国家局。

2.中国土地市场网https://www.doczj.com/doc/5f1857282.html,对近年来中国土地市场的主要运行机制——竞争

机制、价格杠杆和供求关系进行实证研究,总结城市土地市场运行过程中存在的问题,同时梳

理土地市场管理的制度变迁过程,分析以土地产权为基础、收益分配为核心、保障体系为配套

的宏观调控政策体系。

3.中国国土资源报网https://www.doczj.com/doc/5f1857282.html,2011年1月正式上线,是由国土资源部主管,中国国

土资源报社主办的国土资源专业门户网站。中国国土资源报网注重报道国土资源部最新政策、

重要会议,发布国土资源系统内外最新消息、理论及实务研究,关注国土资源行业热点事件、话题,刊登各地国土资源典型做法、资讯信息,搭建国土资源系统交流、互动平台等,在国内外网民中树立了“国土资源权威媒体”的形象。

4.中国房地产网https://www.doczj.com/doc/5f1857282.html,是《中国房地产报》新媒体业务、优博集团旗下传媒投资品牌之一。网站初期定位于房地产产经门户,为中国最具影响力的受众群,提供准确、全面、深入的地产新闻和资讯信息服务。我们的目标是发展成为中国地产人首席网络社区,地产界的FACEBOOK。网站依托《中国房地产报》专业的采编团队和强大的原创新闻优势,立足中国最具投资价值的房地产业,有机整合资讯、观点、多媒体、互动等形态丰富的资讯产品,以客观、专业的视角输出高品质地产产经信息,服务于中国房地产产业链。

5.湖南省国土厅https://www.doczj.com/doc/5f1857282.html,承担保护与合理利用土地资源、矿产资源、海洋资源等自然资源的责任。承担规范国土资源管理秩序的责任。承担优化配置国土资源的责任。负责规范国土资源权属管理。承担湖南省耕地保护的责任,确保规划确定的耕地保有量和基本农田面积不减少。承担及时准确提供湖南省土地利用各种数据的责任。承担节约集约利用土地资源的责任。承担规范国土资源市场秩序的责任。负责矿产资源开发的管理。负责管理地质勘查行业和矿产资源储量。承担地质环境保护的责任。承担地质灾害预防和治理的责任。依法征收资源收益,规范、监督资金使用,拟订土地、矿产资源参与经济调控的政策措施。推进国土资源科技进步。开展对外合作与交流。承办省政府交办的其他事项。

(拷贝屏幕粘贴处)

六、利用维普数据库查找你所学专业的某一核心期刊(北大2011版)。(5分)

检索系统:维普期刊资源整合

刊名:管理科学

主办单位:中国管理科学学会哈尔滨工业大学管理学院

影响因子:2011年 0.9872 2012年 0.9533

被引频次: 850 下载频次:

载文量:

(拷贝屏幕粘贴处)

七、利用维普考试系统检索近两年大学英语四、六级考试真题试卷,进入试卷做题界面并拷贝屏幕(5分)

google搜索引擎检索性能评价

Google搜索引擎检索性能评价 2012/12/9

Google搜索引擎检索性能评价 摘要: 网络信息和信息检索技术的发展推动了搜索引擎实践的发展,使得搜索引擎评价研究成为信息检索领域的研究热点之一。本文以搜索引擎检索结果的相关性为核心指标,对Google搜索引擎的检索性能进行了评价,旨在帮助用户在利用搜索引擎时选取恰当的检索策略。 关键词:搜索引擎信息检索评价相关性 Abstract: The development of Internet information and technologies of information retrieval accelerates the development of search engine. It has made the study of evaluation of search engine to be one of the popular issues in the field of information retrieval. This paper takes relevance of retrieval results as index to evaluate the performance of Google. The finding can be used to assist users in formulating an appropriate search strategy. Keywords:search engine; information retrieval; evaluation; relevance 前言 研究背景: 根据2012年7月由中国互联网络信息中心(CNNIC)公布的中国互联网络发展状况统计报告显示截至2012年6月底,中国网民数量达到5.38亿,互联网普及率为39.9%。伴随着如此巨大规模的网络用户而来的是海量的互联网信息,面对这些信息,用户们不免迷失于此,网络信息资源的无限增长与用户有限的效用信息需求之间的矛盾便日益凸显[1]。因此用户利用搜索引擎辅助,以尽可能得到自己所需信息也就是很自然的了。据上述报告,截至2012年6月底,搜索引擎用户规模达到4.29亿,较2011年底增长2121万人,半年增长率为5.2%;在网民中的渗透率为79.7%,使用比例与2011年6月、12月基本持平,是仅次于即时通信的第二大网络应用。但是,即使使用搜索引擎,也难免不能获取所需信息,研究表明,公认最好的搜索引擎,其检索结果中的相关信息也不会超过50%。[2]所以如何使搜索引擎用户能够获取所需信息,在信息研究领域便显得尤为重要。而这则一定离不开搜索引擎的评价研究,通过调查搜索引擎的检索性能并进行评价研究,对搜索引擎的改进将起到很大帮助。 研究目的 从上个世纪90年代初到现在,短短的20余年间搜素引擎的发展发生了巨大的变化,不断地有新的搜素引擎出现,同时也有一些搜素引擎退出了历史舞台。因此搜索引擎市场千变万化,要对它们全部进行评价研究还不现实。经过综合考虑搜素引擎的流行度与所占市场份额,笔者选取Google作为典型案例加以分析。Google当前以83.33%的搜索量占据搜素引擎

信息检索与利用

信息检索与利用 Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】

探析文献期刊数据库的检索及应用策略 摘要随着互联网技术的发展,传统的印刷方式和人工的检索的使用率逐渐被替代,更多的是数据库的检索方式。本文主要以文献期间数据库作为研究对象,对其检索过程以及在检索方面的策略进行详细的分析,以期供人们进行参考。 随着网络搜索引擎的普及,信息检索已是群众基础广泛的全民行为。但学术研究的信息需求与检索的目标要求检索者需要具备一定的专业检索知识与能力。其中,各种图书、期刊、电子资源等学术信息的检索是学生应该掌握的重要能力。除谷歌学术、百度学术等搜索引擎中可进行学术检索外,相关文献期刊数据库是最主要的学术检索途径。请列举国内外常用的文献期刊数据库,并结合自己在论文撰写和学习研究中对其的利用情况,分别阐述其数据库建设内容、特色特点与检索方式,在此基础上进行总结,探析文献期刊数据库的检索及应用策略。 一、文献期间数据的主要检索方式 信息检索 无论是传统的文献检索还是当前文献期刊数据库发展,在信息检索方面,人们倾注了较长时间的关注,这也是信息检索在期刊文献等检索当中技术发展较为完善的原因之一,信息检索主要包括结果显示以及下载,在信息检索方面,常规的数据库采用的基本信息检索主要包括基本检索和高级检索这两种方式,基本检索包括简单检索和快捷检索,高级检索主要包括专业检索和复杂检索两大功能,并在此基础上进行二次检索,从而进一步缩小检索目标,获得更为精准的结果,同时,它们一致支持逻辑运算、模糊检索等,并提供规范化词

表和索引浏览等检索方式,在检索的结果方面,一般显示命中文献的文献题名、作者、出处、时间、文摘以及基本内容等,在现代化的数据库当中还会设计到文献作者的电子信息或者引文等信息。 内容扩增 内容扩增主要指的是文献期刊数据库在基本的检索功能基础上新扩展的方向,从传统的数据库发展来分析,每一个数据库都对应着危险收录的范畴,主要包括时间、地域、学科以及文献类型的范围等,数据库对于文献内容范围是其衡量的主要质量以及指标。随着互联网技术的发展以及各行业学科的深入研究,综合性科学的文献内容量逐渐增大,数据库作为文献信息的动态集合体,因而不得不采用动态集合体的方式,突破原来文献的限制范围,进一步扩大收录范围,为此,互联网技术的发展为期刊数据库的内容扩增提供了优越的条件。 二、文献期间数据的应用策略 1.检索项的选择 对于文献期刊数据库在应用策略上的首先要突破的讲究检索项。一般来讲,检索项的选择与不同特征的检索课题有着很大的关系,选择不同的检索途径,人们对于文献的检索需求都是根据自身所需要的关于行业、课题研究的本身的内容相关来设定的,因此,主题词的检索也是常规的检索方式,如果人们需要了解特有的信息,比如那一年,那位作者发表的相关文献,一般可以从着作角度可以直接查到。同样,从期刊的名称查找文献的方法,根据文章的篇名可以向人们提供文献的出处,一旦用户想要了解某一学科的文献情况,分类检索途径可以帮助其迅速浏览相关的文献。

索引与查询性能

第14章索引与查询性能 索引中文词典解释根据一定需要,把书刊中的主要内容或各种题名摘录下来,标明出处、页码,按一定次序分条排列,以供人查阅的资料。如果一本书籍没有目录,要想快速检索出想要查询的资料,就只有逐页查找,这种方式效率极其底下。数据库中的索引也类似于书籍目录相同的功能。 索引是有效使用数据库系统的基础,当表中的数据量较小时,使用索引和不使用索引带来的性能差异不大;但当表中的数据量极大时,就一定需要索引的辅助才能有效的存取数据。 一般索引建立的是否适当,是决定性能好坏的关键。并由于更改索引结构不会影响数据字段的定义,也就是前端程序可以照常存取,因此当上线后的应用程序使用效率比较低的时候,可以尝试建立或优化所以,从而提高应用软件的性能。 SCMDB示例数据库中表的数据量较小,无法演示使用索引带来的效率提升。本章采用微软示例数据库AdventureWorks作为演示数据库。希望通过以下的测试,给读者一个感性认识。 【演示】查询表SalesOrderDetail中销售订单编号在48077-48080范围内的订单编号、产品ID以及订单数量。 【分析】表SalesOrderDetail的记录数为121317,其中Sales前缀为架构名称。通过参数set statistics time on开启统计时间。图14-1所示为在表SalesOrderDetail使用聚集索引后的演示效果,时间执行时间仅仅为1毫秒。图14-2所示为删除聚集索引后的运行时间为27毫秒。表中的数据量越大,使用索引与不使用索引带来的性能上的差异性越大。 图14-1 使用索引进行查询 图14-2 没有使用索引进行查询 14.1 索引的分类 SQL Server中索引分为两种类型:聚集索引(Clustered Index)和非聚集索引(Non Clustered Index),也可称为聚簇索引和非聚簇索引。

百度搜索引擎查询外部链接命令

百度搜索引擎查询外部链接命令 百度搜索引擎是没有查询外部链接的命令,只能使用“domain”命令来查询含有当前网址的结果页面。有的朋友会说查询外链可以使用雅虎搜索引擎就可以了,不过大家应该都知道,相关域的数量和质量对网站权重的提升也有作用,而domain命令返回的结果是否是真实的相关域数量呢? 曾经看到过很多网站收录一百万,查询其网站相关域的时候会发现数量远远超过一百万,这是什么情况呢?DOMAIN查询出来的结果中只是显示了包含有您查询的网址的页面,不管这个页面来自哪里,这样查询出来的结果中肯定会包含很多自己的页面,甚至是所有site查询出来的所有结果都在domain查询中出来了,因为域名也是被搜索的对象。而“-”的命令是减去的意思,意思很容易理解,但如何更好的利用才是关键,就比如刚刚的情况,想要得到网站在百度的相关域的准确数据可以使用这个组合命令,命令解释为查询当前域名在百度的相关域的数量并减去当前域名在百度收录的数量,那么得到的结果自然就是当前域名的百度的相关域数量的准确值了。 还有一个问题给大家解释一下,那就是很多站长在DOMAIN自己网站的时候会发现本来查询数量为几千,但是翻页后却发现只有几百个了,这种情况其实很好解释,那就是你在发外链的时候网址局限性比较大,很多查询结果都源自固定的几个或十几个网站,百度为了节省资源而省略了一个网站下的多个查询结果,所以一般在结果的最后一页都有提示:为了提供最相关的结果,我们省略了一些内容相似的条目,点击这里可以看到所有搜索结果。再细心点的网友还发现即使点了那个链接后再来看,翻到后面也不一定会显示跟原来一样的结果,甚至当你翻到最后一页的时候你算下页数计算出总数后跟百度提供的数据还是对不上,我的理解是这样的,因为百度数据库非常大,可能其中一样数据都被分在很多服务器上,所以查询时不同的服务器给出的结果会对不上。

信息检索与利用论文

信息检索与利用 本学期我很荣幸地选修了信息组织这门课,因为通过这门课的学习,我学会了如何利用网络这个无尽的资源库快速便捷地找到自己所需要的信息,这便是信息检索。这是一门让我受益匪浅的课程。 当今时代,被誉为信息爆炸的时代,各种各样的信息已各种各样的形式充斥在人们的学习生活工作中。而随着科学技术的不断发展网络更是其中提供信息的佼佼者。她的信息之广泛之于传统的工具书给了当今人们全然不同的体验,她让人们能更加快速便捷地接受到各种不同的信息,给人们带来了很多方便。但网络中同时也充斥着很多的垃圾信息,需要人们经过删选才能为之所用,如果方法不正确的话,这样也同样会很费时费力不能达到事半功倍的目的。而且很多专业性很强的学术性的信息通过一般的途径都是需要付费的,这也给我们的学习工作带来很大的不便。因此,网络中的信息检索与利用变得尤为重要。 什么是信息检索呢?我通过百度搜索在“百度百科”可得到以下答案:信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。总的来说,信息检索就是用一定的方式找到用户所需要的信息(此处通过百度查询信息检索的定义也是一种方法)。那么该如何快速便捷的找到这些我们所需要的信息呢?信息检索与利用也就是帮我们解决这个问题。下面我就以如何获取我所学的的专业知识这个例子具体讲解改怎样利用信息检索。 例如我所学的专业是信息管理与信息系统,我需要自己设计一个起泡排序程序。对于这个程序,我们首先有一个大致的认识,即第一步是选定排序方法,第二步是设置起泡排序的过程。这是一个发散型的实验,这就可以借助网络这个信息平台,以获得我们所需要的信息。首先,我们要知道如何进行实验的第一步,即决定排序方法。我们平时习惯先用百度或者Google这些门户网站搜索。此处利用百度搜索的结果是:将被排序的记录数组R[1..n]垂直排列,每个记录R[i]看作是重量为R[i].key的气泡。根据轻气泡不能在重气泡之下的原则,从下往上扫描数组R:凡扫描到违反本原则的轻气泡,就使其向上"飘浮"。如此反复进行,直到最后任何两个气泡都是轻者在上,重者在下为止。对于一般的查找来说只要这样的结果基本上就能满足要求,但是实验方法这种要求比较专业的情况来说,我们往往会借助专业网站进行相关论文搜索,从相关论文中查找的对应的方法或借助他人的学习经验,初步设定解决方案,这种专业的网站使用得比较多比较普遍的有万方数据库(偏于理科)、中国期刊网(偏于文科)等。这些网站提供的都是一些很前沿而且都是经过发表的学术类文章,能够为我们提供很好的信息服务。但这些网站的一般都是要付费的,需要注册登录才能下载相关文章,一般大学图书馆都会每年购买这些网站,为我们的学习研究带来很多方便。在我们的信息组织课上,老师提到,如果不能享用这些服务,可以使用一些特殊的搜索方法,比如在Google中,在搜索栏中输入“index of/cnki”再按搜索键就可以找到许多图书馆的CNKI、VIP、超星等数据库的入口。进入这些网站后,在一般检索中输入关键词“起泡排序算法”搜索,即可找到相关论文,点击就可以免费下载,但应该下载一个PFD 阅读器才能打开查看。通过这样的方法,可以在任何时间任何地点便捷地找到自己所需的专业信息,可以让你没有顾忌的找到自己所需要的材料为你所用。

信息检索与利用作业

作业一 一、单项选择 (1/30)、字段限定检索是指将检索词限定在特定的( )中进行检索。(2分) A、位置 B、检索式 C、数据库 D、字段 (2/30)、()是是指不利用一般的检索系统,而是利用文献后面所列的参考文献,逐一追查原文(被引用文献),然后再从这些原文后所列的参考文献目录逐一扩大文献信息范围,一环扣一环地追查下去的方法。(2分) A、工具法 B、追溯法 C、交替法 D、抽查法

(3/30)、()是用于在检索中排除不需要的概念或排除影响结果的概念。(2分) A、逻辑或(OR) B、逻辑与(AND) C、逻辑非(NOT) D、逻辑与和逻辑非 (4/30)、()是检索出的相关信息量与信息系统中的相关信息总量之比。(2分) A、查全率 B、失误率 C、查准率 D、检索效率 (5/30)、三次文献是在合理利用二次文献的基础上,对一次文献内容进行归纳综合撰写的专著。下列属于三次文献的是( )(2分) A、报纸、教材、期刊目录

B、手册、述评、进展报告 C、图书、专利、产品资料 D、报纸、图书、手册 (6/30)、二次检索是指把新一轮检索限制在( )范围内。这种方法有利于提高检索速度的检索的精确度,如 Google、百度在结 果页都提供相关检索和二次检索。(2分) A、一定数量 B、一定地域 C、一段时间 D、已经检索到的结果 (7/30)、哪一种布尔逻辑运算符用于交叉概念或限定关系的组配?( )。(2分) A、逻辑或(OR) B、逻辑与和逻辑非 C、逻辑非(NOT)

D、逻辑与(AND) (8/30)、信息检索根据检索对象不同,一般分为()(2分) A、二次检索、高级检索 B、数据检索、事实检索、文献检索 C、分类检索、主题检索 D、计算机检索、手工检索 (9/30)、( )是检索出的相关信息量与检索出的信息总量之比。(2分) A、查全率 B、失误率 C、查准率 D、检索效率 (10/30)、( )是指将信息按一定方式组织和储存起来,并针对信息用户的特定需求查找出所需信息内容的过程。(2分) A、信息分析

信息检索与利用(本科)试题及答案

文件检索 1、个人信息源又称为( B )。 A、文献信息源 B、口头信息源 C、生物信息源 D、实物信息源 2、文献是记录有知识的( A)。 A、载体 B、纸张 C、光盘 D、磁盘 3、下列哪种文献属于一次文献(A)。 A、期刊论文 B、百科全书 C、综述 D、文摘 4、下列哪种文献属于二次文献( D )。 A、专利文献 B、学位论文 C、会议文献 D、目录 5、下列哪种文献属于三次文献( C )。 A、标准文献 B、学位论文 C、综述 D、文摘 6、下列选项中属于连续出版物类型的选项有( A )。 A、人民日报 B、学位论文 C、科技期刊 D、会议文献 7、下列选项中属于特种文献类型的有( A )。 A、学位论文 B、图书 C、科技期刊 D、标准文献 8、纸质信息源的载体是( D) A、光盘 B、缩微平片 C、感光材料 D、纸张 9、《中国图书分类法》(简称《中图法》)将图书分成( A ) A 5大部分22个大类 B 5大部分26个大类 C 6大部分22个大类 D 6大部分26个大类 10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在( A )类目下查找。A、S类目 B、Q类目 C、T 类目 D、R类目 11、使用逻辑“与”是为了( B) A、提高查全率 B、提高查准率 C、减少漏检率 D、提高利用率 12、使用逻辑“或”是为了(A ) A、提高查全率 B、提高查准率 C、缩小检索范围 D、提高利用率 13、利用文献末尾所附参考文献进行检索的方法是( C ) A、倒查法 B、顺查法 C、引文追溯法 D、抽查法 14、至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为(A )。 A、数据库 B、记录 C、字段 D、文档 15、广义的信息检索包含两个过程(B ) A、检索与利用 B、存储与检索 C、存储与利用 D、检索与报道 16、要查找李平老师所发表的文章,首选途径为(A ) A、著者途径 B、分类途径 C、主题途径 D、刊名途径 17、狭义的专利文献是指(C ) A、专利公报 B、专利目录 C、专利说明书 D、专利索引 19、政府出版物主要包括两大类型的文献( B ) A、专利与标准 B、行政文件与科技文献 C、图书与期刊 D、档案与标准 20、ISBN是( B )的缩写A、国际标准刊号 B、国际标准书号 C、连续出版物代码 D、国内统一刊号 二、多选题(20分,每题2分) 1、文献的构成要素( A B C )A、信息内容 B、载体材料 C、信息符号 D、纸、光盘 2、下列各项哪些属于文献( A B C ) A、图书、期刊 B、光盘、磁盘 C、光盘数据库 D、纸张 3、期刊论文的外部特征有( A B C D ) A、文献题目 B、著者 C、文献出处 D、主题词 4、图书的外部特征有( A B C D ) A、分类号 B、著者 C、书名 D、出版社 5、检索词包括规范化词和非规范化词,下列选项中属于规范化词的有( A C D )。 A、叙词 B、标题词 C、关键词 D、主题词 6、著者(责任者)途径主要是通过( A B )进行检索。 A、著者索引 B、专利权人索引 C、主题索引 D、号码索引 7、以文献的外部特征为检索途径的有( B C D ) A、主题途径 B、分类途径 C、题名途径 D、责任者途径 8、信息检索按其检索手段划分,可以分成( A C ) A、计算机检索 B、文献检索 C、手工检索 D、全文检索 9、世界三大农业数据库是指( A B D ) A、CABI B、AGRIS C、EBSCO D、AGICOLA 10、印刷型检索工具常用的三种途径是(A B D) A、著者途径 B、分类途径 C、主题途径 D、刊名途径

信息检索与利用大作业

信息检索作业 一、分析课题要求: 1、文献出版类型:期刊、学位论为,学位论文 2、学科围:工程科技Ⅱ辑 3、时间跨度:2005~现在 二、撰写课题检索策略式 中文检索式:智能车辆 or 交通标志and检测技术研究 外文检索式:% intelligent vehicle or traffic sign and research on detecting technique 时间围:2000至今 三选择检索工具: 中文期刊类检索工具:选择了知网cnki (1)交通标志and检测技术研究 准确度较低,共57条结果。 (2)智能车辆 or交通标志and检测技术研究

准确度较高,共4条结果 中文图书类检索工具: 选择了超星 (1)交通标志and检测技术研究 4条,不准确 (2)智能车辆 or交通标志and检测技术研究

1条,准确 3、中文学位论文检索工具 选择了知网cnki为检索工具 (1)交通标志and检测技术研究 285条结果,不准确 (2)智能车辆 or交通标志and检测技术研究

227611结果,较准确 4、外文检索工具 选择了SCI (1)(% intelligent vehicle or traffic sign and research on detecting technique) 共15741条结果,不准确 (2)主题:(intelligent vehicle) AND主题:(traffic sign) OR主题:(detecting technique) 共15741条,不准确

共8431条结果,准确 5、搜索引擎 采用百度 (1)交通标志and检测技术研究 共24100条结果,不准确 (2)智能车辆 or交通标志and检测技术研究 共47100条结果,准确

化学结构式检索

化学结构式检索 第一部分:学习数据库 Dialog系统可以进行结构式检索的数据库: Beilstein Facts (File 390) Derwent Chemistry Resource (File 355) IMS Patent Focus (File 447,947) IMS R&D Focus (File 445,955) Index Chemicus (File 302) Pharmaprojects (Files 128,928) Prous Science Drug Data Report (File 452) Prous Science Drugs of the Future (File 453) 390: Beilstein Facts 389: (ONTAP Beilstein Facts) Beilstein 贝尔斯坦化学文摘(390,391,393号文档) 是世界上最大的关于有机化学事实的数据库,数据来源于175种期刊,已收录9百多万个化合物和9百多万个反应。作为最基本的化学文献数据库,Beilstein能帮助有机化学研究人员形成新思路、设计合成路径(包括起始原料和中间体)、确定生物活性和物理性质、了解外界环境对化合物的影响,等等。主要数据的索引分为3部分:其中390 Beilstein Facts即化学物质部分收集了结构信息及相关的事实和参考文献,包括化学、物理和生物活性数据;391 Beilstein Reactions反应部分提供化学物质制备的详细资料,帮助研究人员用反应式检索特定的反应路径;393 Beilstein Abstracts文献部分包括引用、文献标题和文摘,化学物质部分和反应部分的条目与文献部分有超链接。1771至今,季度更新。 355: Derwent Chemistry Resource Derwent Chemistry Resource 德温特化学资源(355号文档) 可对Derwent世界专利索引(Derwent World Patent Index,DWPI)和Derwent药学文档(Derwent Drug File,DDF)中的化学内容进行结构检索。DWPI含有全球40多个专利发布权威机构的一千一百万篇专利文献,并且每年新增一百五十万。本库提供专利中的化学信息,包括化学结构、分子式、化学名称等信息,通过它可以直接用化学结构绘图检索DWPI和DDF中的专利信息,并掌握相关的化学信息。每周更新2次。 445: IMS R & D Focus IMS R&D Focus ,IMS医药研发聚焦(445号文档) 该库侧重企业和健康研究机构新药的研发过程。提供23300种处于R&D阶段的药物,9400种表现活跃的药物,4800种生物制品,关注3000家业内公司及国际药品市场从研发到商业等一系列进展。每条记录包括药品从研发到推向市场的全部信息。信息来源于IMS HEALTH 公司出版的R&D Focus和R&D Focus Drugs News。1991至今,每周更新。 447: IMS Patent Focus IMS Patent Focus (IMS药物专利数据库)

检索效果的评价指标

检索效果的评价指标 克兰弗登(Cranfield)在分析用户基本要求的基础上,提出了6项检索系统性能的评价指标,它们是收录范围、查全率、查准率、响应时间、用户负担和输出形式。 (1)查全率 查全率(recall factor)是指检出的相关文献量与检索系统中相关文献总量的百分比,是衡量信息检索系统检出相关文献能力的尺度,可用下式表示: 查全率=检出的相关文献总量/系统中的相关文献总量×100%即R=b/a * 100% 设R为查全率,P查准率,M表示漏检率、N表示误检率,m为检出文献总量,a为检索系统中的相关文献总量,b为检出的相关文献总量。 例如,要利用某个检索系统查某课题。假设在该系统数据库中共有相关文献为40篇,而只检索出来30篇,那么查全率就等于75%。 (2)查准率 查准率(Pertinency factor)是指检出的相关文献量与检出文献总量的百分比,是衡量信息检索系统精确度的尺度,可用下式表示: 查准率=检出的相关文献总量/检出文献总量×100% 即P=b/m*100% 例如,如果检出的文献总篇数为50篇,经审查确定其中与课题相关的文献只有40篇,另外10篇与该课题无关。那么,这次检索的查准率就等于80%。 检索效果2 检索系统的响应时间是指从发出检索提问到获得检索结果平均消耗的时间。主要包括:

①用户请求到服务器的传送时间;②服务器处理请求的时间;②服务器的答复到用户端的传送时间;④用户端计算机处理服务器传来信息的时间。 提高检索效果的措施 1."提高用户信息素质 2."选择好的检索工具和系统 3."优选检索词 4."合理调整查全率和查准率 不同的检索课题对文献信息的需求不同,用户应根据课题的需要,适当调整查全率和查准率,优化检索策略,以达到最佳检索效果。 (1)提高查全率 提高查全率时,调整检索式的主要方法有: ①降低检索词的专指度,从词表或检出文献中选一些上位词或相关词。 ②减少AND组配,如删除某个不甚重要的概念组面(检索词)。 ③多用OR组配,如选同义词、近义词等并以“OR”方式加入到检索式中。 ④族性检索,如采用分类号检索。 ⑤截词检索。 ⑥放宽限制运算,如取消字段限制符,调松位置算符等。 (2)提高查准率 提高查准率时,调整检索式的主要方法有: ①提高检索词的专指度,增加或采用下位词和专指性较强的检索词。

信息检索与利用

探析文献期刊数据库的检索及应用策略 摘要随着互联网技术的发展,传统的印刷方式和人工的检索的使用率逐渐被替代,更多的是数据库的检索方式。本文主要以文献期间数据库作为研究对象,对其检索过程以及在检索方面的策略进行详细的分析,以期供人们进行参考。 随着网络搜索引擎的普及,信息检索已是群众基础广泛的全民行为。但学术研究的信息需求与检索的目标要求检索者需要具备一定的专业检索知识与能力。其中,各种图书、期刊、电子资源等学术信息的检索是学生应该掌握的重要能力。除谷歌学术、百度学术等搜索引擎中可进行学术检索外,相关文献期刊数据库是最主要的学术检索途径。请列举国内外常用的文献期刊数据库,并结合自己在论文撰写和学习研究中对其的利用情况,分别阐述其数据库建设内容、特色特点与检索方式,在此基础上进行总结,探析文献期刊数据库的检索及应用策略。 一、文献期间数据的主要检索方式 1.1 信息检索 无论是传统的文献检索还是当前文献期刊数据库发展,在信息检索方面,人们倾注了较长时间的关注,这也是信息检索在期刊文献等检索当中技术发展较为完善的原因之一,信息检索主要包括结果显示以及下载,在信息检索方面,常规的数据库采用的基本信息检索主要包括基本检索和高级检索这两种方式,基本检索包括简单检索和快捷检索,高级检索主要包括专业检索和复杂检索两大功能,并在此基础上进行二次检索,从而进一步缩小检索目标,获得更为精准的结果,同时,它们一致支持逻辑运算、模糊检索等,并提供规范化词表和索引浏览等检索方式,在检索的结果方面,一般显示命中文献的文献题名、作者、出处、时间、文摘以及基本内容等,在现代化的数据库当中还会设计到文献作者的电子信息或者引文等信息。 1.2内容扩增 内容扩增主要指的是文献期刊数据库在基本的检索功能基础上新扩展的方向,从传统的数据库发展来分析,每一个数据库都对应着危险收录的范畴,主要包括时间、地域、学科以及文献类型的范围等,数据库对于文献内容范围是其衡量的主要质量以及指标。随着互联网技术的发展以及各行业学科的深入研究,综合性科学的文献内容量逐渐增大,数据库作为文献信息的动态集合体,因而不得

CNKI检索技巧

CNKI数据库使用方法 一、简单检索 点击检索方式选择区的“简单检索”按钮,进入简单检索界面。简单检索提供了类似搜索引擎的检索方式,检索者只需要输入所要找的检索词,点击“简单检索”进行检索,就可查到与检索词相关的文献。 二、标准检索 点击检索方式选择区的“标准检索”按钮,进入标准检索界面。系统提供了检索范围和文献内容特征两部分的检索控制,另外通过分类导航区和数据库选择区的内容选择,能够精确地检索到相关文献。 (一)检索范围控制条件 该部分可对发表时间、文献来源、国家及各级科研项目、作者四部分进行限定和选择。所有检索框在未输入关键词时默认为该检索项不进行限定,即如果所有检索框不填写时进行检索,将检出库中的全部文献。 1.发表时间 提供了具体时间、最近一周、一月、半年、一年选项,能够精确地对时间范围进行限定;具体时间输入可通过日历表进行选择,将光标移至输入框时,系统自动弹出日历表。 2.文献出版来源 是指在检索中限定文献的来源范围、出版媒体、机构或提供

单位等。可直接在检索框中输入出版媒体、机构的名称关键词,也可以点击检索框后的“文献来源列表”按钮,跳转至“文献出版来源”检索界面进行检索,在检索结果中选择文献来源输入检索框中。此项限定功能提供了精确和模糊检索。 3.国家及各级科研项目 是指在检索中可限定文献的支持基金,可直接在检索框中输入基金名称的关键词,也可以点击检索框后的“基金列表”按钮,跳转至“科研基金检索”界面进行检索,在检索结果中选择基金输入检索框中。此项限定功能提供了精确和模糊检索。 4.发文作者控制 是指在检索中可限定文献的作者和作者单位。可通过点击“+”图标增加多个作者和作者单位(最多可增加至4个),扩大检索范围,提高查准率。此项限定功能提供了精确和模糊检索以及逻辑运算(并且、或者、不含)选项。 (二)文献内容特征部分 提供了基于文献的内容特征的检索项:全文、篇名、主题、关键词、中图分类号。可通过点击“+”图标增加多个条件(最多可增加至4项),提高查准率。 1.扩展词推荐 在检索框中输入一个检索词后,点击检索框后的扩展按钮

学术检索技巧

Google 学术搜索及其检索技巧 1 Google 学术搜索简介 2 Google 学术搜索的功能 3 Google 学术搜索检索技巧及其实例 3.1 关键词检索 3.2 作者检索 3.3 组合检索 3.4 高级检索 4 与其他检索系统的对比分析 5 结论 6 现场交流

1 Google 学术搜索简介 Google Scholar (https://www.doczj.com/doc/5f1857282.html,/)Google学术搜索, 是网络搜索领域的领头羊Google公司于2004 年11 月18 日推出 的一项新的搜索服务,它能帮助用户查找包括期刊论文、学位论文、书籍、预印本、摘要和科技报告等在内的学术文献,内容涉 及诸多学科,并且经过了业内专家的评审,具有一定的权威性。 它以“站在巨人的肩膀上” (Stand on the shoulders of giants) 为服务理念, 重点提供医学、物理、经济、计算机等学科文献的 检索, 还通过知识链接功能提供了文章的引用次数及链接, 人们

可以利用它查找文献的被引用情况, 这是目前为止除 web of science 外的另一个可以检索英文文献被引情况的检索工具。 2006 年1 月11 日Google推出了Google 中文学术搜索Beta 版(https://www.doczj.com/doc/5f1857282.html,/intl/zh-CN/ ),用于搜索网上的中文学术文献,同时它还具有检索中文文献被引情况的功能,为科学研究与学术共同体学术评价工作的开展提供了新的工具和途径。笔者通过对Google 学术搜索的分析、使用,以及与其它商业性跨库检索系统的比较,对Google 学术搜索的检索功能进行了评价,以便大家更好的使用。

专利检索方式之基本检索法说明

专利检索方式之基本检索法说明 专利基本检索是一种基于某一特定的检索字段进行的简单检索,即检索人利用己知的、确定的检索词,输入到某一个检索入口中,查找所需专利信息。基本检索可分为主题检索、人名检索和号码检索。 1.主题检索 主题检索是指根据技术主题进行查找专利信息的工作,其检索的结果是找出含有该技术主题的相关专利信息。通过分析技术主题可以查出该主题对应的分类号,以及代表其技术特征的关键词,因此可以利用这两个检索字段分别检索。 也就是说,主题检索实际上是分类号检索或关键词检索。可以将技术主题所对应的分类号,输入到分类号入口中进行检索;也可以将代表其技术特征的关键词,输入到关键词入口中进行检索。 例如,用中国专利文摘检索数据库检索有关“电饭锅”方面的专利信息。通过分析“电饭锅”技术主题,查到其相关分类号是A47J2’7/00,将其输入到分类号入口中检索,得到1265 条相关专利信息。

“电饭锅”一词是代表该技术主题特征的关键词,将其输入到关键词入口中检索,得到349 条相关专利信息。 2.人名检索 人名检索是利用已知的专利权人、专利受让人、专利申请人或者发明人的名称作为专利检索字段,进行查找专利信息的工作,其检索的结果是找出与该人名有关的特定或全部专利信息。一般的专利检索系统中均为专利权人名称、发明人名称设立了专门的入口,因此可以分别就专利权人名称、发明人名称进行检索。 例如,检索富士公司专利。在专利权人入口中输入“富士”或Fuji Film,即可检索出该公司的相关专利。 3.号码检索 号码检索是指用专利或专利申请的特定号码作为专利检索字段,查找该专利或专利申请有关信息的工作,它所涉及的号码有申请号、优先权申请号和文献号(专利号)等。可以用申请号查专利号,以便索取专利说明书;可以用专利号查申请号,以便了解专利的法律信息;还可以用优先权申请号查同族专利的信息。

信息检索与利用试题1答案

信息检索与利用复习题 一、单选题(20分,每题1分) 1、个人信息源又称为(C)。 A、文献信息源 B、口头信息源 C、生物信息源 D、实物信息源 2、文献是记录有知识的(A)。 A、载体 B、纸张 C、光盘 D、磁盘 3、下列哪种文献属于一次文献( A)。 A、期刊论文 B、百科全书 C、综述 D、文摘 4、下列哪种文献属于二次文献( D)。 A、专利文献 B、学位论文 C、会议文献 D、目录 5、下列哪种文献属于三次文献( C)。 A、标准文献 B、学位论文 C、综述 D、文摘 6、下列选项中属于连续出版物类型的选项有(A)。 A、人民日报 B、学位论文 C、科技期刊 D、会议文献 7、下列选项中属于特种文献类型的有(D )。 A、学位论文 B、图书 C、科技期刊 D、标准文献 8、纸质信息源的载体是(D ) A、光盘 B、缩微平片 C、感光材料 D、纸张 9、《中国图书分类法》(简称《中图法》)将图书分成(A ) A 5大部分22个大类 B 5大部分26个大类

C 6大部分22个大类 D 6大部分26个大类 10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在(A)类目下查找。 A、S类目 B、Q类目 C、T 类目 D、R类目 11、使用逻辑“与”是为了(B ) A、提高查全率 B、提高查准率 C、减少漏检率 D、提高利用率 12、使用逻辑“或”是为了(A) A、提高查全率 B、提高查准率 C、缩小检索范围 D、提高利用率 13、利用文献末尾所附参考文献进行检索的方法是(C) A、倒查法 B、顺查法 C、引文追溯法 D、抽查法 14、至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为(A)。 A、数据库 B、记录 C、字段 D、文档 15、广义的信息检索包含两个过程(B) A、检索与利用 B、存储与检索 C、存储与利用 D、检索与报道 16、要查找李平老师所发表的文章,首选途径为(A ) A、著者途径 B、分类途径 C、主题途径 D、刊名途径 17、狭义的专利文献是指(C ) A、专利公报 B、专利目录 C、专利说明书 D、专利索引

搜索引擎性能评价报告

实验:搜索引擎性能评价 小组成员:黄婷苏亮肖方定山 一、实验目的: 依据MAP,P@10,MRR等评价指标对各个搜索引擎(百度、搜狗、必应)的查询性能进行评测,对搜索引擎满足不同信息需求的情况加以比较。 二、实验方案: 1.构建查询样例集合: (1)构建查询样例集合 规模:100个查询 热门程度:冷门/热门 类型:导航类/信息类/事务类(2:5:3) (2)根据个人经验,撰写每个查询样例的信息需求内容 2.构建Pooling: (1)抓取各个搜索引擎对步骤一查询词的查询结果 抓取的搜索引擎:五个中文搜索引擎(百度、搜狗、必应) 抓取范围:查询结果的前30位结果 注:pooling method的大概意思是查询结果去重 3.构造标准答案集合: (1)根据步骤1中撰写好的信息需求,对Pooling里的结果进行标注,标注为“答案”和“非答案”两类即可 4.查询性能评价: (1)根据标注结果,依据MAP,P@10,MRR等评价指标对各个搜索引擎的查询性能进行评价 (2)对搜索引擎满足不同信息需求的情况加以比较 5.扩展内容: (1)可以尝试对搜索引擎处引擎处理非中文查询、有错别字查询等情况的不同策略进行分析、比较 三、实验结果及分析:

根据实验结果及目的,详细分析实验结果。 1.实验结果: 百度:https://https://www.doczj.com/doc/5f1857282.html, 搜狗:https://https://www.doczj.com/doc/5f1857282.html, Bing国内版:https://https://www.doczj.com/doc/5f1857282.html, 综合比较: 2.结果分析: (1)导航类搜索词 对于导航类搜索关键词,RR一般用作评价导航类的查询需求,用于表示用户在知道目标前需要浏览的结果数目,可以看到,搜狗事务类的MRR指标偏高,可以发现,当用户想要搜索的信息为已知资源,主页,资源等信息时,搜索引擎可能会更倾向于返回给用户一些官方的主页信息,以使用户能够尽快找到目标,对于导航类信息的其他指标,相差也不大,但是P@10的指标值差异有些明显,搜狗和百度的P@10值是较好的,而必应的结果则稍差,查看原始搜索结果标记,

超链接检测

课程设计III 设计说明书 网页中超链检测程序设计 学生姓名 学号 班级 成绩 指导教师 数学与计算机科学学院 2014 年 3 月 7 日

课程设计任务书 2013 —2014 学年第一学期 课程设计名称:课程设计三课程设计 课程设计题目:网页中超链检测程序设计 完成期限:自2014 年9 月2日至2014 年9 月13日共 2 周 设计内容: 1. 任务说明 设计一个程序,给一个指定URL,分析该URL所在域中所有网页中的超链接情况:本域内链接、外域链接、页内链接、死链(链接目标不存在)等情况。 2.要求 (1)了解网络爬虫的架构和工作原理,实现网络爬虫的基本框架; (2)开发平台采用JDK 1.60 eclipse集成开发环境。 (3)要求按时按量完成所规定的实验内容; (4)界面设计要求通用性强、具有实用性; 指导教师:教研室负责人: 课程设计评阅

摘要 设计了一个基于宽度优先的爬虫程序,本程序采用java编程语言,开发平台采用JDK 1.60 eclipse集成开发环境。可实现检测网页中超链接,是一种自动搜集互联网信息的程序,可以搜集某一站点的URL,并将搜集到的URL存入文件。 关键词:网络爬虫;JAVA;超链接

目录 1 绪论 (1) 2 网络爬虫 (2) 3 对URL的认识 (4) 4 通过URL抓取网页 (5) 5 算法分析及程序实现 (7) 6 总结 (14)

1 绪论 随着网络的迅速发展,万维网成为大量信息的载体,万维网已经成为人们获取信息的重要渠道,如何高效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通过搜索引擎百度,Yahoo和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如: (1)统一的返回不能满足不同用户的检索需求。 (2)搜索引擎提高覆盖面的目标与膨胀的网络信息之间的矛盾日益加深。 (3)搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。 为了解决上述问题,定向抓取相关网页资源的主题爬虫应运而生。主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 本文通过JAVA语言实现了一个基于宽度优先遍历算法的爬虫程序。通过实现此爬虫程序可以定点搜集某一站点的URL,可以分析出网页中的超链接情况:本域内链接、外域链接、页内链接、死链(链接目标不存在)等情况

信息检索与利用作业

第一章作业 1、什么叫信息?什么叫文献? 答:信息是对某个事件或者事物的一般属性的描述。信息总是通过数据形式来表示,加载在数据之上并对数据的具体含义进行解释。 文献是用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。 2、什么叫信息素养?如何提高我们的信息素养? 答:信息素养的本质是全球信息化需要人们具备的一种基本能力。它包括:能够判断什么时候需要信息,并且懂得如何去获取信息,如何去评价和有效利用所需的信息。 在我国,针对国内教育的实际情况,学生的信息素养培养主要针对以下五个方面的内容。 (1)热爱生活,有获取新信息的意愿,能够主动地从生活实践中不断地查找、探究新信息。 (2)具有基本的科学和文化常识,能够较为自如地对获得的信息进行辨别和分析,正确地加以评估。 (3)可灵活地支配信息,较好地掌握选择信息、拒绝信息的技能。 (4)能够有效地利用信息、表达个人的思想和观念,并乐意与他人分享不同的见解或信息。 (5)无论面对何种情境,能够充满自信地运用各类信息解决问题,有较强的创新意识和进取精神。 3、什么叫文献信息源?按照出版式的形式,文献可以分为哪些形式? 答:文献是记录有知识的一切载体。具体地说,文献是将知识、信息用文字、符号、图像、音频等记录在一定的物质载体上的结合体。在查新中,文献是科技文献的简称,是指通过各种手段(文字、图形、公式、代码、声频、视频、电子等)记录下科学技术信息或知识的载体,这个载体也就是信息源。 根据不同出版形式及内容,可以分为:图书、连续性出版物、特种文献。图书:凡篇幅达到48页以上并构成一个书目单元的文献称为图书。连续性出版物:包含期刊(其中含有核心期刊)、报纸、年度出版物。特种文献:专刊文献、标准文献、学位论文、科技报告、会议文献、政府出版物、档案资料、产品资料。 4、什么叫一次文献,二次文献与三次文献? 答:一次文献:这是人们直接以自己的生产、科研、社会活动等实践经验为依据生产出来的文献,也常被称为原始文献(或称一级文献),其所记载的知识信息比较新颖、具体、详尽。 二次文献也称二级文献,它是将大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。 其主要类型有目录、索引和文摘等。 三次文献也称三级文献,是选用大量有关的文献,经过综合、分析、研究而编写出来的文献。它通常是围绕某个专题,利用二次文献检索搜集大量相关文献,对其内容进行深度加工而成。属于这类文献的有综述、评论、评述、进展、动态等。 5、什么叫科技查新?科技查新有什么作用与意义?

相关主题
文本预览
相关文档 最新文档