万方、维普、CNKI以及搜索引擎检索能力的定量研究
- 格式:doc
- 大小:25.00 KB
- 文档页数:2
试比较万方、中国知网、维普三个文献资料库的异同、优缺点。
万方、中国知网、维普三个文献资料库的异同、优缺点各是什么?万方资料库、维普资讯网、中国知网的区别简单比较:1、从收录情况来看,维普收录最久,万方收录时间最短,但是现刊万方收录最好,维普最近两年的很多期刊都没有了,特别是医学类的。
2、文件的清晰度:万方最高,维普最差。
3、使用方便性:知网和万方差不多,维普最差。
4、其它:万方的期刊浏览功能做的很好。
更加深入比较:中国知识资源总库(CNKI)《中国知识资源总库》是由清华大学主办、中国学术期刊(光碟版)电子杂志社出版、清华同方知网(北京)技术有限公司发行、数百位科学家、院士、学者参与建设,精心打造的大型知识服务平台和数字化学习系统。
目前,《总库》囊括了自然科学、人文社会科学及工程技术各领域知识,拥有期刊、报纸、博硕士培养单位的博士和优秀硕士学位论文、全国重要会议论文、中小学多媒体教辅以及1000多个加盟资料库。
全文采用CAJ和PDF格式,必须下载专门的CAJ和PDF浏览器才可阅读。
中国知识资源总库的重点资料库有:《中国期刊全文资料库(CJFD)》截至2007年3月共收录了国内8127种期刊,全文文献总量已达2272万多篇,收录起始时间一般为1994年,个别追溯到1979年或创刊年,按学科分126个专题,内容每日累增。
产品形式有网路形式、光碟形式、《中国期刊专题全文资料库光碟版》。
《中国优秀博硕士学位论文全文资料库(CDMD)》收录2000年至今300多个博硕士培养单位的学位论文,内容每日累增。
《中国重要报纸全文资料库(CCND)》收录2000年至今1000多种重要报纸,内容每日累增。
《中国重要会议论文集全文资料库》(CPCD)收录2000年至今400家学术团体的会议论文,内容每日累增。
《中国企业知识仓库(CEKD)》收录国内5400余种核心与专业特色期刊、博硕论文、报纸、行业标准、法律法规、行业经济资料统计、行业深度研究报告、技术发展动态、国外经济发展动态等资讯,涵盖企业技术创新、经营决策、企业管理、WTO、行业动态等专业资料资讯。
中国知网简介国家知识基础设施(National Knowledge Infrastructure,CNKI)的概念,由世界银行提出于1998年。
CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于1999年6月。
在党和国家领导以及教育部、中宣部、科技部、新闻出版总署、国家版权局、国家计委的大力支持下,在全国学术界、教育界、出版界、图书情报界等社会各界的密切配合和清华大学的直接领导下,CNKI工程集团经过多年努力,采用自主开发并具有国际领先水平的数字图书馆技术,建成了世界上全文信息量规模最大的"CNKI数字图书馆",并正式启动建设《中国知识资源总库》及CNKI网格资源共享平台,通过产业化运作,为全社会知识资源高效共享提供最丰富的知识信息资源和最有效的知识传播与数字化学习平台。
CNKI工程的具体目标,一是大规模集成整合知识信息资源,整体提高资源的综合和增值利用价值;二是建设知识资源互联网传播扩散与增值服务平台,为全社会提供资源共享、数字化学习、知识创新信息化条件;三是建设知识资源的深度开发利用平台,为社会各方面提供知识管理与知识服务的信息化手段;四是为知识资源生产出版部门创造互联网出版发行的市场环境与商业机制,大力促进文化出版事业、产业的现代化建设与跨越式发展。
成立时间:1999年万方简介万方数据股份有限公司是国内第一家以信息服务为核心的股份制高新技术企业,是在互联网领域,集信息资源产品、信息增值服务和信息处理方案为一体的综合信息服务商。
公司目前有六家股东单位:中国科技信息研究所、中国文化产业投资基金、中国科技出版传媒有限公司、北京知金科技投资有限公司、四川省科技信息研究所和科技文献出版社。
公司以客户为导向,依托强大的数据采集能力,应用先进的信息处理技术和检索技术,为科技界、企业界和政府部门提供高质量的信息资源产品。
在丰富信息资源的基础上,万方数据还运用先进的分析和咨询方法,为用户提供信息增值服务,并陆续推出企业竞争情报系统、通信、电力和医药行业竞争情报系统等一系列信息增值产品,以满足用户对深度层次信息和分析的需求,为用户确定技术创新和投资方向提供决策。
CNKI,万⽅,维普三中数据库使⽤⽅法的⽐较⼀。
CNKI检索⽅式及途径1.初级检索以及检索控制初级检索是最基本的检索⽅式,检索项主要有:篇名、关键词、摘要、作者、机构、全⽂、刊名等。
篇名检索:检词频之后那个按钮,记录着最索在⽂章篇名中出现检索词的⽂章另外,来源:⼀般指该⽂章出⾃那种期刊,或出版社来源:⼀般指该⽂章出⾃那种期刊,或出版社词频之后那个按钮,记录着最近检索时所使⽤过的10个检索词,可以单击它,在弹出的对话框⾥选择所需的检索词。
扩展按钮是系统根据你所输⼊的检索词,在知识元数据库中进⾏检索词扩展,作⽤是在你对检索词不是很有把握时,或者你对,扩展功能可以帮你找到准确的检索词。
时间限定:可以就某段时间范围来检索,以使检索更精确。
检索范围:主要有核⼼期刊、EI来源期刊和SCI来源期刊。
若不进⾏选择,则对全部期刊进⾏检索。
匹配⽅式:有精确匹配和模糊匹配。
这主要是查准率和查全率的问题。
根据检索词与检索主题的密切程排序⽅式:分为按时间排序和按相关度排序,也可以不排序。
按相关度排序,就是排序⽅式:分为按时间排序和按相关度排序,也可以不排序。
按相关度排序,就是根据检索词与检索主题的密切程度(根据词频、词位等因素综合评价)进⾏排序,可⼤⼤提⾼检索结果的准确性,既保证了查全率,⼜消除了检索垃圾的影响。
在检索的时候,在页⾯的左下⽅,有“相关词”和“图形显⽰”。
“相关词”和“图形显⽰”其实都是⼀种扩展。
“相关词”把与你刚才所检索使⽤的检索词相关信息列出,单击其中⼀个即可以该词作为检索词进⾏检索(该检索的检索项包括题名、关键词、摘要等)。
“图形显⽰”则以图形的⽅式,形象地显⽰⼀些关键词与先前的检索词之间关系的密切程度。
单击其中之⼀,也可以以此作为检索词进⾏检索。
2.⾼级检索及其检索控制在⾸页选择“⾼级检索”,或者单库检索界⾯,点击“逻辑”下⾯的+号,即可进⾏⾼级检索。
⾼级检索可以⼀次输⼊多个检索词进⾏检索。
这其中就涉及到⼀些逻辑关系的设定。
浅析万方、维普、CNKI三大全文数据库万方、维普和CNKI都是中国知名的全文数据库,它们的出现为学术研究和科研工作提供了很大的便利,同时也成为了各大高校、研究机构必备的数字化资源。
本文将对这三个数据库进行简要分析比较。
一、万方数据库万方数据库成立于1993年,是一家专业的学术论文数据库出版商。
初期,万方的数据仅仅是在一些学术刊物上进行索引和收集。
后来,万方开始充分利用其兽医信息库、地学文献库、中药文献库等多个专门领域的数据库,推出了“万方数据”全文数据库,覆盖几乎所有领域的学术文献,以满足读者和作者的需求。
目前,万方全文数据库中约有5600多万条记录,包括7388种学术期刊、3515种会议录、2200种博硕论文等,内容涉及自然科学、社会科学、医药卫生、农业、工程技术等各个领域。
其中,自然科学领域的文献比较丰富,覆盖率也较高。
对于一般读者来说,万方文献库的检索界面使用简单,检索速度快,而且用户可以通过“文献下载券”来下载文献。
二、维普数据库维普数据库成立于2000年,是一家高质量的综合性数字化出版服务商。
维普的业务有期刊出版、数字图书出版、学术搜索引擎、学术知识服务平台等。
其中,维普期刊数据库是其主要业务之一。
目前,维普数据库收录学术期刊近三千种,覆盖几乎所有领域。
其中,社会科学和人文科学领域占维普数据库期刊总量的较大份额,自然科学和医学领域则相对较少。
维普数据库的文章多数是付费的,不过有一些优质文章对于普通用户免费开放,并且下载速度也较快。
三、中国知网(CNKI)中国知网,成立于1999年,是中国最大的数字图书馆之一,是中国科技文献数据库的重要组成部分。
知网数据库已发布刊物功能、学位论文功能、会议论文功能、专利功能、标准功能。
CNKI数据库的内容涉及自然科学、社会科学、农业、医药卫生、工程技术等各个领域。
目前,CNKI数据库中拥有数以千计的学术刊物,包括科技论文、会议论文、专业报纸和行业文摘等,而此外还有大量的博士和硕士论文。
信息检索的基本原理是:通过检索语言,可以把能够表示文献特征的全部标识按一定的规则组成一个有序的检索系统,使每种文献在检索系统中都有固定的位置,从而为文献检索提供可能。
也就是说通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
所谓信息源是指一切产生和持有情报的个人和机构,或者负荷情报的载体。
信息检索是介于信源与信宿之间,使二者得以良好契合的桥梁。
信息检索实际包含存储与检索两个过程。
存储过程是指信息存储;检索过程是指信息检索。
即检索者的检索提问标识与存储在检索工具中检索标识进行匹配对比、取得一致,即为检索命中。
所以说存储是为了检索,而检索又必须先进行存储。
中国知网、万方和维普是三个比较大型的信息搜索网,并且都是应用于文献数据库。
而文献检索工具,也称检索系统,是一种用来报导、查找、分析文献的信息系统。
一般来说,一种检索工具是相对其检索的目标文献而言的,它应当根据其读者群的检索需求设定目标文献的种类和范围,并根据目标文献的特点和检索工具的用途提供相应的检索功能。
就检索工具的性能来说,显然,收录的文献数量越大、内容越复杂,就越难找到目标文献。
长期以来,如何评价一个检索工具的质量,特别是对一个海量文献资源的检索工具来说,一直是图书情报和信息学界的一个重大难题。
他们所应用的信息存储与检索基本原理是如图所示:CNKI即中国知网,主要应用包括中国期刊全文数据库、中国优秀博士硕士论文全文数据库、中国重要报纸全文数据库、中国医院知识仓库、中国重要会议论文全文数据库。
中国知网的检索方式是面向一般读者提供初级检索,面向专业人员提供高级检索。
如:导航检索、专项检索、全文检索、位置检索、逻辑组合检索、二次检索、关联检索(同义词检索)、中英文互检、前方一致检索、模糊检索等检索功能。
知识关联功能是通过引用文献、被引文献及相关文献关联将全文文献与其引证文献链接起来,直接实现基于引文检索的全文查找,使相关的知识关联起来,形成知识链,追溯知识源头,掌握知识的发展脉络。
万方、维普、CNKI以及搜索引擎检索能力的定量研究
在网络资源飞速发展的大环境下,科技网络资源的建设逐步完善,在我国开展科技查新工作的二十多年历程中,以往以手工检索书本型检索工具为主的工作模式,也逐渐转变为以计算机检索科技数字资源为主的检索方式。
科技查新,简单地说就是基于文献检索判定前人有无相似的研究或成果,为判断目标项目是否具有新颖性提供客观依据,以防止低水平重复研究开发而造成的人力、财力、物力的浪费和损失。
要完成一个项目查新,证实该项目涉及的研究内容在检索范围内未见有文献报告,就要求立足于对相关文献检索的全面性,而检索人员则通过多个电子数据库联用的方式来应对“查全”的要求[1]。
万方、维普、CNKI作为中文文献检索的三大常用数据库资源,它们在各个学科领域的查新过程中基本成为必检的数据库。
而由于上述三大数据库各自的特点,它们相互具有资源同质化和差异化[2,3]。
因此,在查新过程中应当充分发挥三大数据库检索功能的优势,互补式地调用三大数据库中的文献资源,以减少漏检的风险。
此外,由于搜索引擎能有效地搜索因特网上的相关信息,充分调用网络资源,所以它对提高查全率的作用受到越来越多的重视[4]。
已有文献论述了三大常用数据库资源以及搜索引擎在查新检索中的重要性及其数字资源的特点[5],但未见有文献对它们的检索能力进行定量研究。
本文旨在对查新过程中的检出文献进行定量分析,对比研究科技电子资源数据库与网络资源在查新过程中的文献检索能力。
1研究方法
1.1研究对象与检索策略
选取万方、维普以及CNKI三大中文常用数据库为电子资源数据库,选取Google、Baidu两大搜索引擎为网络资源检索工具[6],通过对检出文献的定量分析,研究电子资源数据库与网络资源在查新过程中的文献检索能力。
同时调用国家知识产权局(/)的专利数据信息用作专利检索能力对比研究。
上述数据库及网络信息均为2012年6月份数据。
文中选取两个理工类(材料领域)热门查新课题作为研究案例,包括“硅基量子点太阳电池的关键技术”和“氧化锰分子筛的合成、表征及应用”。
在检索过程中编定一精确检索式,以便保证研究数据具有横向对比价值。
在万方、维普以及CNKI三大中文常用数据库中,检索范围限定在题目、关键词和文摘范围内,以确保上述三个中文数据库检索范围的一致性。
1.2数据分析
首先从各个数据库以及搜索引擎当中检索获取相关文献,再由人工逐一筛除从检索中获得的、但实际基本不相关或相关度较低的文献,得到用于数据统计和分析的有效文献,并将有效文献按期刊论文、学位论文、会议论文和专利四个类别进行统计。
在数据统计中,为了反映文献发表年限的分布情况,将检索年限分成六个区域,分别为2000年以前(主要是1990~1999年间的文献)、2000~2004年、2005~2009年、2010年、2011年和2012年,近三年的数据单独统计是为了能更直观反映研究对象对最新文献的检索能力。
利用Excel将系列有效数据以柱状图形式直观反映在同一图表中,以便作横向定量分析。
通过对人工筛选后得出的检出文献数量值、完整度以及相关度进行综合考虑,对三大数据库及搜索引擎的检索能力做出初步评价。
2实例分析
2.1分析案例一:“硅基量子点太阳电池的关键技术”
检索式:(硅or Si) and 量子点and 太阳and 电池
图1案例一的数据统计图
(上图:期刊论文+学位论文+会议论文;下图:专利)
期刊论文:在统计于2010年的数据中,在万方、维普和CNKI中检出密切相关期刊论文数量值分别为2、3和5,其中万方、维普检出的文献全部不相同,而两者调出的文献则分别对应CNKI检出的5篇文献。
2011年数据中,万方、维普检出密切相关期刊论文数量值分别为1和0,CNKI的检出数量值为2,其中1篇同于万方检出的相关文献。
2012年数据中,万方、维普均未检出密切相关期刊论文,而CNKI的检出数量值为3。
在这个案例中,CNKI检出的密切相关期刊论文基本覆盖了万方和维普两个库。
另一方面,利用Google和Baidu搜索引擎检出的相关期刊论文数量较多,对其逐一比照后发现,所述文献有一部分与三大数据库中调出文献相同,也有一部分文献未能以同一个检索式从三大数据库中调出。
这里分析主要原因有:1)搜索引擎对检索词的检索范围有可能超出题目、关键词和文摘,一定程度削弱了有效数据的可对比性;2)搜索引擎调用了网上各类资源,部分文献所属的杂志三大数据库未有收录。
尽管检出文献数量上占据绝对优势,但通过对文献进行人工注意比照分析后发现,搜索引擎检出的相关期刊论文在相关度方面明显低于三大数据库中调出的文献,而且搜索引擎调出的大部分文献连接(此查新课题中约为83%)实际上是调用了三大数据库的资源,即通过调整检索式和检索范围,可以在三大数据库中调出这部分文献。
此外,搜索引擎检出的相关期刊论文中还有较多综述文献,而查新报告中引用相关文献一般为研究型论文,而较少采用综述文献。
学位论文:本查新案例中万方、CNKI在学位论文的检出数量值方面优于Google和Baidu搜索,打开搜索引擎链接发现调出的大部分有效信息(此查新课题中约为89%)同样最终是连接到三大数据库之一,而且从Google和Baidu搜索引擎得到的相关学位论文已被万方及CNKI共同覆盖,可以认为在本查新案例中无需进一步利用Google和Baidu搜索引擎进行学位论文的补检。
而万方和CNKI分别有部分学位论文在对方中未能检出,因此两者需互补使用。
会议论文:在本查新案例中,万方、CNKI、Google、Baidu都在会议论文检索方面体现了一定作用,从Google或Baidu检出的个别会议论文无法从万方或CNKI中调出,因此需要联用上述检索手段才能保证会议论文的检全率。
专利:从万方调出的相关专利从数量上和相似度上都十分接近于国家专利局发布的相关专利,仅是在2011年的数据中万方多检索出1篇相关专利,其余与国家专利局的数据完全一致(总计获得17项相关专利)。
CNKI检出的相关专利总计仅5项,且全部被包含于万方调出专利。
而Baidu则调出28项专利,其中11项专利同于万方调出的数据,剩余17项专利在相关度方面明显较低。
因此,在本查新案例中,可以认为利用万方及国家专利局网上专利搜索已能满足专利检索的要求。