中文全文库
- 格式:ppt
- 大小:7.11 MB
- 文档页数:81
中文三大全文数据库的比较摘要通过本课程的学习,结合本人的学习情况从三大数据库对论文的收录情况、检索功能、检索结果、检索界面等方面对中文三大全文数据库——《中文期刊网全文数据库》、《维普中文科技期刊数据库》和《万方数据资源系统数字化期刊》进行了比较,阐述了一些自己对这三大全文数据库的认识。
最后并谈了谈本人的学习收获和对本课程的些许建议。
关键词中文期刊网全文数据库维普中文科技期刊数据库万方数据资源系统数字化期刊全文数据库收录情况:这三个数据库基本覆盖了科学技术和社会科学的各个领域。
其中“维普”期刊的收藏量占有绝对优势,几乎覆盖了中国出版的所有中文期刊,并且收录了大量内部发行期刊,收录的年限最长,其中收录自然科学和工程技术方面的期刊量比“CNKI”多出近50%,但在文史哲类方面则几乎是空白,因此,“维普”适合用户进行科技文献的回溯性检索。
“CNKI”重点收录了国内公开出版的核心期刊与具有专业特色的中西文期刊,综合性上做得较好。
而“万方”收录期刊数量为三者中最少,但核心期刊比率高,收录文献的质量最高。
检索功能:三个数据库都提供了关键词、篇名、刊名、作者、机构、文摘等6个检索入口。
就其特殊检索功能而言,“CNKI”在每个检索入口提供了检索词字典,通过使用它可以规范所输入的检索词,有利于更全更准地检索文献信息。
“维普”在主题标引用词的基础上,编制了同义词库,有助于相关文献的检索,提高文献的查全率。
“万方”在检索时,可以对期刊所分布的地域进行限定。
检索结果:比如通过著者字段的检索,张安将教授是从事化学研究的,他所发表的论文是科技方面的,在上表中“CNKI”收录了16篇,“万方”收录了5篇,而“维普”收录了24篇(换成医学方面的);张靖龙教授是从事文学研究的,在上表中“CNKI”收录了9篇,“万方”收录了0篇,“维普”收录了1篇。
从这个比较中可以看出,三个数据库中综合性最强的是“CNKI”。
三个数据库中文摘做得最好的是“CNKI”,不仅可以从中获得文献的基本情况,而且能通过超级链接的方式,找到更多与查找主题相关的内容。
国内三⼤中⽂⽂献数据库收录与检索⽅法特点和差异国内三⼤中⽂⽂献数据库系统:维普、万⽅、中国期刊⽹(或称:中国知⽹、CNKI)都有期刊全⽂库,但各具特⾊:(1)从收录量和收录期刊起始年限上看
⽬前,维普在收录期刊种类和收录全⽂数量,以及收录期刊的起始年限上都是三者中最多和最早的⼀个。
中国期刊⽹正回溯1994年以前期刊论⽂。
万⽅则注重核⼼期刊的收集,能收齐每期刊中的每篇⽂章,维普和中国期刊⽹尚未做到这点。
(2)从检索功能上看
维普既有菜单式傻⽠检索界⾯,⼜有指令检索界⾯,适⽤于不同使⽤者。
尤其是他的指令检索界⾯,使⽤起来⼗分⽅便。
如使⽤“*”代表“and”,使⽤“+”代表“or”。
中国期刊⽹也有菜单式和指令检索界⾯,其菜单式检索界⾯与另外两者相⽐是做得最好的,加⼊了并列概念的选项。
中国期刊⽹和维普期刊资源整合服务平台最有特⾊的是⽀持全⽂、引⽂和基⾦检索;⼯具书、知识元搜索;论⽂引证查询与分析,万⽅没提供这些功能。
(3)从⽂献收录范围看
三⼤中⽂数据库系统除提供期刊全⽂库外,各⾃还有很多核⼼或特⾊数据库,如:中国知⽹的优秀博硕⼠论⽂库、引⽂数据库、⼯具书、年鉴、报纸、科技报告数据库等。
万⽅的企业产品库、学位论⽂全⽂库、会议论⽂全⽂库、中⽂电⼦图书库等。
另,中国期刊⽹和万⽅数据库为⾃然、社会科学综合性⽂献库,维普期刊⽹则为⾃然学科⽂献库系统。
中文期刊全文数据库
主要有哪几个中文全文数据库?
KI中国知网(China National Knowledge Infrastructure):包含期刊、学位论文、报纸等多种形式的文献,多个子数据库,成为目前国内最权威的中文全文数据库,基本上能够检索到各学术期刊从创刊到目前的文章。
2.万方数据:包含期刊、学位论文、会议论文、标准等多种形式的文献,尤其是有标准数据库,可以下载国内各种标准的全文。
数字化期刊这部分内容收录的期刊种类较少,大体上能够检索98年以后的文章。
3.维谱中文期刊全文数据库:以科技期刊为主,能够检索到1989年之后的文章。
CNKI中国知网
•主页内容布局
•期刊文章检索(简单检索、高级检索、专业检索,检索结果的分组与排序、详细记录中文献引用关系
•检索实例
•专业检索作者检索同句检索期刊导航•CNKI知识元简介
检索实例
检索课题:雾霾的监测
课题分析:
1 本课题包含二个概念:雾霾监测。
2 概念扩展:
“雾霾”相关词有:灰霾霾pm2.5
“监测”相关词有:监控
检索式:
TI=(霾+pm2.5)*(监测+监控)
万方数据库
1.主页内容布局
2.期刊文章检索(简单检索、高级检索、检索结果记录特点)
3.学术趋势
维普科技期刊数据库传统检索(同义词与同名作者)高级检索(扩展功能)
分类检索。
国内三大中文文献数据库系统:维普、万方、中国期刊网(或称:中国知网、CNKI)都有期刊全文库,但各具特色:(1)从收录量和收录期刊起始年限上看目前,维普在收录期刊
种类和收录全文数量,以及收录期刊的起始年限上都是三者中最多和最早的一个。
CNKI正
回溯1994年以前期刊论文。
万方则注重核心期刊的收集,能收齐每期刊中的每篇文章,维
普和中国期刊网尚未做到这点。
(2)从检索功能上看维普既有菜单式傻瓜检索界面,又
有指令检索界面,适用于不同使用者。
尤其是他的指令检索界面,使用起来十分方便。
如使
用“*”代表“and”,使用“+”代表“or”。
CNKI也有菜单式和指令检索界面,其菜单式检索界面
与另外两者相比是做得最好的,加入了并列概念的选项。
CMKI和维普期刊资源整合服务平
台最有特色的是支持全文、引文和基金检索;工具书、知识元搜索;论文引证查询与分析,
万方没提供这些功能。
(3)从文献收录范围看三大中文数据库系统除提供期刊全文库外,各自还有很多核心或特色数据库,如:中国知网的优秀博硕士论文库、引文数据库、工具书、年鉴、报纸、科技报告数据库等。
万方的企业产品库、学位论文全文库、会议论文全文库、
中文电子图书库等。
另,中国期刊网和万方数据库为自然、社会科学综合性文献库,维普
期刊网则为自然学科文献库系统。
全文数据库集文献检索与全文提供于一体,是近年来发展较快和前景看好的一类数据库。
目前的中文全文数据库有:中国期刊全文数据库(清华同方)、中文科技期刊数据库(维普)、万方系统的数字化期刊全文数据库(万方)。
三种全文数据库共同优点1、免去了检索书目数据库后还得费力去获取原文的麻烦。
2、多数全文数据库提供全文字段检索,这有助于文献的查全。
3、三个库都可以进行简单检索、二次检索、高级检索等,检索策略都可以编辑、保存。
共同的缺点1、阅读全文数据库中的全文,计算机内必须安装有全文浏览器。
2、通用的全文格式较少,主要有PDF格式和HTML格式。
各类全文数据库的优缺点:1、从期刊种类收录情况来看,清华同方收录期刊为8712种,其中核心期刊1750多种;万方收录5928种,核心期刊2374种;维普收录12000余种,核心期刊1810种。
维普收录期刊总数最多,其中包括了具有一定影响且连续性的非正式发行刊物。
三个数据库对核心期刊的收录均沿用了自身设定的遴选标准,因此无法作出绝对的判断。
但从以上三大数据库对核心期刊收录量分别占期刊总数的百分比来看,清华同方占20.1%、维普占15.1%,万方占40.0%。
2007年以来医学中华系列杂志由万方独家发行,这样万方数据库在收录核心期刊中占有绝对优势。
2、从收录全文篇数来看(截止日期为2007年年底),清华同方收录期刊全文文献6196125条,维普收录期刊文献12514411条,万方数字化期刊收录期刊文献约800万条,维普收录期刊全文文献最多,特别是在学科交叉中体现较为明显,例如以中药葛根为关键词,时间限定在2003年~2007年,维普检索是2744条,清华同方是2315条,万方数据库是2061条,数据相差的原因是葛根不仅仅在医药专辑中能查到,在农林专辑中也可以查到。
3、从学科覆盖范围来看,清华同方和维普都涵盖了文理工农医全部学科的内容,而万方学科覆盖范围在人文科学方面要稍显不足。
三大中文数据库的文献类型第一家中文数据库是知网(中国知网)知网是中国最大的综合科技文献数据库,收录了各个学科领域的学术论文、期刊、博士、硕士论文、会议论文、报纸、年鉴、专利等不同类型的文献资源。
知网涵盖了从1952年至今的全文文献,拥有超过4亿篇全文文献资源,每天新增的文献达到了数以万计。
1. 学术论文:知网收录了各个学科领域的学术论文,涵盖了自然科学、工程技术、农业科学、医药卫生、哲学社会科学等众多学科领域。
学术论文是研究者发表研究成果、交流学术观点的重要形式,对于推动学术界的发展具有重要作用。
2. 期刊文献:知网收录了国内外各个学科领域的学术期刊,包括自然科学期刊、社会科学期刊、医学期刊等,涵盖了大量的学术研究成果。
期刊文献作为学术交流的重要载体,为研究者提供了一个发布和分享研究成果的平台。
3. 硕博士论文:知网收录了国内外的博士、硕士学位论文,这些论文是研究生们选择课题进行研究的成果总结,也是学术界关注的焦点。
硕博士论文的发表体现了研究生在学术研究方面的能力和造诣。
第二家中文数据库是万方数据库万方数据库是综合性的学术文献数据库,索引和提供了各个学科领域的学术论文、期刊、硕博士论文、会议论文等大量的中文文献资源。
1. 期刊文献:万方数据库收录了大量中文期刊的文献资源,包括自然科学、社会科学、医学、工程技术等学科领域的学术期刊。
期刊文献是学术交流的重要渠道,可以了解到最新的研究成果和学术动态。
2. 学术论文:万方数据库收集了各个学科领域的学术论文,包括自然科学、医学、工程技术等。
学术论文是学术研究的重要成果,可以了解到研究领域的最新进展和研究方法。
3. 硕博士论文:万方数据库收录了国内外的硕士和博士学位论文,这些论文是研究生们在特定领域进行研究的成果总结,可以了解到不同领域的研究方向和成果。
第三家中文数据库是CBM数据库CBM数据库是中国生物医学文献数据库,涵盖了生物医学领域的文献资源。
CBM数据库收录了生物医学期刊、硕博士论文、会议论文等各种类型的文献资源。
中文三大全文数据库的比较摘要通过本课程的学习,结合本人的学习情况从三大数据库对论文的收录情况、检索功能、检索结果、检索界面等方面对中文三大全文数据库——《中文期刊网全文数据库》、《维普中文科技期刊数据库》和《万方数据资源系统数字化期刊》进行了比较,阐述了一些自己对这三大全文数据库的认识。
最后并谈了谈本人的学习收获和对本课程的些许建议。
关键词中文期刊网全文数据库维普中文科技期刊数据库万方数据资源系统数字化期刊全文数据库收录情况:这三个数据库基本覆盖了科学技术和社会科学的各个领域。
其中“维普”期刊的收藏量占有绝对优势,几乎覆盖了中国出版的所有中文期刊,并且收录了大量内部发行期刊,收录的年限最长,其中收录自然科学和工程技术方面的期刊量比“CNKI”多出近50%,但在文史哲类方面则几乎是空白,因此,“维普”适合用户进行科技文献的回溯性检索。
“CNKI”重点收录了国内公开出版的核心期刊与具有专业特色的中西文期刊,综合性上做得较好。
而“万方”收录期刊数量为三者中最少,但核心期刊比率高,收录文献的质量最高。
检索功能:三个数据库都提供了关键词、篇名、刊名、作者、机构、文摘等6个检索入口。
就其特殊检索功能而言,“CNKI”在每个检索入口提供了检索词字典,通过使用它可以规范所输入的检索词,有利于更全更准地检索文献信息。
“维普”在主题标引用词的基础上,编制了同义词库,有助于相关文献的检索,提高文献的查全率。
“万方”在检索时,可以对期刊所分布的地域进行限定。
检索结果:比如通过著者字段的检索,张安将教授是从事化学研究的,他所发表的论文是科技方面的,在上表中“CNKI”收录了16篇,“万方”收录了5篇,而“维普”收录了24篇(换成医学方面的);张靖龙教授是从事文学研究的,在上表中“CNKI”收录了9篇,“万方”收录了0篇,“维普”收录了1篇。
从这个比较中可以看出,三个数据库中综合性最强的是“CNKI”。
三个数据库中文摘做得最好的是“CNKI”,不仅可以从中获得文献的基本情况,而且能通过超级链接的方式,找到更多与查找主题相关的内容。
中文全文数据库随着信息时代的来临,人们对大量数据的需求越来越高。
其中,文本数据是其中的重要组成部分。
为了更好地对文本数据进行存储、检索和分析,中文全文数据库应运而生。
中文全文数据库是一种以中文文本为对象的数据库系统。
它可以对大量的中文文本进行有效的存储和管理,同时提供快速的检索和分析功能。
中文全文数据库的建立需要通过文本预处理、索引建立和查询处理三个主要步骤来完成。
首先,文本预处理是中文全文数据库的基础工作。
它主要包括中文分词、词性标注和命名实体识别等步骤。
中文分词是将连续的中文字符序列切分成有意义的词汇单元,以便后续的处理。
词性标注是为每个词汇单元确定其在句子中的词性,以便后续的语义分析。
命名实体识别是对文本中的人名、地名、机构名等特定实体进行识别和标注。
其次,索引建立是中文全文数据库的核心步骤。
它主要通过构建适当的索引结构,提高数据库的检索效率。
常用的索引结构包括倒排索引和正排索引。
倒排索引是将每个词汇单元映射到包含该词汇单元的文档集合,以便通过词汇进行文本检索。
正排索引是将每个文档映射到该文档所包含的词汇单元集合,以便通过文档进行文本检索。
索引建立需要考虑索引的更新、压缩和优化等方面的问题。
最后,查询处理是中文全文数据库的重要功能。
它主要包括文本检索、文本相似度计算和文本聚类等操作。
文本检索是通过用户给定的查询语句,从数据库中检索出与查询语句相关的文本集合。
文本相似度计算是通过计算不同文本之间的相似度,为用户提供相关度排序结果。
文本聚类是将数据库中的文本按照一定的相似性进行分组,以便用户更好地理解和分析文本数据。
中文全文数据库的建立和应用,具有广泛的应用场景。
例如,在新闻媒体领域,中文全文数据库可以帮助媒体机构建立新闻文献库,进行新闻内容的存储和检索。
在电商领域,中文全文数据库可以帮助电商平台建立商品信息库,进行商品信息的存储和检索。
在法律领域,中文全文数据库可以帮助律师事务所建立案件文书库,进行案件文书的存储和检索。