中国知网的数据采集攻略
- 格式:docx
- 大小:1.26 MB
- 文档页数:11
进行工作、学习与研究,少不了要出于不同目的进行文献检索。
它只是信息检索中的一种,就像使用“baidu”等检索工具进行信息搜索一样。
与这些公开检索工具所不同的是,大量的文献检索工具都是有不同等级权限要求的,即对公众开放的程度不同,权限不同,收取费用也就不同。
不同文献检索资料有各自的特点,但均是大同小异,我们在此以国内影响最大的清华同方所有的中国知网为例,作一简要介绍。
第一步:进入“中国知网”主页,网址是“”第二步:进行登录。
有两种情况:(1)需要登录的。
如果是集体包户网,就用单位提供的用户名和密码;如果是个人用户,就用自己的用户名和密码进行登录。
(2)不需要登录的。
如西安电大所购买03-04年的资料,就是利用网址链接的,只需要按学校提供的“图书馆——EBOOK——清华同方‘学术期刊数据’”就可以进入了。
根据情况不同,后续操作会有一些不同,我们先讲利用登录方式进行的情况。
登录界面请点击以下文本,文本的左上角就是登录填写处:中国知网.rar (点击打开查看)第三步:登录成功后会进入操作界面,见:中国知网1.rar(点击打开查看)第四步:选择你要检索的文献数据库。
在操作界面上,中国知网将其文献分成了不同的库,我们根据自己的文献范围属性进行选择。
当然,我们可以全部选择,但是选择越多的数据库类别,系统在检索时,肯定会多一点时间的,不过,如果网络通信较好的话,等的时间不很长,可能就几秒时间。
我们建议大家根据自己的特点,进行个性化选择。
对库别的说明:操作界面的分类,有两个维度:其一是按文献出处的载体形式分了报纸、博士论文、期刊等等;其二是按文献的领域分了教育、建筑、医卫等等。
一般地,选择时,将主流的载体选中,如期刊,再将自己要检索的文献的领域选中。
第五步:检索参数设置。
在操作界面的上部,有搜索参数设置对话框。
我们最好逐一填写。
(1)检索项,系统对文献进行了检索编码,每一个文献都有一一对应的编码,一个编码就是一种检索项。
CNKI数据库使用方法一、简单检索点击检索方式选择区的“简单检索”按钮,进入简单检索界面。
简单检索提供了类似搜索引擎的检索方式,检索者只需要输入所要找的检索词,点击“简单检索”进行检索,就可查到与检索词相关的文献。
二、标准检索点击检索方式选择区的“标准检索”按钮,进入标准检索界面。
系统提供了检索范围与文献内容特征两部分的检索控制,另外通过分类导航区与数据库选择区的内容选择,能够精确地检索到相关文献。
(一)检索范围控制条件该部分可对发表时间、文献来源、国家及各级科研项目、作者四部分进行限定与选择。
所有检索框在未输入关键词时默认为该检索项不进行限定,即如果所有检索框不填写时进行检索,将检出库中的全部文献。
1、发表时间提供了具体时间、最近一周、一月、半年、一年选项,能够精确地对时间范围进行限定;具体时间输入可通过日历表进行选择,将光标移至输入框时,系统自动弹出日历表。
2、文献出版来源就是指在检索中限定文献的来源范围、出版媒体、机构或提供单位等。
可直接在检索框中输入出版媒体、机构的名称关键词,也可以点击检索框后的“文献来源列表”按钮,跳转至“文献出版来源”检索界面进行检索,在检索结果中选择文献来源输入检索框中。
此项限定功能提供了精确与模糊检索。
3、国家及各级科研项目就是指在检索中可限定文献的支持基金,可直接在检索框中输入基金名称的关键词,也可以点击检索框后的“基金列表”按钮,跳转至“科研基金检索”界面进行检索,在检索结果中选择基金输入检索框中。
此项限定功能提供了精确与模糊检索。
4、发文作者控制就是指在检索中可限定文献的作者与作者单位。
可通过点击“+”图标增加多个作者与作者单位(最多可增加至4个),扩大检索范围,提高查准率。
此项限定功能提供了精确与模糊检索以及逻辑运算(并且、或者、不含)选项。
(二)文献内容特征部分提供了基于文献的内容特征的检索项:全文、篇名、主题、关键词、中图分类号。
可通过点击“+”图标增加多个条件(最多可增加至4项),提高查准率。
通过图书馆知网获取某一专题文献资料的步骤把“以《通过图书馆知网获取某一专题文献资料的步骤》为标题,写一篇3000字的中文文章”这一提示告诉我们,本文将专注于介绍如何通过图书馆知网获取某一专题文献资料的步骤。
知网(China National Knowledge Infrastructure,CNKI)是国家信息中心推出的一项大型社会学科资源整合服务,为用户提供检索、浏览和下载中文与外文资源的综合性知识服务平台。
了解如何使用知网获取某一专题文献资料是很有必要的。
首先,要使用知网获取相关资料,必须先去注册知网账号,这是第一步。
第二步,打开知网官网,点击顶部的“检索”,输入你想要查找的专题词。
如果你想搜索更加精细的信息,可以使用知网提供的高级检索,可以根据不同的搜索条件设置,更精确地搜索所需的信息。
第三步,根据搜索结果,打开你想要查看的文献,并在文献页面点击“全文下载”,这有可能是付费下载,而且不同文献具体付费标准也不一样。
第四步,完成付费后,便可以开始阅读或下载文献,这样就可以从知网获得某一专题文献资料了。
总而言之,从知网获取某一专题文献资料的步骤主要有以下几点:建立知网账号,访问知网官网,使用知网提供的检索工具搜索希望获取的文献,根据搜索结果选择所需的文献,支付费用,开始阅读或下载文献。
此外,你还可以根据你的实际需求,从知网中获取你所需的资料,可以据你的实际需求,设置搜索条件,找到更加精确而细节化的资料,这样就可以获得更加详细、准确的文献资料,以达到你的期望效果。
以上就是从图书馆知网获取某一专题文献资料的一般步骤,知网可以提供很多有价值的文献资料,希望大家可以积极使用,提升自身学习效率。
通过上述介绍,大家对从知网获取某一专题文献资料的步骤已经有所了解,希望能够帮到大家。
CNKI《中国期刊全文数据库》使用指南一、简介CNKI即 China National Knowledge Infrastructure简称,意为中国知识基础设施。
CNKI数据库包括以下内容:中国期刊全文数据库、中国期刊全文数据库题录库、中国优秀博硕士论文全文数据库等。
我馆目前可使用的数据库为中国期刊全文数据库。
中国期刊网全文库是目前世界上最大的连续动态更新的期刊全文库,收录1994年至今的5300余种核心与专业特色期刊全文,累积全文600多万篇,题录600多万条。
分为理工A(数理科学)、理工B(化学化工能源与材料)、理工C(工业技术)、农业、医药卫生、文史哲、经济政治与法律、教育与社会科学综合、电子技术与信息科学9大专辑,126个专题数据库,网上数据每日更新。
二、中国期刊网全文库的使用方法1、入口:直接输入http://172.16.102.113/kns50/或由学院图书馆主页的“电子资源”栏目下链接《中国学术期刊网》,进入《中国期刊网》镜像主页,系统以默认用户名“cnki”自动登录。
见下图:2、选择数据库:由于我们学院目前只有全文数据库,所以选定全文数据库直接跨库检索或者进入全文数据库的单库检索界面,如下图所示,在界面的左边,是导航选区,在界面的右面是检索区。
3、检索条件:选择检索项,输入检索词,词频及扩展内容根据所要查询的内容选择合适的导航分类及选项,可以更快地精确命中记录。
选择完导航选项后,开始输入基本的检索条件信息,检索信息界面如下图所示:1)选择检索项。
点击检索项的下拉列表框,选择按哪一个字段(篇名,关键词,作者,机构等字段名)来检索。
2)输入检索词。
在文本框中输入您所需的检索词。
例如:计算机3)输入词频。
在词频的文本框里,输入检索词在检索到结果里的文章中要出现的次数。
4)扩展检索词。
点击扩展按钮,弹出与检索词“计算机”相关的交叉相关词的扩展选框(如下图所示),选择你想要扩展的内容确定即可。
“中国知网“的4种检索途径:高级检索、专业检索、作者发文检索、句子检索。
高级检索基本流程:●进入高级检索主界面●选择检索项(主题、篇名、关键词、摘要等)●选择十个学科领域●限制词频,选择逻辑关系●输入检索词●选择精确或模糊匹配●输入时间范围●结果排序●检索●检索结果(题录、文摘、全文)专业检索基本流程:➢进入专业检索主界面➢选择十个学科领域➢输入检索式➢选择时间范围➢结果排序➢检索结果作者发文检索;◆进入作者发文检索主界面◆选择十个学科领域◆填写作者姓名和时间范围◆结果排序◆检索结果句子检索;⏹进入句子发文检索主界面⏹选择十个学科领域⏹选择同一句或同一段⏹输入在同一句或同一段中要共同出现的词⏹结果排序⏹检索结果文献检索检索报告学院:专业:学号:姓名:一、检索课题:中文:查化学气相沉积有关氮化碳薄膜的文献中文检索词:化学气相沉积,氮化碳薄膜二、检索系统(或数据库)中文:《中国知网》三、查找文献(如果检索结果少于五条,全部列出,多于五条,列出其中五条即可)数据库:《中国知网》检索式:SU=化学气相沉积*氮化碳薄膜发表时间:不限结果排序方式:被引检索结果,共69条:[1]陈光华,吴现成,贺德衍.氮化碳薄膜的结构与特性[J].无机材料学报,2001,16(2): 377-380.[2]马志斌.氮化碳晶体的研究进展[J].新型碳材料,2006, 21(3): 277-284.[3]宋银,侯明东,王志光,赵志明,段敬来.氮化碳薄膜的制备及研究现状[J].高压物理学报,2003, 17(4): 311-318.[4]于威,王淑芳,任国斌,李晓苇,张连水,傅广生.等离子体增强化学气相沉积氮化碳薄膜过程中的光学发射谱研究[J].光谱学与光谱分析,2002, 22(1): 79-82.[5]于威,王淑芳,丁学成,韩理,刘志强,张连水,傅广生.直流辉光放电等离子体增强化学气相法制备金刚石及氮化碳薄膜[J].河北大学学报(自然科学版),2000, 20(1): 78-82.。
通过对知网数据的采集和分析,集搜客数据分析实验室得到两篇分析文章。
第一篇文章是《学生群体关于大数据毕业论文发展趋势——以中国知网为例》学生群体在研究大数据时都在研究些什么呢?集搜客数据分析实验室对此展开调研分析。
第二篇文章是《毕业论文写什么,集搜客告诉你——微博数据挖掘篇》采集了2010年至2015年11月有关微博数据挖掘的相关论文并对其进行分析,总结了微博数据挖掘论文的九大研究方向供学子们的选题做参考。
知网数据采集攻略
在中国知网通过高级检索,输入关键词后抓取相关文章的标题、作者、摘要、关键词等信息。
但是中国知网在输入关键词搜索后网址并不会发生变化,所以在抓取的时候我们需要爬虫自动输入目标关键词搜索后,开始抓取数据。
要抓取到标题、作者、摘要、关键词等信息,我们一共需要做四个规则:
第一个规则“知网_搜索”负责输入关键词并搜索;
第二个规则“知网_搜索结果”用来抓取第一个规则“知网_搜索”输入关键词后搜索到的数据,抓取的是每篇文章详情页的链接,作为第三个规则“知网_文章数据_更多”的线索,但是第二级规则直接抓取下来的链接不能像层级抓取那样直接给第三个规则使用,需要使用Excel统一修改一下链接参数才能作为第三个规则的线索,下文会为大家提供具体操作方式;
Tips:有些文章的摘要需要点击“更多”才能显示全部,为了抓取完整的摘要我们需要做一个规则来点击这个“更多”.
第三个规则“知网_文章数据_更多”负责模拟点击展开完整摘要。
第四个规则“知网_文章数据”抓取点击“更多”后的文章摘要、标题、作者、关键词等信息。
图1
一、第一个规则——知网_搜索
1.以中国知网高级检索文献文章为例,将文献高级检索的链接:
/kns/brief/result.aspx?dbPrefix=scdb&
action=scdbsearch&db_opt=SCDB 粘贴到谋数台中。
第一个规则的主要工作是为了搜索关键词,但是为了规则有效执行,在一个规则中我们抓取文章类型,在这里以文献为例我们抓取的内容就是“文献”并且勾上关键内容。
图2
如图2所示,具体操作如下:
#1.将目标抓取网页粘贴到谋数台网址栏处,并回车。
#2.看到网页加载完成。
#3.将抓取内容“文献”映射到整理箱中。
#4.将文献勾选关键内容。
2.跳转到连续动作工作台输入关键词及其动作
自动输入关键词的要点是要建立两条步骤,第一条步骤通过输入框的定位表达式来找到输入框后输入关键词。
第二条步骤则是通过定位表达式找到搜索按钮然后爬虫自行点击按钮。
2.1建立输入步骤
图3
如图3所示,具体操作如下:
#1.输入目标主题名也就是第二个规则主题名,表示搜索关键词后由第二个规则来执行抓取
#2.点击谁在用查看输入的主题名是否有被别人占用,如果被别人已经占用则需要更换别的主题名。
#3.新建一条输入步骤,上文已经提到首先是进行输入动作,所以这里是新建一条输入步骤。
#4.输入要搜索的关键词。
#5.根据网页结构填写输入框的定位表达式也就是能够在网页上定位到输入框的XPath表达式,写好一个表达式后,可以利用MS谋数台的搜索功能,验证一下是否定位准确,具体参看搜索网页内容的使用方法。
2.2建立提交步骤
gong
图4
如图4所示,具体操作如下:
#1.根据网页结构填写检索的定位表达式也就是能够在网页上定位到输入框的XPath表达式,写好一个表达式后,可以利用MS谋数台的搜索功能,验证一下是否定位准确,具体参看搜索网页内容的使用方法。
存规则后知网_搜索这个规则就完成了。
二、第二个规则——知网_搜索结果
这个规则负责来抓取由知网_搜索进行关键词搜索后的页面,该规则和定义普通规则操作相同。
将要抓取的内容映射到整理箱中,我们要抓取每篇文章的详细数据摘要作者等,则需建立层级抓取,在当前规则抓取每篇文章的详细数据页面的网址来为知网_文章数据生成线索。
图5
如图5所示,具体操作如下:
#1.将要抓取的下级链接映射到整理箱中
#2.勾关键内容
#3.点击整理箱顶节点做样例复制,要抓取当前页面所有文章的下级链接就需要做样例复制,详细参看教程:样例复制
#4.跳转到爬虫路线工作台做翻页线索,要抓取翻页后的文章就要做翻页线索,详细参看教程:翻页抓取
存规则后知网_搜索结果规则就完成了,接下来就需要做文章详细页面的抓取规则。
三、第三个规则——知网_文章数据_更多
1.将网页上的“更多”按钮做内容映射映射到整理箱中,并勾选关键内容。
2.在爬虫路线工作台做模拟点击,即为将“更多”作为记号做一条记号线索。
图6
如图6所示,具体操作如下:
#1.新建一条记号线索,并勾选连贯抓取,表示在执行抓取任务时,爬虫可以在同一个DS打数机窗口内抓取完当前页面后直接跳转到下一个页面进行抓取。
#2.点击“更多”按钮,自动定位到网页标签节点,展开节点,找到包含“更多”的text节点。
#3.右击text节点,线索映射→记号线索,可以看到“更多”自动填入到记号值。
#4.将节点做线索范围映射,右击翻页区块节点,选择线索映射→定位→线索1。
完成后定位编号会显示翻页区块节点的定位编号。
存规则后知网_文章数据_更多规则就完成了,接下来就需要做点完“更多”知网来执行抓取的规则——知网_文章数据。
Tips:第三个、第四个规则演示的就是模拟点击,如果有不明白的同学可以参看教程:模拟点击
四、第四个规则——知网_文章数据。
这个规则是最简单的类型,将需要抓取的内容映射到整理箱中即可。
图7
如图7所示,具体操作如下:
#1.将要抓取的内容做内容映射到整理箱中。
五、修改文章详细页面网址参数,构造出新的网址,为第三个规则——知网_文章数据_更多生成线索
将第二个规则采集到的详情页链接导入excel。
图8
可以发现不是完整的网址,DS打数机也无法构造网址直接生成可访问的网址,所以需要用excel手动修改。
对比详情页的完整网址,如下所示:
/KCMS/detail/detail.aspx?QueryID=2&CurRec=1&recid= &filename=GGYY201410012&dbname=CJFDLAST2015&dbcode=CJFQ&pr=&urlid=&yx =&v=MTY1NDFyQ1VSTCtlWnVkc0Z5emhXcnJBSWlyU2Q3RzRIOVhOcjQ5RVpvUjhlWDFMd XhZUzdEaDFUM3FUcldNMUY=
可以发现采集到的链接少了前面的域名,并多了“/kns”这部分,可用函数修改链接,
图9
在单元格J2输入公式="/KCMS"&RIGHT(I2,LEN(I2)-4)得到可访问的网址,并往下填充,这样得到的网址就可以批量添加作为第三个规则的线索。