豆瓣图书爬虫使用教程

  • 格式:docx
  • 大小:1.73 MB
  • 文档页数:20

下载文档原格式

  / 20
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

采集网站:

https:///tag/%E5%B0%8F%E8%AF%B4?start=0&type =T

规则下载:

使用功能点:

●分页列表及详细信息提取

/tutorial/fylbxq7.aspx?t=1

●Xpath

/tutorialdetail-1/xpath1.html

步骤1:创建采集任务

1)进入主界面,选择“自定义模式”

2)将要采集的网址URL ,复制粘贴到网址输入框中,点击“保存网址”

豆瓣图书信息采集步骤2

1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。将页面下拉到底部,点击“后页>”按钮,在右侧的操作提示框中,选择“更多操作”

豆瓣图书信息采集步骤3

2)选择“循环点击单个链接”

豆瓣图书信息采集步骤4

步骤3:创建列表循环

1)移动鼠标,选中页面里的第一个图书链接。选中后,系统会自动识别页面里的其他相似链接。在右侧操作提示框中,选择“选中全部”

豆瓣图书信息采集步骤5

2)选择“循环点击每个链接”,以创建一个列表循环

豆瓣图书信息采集步骤6

1)在创建列表循环后,系统会自动点击第一个图书链接,进入图书详细信息页。点击需要的字段信息,在右侧的操作提示框中,选择“采集该元素的文本”。我们在这里,采集了图书名称、图书出版信息、内容简介、作者简介

豆瓣图书信息采集步骤7

2)字段信息选择完成后,选中相应的字段,可以进行字段的自定义命名,修改完成后,点击“确定”。完成后,点击左上角的“保存并启动”,启动采集任务

豆瓣图书信息采集步骤8

3)选择“启动本地采集”

豆瓣图书信息采集步骤9

4)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将采集好的数据导出。这里我们选择excel作为导出为格式,数据导出后如下图

豆瓣图书信息采集步骤10

步骤5:修改Xpath

通过上述导出的数据我们可以发现,部分图书的“内容简介”、“作者简介”没有采集下来(如:《解忧杂货店》图书详情页的“内容简介”采集下来了,但是《雪落香杉树》图书详情页的“内容简介”并未采集下来)。这是因为,每个图书详情页的网页情况有所不同,系统自动生成的Xpath,不能完全正确定位到每个图书详情页的“内容简介”和“作者简介”。以下将以“内容简介”这个字段为例,具体讲解xpath的修改。“作者简介”字段修改同理,在此文中不做多讲。

1)选中“提取元素”步骤,点击“内容简介”字段,再点击如图所示的按钮

豆瓣图书信息采集步骤11

2)选择“自定义定位元素方式”

豆瓣图书信息采集步骤12

3)将八爪鱼系统自动生成的这条Xpath:

//DIV[@id='link-report']/DIV[1]/DIV[1]/P[1],复制粘贴到火狐浏览器中进行检测

豆瓣图书信息采集步骤13

4)将八爪鱼系统自动生成的此条Xpath,删减为

//DIV[@id='link-report']/DIV[1]/DIV[1](P[1]代表内容简介里的第一段,删掉即可定位到整个内容简介段落)。我们发现:通过此条Xpath:

//DIV[@id='link-report']/DIV[1]/DIV[1],在《解忧杂货店》图书详情页,可以定位到“内容简介”字段,但是在《雪落香杉树》图书详情页,不能定位到“内容简介”字段

豆瓣图书信息采集步骤14

《解忧杂货店》图书详情页:可定位到“内容简介”字段

豆瓣图书信息采集步骤15

《雪落香杉树》图书详情页:不能定位到“内容简介”字段

5)观察网页源码发现,图书详情页“内容简介”字段,都具有相同的class属性,通过class属性,我们可写出一条能够定位所有图书详情页“内容简介”字段的Xpath:.//*[@id='link-report']//div[@class='intro']。在火狐浏览器中检查发现,通过此条Xpath,确实能都定位到所有图书详情页的“内容简介”字段

豆瓣图书信息采集步骤16

6)将新写的此条Xpath:.//*[@id='link-report']//div[@class='intro'],复制粘贴到八爪鱼中的相应位置,并点击“确定”

豆瓣图书信息采集步骤17

7)重新“启动本地采集”并导出数据。可以看到,所有图书详情页的“内容简介”字段均被抓取下来

豆瓣图书信息采集步骤18

注意:“作者简介”字段修改同理,需要修改Xpath,在此文中不做多讲。相关采集教程:

新浪微博数据采集

豆瓣电影短评采集

搜狗微信文章采集

八爪鱼——70万用户选择的网页数据采集器。