微博关键词爬虫抓取方法

  • 格式:docx
  • 大小:1.93 MB
  • 文档页数:26

下载文档原格式

  / 26
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

微博关键词爬虫抓取方法

本文介绍使用八爪鱼爬虫软件采集抓取微博关键词的方法。

采集网站:

https:///?sudaref=&display=0&retcode=6102

本文仅以“杨幂”、郑爽、“赵丽颖”这三个关键词挖掘举例说明,大家如果有挖掘微博其他关键词的需求,可以更换关键词进行采集。

采集的内容包括:微博下拉框关键词

使用功能点:

●∙文本循环

●∙Ajax点击

●∙Cookie登陆方法(7.0版本)

注:第一次用八爪鱼采集微博的童鞋,可以先制作一个简单的预登陆规则步骤1:创建微博关键词爬虫抓取任务

1)进入主界面,选择“自定义模式”

微博关键词爬虫使用步骤1

2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”

微博关键词爬虫使用步骤2

步骤2:登录微博

1)系统自动打开网页,进入微博首页。在页面右上角,打开“流程”,以展现

出“流程设计器”和“定制当前操作”两个板块。点击“登录”按钮,选择“

击该链接”,进入微博登录页面

微博关键词爬虫使用步骤3

2)点击账号输入框,选择“输入文字”,输入账号,点击“确定”

微博关键词爬虫使用步骤4

3)点击密码输入框,选择“输入文字”输入密码,点击“确定”

微博关键词爬虫使用步骤5

4)点击“登录”按钮,选择“点击该链接”

微博关键词爬虫使用步骤6

5)系统会自动登录微博

微博关键词爬虫使用步骤7

步骤3:设置cookie

登录 1)再次选中“打开网页”步骤,打开“高级选项”,打开“缓存设置”,勾选“打开网页时使用指定Cookie ”

微博关键词爬虫使用步骤8

2)八爪鱼会记住这个Cookie状态。下图中新建了一个任务,打开微博首页。可以看见,八爪鱼中以登陆之后的状态打开之后就可以正式进入采集了。

微博关键词爬虫使用步骤9

步骤4:创建文本循环

1)同上操作选择自定义采集复制网址打开网页之后,打开右上角的流程按钮,从左边的流程展示界面拖入一个循环的步骤,如下图

微博关键词爬虫使用步骤10

然后打开高级选项,在循环方式中选择文本列表,在列表下拉框中输入“杨幂”、郑爽、“赵丽颖”并用回车键隔开。最后选择“确定”。

微博关键词爬虫使用步骤11

2)接着鼠标选中输入框,在右面的提示框中选择“输入文字”

微博关键词爬虫使用步骤

12

3)接着在弹出的输入框中选择“确定”,不用输入文本。

微博关键词爬虫使用步骤12

然后在左边的流程中把“输入文本”拖到循环框中

微博关键词爬虫使用步骤13

之后,在右边的高级选相中勾选使用当前循环里的文本填充输入框。选择“确定。”

微博关键词爬虫使用步骤14

步骤5:提取关键词

1)鼠标选中输入框中的词,然后在右面的提示框中选择“鼠标移动到该元素上”,

微博关键词爬虫使用步骤15

2)此步骤涉及Ajax 技术。打开“高级选项”,勾选“Ajax 加载数据

”,设置时间为“5秒”。完成后,点击“确定”

微博关键词爬虫使用步骤16

再次选中关键词,然后选择“选中全部”

微博关键词爬虫使用步骤17

3)最后选择“采集以下链接文本”

微博关键词爬虫使用步骤18

4)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。

微博关键词爬虫使用步骤19

步骤

4:数据采集及导出

1)点击左上角的“保存”,然后点击“开始采集”

微博关键词爬虫使用步骤20

选择“启动本地采集”

微博关键词爬虫使用步骤21

2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 这里我们选择excel作为导出为格式,一份完好的微博下拉关键词就采集好了,数据导出后如下图

微博关键词爬虫使用步骤

22

相关采集教程:

微博图片采集:

/tutorialdetail-1/wbpiccj.html

新浪微博评论数据的抓取与采集方法:

/tutorialdetail-1/wbplcj-7.html

微博粉丝信息采集:

/tutorialdetail-1/wbyhxxcj.html

微博数据采集:

/tutorialdetail-1/xlwbcj_7.html

大众点评评价数据的采集:

/tutorialdetail-1/dzdppj.html

八爪鱼采集遇到一二页重复循环的解决办法:

/tutorialdetail-1/yeycf_7.html

八爪鱼——90万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。