一种基于Scrapy-Redis的分布式微博数据采集方案

格式：pdf
大小：1.86 MB
文档页数：4

下载文档原格式

/ 4

scrapy-redis实现爬虫分布式爬取分析与实现

scrapy-redis实现爬⾍分布式爬取分析与实现本⽂链接：⼀ scrapy-redis实现分布式爬取分析所谓的scrapy-redis实际上就是scrapy+redis当中对redis的操作採⽤redis-pyclient。

这⾥的redis的作⽤以及在scrapy-redis的⽅向我在⾃⼰fork的repository（链接：）已经做了翻译（README.rst）。

在前⾯⼀篇⽂章中我已经借助两篇相关⽂章分析了使⽤redis实现爬⾍分布式的中⼼。

⼆分布式爬取实现1. 对scrapy-redis中⾃带example的分析在库的README中已经对example的使⽤做了说明，可是初步接触时执⾏example中的spider会存在⾮常多疑问。

⽐⽅，分布式体如今哪？是通过那⼏⽅⾯实现的？其次，在执⾏结果中⾮常难发现分布式的影⼦。

感觉就像两个spider在⾃⼰爬⾃⼰的东西。

对于第⼀种疑问。

我在翻译和标注scrapy-redis中settings.py已经做了说明。

⽽第⼆中疑问也是实现2中⾃⼰的example所要做的。

2. 更清晰验证scrapy-redis实现分布式的思路与编码实现。

（1）思路实现两个爬⾍，定义爬⾍A爬取的关键词bussiness下的全部链接（通过start_urls设定）。

爬⾍B爬取game下的全部链接。

观察⼆者同⼀时候执⾏时爬取链接的url，是各⾃范围的url还是⼆者的交集。

这样因为⼆者定义的爬取范围是不⼀致的。

通过爬取现象能够得出结果。

（2）实现代码放在了github的repo中（）。

为了易于观察，设置DEPTH_LIMIT为1。

（3）现象与分析现象：能够发现。

⼆者是⾸先同⼀时候爬取单个关键词下的链接（⾸先爬取哪⼀个取决与先执⾏爬⾍的start_urls）。

完成后进⽽爬取还有⼀个关键词下链接。

分析：通过同⼀时候爬取单个关键词能够说明两个爬⾍是同⼀时候被调度的，这就是爬⾍的分布式。

scrapy-redis基本原理

scrapy-redis基本原理Scrapy-Redis是一个基于Scrapy框架的分布式爬虫解决方案，它利用了Redis作为分布式数据存储和消息队列，以实现多台机器上的爬虫协同工作。

在这篇文章中，我们将介绍Scrapy-Redis的基本原理和工作流程。

Scrapy-Redis的基本原理可以分为以下几个部分：1. 分布式爬虫架构，Scrapy-Redis利用了Redis的分布式特性，将爬虫的URL队列和爬取结果存储在Redis中，从而实现了多台机器上的爬虫协同工作。

这种架构可以大大提高爬取效率和可扩展性。

2. 基于Redis的队列管理，Scrapy-Redis使用Redis作为URL队列的存储和管理工具。

当一个爬虫节点需要获取新的URL进行爬取时，它会从Redis中的队列中取出URL进行处理。

这样不同的爬虫节点可以共享同一个URL队列，实现了分布式的URL调度。

3. 基于Redis的去重过滤，Scrapy-Redis还利用了Redis的集合数据结构来实现URL的去重过滤。

当一个URL被爬取过后，它会被加入到Redis的集合中，下次再遇到相同的URL时就会被过滤掉，避免重复爬取相同的页面。

4. 分布式爬虫的协同工作，Scrapy-Redis通过Redis的发布订阅功能实现了爬虫节点之间的通信和协同工作。

当一个爬虫节点获取到新的URL进行爬取后，它会将爬取结果发布到Redis的频道中，其他节点可以订阅该频道获取爬取结果，从而实现了分布式爬虫的协同工作。

总的来说，Scrapy-Redis利用了Redis的分布式特性和高效的数据结构，实现了一个高效的分布式爬虫解决方案。

它的基本原理包括分布式爬虫架构、基于Redis的队列管理、基于Redis的去重过滤和分布式爬虫的协同工作。

通过这些原理的应用，Scrapy-Redis可以实现高效的分布式爬取，并且具有良好的可扩展性和可维护性。

基于Python的新浪微博用户数据获取技术

在Ｓｃｒａｐｙ架构下，用户需要编写爬虫部件ｓｐｉｄｅｒｓ和数据处理部１Ｃ－ｉｔｅｍｐｉｐｅｌｉｎｅ。
２。模拟登陆
模拟登陆是爬虫技术所要攻克的第一个难题。所谓模拟登陆，即让计算机模仿人］：操作，以达到欺骗服务器的目的。我们分别尝试了以下四种策略，并比较了它们的优劣性。
基金项目：江苏省高等学校大学生创新创业训练计划项目（２（）１７１０２８６０１８Ｙ）。
ＥＬＥＣＴＲＯＮＩＣＳＷＯＲＬＤ ·菇ｊ
基于Ｐｙｔｈｏｎ的新浪微博用户数据获取技术东南源自学信息科学与工程学院罗咪
【摘要】为了获取用于社交网络研究的新浪微博用户数据，本文改进了传统网络爬虫，设计了一个基于ｐｙ出ｃｍ的新浪微博爬虫系统、该系统使用ｓｃｒａｐｙ多线程爬虫框架，实现了模拟登陆、动态网页抓取和克服微博反爬虫机制等功能，抓取后数据被存储在ＭｙｓＱＬ数据库中，便于后
本文基于Ｐｙｔｈｏｎ语占提出了一种无需借助官方ＡＰＩ接口就能获取用户数据的方法 … 多线程爬虫技术。该项技术与传统的网络爬虫相比，主要有以下一点改进：首先，使用多线程爬虫取代传统的单线程爬虫，提高丫数据扶取速率；其次，针对微博的反爬虫机制设计了四种突破策略；最后，成功实现了对于微博评论等动态网页的爬取。
（１）手动获取ｃｏｏｋｉｅ登陆：该方法较为简单，但是需要人为参与，自动化程度低。

基于微博API的分布式抓取技术

运营抓取技术
陈舜华 ’ 。王晓彤 ’ ，郝志峰 ’ ，蔡瑞初 ’ ，肖晓军，卢宇
（１．广东工业大学计算机学院广州５１０００６；２．广州优亿信息科技有限公司广州５１０６３０）
ＣｈｅｎＳｈｕｎｈｕａ，ＷａｎｇＸｉａｏｔｏｎｇ，ＨａｏＺｈｉｆｅｎｇ，ＣａｉＲｕｉｃｈｕ，ＸｉａｏＸｉａｏｊｕｎ，ＬｕＹｕ
（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒｓ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ；
该技术的可行性。关键词：新浪微博；爬取策略；分布式爬取；微博ＡＰＩ
ｄｏｉ：１０．３９６９６．ｉｓｓｎ．１０００．０８０１．２０１３．０８．０２５
ＡＤｉｓｔｒｉｂｕｔｅｄＤａｔａ — ＣｒａｗｌｉｎｇＴｅｃｈｎｏｌｏｇｙｆｏｒＭｉｃｒｏｂｌｏｇＡＰＩ
２．ＧｕａｎｇｚｈｏｕＵｓｅｅａｓｅＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｙｇＣｏ．，Ｌｔｄ．，Ｇｕａｎｇｚｈｏｕ５１０６３０，Ｃｈｉｎａ）

scrapy-redis实现分布式爬虫

scrapy-redis实现分布式爬⾍⼀介绍原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址）所以实现分布式爬取的关键就是，找⼀台专门的主机上运⾏⼀个共享的队列⽐如Redis，然后重写Scrapy的Scheduler，让新的Scheduler到共享队列存取Request，并且去除重复的Request请求，所以总结下来，实现分布式的关键就是三点：#1、共享队列#2、重写Scheduler，让其⽆论是去重还是任务都去访问共享队列#3、为Scheduler定制去重规则（利⽤redis的集合类型）以上三点便是scrapy-redis组件的核⼼功能#安装：pip3 install scrapy-redis#源码：D:\python3.6\Lib\site-packages\scrapy_redis⼆、scrapy-redis组件1、只使⽤scrapy-redis的去重功能#⼀、源码：D:\python3.6\Lib\site-packages\scrapy_redis\dupefilter.py#⼆、配置scrapy使⽤redis提供的共享去重队列#2.1 在settings.py中配置链接RedisREDIS_HOST = 'localhost'# 主机名REDIS_PORT = 6379 # 端⼝REDIS_URL = 'redis://user:pass@hostname:9001'# 连接URL（优先于以上配置）REDIS_PARAMS = {} # Redis连接参数REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'# 指定连接Redis的Python模块REDIS_ENCODING = "utf-8"# redis编码类型# 默认配置：D:\python3.6\Lib\site-packages\scrapy_redis\defaults.py#2.2 让scrapy使⽤共享的去重队列DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"#使⽤scrapy-redis提供的去重功能，查看源码会发现是基于Redis的集合实现的#2.3、需要指定Redis中集合的key名，key=存放不重复Request字符串的集合DUPEFILTER_KEY = 'dupefilter:%(timestamp)s'#源码：dupefilter.py内⼀⾏代码key = defaults.DUPEFILTER_KEY % {'timestamp': int(time.time())} #2.4、去重规则源码分析dupefilter.pydef request_seen(self, request):"""Returns True if request was already seen.```Parameters----------request : scrapy.http.RequestReturns-------bool"""fp = self.request_fingerprint(request)# This returns the number of values added, zero if already exists.added = self.server.sadd(self.key, fp)return added == 0```#2.5、将request请求转成⼀串字符后再存⼊集合from scrapy.http import Requestfrom scrapy.utils.request import request_fingerprintreq = Request(url='')result=request_fingerprint(req)print(result) #75d6587d87b3f4f3aa574b33dbd69ceeb9eafe7b#2.6、注意：- URL参数位置不同时，计算结果⼀致；- 默认请求头不在计算范围，include_headers可以设置指定请求头- ⽰范：from scrapy.utils import requestfrom scrapy.http import Request```req = Request(url='?name=8&id=1',callback=lambda x:print(x),cookies={'k1':'vvvvv'})result1 = request.request_fingerprint(req,include_headers=['cookies',])print(result)req = Request(url='?id=1&name=8',callback=lambda x:print(x),cookies={'k1':666})result2 = request.request_fingerprint(req,include_headers=['cookies',])print(result1 == result2) #True```2、使⽤scrapy-redis的去重+调度实现分布式爬取View Code3、持久化#从⽬标站点获取并解析出数据后保存成item对象，会由引擎交给pipeline进⾏持久化/保存到数据库,scrapy-redis提供了⼀个pipeline组件，可以帮我们把item存到redis中#1、将item持久化到redis时，指定key和序列化函数REDIS_ITEMS_KEY = '%(spider)s:items'REDIS_ITEMS_SERIALIZER = 'json.dumps'#2、使⽤列表保存item数据4、从Redis中获取起始URLscrapy程序爬取⽬标站点，⼀旦爬取完毕后就结束了，如果⽬标站点更新内容了，我们想重新爬取，那么只能再重新启动scrapy，⾮常⿇烦scrapy-redis提供了⼀种供，让scrapy从redis中获取起始url，如果没有scrapy则过⼀段时间再来取⽽不会关闭这样我们就只需要写⼀个简单的脚本程序，定期往redis队列⾥放⼊⼀个起始url。

Scrapy-Redis分布式爬虫与搜索网站构建-搜索引擎论文-图书档案学论文

Scrapy-Redis分布式爬虫与搜索网站构建-搜索引擎论文-图书档案学论文——文章均为WORD文档，下载后可直接编辑使用亦可打印——摘要：随着大数据时代的到来, 信息的获取与检索尤为重要。

如何在海量的数据中快速准确获取到我们需要的内容显得十分重要。

通过对网络爬虫的研究和爬虫框架Scrapy的深入探索, 结合Redis 这种NoSQL数据库搭建分布式爬虫框架, 并结合Django框架搭建搜索引擎网站, 将从知乎, 拉钩, 伯乐等网站抓取的有效信息存入ElasticSearch搜索引擎中, 供用户搜索获取。

研究结果表明分布式网络爬虫比单机网络爬虫效率更高, 内容也更丰富准确。

关键词：网络爬虫; Scrapy; 分布式; Scrapy-Redis; Django; ElasticSearch;Abstract：With the advent of the era of big data, the acquisition and retrieval of information is particularly important.How to get the content we need quickly and accurately in massive data is very important.Based on the study of web crawler and in-depth explorationof crawler framework Scrapy, a distributed crawler framework is constructed by combining with the NoSQL database of Redis, and a search engine website is constructed by combining with Django framework.The effective information collected from websites like zhihu, drag hook and bole is stored into the ElasticSearch search engine for users to search and obtain.The results show that the distributed network crawler is more efficient than the single network crawler, and the content is more abundant and accurate.Key words:web crawler;Scrapy;distributed;Scrapy-Redis;Django;ElasticSearchKeyword：web crawler; Scrapy; distributed; Scrapy-Redis; Django; ElasticSearch;1 引言爬虫的应用领域非常广泛, 目前利用爬虫技术市面上已经存在了比较成熟的搜索引擎产品, 如百度, 谷歌以及其他垂直领域搜索引擎, 这些都是非直接目的的;还有一些推荐引擎, 如今日头条, 可以定向给用户推荐相关新闻;爬虫还可以用来作为机器学习的数据样本。

基于ScrapyRedis分布式数据采集平台的设计与实现

３．湖北师范大学教育科学学院，湖北黄石４３５００２）
摘要：针对微博平台大数据的采集、挖掘、分析等热点问题，深入介绍并分析了采集平台的相关理论技术，通过对采集平台功能结构及后台数据库设计、页面爬取和解析、反爬虫的应用技术设计、分布式策略设计等四个方面的技术研究，设计并实现了一种基于分布式的微博数据采集平台；给出了主从模式系统架构；达到了用户只需根据需要输入待爬取微博页面的ＩＤ，并选择要采集的数据类型，即可获得所需数据的目的。经测试，系统搭建成本低，爬取性能高，可运用于微博数据的舆情分析和数据调研等研究方面的基础数据采集。关键词：微博平台；数据采集；分布式；网络爬虫；ＳｃｒａｐｙＲｅｄｉｓ中图分类号：ＴＰ３０２文献标识码：Ａ文章编号：２０９６－３１４９（２０１９）０１－００１９－０７ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．２０９６－３１４９．２０１９．０１．００４
２系统设计
针对各种研究中对大量微博数据的实际需求，设计一种高效稳定的采集平台。系统目标：用户只需根据需要输入待采集数据对象的用户ＩＤ，并选择要采集的数据类型，多个爬虫机器同时进行链接提取，得到待爬取的ＵＲＬ后，利用Ｍａｓｔｅｒ机器中的去重队列进行爬取判断，判断为可爬取链接后，机器完成数据采集工作，最后将采集到的目标数据作为系统输出存储到数据库中。下面围绕此目标从各个方面展开分析。系统输入：新浪微博自２００９年８月推出，经过十年的发展，已成为国内用户注册和使用数组多的微博平台，因此选择新浪微博为目标平台。新浪微博中的每个用户有一个包含１０位数字的ｕｉｄ，此ｕｉｄ的唯一性可作为用户的唯一标识符。针对微博ＵＲＬ的组成特性，因此选择用户ｕｉｄ作为系统输入。系统输出：用户信息，用户发表的微博内容以及相关信息。采集效率：研究所需用的微博数据量与研究所需数据量的大小有关，因此需要系统不仅在短时间内采集适当数据，而且系统应具有一定可扩展性以获取大规模的数据量。通过以上分析，确定系统主要功能结构图如图１所示。

一种分布式爬虫系统及其实现方法[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201610466951.7(22)申请日 2016.06.22(71)申请人广东亿迅科技有限公司地址 510635 广东省广州市天河区中山大道109号1号楼13层(72)发明人余虎　潘嘉朋　张郭强　徐少强　(51)Int.Cl.G06F 17/30(2006.01)(54)发明名称一种分布式爬虫系统及其实现方法(57)摘要本发明公开了一种分布式爬虫系统，该系统包括页面采集模块、目标url采集模块、调度监控模块和存储目标url队列模块。

该系统通过增加了一个调度节点，把爬取逻辑和监控逻辑分离，并对全局调控，一旦发现主爬虫节点出现异常，马上分配另一新节点取代为主节点。

另外，本发明把缓存目标url队列改为持久化存储目标url队列，同时增加一个已处理url队列，对于所有的爬取需求，url统一存放。

此外，本发明还提供了一种分布式爬虫系统的实现方法。

通过本发明能够适时地调控，增强系统的健壮性，同时也节省资源，增强爬虫的效率。

权利要求书1页说明书4页附图3页CN 106021608 A 2016.10.12C N 106021608A1.一种分布式爬虫系统，其特征在于，所述系统包括：页面采集模块、目标url采集模块、调度监控模块和存储目标url队列模块；页面采集模块，其通过从目标url队列提取信息，提取成功后目标url插入已处理url队列，采集到的信息存储到mongodb集群；目标url采集模块，通过主爬虫获取符合已定义规则的url，并把该url压入目标url队列；调度监控模块，贯穿整个系统，与每个模块都直接联系，并监控爬虫状态信息和集群状态信息；存储目标url队列模块，包括两个队列：目标url队列和已处理url队列。

2.根据权利要求1所述的系统，其特征在于，所述调度监控模块中的调度节点，把爬取逻辑和监控逻辑分离，并对全局调控，一定发现主爬虫节点出现异常，马上分配另一新节点取代为主节点。

基于Scrapy的分布式数据采集与分析--以知乎话题为例

第３９卷湖北师范大学学报(自然科学版)Ｖｏｌ３９第３期ＪｏｕｒｎａｌｏｆＨｕｂｅｉＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ(ＮａｔｕｒａｌＳｃｉｅｎｃｅ)Ｎｏ３ꎬ２０１９基于Ｓｃｒａｐｙ的分布式数据采集与分析以知乎话题为例李光敏１ꎬ李㊀平２ꎬ汪㊀聪１(１.湖北师范大学计算机科学与技术学院ꎬ湖北黄石㊀４３５００２ꎻ２.黄冈师范学院数学与统计学院ꎬ湖北黄冈㊀４３８０００)摘要:随着互联网技术的飞速发展和网络数据的急速增长ꎬ如何对海量数据进行快速有效地采集和分析已经成为大数据分析与应用领域中亟待解决的重要问题ꎮ基于Ｓｃｒａｐｙ框架实现主从式结构的分布式网络爬虫ꎬ运用开源项目Ｓｃｒａｐｙ－Ｒｅｄｉｓ来部署网络爬虫ꎬ继而完成对知乎网站话题的爬取与分析工作ꎬ共爬取４４３４６个话题㊁９４６８８个回答和３１２０２个用户数据ꎬ并从话题㊁回答㊁用户这三个方面应用可视化技术进行多维度分析ꎮ结果表明ꎬ开放式网络问答社区的话题主题与网络用户性别㊁地理位置分布及专业背景等因素具有显著的线性相关关系ꎮ该方法可推广应用于自动模式识别㊁网络舆情预测等大数据应用领域ꎮ关键词:Ｓｃｒａｐｙꎻ分布式ꎻ数据分析ꎻ知乎中图分类号:ＴＰ３９１.１㊀㊀文献标识码:Ａ㊀㊀文章编号:２０９６－３１４９(２０１９)０３－０００１－０７ｄｏｉ:１０.３９６９/ｊ.ｉｓｓｎ.２０９６－３１４９.２０１９.０３.００１进入２１世纪以来ꎬ互联网发展得越来越快ꎮ根据中国互联网络信息中心ＣＮＮＩＣ于２０１８年１月３１日发布的第４１次«中国互联网络发展状况统计报告»的数据显示: 到２０１７年１２月为止ꎬ我国上网人数已经达到７.７２亿ꎬ较去年共新增上网人数４０７４万人ꎻ用手机上网的人数突破７.５亿ꎬ与２０１６年相比共增加了５７３４万人[１]ꎮ互联网发展的势头越来越迅猛ꎬ数据量呈指数级爆炸式增长ꎬ这些海量的信息包含了各种不同类型的数据ꎬ并且以不同的格式分散存放在互联网世界的每个角落ꎮ互联网就像一个无比巨大的数据库ꎮ为了安全有效㊁准确无误地获取我们需要的数据诞生搜索引擎ꎮ搜索引擎通过从网络中获取数据生成关键字㊁索引ꎬ且建立了数据库ꎻ当上网者需要对某个关键词进行搜索的时候ꎬ搜索引擎就会到数据库中去查询ꎬ并把查询的结果展现到用户的面前[２]ꎮ网络爬虫在其中主要是用来对网上的数据进行搜集整理ꎬ为了提高效率引入了分布式技术ꎮＡ.Ｒｕｎｇｓａｗａｎｇ和Ｎ.Ａｎｇｋａｗａｔｔａｎａｗｉｔ[３]发展了一种具备自主学习能力网络爬虫框架ꎬ可以通过渐进的方式连续爬取更多相关网页ꎮＡ.Ｂｏｎａｔｏ等[４]考虑了一个复杂网络爬虫的简化模型ꎬ在模型中爬虫以待访问节点权重为决定遍历时优先顺序的依据ꎬ从而建立了一种效率更高的数据采集方法ꎮＧ.Ｂａｌｄａｓｓａｒｒｅ等[５]将社交网络的概念融入到物联网中ꎬ提出了多物联网(ＭＩｏＴ)的概念ꎬ并发展出针对多物联网的性能优异的爬虫工具ꎮ本文主要内容是基于Ｓｃｒａｐｙ框架分布式爬取知乎话题及数据分析ꎮ对网络爬虫的原理进行相关研究ꎬ以及如何实现分布式来提高爬虫的效率ꎬ最后对获取到的数据进行相关分析ꎮ１㊀Ｓｃｒａｐｙ分布式框架设计１.１㊀Ｓｃｒａｐｙ框架结构收稿日期:２０１９０３０２基金项目:湖北省教育厅科研计划重点项目(Ｄ２０１７２５０２)作者简介:李光敏(１９７９㊀)ꎬ男ꎬ湖北十堰人ꎬ副教授ꎬ研究方向为自然语言处理.通讯作者:李㊀平(１９７９㊀)ꎬ男ꎬ湖北黄冈人ꎬ副教授ꎬｐｉｎｇｆａｎ＠ｈｇｎｕ.ｅｄｕ.ｃｎ.１Ｓｃｒａｐｙ框架结构如图１所示ꎬ总共由８个部分组成ꎬ主要包含以下组件:ＳｃｒａｐｙＥｎｇｉｎｅ:该部分负责对整个框架所有组件之间的数据流进行控制ꎬ并在某些动作发生时触发相应的事务ꎮＳｃｈｅｄｕｌｅｒ:接受ＳｃｒａｐｙＥｎｇｉｎｅ传过来的Ｒｅｑｕｅｓｔꎬ再按照排序传递给Ｄｏｗｎｌｏａｄｅｒꎬ同时该部分还要负责ＵＲＬ去重ꎮＤｏｗｎｌｏａｄｅｒ:该部分接受Ｓｃｈｅｄｕｌｅｒ传过来的Ｒｅｑｕｅｓｔꎬ根据要求从互联网中下载网页内容ꎬ并将数据返回给ＳｐｉｄｅｒｓꎮＳｐｉｄｅｒｓ:由用户负责编写ꎬ用来解析请求网页后返回的数据ꎬ从中提取出Ｉｔｅｍ和新的ＵＲＬꎬ并把Ｉｔｅｍ传给Ｉｔｅｍｐｉｐｅｌｉｎｅ组件ꎮＩｔｅｍＰｉｐｅｌｉｎｅ:当目标网页被爬虫获取后ꎬ解析生成的Ｉｔｅｍ就会被发送到Ｐｉｐｅｌｉｎｅꎬ然后进行相应的处理ꎬ比如输出数据㊁保存到数据库等等ꎮＤｏｗｎｌｏａｄｅｒＭｉｄｄｌｅｗａｒｅｓ:介于Ｅｎｇｉｎｅ和Ｄｏｗｎｌｏａｄｅｒ之间ꎬ主要功能是负责处理这两者之间的Ｒｅ￣ｑｕｅｓｔ和Ｒｅｓｐｏｎｓｅꎬ用户也可以根据自己的需要来编写自己的中间件ꎮＳｐｉｄｅｒＭｉｄｄｌｅｗａｒｅｓ:位于ＳｃｒａｐｙＥｎｇｉｎｅ和Ｓｐｉｄｅｒ之间ꎬ负责对爬虫的输入和输出进行处理ꎮＳｃｈｅｄｕｌｅｒＭｉｄｄｌｅｗａｒｅｓ:介于Ｓｃｒａｐｙ引擎和调度器之间ꎬ用来对ＳｃｒａｐｙＥｎｇｉｎｅ发送到网站的请求与响应进行处理ꎮ图１㊀Ｓｃｒａｐｙ框架结构图１.２㊀Ｓｃｒａｐｙ－Ｒｅｄｉｓ结构Ｓｃｒａｐｙ－Ｒｅｄｉｓ将Ｓｃｒａｐｙ框架与Ｒｅｄｉｓ数据库结合起来实现了分布式爬虫ꎻ它通过把Ｓｃｒａｐｙ框架中的Ｒｅｑｕｅｓｔ队列ꎬ存入Ｒｅｄｉｓ数据库中ꎬ然后再分配给各个爬虫进行爬取ꎮＳｃｒａｐｙ－Ｒｅｄｉｓ主要由以下六个模块组成:Ｃｏｎｎｅｃｔｉｏｎ:该模块引入了Ｐｙｔｈｏｎ的Ｒｅｄｉｓ库ꎬ以此来对Ｒｅｄｉｓ数据库进行各种操作ꎬ其它几个模块连接数据库都通过调用Ｃｏｎｎｅｃｔｉｏｎ模块ꎮＤｕｐｅｆｉｌｔｅｒ:这个模块重写了Ｓｃｒａｐｙ自带的判重机制ꎬ利用ｓｅｔ数据类型来存储每一个Ｒｅｑｕｅｓｔ的ｆｉｎｇｅｒｐｒｉｎｔꎮ对于新的Ｒｅｑｕｅｓｔꎬ将其ｆｉｎｇｅｒｐｒｉｎｔ插入ｓｅｔ中ꎬ若返回值为０ꎬ则说明该ｆｉｎｇｅｒｐｒｉｎｔ已经存在ꎬ否则这个Ｒｅｑｕｅｓｔ没有重复ꎬ并加入Ｒｅｑｕｅｓｔ队列中ꎬ等待调度ꎮＱｕｅｕｅ:这个模块定义了三种队列来对Ｒｅｑｕｅｓｔ进行调度ꎬ分别是栈㊁队列和优先级队列ꎮ本项目采用队列的形式ꎬ利用其先进先出的特点便于将最先请求的Ｒｅｑｕｅｓｔ分配给爬虫获取数据ꎮＰｉｐｅｌｉｎｅ:与Ｓｃｒａｐｙ框架中的ＩｔｅｍＰｉｐｅｌｉｎｅ类似ꎬ它可以将各个爬虫所传过来的Ｉｔｅｍ存储到Ｒｅｄｉｓ数据库中ꎮＳｃｈｅｄｕｌｅｒ:该模块重写了Ｓｃｒａｐｙ的Ｓｃｈｅｄｕｌｅｒ类ꎬ它通过Ｒｅｄｉｓ来存储数据ꎬ对各个Ｓｐｉｄｅｒ进行统一调度ꎮＳｐｉｄｅｒ:这个模块通过ｃｏｎｎｅｃｔｉｏｎ模块ꎬ给爬虫绑定了信号ꎬ进而通过这个信号来掌握爬虫的状态ꎮ２２㊀爬虫总体设计２.１㊀爬取对象本文实现的爬虫将以知乎网站的话题为爬取目标ꎬ爬取知乎的话题列表ꎬ然后将这些话题按照关注者的数量降序排列并选取前１００个话题ꎬ再把这些话题下的精华回答爬取下来ꎬ同时获取这些回答的作者的相关信息ꎬ比如姓名㊁性别㊁学历㊁专业㊁粉丝数等等ꎮ２.２㊀总体架构本分布式爬虫采用主从式结构ꎬ这种结构的网络爬虫是由一个中心节点以及若干个爬虫节点构成ꎬ首先中心节点将任务分配给各个爬虫节点ꎬ然后各个爬虫节点再按照分配给自己的任务进行爬取[６]ꎮ具体架构由一个Ｍａｓｔｅｒ服务器和若干个Ｓｌａｖｅ服务器组成ꎬ其中Ｍａｓｔｅｒ端安装Ｒｅｄｉｓ数据库ꎬ用来存储调度所有的请求ꎬ而Ｓｌａｖｅ端只需安装Ｓｃｒａｐｙ㊁Ｓｃｒａｐｙ－Ｒｅｄｉｓ来搭建一个爬虫ꎬ访问Ｍａｓｔｅｒ端的数据库来获取请求ꎬ进而访问网页提取数据并存储到本机ꎮ整个爬虫系统按功能可划分为两个主要模块ꎬ分别是数据爬取和数据分析ꎮ数据爬取模块包括网页下载㊁信息提取㊁随机ＩＰ㊁随机ＵＡ和数据存储五个功能ꎻ数据分析模块则从话题㊁回答㊁用户这三个方面展开ꎮ总体架构如图２所示ꎮ㊀㊀㊀㊀图２㊀系统架构图㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀图３㊀知乎话题关注数量Ｔｏｐ２０分布２.３㊀分布式及数据存储利用Ｓｃｒａｐｙ－Ｒｅｄｉｓ来实现分布式爬取ꎮ首先ꎬ整个分布式架构由一个Ｍａｓｔｅｒ服务器和若干个Ｓｌａｖｅ服务器组成ꎬ其中Ｍａｓｔｅｒ端安装Ｒｅｄｉｓ数据库ꎬ用来维护爬取队列ꎬ而Ｓｌａｖｅ端只需安装Ｓｃｒａｐｙ㊁Ｓｃｒａｐｙ－Ｒｅｄｉｓ来搭建一个爬虫ꎬ访问Ｍａｓｔｅｒ端的数据库来获取请求ꎬ进而访问相应网页提取数据并存储到本机ꎮ数据存储共分为三部分ꎬ分别是代理ＩＰ㊁网页链接和Ｉｔｅｍ的存储ꎮ其中ꎬ代理ＩＰ与网页链接均存储在Ｒｅｄｉｓ数据库中ꎮ在Ｓｃｒａｐｙ的ｐｉｐｅｌｉｎｅｓ.ｐｙ文件中用户可以编写自己需要的存储方式ꎬ为了方便后期的数据分析ꎬ所有的Ｉｔｅｍ均以ｃｓｖ格式存储ꎮ３㊀分布式爬虫实现３.１㊀爬虫的实现爬虫程序分为四个部分ꎬ分别为:ｉｔｅｍｓ.ｐｙ㊁ｓｐｉｄｅｒ.ｐｙ㊁ｐｉｐｅｌｉｎｅｓ.ｐｙ和ｓｅｔｔｉｎｇｓ.ｐｙ四个文件ꎮｉｔｅｍｓ.ｐｙ文件中ꎬ利用Ｉｔｅｍ类以及Ｆｉｅｌｄ对象来声明一个数据对象用来存储从网页中提取的数据ꎮ该程序中定义了三个对象ꎬ分别为:话题㊁回答和用户ꎮｓｐｉｄｅｒ包含ｌｉｓｔ.ｐｙ和ｔｏｐｉｃ.ｐｙ两个文件ꎬ分别用来爬取话题数据与回答数据ꎮ这两个程序中均定义了ｓｔａｒｔ＿ｒｅｑｕｅｓｔｓ()函数ꎬ和若干个解析网页的回调函数ꎬ比如ｐａｒｓｅ＿ｔｏｐｉｃ＿ｉｎｆｏ()㊁ｐａｒｓｅ＿ｃｈｉｌｄｒｅｎ＿ｔｏｐｉｃ()㊁ｐａｒｓｅ＿ｕｓｅｒ()㊁ｐａｒｓｅ＿ｔｏｐ()等函数ꎮ其中ｓｔａｒｔ＿ｒｅｑｕｅｓｔｓ()函数用来发起初始请求启动下载ꎬ然３后调用这些回调函数来解析返回的数据生成Ｉｔｅｍꎬ然后传给ＩｔｅｍＰｉｐｅｌｉｎｅꎬ并提交新的请求ꎮｐｉｐｅｌｉｎｅｓ.ｐｙ文件中定义了ＴｏｐｉｃＰｉｐｅｌｉｎｅ()和ＴｏｐＡｎｓｗｅｒＰｉｐｅｌｉｎｅ()这两个类ꎮ它们都包含一个ｐｒｏｃｅｓｓ＿ｉｔｅｍ()函数用来处理Ｉｔｅｍꎬ其中前者用来保存话题Ｉｔｅｍꎬ而后者用来保存回答Ｉｔｅｍ和用户Ｉ￣ｔｅｍꎬ且均以ｃｓｖ格式存储ꎮｓｅｔｔｉｎｇｓ.ｐｙ文件中主要配置项如下:ＲＯＢＯＴＳＴＸＴ＿ＯＢＥＹ＝ＦＡＬＳＥꎬ指不遵循Ｒｏｂｏｔｓ协议ＤＯＷＮＬＯＡＤ＿ＤＥＬＡＹ＝１ꎬ指下载延迟为１秒ＤＯＷＮＬＯＡＤ＿ＴＩＭＥＯＵＴ＝１５ꎬ指下载超时时间最高为１５秒ＤＯＷＮＬＯＡＤＥＲ＿ＭＩＤＤＬＥＷＡＲＥＳ＝{}ꎬ在这里添加自己定义的下载中间件ＩＴＥＭ＿ＰＩＰＥＬＩＮＥＳ＝{}ꎬ在这里添加自己定义的Ｐｉｐｅｌｉｎｅ类３.２㊀代理池的实现１)存储模块的实现该模块使用Ｒｅｄｉｓ的有序集合来存储代理ꎬ集合里的每个元素都是不重复的ꎬ每个代理以ＩＰ加端口的形式存入数据库中ꎮ另外ꎬ有序集合的每个元素都有对应的分数字段ꎬ该集合会根据每个元素对应的分值对集合进行排序ꎮ对于我们存储的代理ꎬ分数可以作为判断代理是否可用的标志ꎬ１００分为最高分ꎬ表示最可用ꎬ０分为最低分ꎬ表示代理不可用ꎬ且当分数减到０时从数据库中移除该代理ꎮ２)获取模块的实现Ｃｒａｗｌｅｒ()类中定义了若干个从免费代理网站爬取代理的方法ꎬ通过对代理页面进行解析ꎬ找到ＩＰ和端口的数据并返回给存储模块进行存储ꎮ３)检测模块Ｔｅｓｔｅｒ()类用来对所有爬取下来的代理进行循环检测ꎬ每个新获取的代理存储时分数都设为１０分ꎮ当检测可用时ꎬ分数就直接设置为１００分ꎬ若不可用ꎬ则分数减１分ꎮ４)接口模块我们可以使用Ｐｙｔｈｏｎ的库Ｆｌａｓｋ来实现这个接口模块ꎬ首先创建Ｆｌａｓｋ对象ꎬ然后定义该对象的三个接口ꎬ分别是首页(显示一段文本来表明这是代理池的接口)㊁随机代理页(随机显示代理池中的ＩＰ和端口)㊁获取数量页(显示代理总数)ꎮ程序运行后ꎬＦｌａｓｋ会启动Ｗｅｂ服务ꎬ通过访问相应的接口即可获得可用代理ꎮ３.３㊀分布式爬虫的部署一台机器同时作为Ｍａｓｔｅｒ端和Ｓｌａｖｅ端ꎬＳｌａｖｅ端通过同时开启若干个爬虫进程来模拟ꎮ该机器安装Ｓｃｒａｐｙ－Ｒｅｄｉｓꎬ配置Ｒｅｄｉｓ服务端㊁客户端以及安装Ｓｃｒａｐｙꎮ在ｓｅｔｔｉｎｇｓ.ｐｙ文件中添加Ｓｃｒａｐｙ－Ｒｅｄｉｓ的参数配置如下:ＳＣＨＥＤＵＬＥＲ＝"ｓｃｒａｐｙ＿ｒｅｄｉｓ.ｓｃｈｅｄｕｌｅｒ.Ｓｃｈｅｄｕｌｅｒ"ＤＵＰＥＦＩＬＴＥＲ＿ＣＬＡＳＳ＝"ｓｃｒａｐｙ＿ｒｅｄｉｓ.ｄｕｐｅｆｉｌｔｅｒ.ＲＦＰＤｕｐｅＦｉｌｔｅｒ"ＳＣＨＥＤＵＬＥＲ＿ＰＥＲＳＩＳＴ＝ＴｒｕｅＳＣＨＥＤＵＬＥＲ＿ＱＵＥＵＥ＿ＣＬＡＳＳ＝'ｓｃｒａｐｙ＿ｒｅｄｉｓ.ｑｕｅｕｅ.ＦｉｆｏＱｕｅｕｅ'ＲＥＤＩＳ＿ＵＲＬ＝'ｒｅｄｉｓ://１２７.０.０.１:６３７９'以上配置的意思为将Ｓｃｒａｐｙ的调度器和判重类改为Ｓｃｒａｐｙ－Ｒｅｄｉｓ的调度器和判重类ꎬ同时保持Ｒｅｄｉｓ数据库中的Ｒｅｑｕｅｓｔ和Ｄｕｐｅｆｉｌｔｅｒ不被清除ꎬ以便暂停和恢复爬虫ꎮ然后设置了使用先进先出的队列来调度请求ꎬ最后指定了Ｒｅｄｉｓ数据库的ＩＰ和端口ꎬ用来连接数据库ꎮ４㊀数据分析４.１㊀数据分析流程首先ꎬ我们通过Ｐｙｔｈｏｎ的数据分析库Ｐａｎｄａｓ的ｒｅａｄ＿ｃｓｖ方法读取ｃｓｖ格式的数据文件ꎬ生成Ｄａｔ￣４ａＦｒａｍｅꎻ然后ꎬ再对该ＤａｔａＦｒａｍｅ按照需要进行统计筛选ꎬ比如计数㊁排序等等操作[７]ꎮ其次ꎬ数据清洗ꎮ最后ꎬ对爬取并清洗后的大量数据进行可视化操作ꎮＥｃｈａｒｔｓ是由国内的百度公司在Ｇｉｔｈｕｂ上开源的纯Ｊａｖａｓｃｒｉｐｔ的图表库ꎬ提供直观ꎬ生动ꎬ可交互ꎬ可高度个性化定制的数据可视化图表ꎮＰｙｅｃｈａｒｔｓ是运行于Ｐｙｔｈｏｎ环境下ꎬ用于生成Ｅｃｈａｒｔｓ图表的类库ꎬ利用该类库可以非常方便地生成各式各样的Ｅｃｈａｒｔｓ图表ꎬ比如饼图㊁条形图㊁折线图等ꎬ便于清晰地展示业务数据的规律和趋势ꎬ对进一步挖掘数据背后的信息具有重要作用ꎮ４.２㊀话题数据分析图３为知乎话题关注数量ＴＯＰ２０分布ꎮ首先ꎬ从该图我们可以看出关注度最高的话题是电影ꎻ其次ꎬ像心理学㊁美食㊁旅行㊁阅读㊁健身等等话题的关注也比较靠前ꎬ这些都反映了人们普遍关注与生活息息相关的话题ꎬ更加注重精神上的愉悦ꎬ而不是物质上的愉悦ꎮ同时ꎬ我们可以注意到ꎬ互联网话题的关注度也在前十ꎬ也从侧面表明了在当今这个时代互联网已经越来越普及ꎮ图４为知乎话题活跃回答者数量ＴＯＰ１０分布ꎬ与图３相比较ꎬ我们发现部分话题有所重合ꎬ像心理学㊁电影㊁教育㊁互联网㊁法律㊁音乐等ꎬ说明关注度较高的话题相应的活跃回答者数量也比较高ꎮ同时ꎬ互联网这个话题的活跃回答者数量仅次于教育话题ꎬ位居第四ꎬ更加印证了互联网的热度ꎮ㊀㊀㊀图４㊀知乎话题活跃回答者数量Ｔｏｐ１０分布㊀㊀㊀㊀㊀㊀㊀㊀㊀图５㊀知乎话题精华回答年份分布４.３㊀回答数据分析图５为知乎话题精华回答年份分布ꎮ知乎过去是采用邀请制的注册方式ꎬ用户数量相对较少ꎬ直到２０１３年３月才开放注册ꎬ所以我们从图中可以看到２０１０年的精华回答数量是最少的ꎮ随着知乎的开放注册ꎬ精华回答的数量逐年递增ꎬ且增长速度也越来越快ꎬ同时这也说明知乎的用户数量也是逐年增加的ꎮ从图中发现２０１７－２０１８期间的精华回答数减少ꎬ是因为本文在２０１８年４月获取的数据ꎬ所以不包含２０１８全年的精华回答数据ꎬ我们可以预测到２０１８年年底ꎬ这１００个话题的精华回答数量将达５００００左右ꎮ图６为知乎话题精华回答字数分布ꎬ我们可以看出大部分精华回答都是长篇篇幅ꎬ其数量占到了精华回答总数的５５.７％.短篇和中篇的数量加起来也不及长篇的数量ꎬ仅有极少数回答达到了超长篇ꎮ这些表明大部分知乎用户都倾向于书写长篇篇幅的回答ꎮ㊀㊀㊀图６㊀知乎话题精华回答字数分布㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀图７㊀城市－时间－回答数量分布图图７为城市－时间－回答数量分布图ꎬ单从城市这一轴来看ꎬ越是经济发达的城市ꎬ回答的数量也就越高ꎬ比如图中的北京㊁上海㊁深圳㊁广州这四座一线城市ꎮ而从时间这一轴来看ꎬ绝大部分知乎５用户集中在上午７点到晚上１２点间使用知乎回答问题ꎬ这也符合人的正常作息时间ꎮ综合来看ꎬ除了美国存在时间差的问题ꎬ其余城市的用户回答问题的时间趋势大致相同ꎬ分别在中午１１点前后ꎬ下午４点到５点以及晚上９点之后比较活跃ꎮ４.４㊀用户数据分析图８为知乎用户粉丝数量ＴＯＰ２０ꎬ我们可以看到粉丝数最高的是张佳玮用户ꎬ其粉丝数一共有１６１９９３０个ꎬ超过第二名丁香医生的粉丝数达到５１万之多ꎮ我们可以发现接下来的几位用户分别是知乎的天使投资人李开复ꎬ知乎的联合创始人周源㊁黄继新和张亮ꎬ这也反映了知乎的用户们比较关注身为知乎创始人的动态ꎮ图９为知乎用户获赞数ＴＯＰ２０ꎬ与图５~６对比ꎬ我们可以发现有不少重叠的用户ꎬ比如张佳玮㊁丁香医生㊁ｙｏｌｆｉｌｍ㊁ｖｚｃｈ等用户ꎬ这也从侧面说明了粉丝基础决定获赞总数ꎮ而且张佳玮用户仍然名列第一ꎬ共计获得了４７５４４５９个赞ꎮ㊀㊀㊀图８㊀知乎用户粉丝数量Ｔｏｐ２０㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀图９㊀知乎用户获赞数Ｔｏｐ２０图１０为知乎用户类型分布ꎮ２０１７年９月２０号ꎬ知乎平台宣布完全开放机构号的注册ꎬ这些机构号将和普通用户一样分享自己认知范围内的知识㊁经验和见解ꎮ从图１０中我们可以看出知乎主要还是普通用户居多ꎬ机构号仍然是少数ꎬ大约只占到总数的１.１９％.图１１为知乎用户性别分布ꎬ很明显ꎬ我们可以看到知乎男性用户最多ꎬ大约占据知乎用户总数的６０％ꎬ而女性用户占了２９.４％左右ꎬ只有男性用户数量的一半ꎮ当然ꎬ从图１１中我们还能看到有一小部分用户并未注明自己的性别ꎮ㊀㊀㊀㊀㊀㊀㊀㊀㊀图１０㊀知乎用户类型分布㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀图１１㊀知乎用户性别分布５㊀总结本文首先对网络爬虫的产生及其基本原理作了相关介绍ꎬ然后介绍了Ｓｃｒａｐｙ框架的基本结构㊁工作原理和运行的基本流程ꎬ接着介绍了Ｓｃｒａｐｙ－Ｒｅｄｉｓ的各个组件及其功能ꎬ阐述了分布式爬虫的设计与实现ꎬ并以知乎话题为爬取对象ꎬ对爬虫进行了相关测试ꎬ检验了分布式爬虫的效果ꎬ最后对获取的数据进行了相关分析且以图表的形式展现出来ꎮ虽然本文实现的分布式爬虫能达到基本要求ꎬ并成功地拿到了知乎话题的数据ꎬ但是仍然存在一６些不足之处ꎮ一是自动化程度不够ꎻ其次ꎬ账号数量较少ꎬ限制了分布式爬虫的效率ꎻ再次ꎬ每个爬虫都只分配了一个固定的账号ꎬ容易导致账号流量异常ꎬ需要输入验证码才能解封ꎮ针对以上问题ꎬ在将来可以应用机器学习等先进的技术来实现验证码的识别ꎬ使爬虫变得更加智能化ꎻ同时可以使用更多的账号实现Ｃｏｏｋｉｅｓ池ꎬ并随机分配给各个爬虫来更好地应对网站的反爬措施ꎮ参考文献:[１]中国互联网络信息中心.第４１次中国互联网络发展状况统计报告[ＥＢ/ＯＬ].ｈｔｔｐ://ｗｗｗ.ｃｎｎｉｃ.ｎｅｔ.ｃｎ/ｈｌｗｆｚｙｊ/ｈｌ￣ｗｘｚｂｇ/ｈｌｗｔｊｂｇ/２０１８０３/ｔ２０１８０３０５＿７０２４９.ｈｔｍꎬ２０１８－０３－０５.[２]王㊀敏.分布式网络爬虫的研究与实现[Ｄ].南京:东南大学ꎬ２０１７.[３]ＲｕｎｇｓａｗａｎｇＡꎬＡｎｇｋａｗａｔｔａｎａｗｉｔＮ.Ｌｅａｒｎａｂｌｅｔｏｐｉｃ￣ｓｐｅｃｉｆｉｃｗｅｂｃｒａｗｌｅｒ[Ｊ].ＪｏｕｒｎａｌｏｆＮｅｔｗｏｒｋａｎｄＣｏｍｐｕｔｅｒＡｐｐｌｉｃａ￣ｔｉｏｎｓꎬ２００５ꎬ２８(２):９７~１１４.[４]ＢｏｎａｔｏＡꎬＲＭｄｅｌＲíｏ￣ＣｈａｎｏｎａꎬＭａｃＲｕｒｙＣꎬｅｔｃ.Ｔｈｅｒｏｂｏｔｃｒａｗｌｅｒｇｒａｐｈｐｒｏｃｅｓｓ[Ｊ].ＤｉｓｃｒｅｔｅＡｐｐｌｉｅｄＭａｔｈｅｍａｔｉｃｓꎬ２０１８ꎬ２４７(１):２３~２６.[５]ＢａｌｄａｓｓａｒｒｅＧꎬＧｉｕｄｉｃｅＰＬꎬＭｕｓａｒｅｌｌａＬꎬｅｔｃ.ＴｈｅＭＩｏＴｐａｒａｄｉｇｍ:Ｍａｉｎｆｅａｔｕｒｅｓａｎｄａｎａｄ￣ｈｏｃｃｒａｗｌｅｒ[Ｊ].ＦｕｔｕｒｅＧｅｎｅｒａｔｉｏｎＣｏｍｐｕｔｅｒＳｙｓｔｅｍｓꎬ２０１９ꎬ９２:２９~４２.[６]安子建.基于Ｓｃｒａｐｙ框架的网络爬虫实现与数据抓取分析[Ｄ].吉林:吉林大学ꎬ２０１７.[７]李代祎ꎬ谢丽艳ꎬ钱慎一ꎬ等.基于Ｓｃｒａｐｙ的分布式爬虫系统的设计与实现[Ｊ].湖北民族学院学报(自然科学版)ꎬ２０１７ꎬ３５(３):３１７~３２２.ＤｉｓｔｒｉｂｕｔｅｄｃｒａｗｌｉｎｇａｎｄｄａｔａａｎａｌｙｓｉｓｂａｓｅｄｏｎｓｃｒａｐｙｔａｋｉｎｇＺｈｉＨｕｔｏｐｉｃｆｏｒｅｘａｍｐｌｅＬＩＧｕａｎｇ￣ｍｉｎ１ꎬＬＩＰｉｎｇ２ꎬＷＡＮＧＣｏｎｇ１(１.ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙꎬＨｕｂｅｉＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙꎬＨｕａｎｇｓｈｉꎬ４３５００２ꎬＣｈｉｎａꎻ２.ＣｏｌｌｅｇｅｏｆＭａｔｈａｎｄＳｔａｔｉｓｔｉｃｓꎬＨｕａｎｇｇａｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙꎬＨｕａｎｇｇａｎｇꎬ４３８０００ꎬＣｈｉｎａ)Ａｂｓｔｒａｃｔ:Ｗｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｉｎｔｅｒｎｅｔｔｅｃｈｎｏｌｏｇｙａｎｄｆａｓｔｇｒｏｗｔｈｏｆｎｅｔｗｏｒｋｄａｔａꎬｈｏｗｔｏｃｏｌｌｅｃｔａｎｄａｎａｌｙｚｅｍａｓ￣ｓｉｖｅｄａｔａｑｕｉｃｋｌｙａｎｄｅｆｆｅｃｔｉｖｅｌｙｈａｓｂｅｃｏｍｅａｎｕｒｇｅｎｔｐｒｏｂｌｅｍｔｏｂｅｓｏｌｖｅｄｉｎｂｉｇｄａｔａａｎａｌｙｓｉｓａｎｄｃｏｒｒｅｓｐｏｎｄｉｎｇａｐｐｌｉｃａｔｉｏｎ.Ｔｈｉｓｐａｐｅｒｄｅｐｌｏｙｓｔｈｅｄｉｓｔｒｉｂｕｔｅｄｎｅｔｗｏｒｋｃｒａｗｌｅｒｗｉｔｈｍａｓｔｅｒ￣ｓｌａｖｅｓｔｒｕｃｔｕｒｅｂａｓｅｄｏｎＳｃｒａｐｙｆｒａｍｅｗｏｒｋｔｏｃｏｍｐｌｅｔｅｔｈｅｃｒａｗ￣ｌｉｎｇａｎｄｔｏａｎａｌｙｓｉｓｏｆＺｈｉｈｕｓｔｏｐｉｃ.Ａｔｏｔａｌｏｆ４４ꎬ３４６ｔｏｐｉｃｓꎬ９４ꎬ６８８ａｎｓｗｅｒｓａｎｄ３１ꎬ２０２ｕｓｅｒｄａｔａｈａｖｅｂｅｅｎｃｒａｗｌｅｄꎬａｎｄｃａｒｒｉｅｄｏｎｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌａｎａｌｙｓｉｓｇｉｖｅｎｖｉｓｕａｌｃｈａｒｔｆｒｏｍｆｒｏｍｔｏｐｉｃｓꎬａｎｓｗｅｒｓａｎｄｕｓｅｒｓ.Ｔｈｅｒｅｓｕｌｔｏｆｄａｔａａｎａｌｙｓｉｓｓｈｏｗｓｔｈａｔｔｈｅｒｅｉｓａｓｉｇｎｉｆｉｃａｎｔｃｏｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｔｈｅｆｏｃｕｓｅｄｔｏｐｉｃｓａｎｄｓｏｍｅｆａｃｔｏｒｓｓｕｃｈａｓｇｅｎｄｅｒꎬｇｅｏｇｒａｐｈｉｃａｌｌｏｃａｔｉｏｎａｎｄｐｒｏｆｅｓｓｉｏｎａｌｂａｃｋｇｒｏｕｎｄｏｆｎｅｔｗｏｒｋｕｓｅｒｓ.Ｔｈｅｍｅｔｈｏｄｏｆｄａｔａｃｏｌｌｅｃｔｉｏｎａｎｄａｎａｌｙｓｉｓｉｎｔｈｅｐａｐｅｒｃａｎｂｅｐｏｐｕｌａｒｉｚｅｄａｎｄａｐ￣ｐｌｉｅｄｔｏａｕｔｏｍａｔｉｃｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎꎬｎｅｔｗｏｒｋｐｕｂｌｉｃｏｐｉｎｉｏｎｐｒｅｄｉｃｔｉｏｎａｎｄｏｔｈｅｒｂｉｇｄａｔａａｐｐｌｉｃａｔｉｏｎｆｉｅｌｄｓ.Ｋｅｙｗｏｒｄｓ:ＳｃｒａｐｙꎻｄｉｓｔｒｉｂｕｔｅｄꎻｄａｔａａｎａｌｙｓｉｓꎻＺｈｉｈｕ７。

Scrapy+Scrapy-redis+Scrapyd+Gerapy分布式爬虫框架整合

Scrapy+Scrapy-redis+Scrapyd+Gerapy分布式爬⾍框架整合简介：给正在学习的⼩伙伴们分享⼀下⾃⼰的感悟，如有理解不正确的地⽅，望指出，感谢~⾸先介绍⼀下这个标题吧~1. Scrapy：是⼀个基于Twisted的异步IO框架，有了这个框架，我们就不需要等待当前URL抓取完毕之后在进⾏下⼀个URL的抓取，抓取效率可以提⾼很多。

2. Scrapy-redis：虽然Scrapy框架是异步加多线程的，但是我们只能在⼀台主机上运⾏，爬取效率还是有限的，Scrapy-redis库为我们提供了Scrapy分布式的队列，调度器，去重等等功能，有了它，我们就可以将多台主机组合起来，共同完成⼀个爬取任务，抓取的效率⼜提⾼了。

3. Scrapyd：分布式爬⾍完成之后，接下来就是代码部署，如果我们有很多主机，那就要逐个登录服务器进⾏部署，万⼀代码有所改动..........可以想象，这个过程是多么繁琐。

Scrapyd是专门⽤来进⾏分布式部署的⼯具，它提供HTTP接⼝来帮助我们部署，启动，停⽌，删除爬⾍程序，利⽤它我们可以很⽅便的完成Scrapy爬⾍项⽬的部署。

4. Gerapy：是⼀个基于Scrapyd，Scrapyd API，Django，Vue.js搭建的分布式爬⾍管理框架。

简单点说，就是⽤上述的Scrapyd⼯具是在命令⾏进⾏操作，⽽Gerapy将命令⾏和图形界⾯进⾏了对接，我们只需要点击按钮就可完成部署，启动，停⽌，删除的操作。

1. 创建Scrapy项⽬：（）项⽬的结构如下：（这个项⽬⾥包含了多个spider，接下来，就以我圈出来的为例讲解）因为我这个需要⽤到固定的代理，在这个讲⼀下代理如何使⽤：代理在middlewares.py这个模块中的process_request⽅法中进⾏配置（如果想知道为什么在这⾥配置，可以去google⼀下scrapy框架爬⾍的整体结构流程），如下：然后在settings.py中指定具体的代理是什么：如 PROXY_URL='http://10.10.10.10:8080'2. Scrapy-redis分布式配置：1. ⾸先，确认Scrapy-redis库已经安装~未安装，可以 pip install scrapy-redis 进⾏安装。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

㊀㊀文章编号:１００９－２５５２(２０１８)１１－００５９－０４㊀㊀ＤＯＩ:１０１３２７４/ｊｃｎｋｉｈｄｚｊ２０１８１１０１３一种基于Ｓｃｒａｐｙ￣Ｒｅｄｉｓ的分布式微博数据采集方案邓万宇ꎬ刘光达ꎬ董莹莹(西安邮电大学计算机学院ꎬ西安７１０１２１)摘㊀要:作为向网民展示世界和汇聚民意的重要渠道ꎬ微博正日益成为网络舆情的传播高地ꎮ如何对微博数据进行灵活高效地采集并存储ꎬ对后续的数据挖掘与分析工作起到重要作用ꎮ文中在分析新浪微博站点特征结构的基础上设计了一种局部最佳搜索策略ꎬ采用Ｐｙｔｈｏｎ开源框架Ｓｃｒａｐｙ搭配Ｒｅｄｉｓ数据库ꎬ设计实现了一套抓取速度快㊁定制性强㊁扩展性高的分布式爬虫系统ꎬ获取的数据具有良好的实时性和准确性ꎬ为后续工作提供了有力的数据支撑ꎮ关键词:Ｓｃｒａｐｙ￣Ｒｅｄｉｓꎻ局部最佳搜索ꎻ分布式ꎻ微博数据采集中图分类号:ＴＰ３９１㊀㊀文献标识码:ＡＡｄｉｓｔｒｉｂｕｔｅｄｍｉｃｒｏｂｌｏｇｄａｔａｃｏｌｌｅｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｓｃｒａｐｙ￣ｒｅｄｉｓＤＥＮＧＷａｎ￣ｙｕꎬＬＩＵＧｕａｎｇ￣ｄａꎬＤＯＮＧＹｉｎｇ￣ｙｉｎｇ(ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒꎬＸｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔ＆ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓꎬＸｉａｎ７１０１２１ꎬＣｈｉｎａ)Ａｂｓｔｒａｃｔ:ＡｓａｎｉｍｐｏｒｔａｎｔｃｈａｎｎｅｌｆｏｒｔｈｅＩｎｔｅｒｎｅｔｕｓｅｒｓｔｏｄｉｓｐｌａｙｔｈｅｗｏｒｌｄａｎｄｇａｔｈｅｒｐｕｂｌｉｃｏｐｉｎｉｏｎｓꎬｍｉｃｒｏｂｌｏｇｉｓｉｎｃｒｅａｓｉｎｇｌｙｂｅｃｏｍｉｎｇａｈｉｇｈｇｒｏｕｎｄｆｏｒｔｈｅｓｐｒｅａｄｏｆＩｎｔｅｒｎｅｔｐｕｂｌｉｃｏｐｉｎｉｏｎ.Ｈｏｗｔｏｃｏｌｌｅｃｔａｎｄｓｔｏｒｅｍｉｏｒｏｂｌｏｇｄａｔａｆｌｅｘｉｂｌｙａｎｄｅｆｆｉｃｉｅｎｔｌｙｐｌａｙｓａｎｉｍｐｏｒｔａｎｔｒｏｌｅｉｎｔｈｅｓｕｂｓｅｑｕｅｎｔｄａｔａｍｉｎｉｎｇａｎｄａｎａｌｙｓｉｓ.Ｔｈｉｓｐａｐｅｒｄｅｓｉｇｎｓａｌｏｃａｌｏｐｔｉｍａｌｓｅａｒｃｈｓｔｒａｔｅｇｙｂａｓｅｄｏｎａｎａｌｙｚｉｎｇｔｈｅｆｅａｔｕｒｅｓｔｒｕｃｔｕｒｅｏｆｗｅｉｂｏ.ｃｏｍꎬｕｓｉｎｇｔｈｅＰｙｔｈｏｎｏｐｅｎｓｏｕｒｃｅｆｒａｍｅｗｏｒｋＳｃｒａｐｙａｎｄＲｅｄｉｓｄａｔａｂａｓｅｔｏｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｄｉｓｔｒｉｂｕｔｅｄｃｒａｗｌｅｒｓｙｓｔｅｍｗｉｔｈｆａｓｔｃｒａｗｌｉｎｇｓｐｅｅｄꎬｈｉｇｈｃｕｓｔｏｍｉｚａｔｉｏｎꎬａｎｄｇｏｏｄｓｃａｌａｂｉｌｉｔｙ.Ｔｈｅｃｒａｗｌｅｒｓｙｓｔｅｍｈａｓｇｏｏｄｒｅａｌ￣ｔｉｍｅａｎｄａｃｃｕｒａｃｙｄａｔａꎬｗｈｉｃｈｐｒｏｖｉｄｅｓｐｏｗｅｒｆｕｌｄａｔａｓｕｐｐｏｒｔｆｏｒｆｏｌｌｏｗ￣ｕｐｗｏｒｋ.Ｋｅｙｗｏｒｄｓ:Ｓｃｒａｐｙ￣Ｒｅｄｉｓꎻｌｏｃａｌｏｐｔｉｍａｌｓｅａｒｃｈꎻｄｉｓｔｒｉｂｕｔｅｄꎻｍｉｃｒｏｂｌｏｇｄａｔａｃｒａｗｌｉｎｇ收稿日期:２０１８－０７－１６基金项目:国家自然科学基金项目(６１５７２３９９)ꎻ西安邮电大学研究生创新基金(ＣＸＪＪ２０１７０４２)作者简介:邓万宇(１９７９－)ꎬ男ꎬ教授ꎬ硕士研究生导师ꎬ研究方向为数据挖掘㊁机器学习与知识服务ꎮ０㊀引言随着公众参与互联网的热情越来越高ꎬ微博用户的数量呈快速增长的态势ꎬ微博已经成为了网络舆情中最具影响力的传播载体之一ꎬ微博的发展引起了人们的广泛关注[１－５]ꎮ针对微博环境下的舆情分析需要大量的数据支撑ꎬ鉴于官方提供的ＡＰＩ相关限制造成的数据获取困难ꎬ针对其开发一套专用的网络爬虫系统变得具有实际意义ꎮ目前国内外在网络爬虫领域已经有了很多研究[６－９]ꎮＬａｒｂｉｎ㊁Ｎｕｔｃｈ㊁Ｈｅｒｉｔｒｉｘ等已经是比较成熟的网络爬虫项目ꎬ经过调研ꎬ发现它们在用户亲和性㊁分布式扩展㊁以及开发复杂度上存在着一些问题ꎮ综合考虑开发成本及工作比重ꎬ本着快速㊁简便㊁可配置的原则ꎬ为后续分析挖掘工作提供可靠的数据支撑ꎬ我们选择基于ｐｙｔｈｏｎ开源框架Ｓｃｒａｐｙ搭配基于内存的数据库Ｒｅｄｉｓ来开发一套部署方便㊁可定制性高的中小规模分布式网络爬虫来完成微博数据的采集工作ꎮ１㊀结构设计１.１㊀Ｓｃｒａｐｙ￣ＲｅｄｉｓＳｃｒａｐｙ是一款基于Ｐｙｔｈｏｎ开发的开源ｗｅｂ爬虫框架ꎬ可快速抓取Ｗｅｂ站点并提取页面中的结构化数据ꎬ具有高度的扩展性和鲁棒性ꎮ而Ｒｅｄｉｓ作为一个基于内存的Ｋｅｙ￣Ｖａｌｕｅ数据库ꎬ以高性能著９５称ꎬ其读写频率可以超１０５每秒[１０－１１]ꎮ通过周期性的把更新的数据或者把修改操作写入磁盘和写入追加的记录文件ꎬ实现了主从同步机制ꎮＳｃｒａｐｙ￣Ｒｅｄｉｓ是使用Ｓｃｒａｐｙ框架与Ｒｅｄｉｓ数据库工具组合实现的一个网络分布式抓取开源项目ꎮ其分布式体现在多个Ｓｐｉｄｅｒ同时工作时产生的ＵＲＬ及ｒｅｑｕｅｓｔｓ请求ꎬ将存入统一的ＲｅｄｉｓＱｕｅｕｅ队列ꎬ然后通过布隆过滤器ＢｌｏｏｍＦｉｌｔｅｒ去重ꎬ再分配给各爬虫进行抓取ꎮ其整体框架及内部运行流程如图１所示ꎮ图１㊀Ｓｃｒａｐｙ￣Ｒｅｄｉｓ框架结构及内部数据流首先ꎬＳｐｉｄｅｒ从Ｒｅｄｉｓ中获取初始ＵＲＬꎬ引擎从Ｓｐｉｄｅｒ中获取初始爬取请求Ｒｅｑｕｅｓｔｓꎮ引擎安排请求Ｒｅｑｕｅｓｔｓ到调度器Ｓｃｈｅｄｕｌｅｒ中ꎬ并向调度器请求下一个要爬取的Ｒｅｑｕｅｓｔｓꎮ期间本地的Ｓｌａｖｅ调度器会通过网络先将获取的Ｒｅｑｕｅｓｔｓ请求插入到Ｒｅ￣ｄｉｓ中ꎬ经过内部去重后ꎬ再从Ｒｅｄｉｓ获取一个Ｒｅ￣ｑｕｅｓｔｓꎮ然后调度器将Ｒｅｑｕｅｓｔｓ返回给引擎ꎬ引擎将得到的Ｒｅｑｕｅｓｔｓ通过下载器中间件ＤｏｗｎｌｏａｄｅｒＭｉｄ￣ｄｌｅｗａｒｅｓ发送给下载器进行页面下载ꎮ一旦下载完毕ꎬ下载器会生成一个该页面的Ｒｅｓｐｏｎｓｅ返回给引擎ꎮ引擎从下载器中得到该Ｒｅｓｐｏｎｓｅ并通过爬虫中间件ＳｐｉｄｅｒＭｉｄｄｌｅｗａｒｅｓ发送给Ｓｐｉｄｅｒ处理ꎮＳｐｉ￣ｄｅｒ处理Ｒｅｓｐｏｎｓｅ并通过爬虫中间件ＳｐｉｄｅｒＭｉｄｄｌｅ￣ｗａｒｅｓ返回爬取到的Ｉｔｅｍ以及新的Ｒｅｑｕｅｓｔ给引擎ꎮ引擎将上步中Ｓｐｉｄｅｒ爬取到的Ｉｔｅｍ发送给管道ＩｔｅｍＰｉｐｅｌｉｎｅｓꎬ将新的Ｒｅｑｕｅｓｔ继续发送给调度器ꎬ并向调度器请求可能存在的下一个要爬取的请求Ｒｅｑｕｅｓｔｓꎮ至此ꎬ循环执行上述步骤直至调度器中不再有更多的请求Ｒｅｑｕｅｓｔｓꎮ１.２㊀分布式架构采用主从式架构ꎬ有一台独立的Ｍａｓｔｅｒ服务器来负责管理待抓取的ＵＲＬ队列以及Ｒｅｑｕｅｓｔｓ请求ꎬ每次将ＵＲＬ分发至各个Ｓｌａｖｅ客户端ꎬ然后由Ｓｌａｖｅ客户端启动爬虫主程序对目标站点进行爬取ꎮ系统物理架构如图２所示ꎮ２㊀微博爬虫设计本文设计的微博爬虫是一类主题爬虫[１２－１６]ꎬ具图２㊀分布式物理架构有目标单一ꎬ布局较小ꎬ占用资源少等特点ꎬ只专注于解决微博领域的一些问题ꎮ通过分析微博站点结构ꎬ利用微博用户间的关注与粉丝关系ꎬ采用局部最佳搜索策略ꎬ实验证明抓取的数据带有一定的天然相关性ꎮ２.１㊀爬行策略设计本文在设计微博爬虫系统时ꎬ充分考虑了微博站点ＵＲＬ的结构特点ꎬ并在此基础上着重分析并利用了用户与用户之间ꎬ用户与博文之间的关联关系ꎬ设计了一种最佳优先爬行策略ꎬ能够引导爬虫抓取具有一定相关性的用户信息与微博内容数据ꎮ爬虫根据预先设定的一个或若干初始种子ＵＲＬ开始ꎬ直接访问并下载页面ꎬ经页面解析器去掉页面上的ＨＴＭＬ标签得到页面内容ꎬ通过用户关注列表㊁粉丝列表获取新的目标用户ＩＤꎬ经过字符串拼接ꎬ构造新的网页ＵＲＬ放入ＲｅｄｉｓＱｕｅｕｅ队列ꎬ期间经过去重和排序操作ꎮ然后将筛选通过的ＵＲＬ加入待爬队列进而供爬虫抽取进行下一步的下载和页面解析操作ꎮ此过程将一直循环执行ꎬ直到列表队列为空ꎬ则整个抓取过程结束ꎮ整个流程如图３所示ꎮ２.２㊀定义抓取对象微博页面中包含多种内容ꎬ通过定义Ｉｔｅｍ来选择需要抓取的对象信息ꎮ我们定义了两种数据的字段信息如表１－２所示ꎮ表１㊀ｕｓｅｒｉｎｆｏ数据方法定义名称字段名称字段说明定义ＩｔｅｍＵｓｅｒＩｎｆｏＩｔｅｍＩｄ用户ＩＤＮｉｃｋＮａｍｅ昵称Ｇｅｎｄｅｒ性别Ｌｏｃａｔｉｏｎ所在地区ＢｒｉｅｆＩｎｔｒｏｄｕｃｔｉｏｎ个人简介Ｂｉｒｔｈｄａｙ生日Ａｕｔｈｅｎｔｉｃａｔｉｏｎ微博认证Ｔｗｅｅｔｓ微博数Ｆｏｌｌｏｗｅｒ关注数Ｆａｎｓ粉丝数０６图３㊀基于用户ＩＤ的最佳爬行策略表２㊀ｔｗｅｅｔｓ信息数据方法定义名称字段名称字段说明定义ＩｔｅｍＴｗｅｅｔｓＩｔｅｍＷＩｄ微博ＩＤＣｏｎｔｅｎｔ微博内容ＩｓＴｒａｎｓｆｅｒ是否为转发ＴｒａｎｓｆｅｒＲｅａｓｏｎ转发理由Ｔｒａｎｓｆｅｒ转发数Ｌｉｋｅ点赞数Ｃｏｍｍｅｎｔ评论数ＰｕｂＴｉｍｅ发表时间Ｔｏｏｌｓ设备来源２.３㊀编写Ｓｐｉｄｅｒ类区别于单机爬虫Ｓｐｉｄｅｒ类的编写ꎬ分布式Ｗｅｉ￣ｂｏＳｐｉｄｅｒ是自定义编写的针对微博页面解析的Ｓｐｉ￣ｄｅｒ类ꎬ它不再继承原始的ｓｃｒａｐｙ.Ｓｐｉｄｅｒ类ꎬ而是继承了ＲｅｄｉｓＳｐｉｄｅｒ类ꎬ用来从ｒｅｄｉｓ读取ｕｒｌꎮ同样也不再使用ｓｔａｒｔ＿ｕｒｌｓꎬ取而代之的是ｒｅｄｉｓ＿ｋｅｙꎬｓｃｒａｐｙ￣ｒｅｄｉｓ将ｋｅｙ从Ｒｅｄｉｓ中ｐｏｐ出来ꎬ成为请求的ｕｒｌ地址ꎮ关键代码如下:ｒｅｄｉｓ＿ｋｅｙ＝ＷｅｉｂｏＳｐｉｄｅｒ.ｓｔａｒｔ＿ｕｒｌｓʊＳｐｅｃｉｆｙｔｈｅｉｎｉｔｉａｌｕｒｌａｄｄｒｅｓｓａｌｌｏｗｅｄ＿ｄｏｍａｉｎｅｄ＝[ ｈｔｔｐｓ:ʊｗｅｉｂｏ.ｃｎ ]ʊＡｌｌｏｗｅｄｃｒａｗｌｅｄｐａｇｅｒａｎｇｅ爬虫正常启动进入到解析页面阶段ꎬ首先解析到的是用户的资料页面ꎬ使用Ｘｐａｔｈ获取页面标签中所有ｔｅｘｔꎬ添加以下代码:Ｉｎｆｏｔｅｘｔ＝ :ｅｎｄ .ｊｏｉｎ(ｓｅｌｅｃｔｏｒ.ｘｐａｔｈ( ｂｏｄｙ/ｄｉｖ[＠ｃｌａｓｓ＝ｃ ]ʊｔｅｘｔ() )).ｅｘｔｒａｃｔ()ʊＧｅｔｔｏｔａｌｕｓｅｒｐｅｒｓｏｎａｌｉｎｆｏｒｍａｔｉｏｎ获取ｉｎｆｏｔｅｘｔ后ꎬ再通过ｐｙｔｈｏｎ正则表达式工具包ｒｅ匹配获取拟定的用户个人信息数据ꎮ处理完个人信息页面后ꎬ使用ｙｉｅｌｄ返回请求Ｒｅｑｕｅｓｔ分别指向三个ｕｒｌꎬ即ｔｗｅｅｔｓ㊁ｆｏｌｌｏｗ和ｆａｎｓꎬ基于当前用户ＩＤ使用ｃａｌｌｂａｃｋ回调函数分别执行三个不同页面的解析工作ꎬ代码如下:ｙｉｅｌｄＲｅｑｕｅｓｔ(ｕｒｌ＝ｈｔｔｐｓ:ʊｗｅｉｂｏ.ｃｎ/ｕ/{}?ｐａｇｅ＝１ .ｆｏｒｍａｔ(ＩＤ))ꎬｃａｌｌｂａｃｋ＝ｓｅｌｆ.ｐａｒｓｅ＿ｔｗｅｅｔｓꎬｍｅｔａ＝{ ｂａｓｅｉｔｅｍ :ｕｓｅｒｉｎｆｏꎬｄｏｎｔ＿ｆｉｌｔｅｒ＝Ｔｒｕｅ}ʊＧｏｉｎｇｔｏｒｅｑｕｅｓｔｕｓｅｒｗｅｉｂｏｃｏｎｔｅｎｔｈｏｍｅｐａｇｅｙｉｅｌｄＲｅｑｕｅｓｔ(ｕｒｌ＝ｈｔｔｐｓ:ʊｗｅｉｂｏ.ｃｎ/ｕ/{}ｆｏｌｌｏｗ .ｆｏｒｍａｔ(ＩＤ))ꎬｃａｌｌｂａｃｋ＝ｓｅｌｆ.ｐａｒｓｅ＿ｒｅｌａｔｉｏｎｓｈｉｐꎬｄｏｎｔ＿ｆｉｌｔｅｒ＝Ｔｒｕｅ}ʊＧｏｉｎｇｔｏｒｅｑｕｅｓｔｕｓｅｒｆｏｌｌｏｗｅｒｐａｇｅｙｉｅｌｄＲｅｑｕｅｓｔ(ｕｒｌ＝ｈｔｔｐｓ:ʊｗｅｉｂｏ.ｃｎ/ｕ/{}ｆａｎｓ .ｆｏｒｍａｔ(ＩＤ))ꎬｃａｌｌｂａｃｋ＝ｓｅｌｆ.ｐａｒｓｅ＿ｒｅｌａｔｉｏｎｓｈｉｐꎬｄｏｎｔ＿ｆｉｌｔｅｒ＝Ｔｒｕｅ}ʊＧｏｉｎｇｔｏｒｅｑｕｅｓｔｕｓｅｒｆａｎｓｐａｇｅ在完成Ｓｐｉｄｅｒ类的编写后ꎬ需要在Ｓｃｒａｐｙ的ｓｅｔｔｉｎｇ中配置连接参数ꎮ除去单机爬虫所需的基本的配置项外ꎬ实现分布式还需修改配置以下信息:ＳＣＨＥＤＵＬＥＲ＝ｓｃｒａｐｙ＿ｒｅｄｉｓ.ｓｃｈｅｄｕｌｅｒ.Ｓｃｈｅｄｕｌｅｒ ʊＬｏａｄｉｎｇｍｉｄｄｌｅｗａｒｅＤＵＰＥＦＩＬＴＥＲ＿ＣＬＡＳＳ＝ｓｃｒａｐｙ＿ｒｅｄｉｓ.ｄｕｐｅｆｉｌｔｅｒ.ＲＦ￣ＰＤｕｐｅＦｉｌｔｅｒ ʊＬｏａｄｕｒｌｆｉｌｔｅｒ２.４㊀数据存储Ｓｃｒａｐｙ支持多种文本存储格式ꎬ比如ｊｓｏｎꎬｃｓｖ和ｘｍｌ等ꎮ此外Ｓｃｒａｐｙ还提供了多种数据库的ＡＰＩ来支持数据库存储ꎬ比如ＭｙＳＱＬ㊁ＭｏｎｇｏＤＢ等ꎮ本文引入ｐｙｍｏｎｇｏ工具包ꎬ修改Ｐｉｐｅｌｉｎｅ文件实现了数据保存到ＭｏｎｇｏＤＢ数据库当中ꎮ主要代码如下:启动爬虫时ꎬ初始化ＭｏｎｇｏＤＢ连接:ｓｅｌｆ.ｃｌｉｅｎｔ＝ｐｙｍｏｎｇｏ.ＭｏｎｇｏＣｌｉｅｎｔ(ｓｅｌｆ.ｍｏｎｇｏ＿ｕｒｌ)ʊＧｅｔｓｅｒｖｅｒａｄｄｒｅｓｓａｎｄｅｓｔａｂｌｉｓｈｃｏｎｎｅｃｔｉｏｎｓｅｌｅ.ｄｂ＝ｓｅｌｆ.ｃｌｉｅｎｔ(ｓｅｌｆ.ｍｏｎｇｏ＿ｄｂ)ʊＣｏｎｎｅｃｔｔｏｔｈｅｄａｔａｂａｓｅ执行插入操作:ｓｅｌｆ.ｄｂ(ｓｅｌｆ.ｕｓｅｒｉｎｆｏ.ｉｎｓｅｒｔ(ｄｉｃｔ(ｉｔｅｍ))ʊＩｎｓｅｒｔｉｎｔｏｕｓｅｒｉｎｆｏｔａｂｌｅ１６ｓｅｌｆ.ｄｂ(ｓｅｌｆ.ｔｗｅｅｔｓ.ｉｎｓｅｒｔ(ｄｉｃｔ(ｉｔｅｍ))ʊＩｎｓｅｒｔｉｎｔｏｔｗｅｅｔｓｔａｂｌｅ关闭爬虫同时关闭数据库连接:ｓｅｌｆ.ｃｌｉｅｎｔ.ｃｌｏｓｅ()ʊＣｌｏｓｅｔｈｅｃｏｎｎｅｃｔｉｏｎ２.５㊀系统测试系统由三台物理节点组成ꎬ一台Ｍａｓｔｅｒ服务器ꎬ两台Ｓｌａｖｅ服务器ꎮ由Ｍａｓｔｅｒ管理Ｕｒｌ队列和分发下载任务ꎬ两台Ｓａｌｖｅ同时下载网页提取数据ꎮ以新浪微博ｗａｐ端作为抓取目标ꎬ运行８小时后ꎬ抓取用户信息３４Ｗ项ꎬ微博１６８０Ｗ条ꎮ将抓取到的微博数据存储到基于分布式文件存储的ＭｏｎｇｏＤＢ数据库中ꎬ为下一步的数据扩展应用提供一个可扩展的高性能数据存储解决方案ꎮ使用ＭｏｎｇｏＤＢ可视化工具ＭｏｎｇｏＢｏｏｓｔｅｒ展示部分所获数据ꎬ如图４所示ꎮ图４㊀抓取的ＵｓｅｒＩｎｆｏ存储在ＭｏｎｇｏＤＢ３㊀结束语本文立足于快速㊁灵活抓取微博数据这一目的ꎬ设计实现了一套面向微博数据采集的高效分布式爬虫系统ꎮ采用Ｓｃｒａｐｙ￣Ｒｅｄｉｓ分布式设计思想对目标数据进行加速爬取ꎬ并通过对微博站点的结构分析ꎬ设计了一种适用于微博站点的爬虫爬行策略ꎬ使得获取的源数据带有一定的天然相关性ꎮ此外ꎬ还介绍了框架支持的多种持久化存储方式以及Ｍｏｎ￣ｇｏＤＢ数据库存储的具体实现ꎮ本文实现的分布式微博爬虫可为后续的微博数据挖掘与分析工作提供精准可靠的源数据支持ꎮ参考文献:[１]李洋ꎬ陈毅恒ꎬ刘挺.微博信息传播预测研究综述[Ｊ].软件学报ꎬ２０１６ꎬ２７(２):２４７－２６３.[２]ＷａｎｇＲｕꎬＳｅｕｎｇｍｉｎＲｈｏꎬＣｈｅｎＢｏ￣ｗｅｉꎬｅｔａｌ.Ｍｏｄｅｌｉｎｇｏｆｌａｒｇｅ￣ｓｃａｌｅｓｏｃｉａｌｎｅｔｗｏｒｋｓｅｒｖｉｃｅｓｂａｓｅｄｏｎｍｅｃｈａｎｉｓｍｓｏｆｉｎｆｏｒｍａｔｉｏｎｄｉｆ￣ｆｕｓｉｏｎ:ＳｉｎａＷｅｉｂｏａｓａｃａｓｅｓｔｕｄｙ[Ｊ].ＦｕｔｕｒｅＧｅｎｅｒａｔｉｏｎＣｏｍｐｕｔ￣ｅｒＳｙｓｔｅｍｓꎬ２０１７ꎬ７４(Ｃ):２９１－３０１.[３]ＹｕＤｉｎｇ￣ｇｕｏꎬＣｈｅｎＮａｎꎬＲａｎＸｕ.ＣｏｍｐｕｔａｔｉｏｎａｌｍｏｄｅｌｉｎｇｏｆＷｅｉｂｏｕｓｅｒｉｎｆｌｕｅｎｃｅｂａｓｅｄｏｎｉｎｆｏｒｍａｔｉｏｎｉｎｔｅｒａｃｔｉｖｅｎｅｔｗｏｒｋ[Ｊ].ＯｎｌｉｎｅＩｎｆｏｒｍａｔｉｏｎＲｅｖｉｅｗꎬ２０１６ꎬ４０(７):８６７－８８１.[４]ＢｅｌａＦｌｏｒｅｎｔｈａｌꎬＭｉｋｅＣｈｅｎ￣ＨｏＣｈａｏ.ＡＣｒｏｓｓ￣ＣｕｌｔｕｒａｌＣｏｍｐａｒｉｓｏｎｏｆａＧｌｏｂａｌＢｒａｎｄｓＳｔｒａｔｅｇｉｅｓｏｎＭｉｃｒｏ￣ＢｌｏｇｇｉｎｇＳｉｔｅｓ:ＳｉｎａＷｅｉｂｏ￣ｖｓ.Ｔｗｉｔｔｅｒ[Ｊ].ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＯｎｌｉｎｅＭａｒｋｅｔｉｎｇ(ＩＪＯＭ)ꎬ２０１７ꎬ６(４):５４－７２.[５]ＪｉａｎｇꎬＬｅｅｍａｎꎬＦｕ.ＮｅｔｗｏｒｋｅｄＦｒａｍｉｎｇ:ＣｈｉｎｅｓｅＭｉｃｒｏｂｌｏｇｇｅｒｓＦｒａｍｉｎｇｏｆｔｈｅＰｏｌｉｔｉｃａｌＤｉｓｃｏｕｒｓｅａｔｔｈｅ２０１２ＤｅｍｏｃｒａｔｉｃＮａｔｉｏｎａｌＣｏｎｖｅｎｔｉｏｎ[Ｊ].ＣｏｍｍｕｎｉｃａｔｉｏｎＲｅｐｏｒｔｓꎬ２０１６ꎬ２９(２):１－１３.[６]ＣａｒｌｏｓＣａｓｔｉｌｌｏ.Ｅｆｆｅｃｔｉｖｅｗｅｂｃｒａｗｌｉｎｇ[Ｊ].ＡＣＭＳＩＧＩＲＦｏｒｕｍꎬ２００５ꎬ３９(１):５５－５６.[７]许笑ꎬ张伟哲ꎬ张宏莉ꎬ等.广域网分布式Ｗｅｂ爬虫[Ｊ].软件学报ꎬ２０１０ꎬ２１(５):１０６７－１０８２.[８]ＣｈｅｎＸｉｎｇꎬＬｉＷｅｉ￣ｊｉａｎｇꎬＺｈａｏＴｉｅ￣ｊｕｎꎬｅｔａｌ.ＤｅｓｉｇｎｏｆｔｈｅＤｉｓｔｒｉｂｕ￣ｔｅｄＷｅｂＣｒａｗｌｅｒ[Ｊ].ＡｄｖａｎｃｅｄＭａｔｅｒｉａｌｓＲｅｓｅａｒｃｈꎬ２０１１ꎬ２０１－２０４:１４５４－１４５８.[９]ＸｉｅＤｏｎｇ￣ｘｉａｎｇꎬＸｉａＷｅｎ￣ｆｅｎｇ.ＤｅｓｉｇｎａｎｄＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｔｈｅＴｏｐｉｃ￣ＦｏｃｕｓｅｄＣｒａｗｌｅｒＢａｓｅｄｏｎＳｃｒａｐｙ[Ｊ].ＡｄｖａｎｃｅｄＭａｔｅｒｉａｌｓＲｅｓｅａｒｃｈꎬ２０１４ꎬ８５０－８５１:４８７－４９０.[１０]曾超宇ꎬ李金香.Ｒｅｄｉｓ在高速缓存系统中的应用[Ｊ].微型机与应用ꎬ２０１３ꎬ３２(１２):１１－１３.[１１]ＧａｏＸｉａｏ￣ｂｏꎬＦａｎｇＸｉａｎ￣ｍｅｉ.Ｈｉｇｈ￣ＰｅｒｆｏｒｍａｎｃｅＤｉｓｔｒｉｂｕｔｅｄＣａｃｈｅＡｒｃｈｉｔｅｃｔｕｒｅＢａｓｅｄｏｎＲｅｄｉｓ[Ｍ].ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ:２０１４.[１２]汪涛ꎬ樊孝忠.主题爬虫的设计与实现[Ｊ].计算机应用ꎬ２００４(Ｓ１):２７０－２７２.[１３]刘玮玮.搜索引擎中主题爬虫的研究与实现[Ｄ].南京:南京理工大学ꎬ２００６.[１４]ＣｈｅｎＸｉｕ￣ｘｉａꎬＳｈａｎｇＷｅｎ￣ｑｉａｎ.ＲｅｓｅａｒｃｈａｎＤｅｓｉｇｎｏｆＷｅｂＣｒａｗｌ￣ｅｒｆｏｒＭｕｓｉｃＲｅｓｏｕｒｃｅｓＦｉｎｄｉｎｇ[Ｊ].ＡｐｐｌｉｅｄＭｅｃｈａｎｉｃｓａｎｄＭａｔｅ￣ｒｉａｌｓꎬ２０１４ꎬ５４３－５４７:２９５７－２９６０.[１５]ＺｈａｏＱｉｕꎬＣｅｎｇＪｕｎＤａｉꎬＴａｏＬｉｕ.ＤｅｓｉｇｎｏｆＴｈｅｍｅＣｒａｗｌｅｒｆｏｒＷｅｂＦｏｒｕｍ[Ｊ].ＡｐｐｌｉｅｄＭｅｃｈａｎｉｃｓａｎｄＭａｔｅｒｉａｌｓꎬ２０１４ꎬ５４８－５４９:１３３０－１３３３.[１６]ＨｕＨꎬＧｅＹＪ.ＵｓｉｎｇＷｅｂＣｒａｗｌｅｒＴｅｃｈｎｏｌｏｇｙｆｏｒＴｅｘｔＡｎａｌｙｓｉｓｏｆＧｅｏ￣Ｅｖｅｎｔｓ:ＡＣａｓｅＳｔｕｄｙｏｆｔｈｅＨｕａｎｇｙａｎＩｓｌａｎｄＩｎｃｉｄｅｎｔ[Ｊ].ＩＳＰＲＳ￣ＩｎｔｅｒｎａｔｉｏｎａｌＡｒｃｈｉｖｅｓｏｆｔｈｅＰｈｏｔｏｇｒａｍｍｅｔｒｙꎬＲｅｍｏｔｅＳｅｎｓｉｎｇａｎｄＳｐａｔｉａｌＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅｓꎬ２０１３ꎬＸＬ￣４/Ｗ３(４):７１－７８.责任编辑:丁玥２６。