侵略者_网页数据采集系统_介绍
- 格式:doc
- 大小:73.50 KB
- 文档页数:9
网站数据采集系统1.1系统概述采集系统是一款功能全面、准确、稳定、易用的网络信息采集软件。
它可以轻松将你想要的网页内容(包括文字、图片、文件、HTML源码等)抓取下来。
采集到的数据可以直接导出到EXCEL、也可以按照你定义的模板保存成任何格式的文件(如保存成网页文件、TXT文件等)。
也可以在采集的同时,实时保存到数据库、发送到网站服务器、保存到文件。
1.2 软件安装软件环境操作系统:Windows XP/Windows 2000/Windows2003运行环境:WEB服务器:Apache 2.0系列以上(支持httpd, Zeus, IIS 等WEB服务器)数据库:Mysql (5.0 或者更高版本)MS SQL Sverer 2000 数据库账号应当拥有 CREATE、DROP、ALTER 等执行权限,同时文件空间需不低于 2M,数据库空间不低于 5M硬件环境CPU :2.4G以上内存:1024M以上硬盘:80G以上1.2 软件安装网站数据采集系统软件以 2.0为平台进行开发和构架,因此服务器需要配置好相应的环境后方可正常运行网站。
在进行系统安装前,请准备好相应Windows操作系统光盘,并下载好SQL软件安装包和Microsoft .NET Framework 2.0安装文件。
1.解压网站数据采集系统的安装程序文件压缩包。
2.将“ Web Site”文件夹中的所有网站系统文件,放置到网站目录中,如E:\数据采集系统\ 目录。
您也可以通过FTP 将网站系统文件直接上传到主机空间的网站目录中。
打开浏览器,在地址栏输入http://localhost/数据采集系统/访问网站(注:数据采集系统是您指定的虚拟目录名,如果您将网站安装在IIS 默认根目录下的,则直接输入http:// local host/),系统自动跳转到install1.创建数据库第一步、运行“企业管理器”,如下图第二步、在“企业管理器”中点击“新建数据库”,如下图第三步、名称设置为“Caiji,点击“确定”完成数据库创建,如下图2、用查询分析器创建数据库表结构第一步、选择新建的“Caiji”数据库,点击工具→SQL查询分析器,进入“SQL 查询分析器第二步、在“查询分析器”中点击文件→打开第三步、在打开的目录中,选择“Caiji.SQL”,然后点击“打开”,如下图第四步、点击查询→执行或按“F5”以执行查询分析,并完成数据库表结构的创建注:Caiji.sql文件与安装程序一样刻录在安装盘中一、用附加数据库方法创建数据库如果是系统重新安装,要把原有数据保留,请按下面的方法操作。
入侵检测系统1. 引言1.1 背景近年来,随着信息和网络技术的高速发展以及其它的一些利益的驱动,计算机和网络基础设施,特别是各种官方机构网站成为黑客攻击的目标,近年来由于对电子商务的热切需求,更加激化了各种入侵事件增长的趋势。
作为网络安全防护工具“防火墙”的一种重要的补充措施,入侵检测系统(Intrusion Detection System,简称 IDS)得到了迅猛的发展。
依赖防火墙建立网络的组织往往是“外紧内松”,无法阻止内部人员所做的攻击,对信息流的控制缺乏灵活性从外面看似非常安全,但内部缺乏必要的安全措施。
据统计,全球80%以上的入侵来自于内部。
由于性能的限制,防火墙通常不能提供实时的入侵检测能力,对于企业内部人员所做的攻击,防火墙形同虚设。
入侵检测是对防火墙及其有益的补充,入侵检测系统能使在入侵攻击对系统发生危害前,检测到入侵攻击,并利用报警与防护系统驱逐入侵攻击。
在入侵攻击过程中,能减少入侵攻击所造成的损失。
在被入侵攻击后,收集入侵攻击的相关信息,作为防范系统的知识,添加入知识库内,增强系统的防范能力,避免系统再次受到入侵。
入侵检测被认为是防火墙之后的第二道安全闸门,在不影响网络性能的情况下能对网络进行监听,从而提供对内部攻击、外部攻击和误操作的实时保护,大大提高了网络的安全性。
1.2 背国内外研究现状入侵检测技术国外的起步较早,有比较完善的技术和相关产品。
如开放源代码的snort,虽然它已经跟不上发展的脚步,但它也是各种商业IDS的参照系;NFR公司的NID等,都已相当的完善。
虽然国内起步晚,但是也有相当的商业产品:天阗IDS、绿盟冰之眼等不错的产品,不过国外有相当完善的技术基础,国内在这方面相对较弱。
2. 入侵检测的概念和系统结构2.1 入侵检测的概念入侵检测是对发生在计算机系统或网络中的事件进行监控及对入侵信号的分析过程。
使监控和分析过程自动化的软件或硬件产品称为入侵检测系统(Intrusion Detection System),简称IDS。
了解网络入侵检测系统(IDS)和入侵防御系统(IPS)网络安全是当今信息社会中不可忽视的重要问题之一。
随着网络攻击日益复杂多样,保护网络免受入侵的需求也越来越迫切。
在网络安全领域,网络入侵检测系统(Intrusion Detection System,简称IDS)和入侵防御系统(Intrusion Prevention System,简称IPS)扮演了重要的角色。
本文将深入探讨IDS和IPS的定义、原理以及其在网络安全中的应用。
一、网络入侵检测系统(IDS)网络入侵检测系统(IDS)是一种监测和分析网络流量的工具,用来识别和报告可能的恶意活动。
IDS通常基于特定的规则和模式检测网络中的异常行为,如病毒、网络蠕虫、端口扫描等,并及时提醒管理员采取相应的应对措施。
IDS主要分为两种类型:基于主机的IDS(Host-based IDS,HIDS)和基于网络的IDS(Network-based IDS,NIDS)。
HIDS安装在单个主机上,监测该主机的活动。
相比之下,NIDS监测整个网络的流量,对网络中的异常行为进行检测。
在工作原理上,IDS通常采用两种检测方法:基于签名的检测和基于异常的检测。
基于签名的检测方式通过与已知攻击特征进行比对,识别已知的攻击方法。
而基于异常的检测则通过学习和分析网络流量的正常模式,识别那些与正常行为不符的异常活动。
二、入侵防御系统(IPS)入侵防御系统(IPS)是在IDS的基础上进行了扩展和改进。
IPS不仅能够检测网络中的异常活动,还可以主动阻断和防御攻击行为,以保护网络的安全。
与IDS的主要区别在于,IPS能够实施主动的防御措施。
当IPS检测到可能的入侵行为时,它可以根据事先设定的策略主动阻断攻击源,或者采取其他有效的手段来应对攻击,从而保护网络的安全。
为了实现功能的扩展,IPS通常与防火墙(Firewall)相结合,形成一个更综合、更高效的网络安全系统。
防火墙可以管理网络流量的进出,阻挡潜在的恶意攻击,而IPS则在防火墙的基础上提供更深入的检测和防御能力。
入侵检测系统原理入侵检测系统(Intrusion Detection System,简称IDS)是一种重要的网络安全设备,广泛应用于保护网络免受恶意攻击。
本文将介绍入侵检测系统的原理及其工作流程。
一、入侵检测系统的分类入侵检测系统可以分为两种主要类型:基于网络的入侵检测系统(Network-based Intrusion Detection System,简称NIDS)和基于主机的入侵检测系统(Host-based Intrusion Detection System,简称HIDS)。
1. 基于网络的入侵检测系统(NIDS)基于网络的入侵检测系统通过监听网络流量来检测潜在的攻击。
NIDS通常部署在网络入口处,监测所有进出网络的数据包。
当检测到异常或可疑的流量时,NIDS会触发警报并采取相应的响应措施。
2. 基于主机的入侵检测系统(HIDS)基于主机的入侵检测系统主要关注主机上的活动,通过监视主机的系统日志、文件系统和应用程序等来检测潜在的入侵行为。
HIDS通常安装在每台主机上,并与操作系统和应用程序进行密切协作。
当检测到异常行为时,HIDS会发出警报并采取相应的措施。
二、入侵检测系统的工作原理1. 数据获取入侵检测系统首先需要获取原始数据以进行分析和监测。
对于NIDS来说,数据获取通常是通过网络监听设备来实现的,它会截获网络上的数据包进行分析。
而对于HIDS来说,数据获取则是通过监视主机上的日志、文件和系统调用等来实现的。
2. 数据分析入侵检测系统对获取到的数据进行分析,以识别潜在的入侵行为。
数据分析可以分为两个阶段:特征检测和行为分析。
特征检测主要基于已知的攻击模式或特征进行。
入侵检测系统通过与先前收集的攻击特征进行比较,检测出现在数据中的匹配项。
这些特征可以是一组规则、模式或统计指标等。
行为分析是一种基于异常检测的方法。
它通过建立主机或网络的正常行为模型,检测与该模型不一致的行为。
常用的方法包括统计分析、机器学习和人工智能等。
认识黑客入侵的利器嗅探软件2008-12-14 10:22嗅探器(也称网络分析器)是种能够察看网络传输、将其解码并为网管提供可用的数据的一种软件。
网管可以使用它提供的数据来诊断网络存在的问题。
而恶意用户还会利用嗅探器来从网络上获取存储在文本中的密码。
下面列举一些常用的专用嗅探器:NAI嗅探器(商用)、Wireshark(以前叫Ethereal,是一种Linux,Windows以及其他平台上使用的开发源码的图形用户界面的嗅探器)、TCPDump(开放源码命令行嗅探器,在Unix类的操作系统上使用,如Linux或者FreeBSD),还有它的Windows版——WinDump。
首先我们来说明一下一些网络基本知识。
大多数的以太网都是一根总线的拓扑结构,使用同轴电缆或者双绞线和hub连通。
网络上的所有节点(计算机和其他设备)都可以通过同样的线路通信,并且使用称为载波监听多路访问/冲突检测(CSMA/CD)的方案依次发送数据。
你可以把CSMA/CD看作是在一个很吵闹的宴会中的两人对话,你需要等一会儿,等别人说话的间歇才有机会发言。
网络上的所有节点都有自己唯一的MAC(媒体访问控制)地址,他们使用该地址互相发送信息包。
通常,节点只会关注目的地是自己的MAC地址的那些信息包。
但是如果网卡被设置成混杂模式的话,那它就会察看它连接的线路上的所有数据包。
为了减少冲突数量、降低嗅探不属于某节点的数据的可能性,大多数网络都使用了交换机。
在网络中,hub是种无源设备,它会将接收到的所有传输发送到它的所有端口。
而交换机则察看它所连接的所有节点的MAC地址以及所在端口,然后把那些数据包只发给它的目标节点。
交换机大大降低了网路中的冲突数量,增大了网络的吞吐量。
理论上,使用交换机的网络中,每个节点只能收到广播消息(发给局域网上所有计算机的消息)以及专门发送给它的MAC地址的数据包,还有偶尔出现的不知道目标地址的数据包。
但是即使在局域网中使用交换机,它还是有可能被人使用某些交换机上的镜像端口而嗅探(这些镜像端口本来是网管分析网络问题时使用的),嗅探者可以误导交换机使其将数据映射给所有端口或者使用一种称为ARP病毒的技术(后面会详细讲到)。
网络安全技术保障措施入侵检测系统的原理与应用网络安全技术保障措施:入侵检测系统的原理与应用网络安全已经成为当代社会不可忽视的重要议题,各种网络攻击事件层出不穷。
为了保护网络系统的安全,入侵检测系统(Intrusion Detection System,简称IDS)被广泛应用。
本文将介绍IDS的原理与应用,以及它在网络安全技术保障中的重要性。
一、入侵检测系统的原理入侵检测系统是一种通过监控和分析网络流量,检测异常行为并警示的安全工具。
其原理基于以下几个核心要素:1. 网络流量监控:IDS会对网络中的数据流进行实时监听与记录。
通常以网络设备或专用硬件为基础,通过嗅探或端口镜像等方式,捕获数据流并进行分析。
2. 异常行为识别:IDS通过分析网络流量,建立正常的网络流量特征模型。
当检测到与模型不符的异常行为时,会发出警报。
这些异常行为可以是未经授权的访问、恶意软件、漏洞利用等。
3. 签名与模式匹配:IDS还可以使用预先定义的签名和模式来匹配已知的攻击行为,比如利用已公开的漏洞进行的攻击。
这些签名和模式通常由安全专家或厂商及时更新,并通过更新机制下发给IDS。
4. 恶意行为记录:IDS会将检测到的异常行为详细记录,包括发生时间、源IP地址和目标IP地址等。
这些记录对于事后的溯源和分析非常重要,有助于整理攻击事件的轨迹和模式。
二、入侵检测系统的应用入侵检测系统在网络安全技术保障中起到至关重要的作用,主要可以体现在以下几个方面:1. 威胁感知与预警:IDS能够及时地感知网络中的威胁并发出预警,有助于阻止攻击者进一步侵入网络系统。
这种及时的预警能够帮助网络管理员采取相应的措施,防范和减少损失。
2. 攻击溯源与分析:入侵检测系统能够记录异常行为的相关信息,这对于攻击事件的溯源和事后分析至关重要。
通过对攻击事件的溯源,可以追踪攻击者的IP地址、使用的工具和技术等,为后续的应对和维护提供有力依据。
3. 攻击事件响应与处置:IDS可以实时检测到攻击行为并生成警报,网络管理员可以根据警报进行迅速响应。
侵略者WEB数据采集系统V3.0.1教程Copyright © 2005-2010 All Rights Reserved侵略者软件目录目录 (2)一.采集原理描述 (3)二.配置过程描述 (3)三.配置的四个步骤详解 (4)1.网页爬虫 (4)2.网页采集 (4)3.采集任务 (5)4.任务发布 (5)四.采集结果说明 (5)五.配置过程总结 (6)采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式,这个过程需要做下面几个工作:下载网页,解析网页,修正结果,存储数据。
如果数据符合自己要求,修正结果这步可省略。
本采集系统也是把配置过程分解为这几个步骤。
二.配置过程描述配置主要分四个步骤:第一步网页爬虫,配置网页爬虫规则,用来把需要采集的网页批量保存到本地。
这套规则成为一个网页爬虫。
第二步网页采集,设置采集规则,找一个网页为模板例子,设置要采集的数据块。
其他符合此模板的网页将被按照这个规则解析。
这套规则成为一个网页采集。
第三步采集任务,配置采集任务,对网页爬虫和网页采集进行组合,一个网页爬虫可以对应多个网页采集,组合后保存为一个采集任务。
这个步骤中可以对结果的修正和存储(既输出)进行配置第四步任务发布,对采集任务进行发布,可以发布到指定服务器的某个采集队列中。
完成以上4个步骤后,采集任务就被放入采集队列,等待后台采集程序处理。
此时无法即时看到采集结果,采集完成需要视采集队列中排队任务数,以及要采集的网站的网页数量。
1.网页爬虫点击菜单[网页爬虫=>创建爬虫]。
共分4部分,分别:网址规则,下载参数,登录选项,基本信息。
网址规则:设置要下载的网址以及过虑规则下载深度:只从根网址开始的链接树深度,超过深度将放弃,准确指定深度有利于提高采集效率,深度从1计数。
下载参数:爬虫运行的参数爬虫线程数:同时下载网页的线程数量。
爬虫运行间隔秒数:不断检测源数据网站的间隔时间。
侵迹法的原理和应用1. 什么是侵迹法?侵迹法(Footprinting)是一种信息收集技术,用于获取目标系统、网络和组织的相关信息。
侵迹法基于公开信息和被动信息收集技术,通过搜集、整理和分析目标信息,揭示目标系统的安全漏洞和潜在威胁。
侵迹法为渗透测试、网络安全评估和应急响应等领域提供了有价值的信息。
2. 侵迹法的原理侵迹法的原理是通过收集、整理和分析目标信息,揭示目标系统的安全漏洞和潜在威胁。
以下是侵迹法的主要原理:•公开信息搜集:利用公开渠道(如搜索引擎、社交媒体等)收集目标相关的公开信息,包括公司网站、组织结构、员工信息等。
•被动信息收集:通过对目标进行网络扫描、端口扫描和服务识别等技术手段,获取目标系统的相关信息,如IP地址、操作系统、开放的端口和服务。
•信息整理与分析:对收集到的信息进行整理和分析,寻找目标系统的漏洞、弱点和潜在风险。
根据目标的不同特点和需求,选择适当的工具和技术进行信息整理和分析。
•信息利用和验证:通过利用揭示的安全漏洞和潜在威胁,验证目标系统的安全性,并提供相应的建议和措施。
这些信息可以被用于渗透测试、网络安全评估和应急响应等领域。
3. 侵迹法的应用侵迹法在信息安全领域有广泛的应用。
以下是侵迹法的主要应用:•渗透测试:侵迹法是渗透测试的重要组成部分,用于收集目标系统的相关信息,识别安全漏洞和弱点,并测试系统的安全性。
•网络安全评估:侵迹法可用于评估组织的网络安全情况,发现潜在威胁和漏洞,并提供相应的改进措施。
•应急响应:在安全事故发生时,侵迹法可用于追溯攻击源、搜集相关信息,并支持应急响应和恢复工作。
•情报收集:侵迹法可以用于进行情报收集和分析,帮助组织了解竞争对手、潜在威胁和市场动态。
•社会工程学攻击:侵迹法可以用于进行社会工程学攻击,通过收集目标的公开信息,伪装成可信的人员来实施攻击。
4. 侵迹法的工具和技术侵迹法包含了许多工具和技术,以下是一些常用的侵迹法工具和技术:•搜索引擎:利用搜索引擎(如Google、Bing等)搜索目标相关的公开信息。
入侵检测系统(IDS)基本介绍入侵检测是信息安全领域很热门的话题之一,本文主要是介绍入侵检测系统的一些基本知识。
1入侵检测的必要性谈到网络安全,人们第一个想到的是防火墙。
但随着技术的发展,网络日趋复杂,传统防火墙所暴露出来的不足和弱点引出了人们对入侵检测系统技术的研究和开发。
传统的防火墙在工作时,会有两个方面的不足。
首先,防火墙完全不能阻止来自内部的袭击,其次,由于性能的限制,防火墙通常不能提供实时的入侵检测能力,而这一点,对于现在层出不穷的攻击技术来说是至关重要的。
入侵检测系统可以弥补防火墙的不足,为网络安全提供实时的入侵检测及采取相应的防护手段。
2 入侵检测的定义入侵检测(intrusion detection)简单地说就是通过实时地分析数据来检测、记录和终止非法的活动或入侵的能力。
在实际应用中,入侵检测比以上简单的定义要复杂得多,一般是通过各种入侵检测系统(Intrusion Detection System—IDS)来实现各种入侵检测的功能。
入侵检测系统通过对入侵行为的过程与特征进行研究,使安全系统对入侵事件和入侵过程作出实时响应,包括切断网络连接、记录事件和报警等。
入侵检测系统主要执行如下任务:⏹监视、分析用户及系统活动。
⏹系统构造和弱点的审计。
⏹识别反映已知进攻的活动模式并向相关人士报警。
⏹异常行为模式的统计分析。
⏹评估重要系统和数据文件的完整性。
⏹操作系统的审计跟踪管理,并识别用户违反安全策略的行为。
3入侵检测系统的分类根据检测数据的采集来源,入侵检测系统可以分为:基于网络的入侵检测系统(NIDS)和基于主机的入侵检测系统(HIDS):⏹基于主机的入侵检测系统(HIDS):HIDS一般是基于代理的,即需要在被保护的系统上安装一个程序。
HIDS用于保护关键应用的服务器,实时监视可疑的连接、系统日志、非法访问的闯入等,并且提供对典型应用的监视,如Web服务器应用。
基于主机的入侵检测系统有:ISS RealSecure 、Intruder Alter、CyberSafe CentraxIDS 、Emera expert-BSM、金诺网安KIDS、天阗主机版等。
侵略者WEB数据采集系统V3.0.1
介绍
Copyright © 2005-2010 All Rights Reserved 侵略者软件
目录
目录 (2)
一.开发背景 (3)
二.功能介绍 (3)
三.模块组成 (3)
1.网页下载配置 (3)
2.网页下载进程 (4)
3.网页解析配置 (4)
4.网页解析进程 (4)
5.采集任务配置 (4)
6.采集任务测试和分配 (4)
7.角色管理 (4)
8.采集服务器的管理,监控,统计,分析等 (5)
9.数据的导入,导出,备份等 (5)
10.插件管理发布 (5)
11.服务进程 (5)
四.运行部署 (5)
五.维护管理监控 (6)
六.软硬件要求 (7)
七.性能分析 (7)
八.名词解释 (7)
一.开发背景
随着用户对信息获取速度的要求,很多公司开始做面向各行各业的垂直搜索引擎,垂直搜索引擎最核心的就是准确及时的获取数据源。
本系统的设计目标就是为了满足这个需求。
给垂直搜索引擎提供准确及时是数据采集服务。
二.功能介绍
本系统提供对互联网数据进行采集的服务。
根据用户事先配置好的规则(网页下载规则,数据块解析规则等),进行数据采集。
当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方式),这个过程不再需要人工干涉。
本系统采用分布式处理,可以通过采集管理平台把采集任务发布到不同的服务器,能够进行对大量数据源网站进行高频率的并行监控采集。
对服务器群管理方便快捷,通过采集管理平台进行统一管理,监控,统计,分析。
本系统主要适合于对数据量要求大的行业垂直搜索引擎和情报分析系统的数据采集,也适合于一些对数据量要求不高的信息发布网站。
本系统采用插件方式,对采集来的数据可以进行修正。
对输出方式可以通过插件自由定制。
可扩展性高。
三.模块组成
1. 网页下载配置
负责制定网页下载规则,登录设置,下载策略设置。
主要供网页下载进程使用。
2. 网页下载进程
根据网页下载配置的规则进行网页下载。
等待网页解析进程进行解析
3. 网页解析配置
负责制定网页解析规则,选择结果修正方法,并进行采集测试。
4. 网页解析进程
根据网页解析配置对下载到的网页进行解析修正,然后通过插件输出到指定存储方式。
5. 采集任务配置
把网页下载配置和网页解析配置(多选)组合起来,然后设置输出方式(多选)。
6. 采集任务测试和分配
可以对采集配置角色提交的任务进行测试检验,合格后发布到采集服务器上(通过XML格式配置文件)。
7. 角色管理
对采集配置角色,任务分配角色,系统管理角色三种角色的帐号管理。
8. 采集服务器的管理,监控,统计,分析等
通过对服务进程发命令的方式,获取采集服务器的信息,进行管理,监控,统计,分析。
9. 数据的导入,导出,备份等
对已经配置好的采集任务以及其他数据进行数据库备份,对任务进行导入导出,以便发布到其他采集管理平台。
10. 插件管理发布
对不断新增的插件进行上传,发布,管理。
11. 服务进程
运行在每台采集服务器,响应采集管理平台的命令,负责对采集服务器的管理和状态反馈。
四.运行部署
采集管理平台:
运行在一台服务器,负责其他所有采集服务器的管理,监控,统计,分析和任务分配。
与其他采集服务器采用HTTP协议发送查询命令,然后返回要查询的相关信息。
采集进程:
每台服务器运行10个采集进程。
每个进程负责多个采集任务,任务越多,数据更新的频率就越低。
所以服务器越多,分配给每个进程的任务就越少,数据更新的频率就越高。
数据采集的
效率就越高。
五.维护管理监控
系统安装完毕后,维护主要通过基于WEB的采集管理平台。
可以通过管理平台创建分配采集任务,监控每台服务器的运行状态,
采集数据的统计,以及性能分析。
根据分析结果可以调整服务器的运行配置,以便于更充分的利用硬件资源。
数据源网站的采集配置采用分用户的管理方式,用户分三种角色:采集配置角色,任务分配角色,系统管理角色。
1.采集配置角色
用户可以配置管理自己的采集工程,配置完成的工程才可以提交给任务分配角色。
2.任务分配角色
对采集配置角色提交上来的工程进行测试,测试成功后分配给采集服务器处理,否则驳回,另外具有服务器运行状态,数据统计,性能分析等权限,可
以根据分析结果进行采集任务分配。
3.系统管理角色
具有以上两者所有权限,并具有用户帐号管理,系统参数数据管理等所有权限。
另外对系统的稳定性和准确性采取如下措施:
1.进程监控:
对采集进程和管理进程的监控,采取在管理服务器定期对每个服务器进行检查的方式,
发送一个检查指令,判断某台采集服务器上这两个进程的运行状态,出现异常
则报警。
2.采集监控:
为了防止目标网站的网页模板变化,采取对采集结果进行监控的方式,如果长时间没有数据采集成功,则进行报警。
也可以通过命令服务进程检查每个
采集任务的状态。
六.软硬件要求
软件:
跨平台,对操作系统无要求,建议使用unix操作系统,安全稳定可靠。
JVM 5.0或以上。
硬件:
硬件要求低,能运行java虚拟机即可。
建议高带宽,内存512以上,硬盘70G(根据采集站点的大小决定)以上。
随数据抓取源网站数量的增加,可以不断添加新的采集服务器。
七.性能分析
采集的速度,主要受以下几个因素影响:
采集服务器性能
采集服务器网络带宽
要采集网站的带宽(即访问速度)
要采集网页的平均大小
常规情况下:
如果以每台服务器运行10个采集进程,带宽在独享1M为准。
在数据源网站
不存在带宽瓶颈的情况下,每小时采集大概7万个网页。
对于大量的数据,建议采用分布式的服务器集群进行采集。
八.名词解释
爬虫配置
爬虫使用的规则配置
解析配置
解析使用的规则配置
网页爬虫
把指定网站的网页按爬虫配置下载到本地的程序
网页解析
对下载到本地的网页按解析配置进行解析的程序
采集任务
由爬虫配置和解析配置组合成的采集规则
管理进程
运行在各个采集服务器,接收采集管理平台命令,进行采集任务的管理和状态反馈
采集进程
运行在各个采集服务器提供的采集服务的进程,通过管理进程与管理平台进行交互
采集管理平台
负责其他所有采集进程的管理和任务分配,采集任务的创建管理。
与其他采集进程通过管理进程进行通讯。
采集服务器
运行采集进程的服务器硬件
管理服务器
运行采集管理平台的服务器硬件
输出插件
采集到的结果输出调用的插件。
修正插件
对采集到的数据进行修正或者重组的插件。
命令插件
服务器进程调用的处理采集管理平台下达的命令的插件。