火车头采集器使用手册
- 格式:doc
- 大小:4.30 MB
- 文档页数:36
以采集示例详解部分功能今天要给大家做示例的网站是163的娱乐频道这个应该是个比较通用和实用的规则,下面开始。
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。
以下是一些采集的基本步骤,您可以灵活运用:一、建立站点1、请先打开火车采集器,新建站点,看下图:为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。
比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部分用类似于或等标志来表示内容的开始。
他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml 的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。
上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。
对应的页面在这:/06/1029/11/2UJNHOS3000322EL.html首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。
先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。
如图:3、内容标签讲解。
制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。
目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。
火车头采集器第五章第1节:任务运行时线程设置
大家好,我是教程君,这节就进入第五章了,本章节主要讲文件保存及部分高级设置。
本节讲解任务运行中的线程设置:
单任务采集内容线程个数:即在进行一个任务时同时采集的数量。
采集内容间隔时间毫秒数:即每个采集之间的时间间隔设置。
单任务发布线程数:发布任务时同时发布的数量。
发布时间间隔数:每个发布之间间隔。
通过根据自己的硬件资源来进行调整,一般不用动这里,选择默认即可。
本节结束!。
火车采集器采集说明1 首先,如果你的电脑没有Microsoft_DotNetFXCHS这个软件,先安装文件夹里,然后打开2、打开软件,进入采集页面3 、在站点任务列表空白处右击“新建站点”,进入任务栏,站点名随便写,其他的不用填,点确定就可以了4 、单击选中站点,右击“从该站点新建任务”,进入任务栏,如任务名“优美散文”5、单击“向导添加”,进入采集地址6、地址栏,从采集页面第二页,网址复制,可能图看不清,网址,记住把数字标记为同样,选中数字,然后点(*),变成(*).html,如果想采集多的数字变化从1到你采集的页面,然后点击“添加”按钮,出现这个页面,点击完成就可以了。
7、在输入随便一篇采集文章的网址,选中数字,点击(*)按钮,变成8、这个页面的需要文章列表源代码,右击选择产看“网页源代码”9、最重要的,代码不能出错,再次强调文章列表的源代码,进入到源代码,找到文章列表开始处的靠近的源代码,如选中一段代码,复制,然后按Ctrl+f 键,输入框粘贴,看选中的源代码是否是第1条,记住,所选源代码必须是第一条(我用的是谷歌浏览器,显示的是0,其他的浏览器只要是第一条即可),确定所选是第一条源代码,就输入,结束代码和开始代码一样,文章列表结束处找代码10、上述第一步,结束之后,第二步采集内容规则所选标签随自己选择,不需要的可以删。
11、单击打开“内容”标签,随便打开文章页,右击“查看源代码”,和上述文章列表开始和结束的源代码一样,必须是第一条12、自定义数据里面除了段落、换行<br>、换行Tab\r\n\t三个不要,如图,单击确定。
13、单击第三步:发布内容设置在方式二:保存为本地文件,启用前打钩,保存格式为.Txt,保存位置自定义,保存位置设置好以后,单击保存按钮14、打开站点,选中任务,右击开始任务采集,这样就可以了。
1、下载的压缩包,随便找个地方解压缩就好,不需要安装。
2、点击文件夹里的文件,执行程序,会打开该软件的主界面;如果有提示出错而打不开,那么是你的电脑缺乏软件所需要的环境,请到下面这个网站/去下载.net框架(红色字链接,直接下载安装就好)3、以聚美优团为例,首先新建一个任务,名字为聚美优团网页编码选择utf-8,这个是很多网站都用到的文字编码,减少乱码。
4、打开聚美优团的网站,发现有过往团购的历史,点击下一页后,其网页地址为:/i/deal/deals?filter=2-0-0-0,再翻一页,其网页地址为:/i/deal/deals?filter=3-0-0-0。
所以推测其规律为:/i/deal/deals?filter=*-0-0-0,*表示一个不断递增的自然数参数。
5、起始网址现在为空,点击旁边的添加,出来一个对话框,选择批量多页选择页数的那个数字,选中它后,然后点击右边的蓝色*符号,于是这个网址变成:大家注意看,输入框内的*符号变成绿色粗体的了,而且下面出现了按照这个规律递增的5个网址。
这里作为实例,我们就选一个比较小的数字,而实际爬取的时候,根据实际情况修改选项中的起止数字。
6、点击网址旁边的“添加”按钮,然后在下面会出现一个表达式,这个是自动生成的,不用修改。
然后点击完成,返回编辑任务对话框。
7、点击第二步,进入采集信息设置的地方,在这里需要确定我们在这个页面上要采集哪些数据我们回到聚美优网上,看看我们需要什么数据:有时间、原价、折扣、现价、节省,虽然没有明确的团购人数,但是有个收货短评和口碑报告,我们这里就来看看怎么采集这些信息吧。
在网页上点击右键,查看源代码,会看到很多html格式的源代码,我们找到表示这个商品的地方然后我们来看:是时间是收货短评这些就是我们需要的信息在代码里的情况,我们把这些前后字符串一一设置到软件里。
8、设置信息的前后代码符号(刚开始的时候,这个表格是空白的)点击添加,出现这样的对话框:我们要做的就是填写标签名,选择循环匹配,然后把想要信息的前后字符分别粘贴到开始字符串和结束字符串两个框框里,然后点确定。
关于火车头使用方法目录目录 (2)一、原理描述 (3)1.火车采集器数据抓取原理: (3)2.火车采集器数据发布原理: (3)3.火车采集器工作流程: (3)二、术语解释 (4)三、下载地址 (5)四、安装升级与卸载 (6)五、操作步骤 (7)一、原理描述1.火车采集器数据抓取原理:火车采集器如何去抓取数据,取决于您的规则。
您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。
程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。
再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。
如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。
2.火车采集器数据发布原理:在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。
1、不做任何处理。
因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。
2、Web发布到网站。
程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。
3、直接入数据库。
您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。
4、保存为本地文件。
程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。
3.火车采集器工作流程:火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。
这两个过程是可以分开的。
1、采集数据,这个包括采集网址,采集内容。
这个过程是获得数据的过程。
我们做规则,在采的过程中也算是对内容做了处理。
2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。
可以用WEB在线发布,数据库入库或存为本地文件。
具体的使用其实是很灵活的,可以根据实际来决定。
比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。
火车头操作手册目录前言 (1)摘要 (2)第一章基础知识 (3)1.1 HTML 基础知识 (3)1.2 采集基础知识 (5)1.3发布基础知识 (5)1.4正则基础知识 (7)第二章火车头采集篇 (11)2.1 什么是信息采集? (11)2.2 火车头采集器的采集工作流程 (11)2.3 数据的转储 (20)第三章火车头发布篇 (24)3.1火车头发布内容的介绍 (24)3.2 接口文件的介绍.................................................................... 错误!未定义书签。
3.3 发布模块的制作 (26)第四章应用进阶 (38)4.1 火车头+PHP程序 (38)第五章防采技术介绍 (40)5.1 采集器与搜索引擎蜘蛛的区别 (40)5.2 防采集的一些主要措施 (40)5.3 火车头官方谈采集与防采 (42)5.3.1、谈火车头采集器的由来 (42)前言随着公司的日益壮大,产品线的不断拓宽,我们SEM团队也正在快速扩张,同时也带来了一系列问题,比如:团队成员的相互学习与交流,新员工的快速融入问题等。
因此员工学习手册的编写,势在必行。
员工学习手册,是团队成员技术,经验的总结,大家通过学习其他人的工作经验、技术,提高自己,同时团队实习也得到了提升。
而对于新入职的员工,根据前人的总结,经验,可以少走很多弯路,能够帮助他们快速融入集体,使得新人的适应期可以大大缩短,提高了新人培训效率。
在员工学习手册的编写过程中,我与沙亚金参与了《玩转“火车头”》的编写,里面是我们的一些使用火车头的一些心得,和技巧。
希望能够在信息采集,发布这块对大家有所帮助,由于时间,经验等因素,写的过程中也存在许多缺陷,欢迎大家与我们交流,批评指正。
在这里我们要感谢吉总,是他为大家带来了“火车头”。
摘要在这信息大爆炸的时代里,什么最重要?当然是信息。
对于“内容为王”的SEOer来说信息更是无价之宝。
火车头采集工具使用指南前言为大家正确使用火车头采集工具进行辅助工作,下面我就给大家详细介绍一下火车头采集工具如何使用。
步骤:第一步:启动双击进入工具界面第二步:新建任务在分组列表处“右击”,新建分组输入你要采集的分组名称,如:男性保健第三步:新建任务选中你新建的分组,右击,新建任务:下面,我们开始进行采集工作。
首先,我们要先给任务一个名称,如:男性保健。
这个系统本身就给我们定了四步走,我们现在做的是第一步,点击一下起始网址规则右边的“添加”按钮,添加开始采集地址:量/多页”标签。
以:/gjml/list_28_2.html为例。
该列表只有2页,所以在设置的时候应如下设置:设置时要注意用(*)号将会变动的那个数字(页数)(如/gjml/list_28_2.html就可以替换为“/gjml/list_28_(*).html”)替换下,以便在采集的时候自己跳转页:,在基数设置的时候要注意,有几页就设置几项。
然后点击:“添加”,最好点击“完成”,添加采集网址的步骤就完成了。
然后就要进行下一步:侧的“使用Xpath浏览器”按钮,选择完以后会出现一个条件,而后点击测试,测试后有文章链接出来,则表示采集文章地址成功,可以确定进行下一步。
切记,上一步完成文章地址采集后,要在这里点击一下“保存”是上面的保存,而非下面的。
第四步:采集内容规则双击标题位置:设置标题的开始字符和结束字符步骤是点开一篇你要采集站的文章,找到他的标题位置,看是以什么唯一的标志开始,以什么标志结束。
以“长期憋尿可致前列腺增生”/gjml/2012-283.html 为例:正文部分:找一个离正文开始位置最近的div标记,在上下文搜索保证没有重复的,就可以做为文章的开始标记,结尾部分一样的方法。
结尾的也是一样:正文中有要替换的文字可以用:替换-> 内容替换来完成但要记得添加一个格式替换:替换-> Html标签过滤->点击全选全选后,要注意以下圈住的是要不选的,共四列,第一列第5个不选,第二列第2上不选,第三列前4个不选,第四列前3个不选。
火车采集器V2010SP3版(实现内容自动更新的采集软件)前提:本软件要求电脑安装net framework2.0或2.0以上框架支持。
一、火车采集器V2010SP3版,可供下载地址:/Down/LocoySpider/LocoySpider2010SP3.html二、net framework2.0,可供下载地址:/download/-Fra mework-2.0-For-Win98SE-ME-2000-XP/火车采集器和net framework2.0安装好后,可进行如下操作,操作步骤为:一、1.在一堆文件中,找到如下图标(画有红方框、状似火车头的),并双击打开。
2.打开后可以看到如下界面,看着很复杂,但对于新手而言很多东西是暂时用不到的。
在界面空白处(如下图红框区域内)右击,选择箭头所指“新建站点”。
输入站点名,例如:“西装”,保存即可。
3.在新建站点“西装”(红框区域)处选中再右击,选择从该站点新建任务。
二、第一步:采集网址规则1.先要找到自动更新的内容来源:如经常更新关注度较高的博客、专业网站等,这里我们就拿淘宝论坛举个例子。
找到开始采集地址栏右侧,点击向导添加。
2.添加开始采集地址中的多页类似地址形式前,要分析一下它的类似形式,例:我们在淘宝论坛中搜索“西服”相关内容,然后任意翻阅不同的页数查看它的网页地址。
第一页地址、第二页地址、第三页地址分别为:以此类推,分析出其不同点在于上图红框处的数字变化,因此:假如我们只采集论坛的第一页,就在多页类似地址形式栏粘贴第一页的网址,按一下(*)将选中的数字1替换成(*),再将数字变化改为相应页数:1, 然后点击添加、完成。
3.接着,找到如下图的相应位置分析规则并分别输入:必须包含“thread”,不得包含“post|pc”,任务名:这里设为“第一页”。
【可以点击开始测试网址采集,检测一下是否将网页都采集过来了。
若要返回到刚才上一级页面,点击返回修改设置即可。
火车头采集用法下载火车头采集:地址:/Down/火车采集器的安装:火车采集器2010版是绿色软件。
如果您电脑上安装了微软的.NET FrameW ork 2.0框架或更高版本,安装时直接解压缩到您电脑的任何地方即可完成采集器的安装--安装过程不操作注册表和系统文件,不产生任何垃圾文件!如果您安装后程序无法启动,那可能是您电脑没有安装.NET FrameW ork 2.0,请下载微软的.NET FrameW ork 2.0框架或更高版本并安装。
附2.0下载地址:/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe下载完之后点击d otnetfx.exe安装.NET FrameW ork。
安装完.NET FrameW ork之后打开火车采集器目录,双击目录内的LocoySpider.exe文件启动主程序开始采集之旅。
火车头采集基本流程:系统设置→新建站点→新建任务→采集网址→采集内容→发布内容→抓数据。
1.新建站点:据你自己的需求为任务建立统一的站点,以方便管理。
点击菜单上:站点→新建站点打开如下图:可以填写站点名,站点地址,网址深度(0,代表根据地址直接采内容。
1,代表根据地址采内容地址,然后根据内容地址采内容。
2,代表根据地址采列表地址,然后根据列表地址采内容地址,再根据内容地址采内容。
),站点描述。
2.新建任务:任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。
采集器通过运行任务来采集发布数据。
任务工作的步骤总体可以分为三步:采网址,采内容,发内容。
一个任务的运行可以任意选择哪几步。
而采集器又可以同时运行多个任务(默认设置是同时最多运行3个任务)。
选择站点点击右键选择“从该站点新建任务”。
任务的编辑界面如图:采集器的使用最主要的就是对任务的设置。
而采集数据可以分为两步,第一步是:采网址,第二步:采内容。
3.采集网址:采网址,就是从列表页中提取出内容页的地址。
火车头采集器教程演示文稿一、介绍你好,大家好!今天我非常荣幸给大家介绍一个非常实用的工具,火车头采集器。
它是一款强大的网络数据采集工具,可以帮助我们快速获取互联网上的各种信息。
二、功能1.数据采集:可以采集各种网站上的数据,如商品信息、新闻、评论等。
2.数据筛选:可以根据指定的条件对采集到的数据进行筛选和整理,提高数据的质量。
3. 数据导出:可以将采集到的数据导出为Excel、CSV等格式,方便进行后续分析和处理。
4.定时采集:可以设置定时任务,实现自动采集数据功能。
5.模拟登录:可以模拟用户的登录操作,以获得更多的数据。
6.反爬虫模式:可以通过一系列的反爬虫策略,规避网站的反爬虫机制,提高数据采集的成功率。
三、操作步骤下面我将为大家演示如何使用火车头采集器进行数据采集。
1.打开火车头采集器软件,点击左上角的“新建任务”按钮。
2.在弹出的窗口中,输入任务名称和要采集的网站URL,点击确定。
5.等待采集完成后,点击“导出数据”按钮,选择导出格式和保存路径,并点击确定。
6.打开导出的文件,即可查看采集到的数据。
四、常见问题及解决方法1.采集速度较慢:可以尝试调整线程数和延时时间,以提高采集速度。
2.采集到的数据不完整:可以检查采集器的配置是否正确,并尝试使用正则表达式提取所需数据。
3.被网站反爬虫封IP:可以使用代理IP或者设置访问频率来规避网站的反爬虫机制。
4.无法模拟登录:可以检查登录账号和密码是否正确,并确保网站的登录接口没有变动。
5.无法启动采集器:可以检查网络连接是否正常,并尝试重新安装软件。
五、总结火车头采集器是一款功能强大、易于操作的网络数据采集工具,可以帮助我们快速获取互联网上的各种信息。
通过本次演示,我相信大家已经对火车头采集器的使用有了初步的了解。
希望大家能够通过学习和实践,更好地应用这个工具,在数据采集和处理方面取得更好的成果。
谢谢大家!。
火车头采集器初学者入门教程火车头采集器是一种用于自动采集互联网上的信息的工具,它通过模拟人的操作来访问网页、提取数据,并将数据保存到数据库或文件中。
对于初学者来说,了解火车头采集器的基本原理和使用方法非常重要,下面是一个1200字以上的初学者入门教程。
第一部分:火车头采集器的基本原理火车头采集器的基本原理是通过模拟人的访问行为来采集网页上的信息。
它可以自动化多个任务,包括登录网页、填写表单、点击按钮、翻页等操作。
具体的操作是通过录制和回放的方式实现的,用户可以录制一系列的操作步骤,并通过回放来重复执行这些操作。
2.浏览器模块:用于加载和显示网页内容,并提供操作网页的功能。
3.数据提取器:用于提取网页上的数据,并保存到数据库或文件中。
4.代理服务器:用于模拟IP地址的变化,防止被封禁。
5.定时任务:用于定时执行采集任务,实现自动化采集。
第二部分:火车头采集器的使用方法2.创建新任务打开火车头采集器,点击任务管理器界面上的“新建任务”按钮创建一个新的采集任务。
在弹出的对话框中,输入任务的名称和网址,并选择其它相关设置,比如采集深度、采集速度等。
3.录制操作步骤点击“开始录制”按钮开始录制操作步骤。
在接下来的操作中,火车头采集器会自动记录你的操作并生成相应的脚本代码。
4.回放操作步骤点击“停止录制”按钮停止录制。
然后点击“回放”按钮执行你刚才录制的操作步骤。
火车头采集器会自动打开浏览器,并模拟你的操作来访问网页、填写表单等。
5.数据提取执行完操作步骤后,可以使用数据提取器来提取网页上的数据。
选择你感兴趣的内容,比如一段文字、一张图片等,然后点击提取按钮。
火车头采集器会自动将选中的内容提取出来,并保存到数据库或文件中。
6.设置定时任务如果你希望定时执行采集任务,可以在任务管理器中设置定时任务。
选择你要执行的任务,设置执行时间和频率。
火车头采集器会按照你的设置自动执行任务,并将采集到的数据保存到指定的位置。
火车头采集教程火车头采集器使用说明下载地址:下载地址:/我们下载免费版。
注意:想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本.net framework 2.0下载地址:那么,火车我们也下载到本地了,。
net框架,我们也安装了。
那么,我们把新下载的火车采集软件,解压下。
看到一些密密麻麻乱七八糟的东西及文件。
那么。
上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。
ps:这里说下,上图中,有好多任务是我自己用的。
新程序,并没有那么多。
我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。
下边会一一的讲解。
我们先补习一下,火车头采集软件的工作原理。
因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?我们看下网站的基本结构。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN""/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> -------这些蓝色的东西,对于新手,我们不需要知道!<title>网页的标题</title> ----红色的是网页的标题。
如下图(1)</head><body>内容在这个<body>和</body>之间的,是网站的内容部分。
火车头采集器使用教程本文将以火车头采集器为例,介绍如何使用火车头采集器进行数据采集。
第一步:安装火车头采集器第二步:打开火车头采集器安装完成后,可以在桌面或开始菜单中找到火车头采集器的图标,双击图标打开火车头采集器。
第三步:设置采集任务在火车头采集器中,可以点击左上角的“新建任务”按钮,进入任务设置界面。
在任务设置界面中,可以设置任务的名称、采集URL、采集深度等。
任务名称:在任务名称中,可以自定义一个任务的名称,以便于区分不同的任务。
采集URL:在采集URL中,输入需要采集的网页地址。
可以是单个页面地址,也可以是一个网站的首页地址。
如需采集多个页面,可以使用正则表达式进行匹配。
采集深度:设置采集的深度,即采集页面时要访问的页面层数。
可选择采集每个页面的链接,并设置最大采集页面数量。
第四步:配置数据采集规则在任务设置界面中,可以选择“设置规则”选项卡,配置数据采集规则。
火车头采集器通过选择页面上的元素,并设置相关规则来进行数据采集。
选择元素:点击“选择元素”按钮,鼠标变为十字形状,将鼠标移动到需要采集的元素上,点击元素即可选择。
可以选择文本、链接、图片、表格等各种类型的页面元素。
设置规则:在选择元素后,可以设置采集规则。
规则包括提取文本、提取链接、提取图片、提取HTML等。
可以选择提取的方式,并设置相应的规则。
点击“确定”按钮后,数据采集规则即配置完成。
第五步:开始采集数据在任务设置界面中,可以点击“开始”按钮,开始采集数据。
火车头采集器将自动按照设置的规则,采集页面上的数据。
在采集过程中,可以在任务设置界面的“日志”选项卡中查看运行日志,了解数据采集的进程和结果。
第六步:保存数据数据采集完成后,可以点击任务设置界面中的“保存数据”按钮,保存采集到的数据。
可以选择保存为Excel、CSV等格式,也可以选择保存到数据库或云端服务器中。
第七步:数据清洗和分析采集到的原始数据可能存在一些噪声或冗余,需要进行数据清洗和分析。
火车头采集教程火车头采集器使用说明下载地址:/Down/我们下载免费版。
注意:想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本.net framework 2.0下载地址:那么,火车我们也下载到本地了,。
net框架,我们也安装了。
那么,我们把新下载的火车采集软件,解压下。
看到一些密密麻麻乱七八糟的东西及文件。
那么。
上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。
ps:这里说下,上图中,有好多任务是我自己用的。
新程序,并没有那么多。
我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。
下边会一一的讲解。
我们先补习一下,火车头采集软件的工作原理。
因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?我们看下网站的基本结构。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN""/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> -------这些蓝色的东西,对于新手,我们不需要知道!<title>网页的标题</title> ----红色的是网页的标题。
如下图(1)</head><body>内容在这个<body>和</body>之间的,是网站的内容部分。
如下图(2)</body></html> ----------这里是网站的结尾。
如果想查看一个网页的html源文件,之需要点击浏览器上的查看,源文件即可。
(1)(2)那么,我们知道了一个网页最基本的架构,那么就好理解火车采集的基本原理了火车采集软件是怎么采集的呢?我们配置好火车头采集规则,什么叫采集规则?就是我们查看网页的源文件,看看整个网页的源码,内容部分的开始标签,和结束标签,这样火车才能知道,我们要采集这个页面的哪个部分,比如下边我们演示的。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN""/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><title>网页的标题</title></head><body>内容</body>我们想要采集“内容”那么就要告诉火车采集器,内容开始标签是<body>,结束标签就是</body>明白了么?呃。
估计是我的表达能力不够好。
so。
我们看下边的实例,在好好巩固下就OK。
OK。
那么我们开始一步一步教大家设置采集规则。
首先第一个。
我们的目标站。
discuz!x1.5架构的网站。
/forum-60-1.html我们要把这个版块的内容以及回复都采集到我们的网站上去。
首先我们打开火车,新建一个站点。
点击火车左上角上的新建按钮,选择新建站点。
如下图我们只需要填写站点名就可以,其余的保持默认,然后点击保存按钮!然后。
在这个站点下,新建一个任务。
选中我们新建的站点,点击鼠标右键,选择第一个,从该站点新建任务。
如下图其中1,是任务的名字,必须填写。
2,是整个采集任务的步骤向导,3,是文章列表的设置区域(下边讲解),4,和3差不多。
5,是登录的地方,有些网址必须登录,我们才可以看到内容,就是这个东西!OK。
就这些,那么,我们一步一步的来!首先我们给我们的任务加一个标题。
下一步,我们就开始设置列表的采集规则(因为现在火车不知道/forum-60-1.html这个页面的文章列表是那些,所以我们要告诉火车!)这里有两种方式,新手嘛,我也不知道适合哪种。
我们就用默认的吧,第一种我们点击向导添加然后出现下图。
其中有4个选项卡,如果我们只采集目标站点的一个文章列表/forum-60-1.html,那么我们选中单条网址,直接写上目标的列表网站,如下图!然后点击添加,点击完成就OK。
看下边的图其中1,是目标网站的地址其中2,是火车的通配符(就是某个东西识别的东西)其中3,是间隔数已经补零(下边一一讲解)其中4,数字变化。
下边讲解其中5,字母变化。
那么。
看下图图中在地址栏填写的是/forum-60-(*).html这个。
那么,这是什么意思呢?我们打开/forum-60-1.html 这个地址,然后点击下一页发现地址变成了/forum-60-2.html那么我们在点击下一页,就是第三页,发现地址变成了/forum-60-3.html那么在点击第四页。
想必大家也知道变成什么了吧?那么第一页:/forum-60-1.html第二页:/forum-60-2.html第三页:/forum-60-3.html翻页中,我们发现,只有1在变化。
那么我们在火车那里就填写/forum-60-(*).html这个,其中1用火车的通配符(*)替换掉。
意思就是,只有1在变化。
在看下边其中数字变化,从1到5.意思就是从地址栏/forum-60-(*).htm获取地址 1到5,就是下边这样的。
/forum-60-1.html/forum-60-2.html。
/forum-60-5.html明白了么?其实很简单。
那么字母变化,就是/forum-60-a.html/forum-60-b.html。
/forum-60-z.html因为我们目标地址是数字变化。
我们继续看下边间隔倍数,和补零。
间隔倍数1是什么意思?40又是什么意思呢?间隔倍数1就是/forum-60-1.html/forum-60-2.html。
/forum-60-5.html间隔倍数40就是/forum-60-40.html/forum-60-80.html。
/forum-60-200.html明白了么?那么我们在看补零,补零就是。
/forum-60-01.html/forum-60-02.html。
/forum-60-05.html就是这样。
其实很好理解。
OK。
我们继续。
我们填写完成后,点击添加 - 完成。
如下图到这里,我们的地址就添加完成了。
那么下边,我们来设置区域列表。
我们先设置第一个。
“文章内容页面地址必须包含。
不得包含。
”我们随便点开/forum-60-1.html这个网址中的两篇文章,看下URL。
就是文章地址。
/thread-88312-1-1.html/thread-88373-1-1.html发现以上两个地址。
那么他们其中只有/thread-88373-1-1.html红色部分在变动。
那么,文章内容必须包含。
我们写/thread-(*)-(*)-(*).html 这样就可以,那么我们点击“开始测试网址采集”这个时候,我们点开网站前边的+号发现,其实网址已经采集成功了。
其中的并不需要填写。
这是为什么呢?因为我们采集的页面/forum-60-1.html中的文章地址,就是/thread-88373-1-1.html这样的地址,至于为什么要写成/thread-(*)-(*)-(*).html这样,是因为其中的/thread-88373-1-1.html红色部分都会变动。
或者有可能变动。
所以我们加上通配符,所以我们不用填写这个,也可以采集成功。
那么,为了让大家更直白的了解火车,我们还是写一下。
那么我们打开/forum-60-1.html 这个地址,在页面中,点击右键,选择“查看源文件”(因为不好截图。
)发现上边的东西出现,都是一些猥琐的html代码。
我们怎么定义文章地址的区域呢?看下图我们复制页面中的“筛选”然后在页面源码中查找下,,,那么自然,下边的,就是文章地址的区域咯。
那么我们在这里,填写什么呢?我们要填写一个“唯一”的东西。
就是这个页面独有的一个,并且在文章地址上方的一个代码。
如上图。
我们选择这段<div id="pgt" class="bm bw0 pgs cl">代码!然后我们复制<div id="pgt" class="bm bw0 pgs cl">这段代码,在我们打开的源文件中,向下查找看,看看有没有相同的。
好消息。
没有相同了。
那么我们在填写<div id="pgt"class="bm bw0 pgs cl">那么这里怎么填写呢?其实一样。
我们给下看看源码。
我们向上查找下。
OK....那么。
就填写.就OK。
照着这样填写就OK了。
其实这一步是多此一举。
只是教大家怎样填写罢了。
我们随便选中一条地址,双击鼠标左键。
直接跳到第二部,采集内容规则。
在这里,我们点击一下测试按钮。
发现,标题和内容都采集到了,但是。
在标题上,我们把目标站点的网站主标题也采集过来了。
而内容。
是把整个页面乱七八糟的东西都采集过来了。
那么。
我们开始设置更精确的采集规则。
擦。
首先,我们设置标题。
现在默认的采集标题是又出来个史上最强大的搜索引擎!!!!!!!- 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz!我们需要的标题是红色部分。
那么。
我们双击上图被圈住的地方。
那么我们需要设置的地方就是那么。
我们现在采集到的标题是又出来个史上最强大的搜索引擎!!!!!!!- 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz!这个,那么,我们只需要把蓝色的部分去掉。
怎么去掉呢?下图我们添加然后点击确定点击测试发现又出来个史上最强大的搜索引擎!!!!!!!- 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz!蓝色部分已经被去掉。