火车头采集器介绍及使用流程说明28页PPT
- 格式:ppt
- 大小:2.64 MB
- 文档页数:28
火车头采集教程火车头采集基本流程:系统设置→新建站点→新建任务→采集网址→采集内容→发布内容→抓数据。
1.新建站点:据你自己的需求为任务建立统一的站点,以方便管理。
点击菜单上:站点→新建站点打开如下图:可以填写站点名,站点地址,网址深度(0,代表根据地址直接采内容。
1,代表根据地址采内容地址,然后根据内容地址采内容。
2,代表根据地址采列表地址,然后根据列表地址采内容地址,再根据内容地址采内容。
),站点描述。
2.新建任务:任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。
采集器通过运行任务来采集发布数据。
任务工作的步骤总体可以分为三步:采网址,采内容,发内容。
一个任务的运行可以任意选择哪几步。
而采集器又可以同时运行多个任务(默认设置是同时最多运行3个任务)。
选择站点点击右键选择“从该站点新建任务”。
任务的编辑界面如图:采集器的使用最主要的就是对任务的设置。
而采集数据可以分为两步,第一步是:采网址,第二步:采内容。
3.采集网址:采网址,就是从列表页中提取出内容页的地址。
从页面自动分析得到地址连接:以/sbzhz/index_2.html页面为例。
我们来采集这个网址上的书信息。
这个页面中有很多书信息的链接,要采集每个链接中书内容.首先需要将每个书信息的链接地址抓取到也就是抓取内容页的地址。
先将该列表页地址添加到采集器里。
点击“<<向导添加”后弹出“添加开始采集地址”对话框。
我们选择“单条网址”如图:如果我们选择“批量/多页”,如图:可用通配符:(*)可以代替页码变化时的地址之间的差异。
数字变化可以设置你要爬取该列表页多少页。
间隔倍数可以数字页码变化的倍数。
你也可以设置字母变化。
设置完之后点击添加按钮把列表地址添加到下框中,点击完成即可完成列表地址设置。
你也可以选择文本导入和正则提取在这里就不一一讲了,因为这二种基本用的很少。
手动填写连接地址规则是将需要的网址用参数来获得并组合成我们需要的网址。
火车头采集教程1.基本概念:a)采集:就是对页面上有用的信息进行抽取并下载的过程。
b)列表页:有大量内容页面链接的页面,如下:c)内容页:由列表页点击进去的页面,也是真正需要采集的页面,如下:内容页抽取的过程实质上也就是在源代码中找到需要的内容的开始和结束的字符串,系统进行自动匹配的过程,比如上图中”王宝强携….” 这个标题,在源代码中的格式是这样的因此,只需要把上图中的开始和结束字符串拷贝到软件中就可以了(详情见下)2.基本步骤:a)确定需要采集的网站b)观察网站结构,找到列表页,做以下工作i.观察列表页中需要的内容页的链接样式ii.观察列表页第一页、第二页等等的链接样式。
c)对内容页进行模板编写d)开始采集任务。
3.详细实例:下面通过一个具体的例子来具体讲解火车头采集器的工作过程这个例子尝试抓取/NewsList-Front.aspx 这个页面的前5页的内容a)打开程序打开后如下图:b)在站点任务列表树那里右键-》新建站点类似下图c)主界面中出现的标签,在这个标签上右键选择新建站点,如下:出图如下:点击向导添加,对列表页的链接地址进行描述,弹出窗口如下:为了确定在这里填写什么,我们先到需要抓取的列表看看,也就是/NewsList-Front.aspx然后鼠标在页面上浮动,观察它的链接样式,如下图第一页第二页看到这里,我们可以发现,这里的列表页的规则是/NewsList-Front.aspx?page=0/NewsList-Front.aspx?page=1…即:链接前面是不变的,只有后面的页码改变,因此现在我们可以知道上面的表单怎么填了,如下图:这里的(*)代表通配符,系统会自动按照你的规则对这个字符进行替换。
比如,现在的规则是数字变化从0到4,间隔为1,因此,系统自动生成了如预览中的列表样式出来了。
预览中的链接样式确定没有问题后,点击添加。
然后点击完成。
d)现在又回到了这个页现在来观察我们需要的列表中的链接的样式,如下图:从上面我们可以看到,所有的新闻的链接都类似于:/files/2011/10/21/285866.shtml这个链接中/files/这个部分是不变的,后面的可能会根据年月日,标签而改变,还记得我们之前讲的(*)的作用么,没错,这里我们可以这样描述它:/files/(*)/(*)/(*)/(*).shtml把这个填到上图中的文章内容页面的地址比如包含中去吧你一定注意到了,这个表单还有个页面内选定区域采集网址应该怎么填呢。
火车头采集教程火车头采集器使用说明下载地址:/Down/我们下载免费版。
注意:想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本.net framework 2.0下载地址:那么,火车我们也下载到本地了,。
net框架,我们也安装了。
那么,我们把新下载的火车采集软件,解压下。
看到一些密密麻麻乱七八糟的东西及文件。
那么。
上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。
ps:这里说下,上图中,有好多任务是我自己用的。
新程序,并没有那么多。
我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。
下边会一一的讲解。
我们先补习一下,火车头采集软件的工作原理。
因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?我们看下网站的基本结构。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN""/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> -------这些蓝色的东西,对于新手,我们不需要知道!<title>网页的标题</title> ----红色的是网页的标题。
如下图(1)</head><body>内容在这个<body>和</body>之间的,是网站的内容部分。
火车采集器采集原理,流程介绍先说一下,什么是数据采集呢?我们可以这样理解,我们打开一个网站,看到有一篇文章很不错,于是我们就将文章的标题和内容复制了一下,将这篇文章转到我们的网站上.我们的这个过程,就可以称作一个采集,将别人网站上对自己有用的信息转到自己网站上.采集器也是这样,不过整个过程是由软件完成的.我们可以这样理解,我们复制文章的标题和内容,是我们可以知道什么地方是内容,什么地方是标题, 但是软件是不知道的,所以我们要告诉软件,要怎么采,这就是写规则的过程..我们复制完了,打开我们网站,比如论坛发帖的地方,然后粘帖发表,对软件来说,就是模仿我们发表帖子的过程,去发表文章,怎么发布,这就是发布模块的事了..火车采集器就是一款用来采集数据的软件,它是目前网络上最强大的采集器.它几乎可以采到你所见到的任何网页内容。
火车采集器数据抓取原理:火车采集器如何去抓取数据,取决于您的规则。
您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。
程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。
再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。
如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出文章下载地址并下载到本地。
火车采集器数据发布原理:在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对种据进行处理。
1.不做任何处理。
因为数据本身是保存在数据库的(access或是db3),您如果只是想看一下,直接用相关软件查看就可以了。
2.web发布到网站。
程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。
3.直接入数据库。
您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。
4.保存为本地文件。
程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。
火车采集器工作流程:火车头采集是可以分成两个步骤的,一是采集数据,二是发布数据。