DEDECMS采集规则常用过滤规则
- 格式:doc
- 大小:31.00 KB
- 文档页数:2
DEDECMS采集规则(图文详解)默认分类2010-08-08 23:54:21 阅读209 评论0 字号:大中小订阅没有玩过DEDECMS的采集,但还是想了解一下DEDE采集的规则,下面是详细的图文详解,有空的时候看看,留此备用了.第一步、确定采集的网站(我们以DEDE的官方站做为采集站做示范)Quote:/plus/list.php?tid=10第二步、确定被采集站的编码。
打开被采集的网页之后,查看源代码(IE:查看- > 源代码)在之间找到charset 这个,后面就显示网页的编码了,截图的是“gb2312”第三步、采集列表获取规则写法来源网址写法很明显pageno是表示分页页码那么有多页列表的采集就要用“[var:分页]”来替换分页页码,截图如下/ plus/list.php?tid=10&pageno=[var:分页]文章网址需包含网址不能包含这两个一般不用写,用于采集列表范围有很多不需要的连接才用到他来做过滤使用。
上面的网址并没有带有至于 为什么要在前面加上,这个就不要我说了吧。
如果只有一个列表页,那么在来源网址就直接写上网址就OK了。
注意这里,最关键就是这里。
下面就是“采集获取文章列表的规则写法”,就是上面打开的被采集页面的源代码文件,找到文章列表之前和本页面没有其他相同的代码在DedeCms官方站的列表页文章列表之前和之后最近的且没有相同的是“ ”和“ ”,分别写入“起始HTML”和“结束HTML”,写法看截图第四步、采集文章标题,文章内容,文章作者,文章来源等规则写法,分页采集等。
“起始HTML”和“结束HTML”写法参考第三步中的“获取文章列表的规则写法”下面讲的是如何采集分页内容看截图圈着的地方截图文档是否分页里面选择“全部列出的分页列表”“起始HTML”和“结束HTML”写法参考第三步中的“获取文章列表的规则写法”这里本来还有一张截图的,由于论坛配置,他现在显示在最上面.在文章内容那里点上“分页内容字段”,不选择就不能采集。
DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(一) 2011-05-05 17:09:01 来源: 作者: 【大中小】浏览:5026次评论:0条★★我要投稿★★将此页添加到网摘:DedeCMS采集功能使用基本知识讲解采集是指有着确定方向、明确目的的采撷和记录写作材料的一种活动。
它主要指调查采访和查阅和搜集资料。
采集最主要的作用在于为写作、分析、报表获取直接的和间接的材料。
今天我们讲的采集主要是指网站采集,网站采集的概念主要是:程序按照指定的规则定向获取其他网站数据的一种方式,另一种简单的说法就是将CTRL+C CTRL+V 程序化,系统化,自动化,智能化DedeCMS早期就已经加入了这个采集的功能,以前我们添加网站内容一般都是通过复制、粘贴、编辑然后再发布,这样对于少量的文章还是可以,但如果对于一个新站,什么内容都没有,那就需要复制粘提大量的文章,这是一个重复、枯燥的过程,内容采集就是解决这个问题,将这个重复的操作简化成规则,通过规则进行批量操作。
当然采集还可以通过一些专门的采集器来进行采集,国内比较出名的采集器有火车头。
今天我们这里以DedeCMS程序自带的采集功能来讲解如何使用采集,并介绍如何对采集的内容进行一些批量的管理。
首先我们进入系统后台,打开[采集]-[采集节点管理],在学习使用这个采集工能之前先介绍一些基本的技术知识。
首先我们需要知道HTML基本内容,我们知道浏览器中显示的各种各样的页面其实都是由最基本的HTML组成的,我们可以在我们DedeCMS系统后台发布一篇内容,然后对内容进行一些格式上面的设置。
也就是说我们的页面都是HTML代码经过浏览器解析后显示出来的,这些基本的HTML代码是给机器看的,而解析出来显示的内容是给我们的用户看的,机器其实是一个死东西,他阅读网页不像用户一样,直接看到某一个部分的内容,机器能够看到的是某一部分代码。
DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(二) 2011-05-05 17:09:01 来源: 作者: 【大中小】浏览:5027次评论:0条★★我要投稿★★将此页添加到网摘:例如,我们查看一个网页:,我们很容易就看到这个文档的内容部分,如图中黄色区域。
茂名门户:茂名Seo:织梦采集规则一个大型的资讯网站,频道N多,网站数据也N多,不可能每一条数据都是由网站管理员一条条的来发的!这时候,为了节约人力物力,采集器就诞生了(做优化的朋友,笔者可不推荐你们使用哦)!下面,笔者就用织梦管理系统自带的采集器来采集一个网站的数据给大家演示一下,采集规则是怎么写的!步骤一:新建一个文章采集节点1、登录织梦管理后台,依次点击2、采集>>采集节点管理>>增加新节点>>选择普通文章>>确定步骤二:填写采集列表规则1、节点名称:随便(注意你要能分清哦,因为节点多了的话,有可能会搞得自己混乱)2、目标页面编码:看目标页面的编码(比如我采集的网站的编码就是GB2312)3、匹配网址:去到采集目标列表页面,查看它的列表规则!比如说很多网站的列表的第一面跟其它内页是有很大的差别的,所以我一般不采集目标列表的第一页!比如说我演示的网站的列表规则是第一页设定一个默认的首页,看不到后面的实际路径的,如图:茂名门户:茂名Seo:所以,我们只能从第二页开始(虽然可以找出第一页,但很多的网站是根本没第一页的,所以,这里就不说怎么找第一页了),!我们来对比一下,采集目标页的第二页跟第三页!如图:可以看到,这两页都是有规律的递增的,第二页就是list_2!第三页就是list_3!所以,匹配网址我们就写成上面那个(*)代表的就是列表页面的2,或3,或4,或更多!而第三条横杆那里,我写了个(*)从 2 到 5 ,这里表示的是,把2到5,每次+1的增加,匹配至(*)里面,代替(*)!4、区域开始的HTML:在采集目标列表页打开源代码!在要采集的文章标题前面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签!茂名门户:茂名Seo:5、区域结束的HTML:在采集目标列表页打开源代码!在要采集的文章标题后面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签!其它的地方,暂时我们还没用到,可以不管!这样,列表页的规则就写好了!下图是我写好的列表规则截图!写好了,点击保存信息并进入下一步!如果写正确了规则的话,那这些就会出现一个有内容的网址获取规则测试:如下图茂名门户:茂名Seo:步骤三:填写采集内容规则1、文章标题:在文章标题前后找两个标签,能识别出标题的!我采集的网站的文章标题前后唯一标签是<h1>…</h1>,就写成<h1>[内容]</h1>。
提到采集,有些站长抛出鄙夷的眼神,而似乎大部分站长都会觉得是CMS的标配。
在落叶看来采集只是一个功能,一个工具,关键看是采什么,采来后做什么,怎么处理采来的内容。
大家都知道火车头,一般基本用来采文章,但落叶经常用来采集邮箱,CMS间导数据,基至都用来采过QQ号。
火车头的整套流程即使对采集规则了解不多,也很方便来采文章,那么相较之于这种客户端软件,主流CMS中的采集模块,有哪些优缺点呢?本文中落叶对PHPCMS、帝国CMS及DEDECMS的采集功能作些对比,同时也对采集流程细节作些需求分析。
我们知道,通常的采集流程都是通过列表页分页批量获取内容页网址,然后对内容页分析,获取内容标题、文章内容等信息,因为各目标站的结构不同,采集规则会不同,CMS 不可能也不会提供通用的采集规则,那么要考量一款CMS采集模块是否好用基本是由整个采集任务设置流程的易用性、采集的稳定性与效率、采集完入库方便性等方面决定。
1.采集设置流程:整体体验:PHPCMS的任务添加流程中直接在TAB菜单的形式列出来网址采集、内容规则设置、高级设置三步骤,每一步中的结构都和火车头比较像,对火车头采集的比较熟悉用户会觉得PHPCMS的采集设置比较明了。
DEDE中流程类似,只是没有直接将几步列出,后一步的设置的前提是前一步设置正确。
帝国CMS中则是希望用户一口吃饱,从上至下把需要的信息全部列出来。
其实整体都基本三步,没有太明显的区别是,只是三者表现方式的不同给用户的心理感受是不同的。
PHPCMS简洁明了,让用户觉得采集很简单,三下两下就设置好了,新手愿意去尝试。
帝国CMS中用户一进入采集设置界面顿感压力,页面一直下拖,这么多设置项,首先想到的是“算了,换别的采集”,“这么多填到什么时候,填完了能不能提交还是一回事”,而DEDECMS中把采集过程和设置流程整合起来,优点时可以保证每一步都设置正确,但对采集比较熟悉的用户而言,效率偏低,每次都得POST提交一次测试一次。
Dedecms5.7 sp1-sp2文章模型栏目接口使用手册一、简介1、本接口应用于Dedecms5.7 sp1-sp2(20170405版)版普通文章模型栏目文章发布;2、由于数据量大时DEDE生成栏目HTML时的服务器负担很重,因此,发布接口增设了2个控制参数zznomakeindex和zznomakeandcat,分别控制是否生成主页或相关栏目;3、发布时请使用具有管理权限的用户帐号;4、本接口基于Dedecms UTF8版制作,适用于Dedecms GBK/utf-8等版本,应用于其他版本时请自行测试调整;5、在Dedecms utf8版使用本接口时,请在发布规则中选择编码为UTF-8;6、接口文件无须任何改动即可使用,如果你希望增加校验或其他功能,请仔细修改;7、2个接口文件请复制在Dedecms网站管理目录(默认是dede,用户可能有更改)下使用;二、安装接口在接口文件夹中找到接口文件,如图:请将etchk.php、etpost.php等接口文件复制到指定目录,远程FTP上传请使用二进制方式上传,如图:三、配置发布规则1、将范例发布规则文本导入ET2发布配置,或使用软件内置发布规则范例,如图:2、将检查网址和发布网址中的“您的网站”改为您要发布的网站网址,如图:3、在检查网址填上您的栏目ID,如图:4、在参数取值,填上您要发布的栏目ID,如图:在网站后台网站栏目管理处,可以看到各栏目的ID号,如图:4、填上您的账号、密码,注意格式和账号权限,如图:四、接口说明一、检查接口1、接口文件名etchk.php,为保密,请自行修改文件名;2、本接口文件复制在网站管理目录DEDE下使用,如果目录名有变更,请自行对应;3、主要参数(以下参数附加在检查网址后)主题标题:keyword栏目ID:typeid用于限定检查栏目范围,可不填,可在后台网站栏目管理处查看id;校验码:vercode请自行设定,并在检查接口文件开始处修改vercode使其一致;4、发布配置-文章检查网址处,可以如下填写:http://您的网址/dede/etchk.php?vercode=&typeid=&keyword=<%title%>注:使用大小写敏感的服务器的用户请注意网址大小写和网站文件一致5、接口文件无须任何改动即可使用,如果你希望增加校验或其他功能,请仔细修改;二、发布接口1、接口文件名etpost.php,为保密,请自行修改文件名;2、本接口文件请复制在网站管理目录DEDE下使用,如果目录名有变更,请自行对应;注:以下参数名后“=”号为示范取值而用,参数名本身不含“=”号;采集取值的参数项,请在发布规则-发布项中添加,如图:3、基本参数userid会员名参数名pwd密码参数名title主题标题参数名body内容参数名4、主要参数typeid=主栏目ID,可在后台网站栏目管理处查看该id;typeid2=副栏目ID,可不填,可在后台网站栏目管理处查看该id,多个请用英文逗号分隔,如typeid2=3,7,11 ;channelid= 模型ID,默认为1,如果文章模型ID不为1,则用这个参数设置;vercode=安全校验码,请自行设定,并在发布接口文件开始处修改vercode使其一致;zznomakeindex=0 主页生成控制,取值0时,使用DEDE后台“发布文章后马上更新网站主页”的设置,取值1时,禁止生成网站主页;zznomakeandcat=0 栏目生成控制,取值0时,使用DEDE后台“发表文章后马上更新相关栏目”的设置,取值1时,禁止生成相关栏目;注:系统-基本参数-性能选项“arclist标签调用缓存”会影响静态页面生成情况,设为0可解决;5、可选参数ishtml=1是否生成HTML,1为是,0为否;remote=1是否下载远程图片和资源,1为是,0为否,启用本项则在ET 采集规则中不启用文件下载;dellink=0 是否删除非站内链接,1为是,0或空为否;autolitpic=1是否提取第一个图片为缩略图,1为是,0为否,启用本项则picname应留空;picname=缩略图片路径及文件名;ddisremote=0是否远程获取缩略图片,1为是,0为否,启用本项必须使PICNAME的值为有效图片网址;keywords关键字;autokey=1自动获取关键字,1为是,0为否;部分PHP版本过低导致DEDE 的splitword类无效时,仍可使用接口,遇到这种情况时,参数autokey应设为0,以取消自动关键词功能;needwatermark=0图片是否加水印,1为是,0为否,启用本项则在ET中间规则中不应设置图片水印;tags TAG标签;source文章来源;writer作者,留空即为用户名;shorttitle简略标题;description内容摘要;color=标题颜色,格式如#FF0000;flags[]=h文章属性,头条;flags[]=c文章属性,推荐;flags[]=f文章属性,幻灯;flags[]=a文章属性,特荐;flags[]=s文章属性,滚动;flags[]=b文章属性,加粗;flags[]=p文章属性,图片;flags[]=j文章属性,跳转;redirecturl=跳转网址,当文章属性为跳转时生效;sptype=auto分页方式,hand是手动,auto是自动,当使用手动分页时,应将ET分隔符“#-0-#”替换为DEDE分页符“#p#分页标题#e#”;spsize=5自动分页大小,单位Knotpost=0是否禁止评论,1为是,0为否;click=50随机浏览次数最大值;sortup=0文章排序方式,0为默认排序,7为置顶一周,30为置顶一个月,90为置顶三个月,180为置顶半年,360为置顶一年;arcrank=0阅读权限,0为开放浏览,-1为待审核稿件,10为注册会员,50为中级会员,100为高级会员;money=0消费点数;pubdate发布时间;weight=0 权重,越小越靠前;6、增加自定义字段在文章模板使用新增自定义字段数据的时候,除了在发布配置-发布项-参数取值设置数据项和这个自定义字段参数名的关联外,还需要在参数取值里加一行:dede_addonfields=key1,htmltext,其中:key1是字段参数名称,htmltext是字段数据类型,有多个自字义字段的时候用英文分号隔开,如图示:(注:其中key1,key2是示例字段名)7、发布配置-文章检查网址处,可以如下填写:http://您的网址/dede/etpost.php注:使用大小写敏感的服务器的用户请注意网址大小写和网站文件一致8、接口文件无须任何改动即可使用,如果你希望增加校验或其他功能,请仔细修改;五、常见错误:当提示采集失败时,请查看返回信息了解错误详情,以便改正,返回信息窗见下图:一、[err]账号密码错误[/err]1、检查发布规则-参数取值-账号密码队列;二、[err]invalid vercode[/err]1、在发布规则-检查网址中填写的vercode 值和检查接口文件中的vercode值不一致;2、在发布规则-参数取值-附件参数队列中填写的vercode值和发布接口文件中的vercode值不一致;三、[err]标题不能为空[/err]:1、使用的采集规则未能正确采集到标题;2、采集规则的数据整理将标题过滤了;3、错误的修改了发布规则-发布项中的标题参数名,正确的参数名请看本文接口说明部分;4、发布规则未开启utf-8编码转换;四、[err]内容不能为空[/err]:1、使用的采集规则未能正确采集到正文数据项;2、采集规则的数据整理将正文数据过滤了;3、错误的修改了发布规则-发布项中的正文参数名,正确的参数名请看本文接口说明部分;4、发布规则未开启utf-8编码转换;五、文章乱码:1、发布规则未开启utf-8编码转换;2、数据整理不当;六、附件上传不成功:1、检查附件保存路径和格式是否正确2、检查附件是否存在3、检查FTP目录和权限设置;七、图片不显示:1、检查发布规则文件显示URL设置;2、如果启用FTP上传,则文件显示URL和FTP上传目录应一致;3、如果使用保存目录而未使用FTP上传,则文件显示URL应和方案的文件保存目录一致;。
大家好!今天给大家录制一个dedecms采集规则编写以及使用教程星期8_淘淘小店地址今天采集的目标站地址选择下面的列表地址编写规则/more-yuleshijianbu-1.html0.节点名称随意编写我们写娱乐事件 如图(1)1.程序编码gbk utf8 程序编码是GB2312和gbk一样如图(1)2.地址批量/more-yuleshijianbu-(*).html如图(1)图13.列表前后代码截取代码在列表页必须只有这样一条代码<div class="more_left_6"><div class="paging"> 如图(2)4.必须包含链接关键词(通用)shtml 如图(2)图25.不得包含关键词主要是过滤文章内容链接不需要的地址如图(2)6.文章标题提取通常都是<title>[内容]</title> 如图(4)图4过滤规则{dede:trim replace=''}要过滤的内容{/dede:trim}{dede:trim replace=''}_娱乐_onlylady女人志{/dede:trim}标题规则这样就OK了如图(5)图57.内容规则提取内容前后截取的代码同样必须是整个页面唯一性的代码<div class="detail_content" id="detail_content">[内容]<!--PAGE-->8.过滤规则提取dedecms过滤规则最重要的地方很多朋友不会使用他本条规则过滤代码如下{dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}<script([^>]*)>(.*)</script>{/dede:trim}{dede:trim replace=""}本文导航(.*)键翻页{/dede:trim}{dede:trim replace=""}<div([^.]*)>{/dede:trim}{dede:trim replace=""}</div>{/dede:trim}{dede:trim replace=""}<p style([^.]*)>{/dede:trim}{dede:trim replace=""}>" >点击图片进入下一页>>{/dede:trim}官方提供的过滤规则如下{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}{dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}{dede:trim replace=''}<!--(.*)-->{/dede:trim}{dede:trim replace=''}<table([^>]*)>(.*)</table>{/dede:trim}{dede:trim replace=''}<style([^>]*)>(.*)</style>{/dede:trim}{dede:trim replace=''}<img([^>]*)>{/dede:trim}{dede:trim replace=''}<object([^>]*)>(.*)</object>{/dede:trim}{dede:trim replace=''}<embed([^>]*)>(.*)</embed>{/dede:trim}{dede:trim replace=''}<iframe([^>]*)>(.*)</iframe>{/dede:trim}{dede:trim replace=''}<param([^>]*)>(.*)</param>{/dede:trim}{dede:trim replace=''}<div([^.]*)>{/dede:trim}{dede:trim replace=''}</div>{/dede:trim}下面讲下常用的过滤规则{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim} a链接的过滤规则但是如果在a链接后面带img图片链接的话只需要改下面规则{dede:trim replace=''}<a([^>]*)>{/dede:trim}js过滤规则{dede:trim replace=''}<script([^>]*)>(.*)</script> {/dede:trim} 一般不用动他是要前后开头<script都会自动把这样的代码干掉{dede:trim replace=''}<div([^.]*)>{/dede:trim}常用如果内容页面有<td width=950 height=100 align=middle>就可以把{dede:trim replace=''}<div([^.]*)>{/dede:trim} 改成{dede:trim replace=''}<td([^.]*)>{/dede:trim} 一次性全部干掉还有就是文字{dede:trim replace=''}</div>{/dede:trim}整段文字过滤{dede:trim replace=''}文字开头(.*)文字结尾{/dede:trim}9.内容分页代码系统提供{path}{file}_{p}{ext} 一般用这个就可以全部解决了不行的话就要在分页代码前后截取如<div class=page>[内容]</div>(1.)全部列出的分页列表(2.)上下页形式或不完整的分页列表(3.)分页列表规则开始: 结束三个选项基本上都可以解决分页难题10.规则采集数据导出方法采集-采集节点管理-勾选需要采集的规则-规则下面点采集如图(6)图6每页采集默认 5 可以按照自己服务器宽带速度适量修改一次采集太多可能会造成采集进度卡停如图7图7间隔时间一般在采集图集的时候需要用到他因为图集在采集标题的时候经常会采集错误导出数据如图8 到图9图8图9。
帝国CMS采集教程(下):采集过滤与替换技巧-电脑资料
前两讲我们分别介绍了帝国cms采集基本流程和帝国cms如何采集内容分页,最后这一讲主要介绍帝国cms采集过滤与替换,还有些技巧,。
一、过滤
1、帝国cms采集过滤分为两种:
(1)“整体页面过滤正则”:
(2)“过滤广告正则”:
我们有些疑惑,这两种过滤到底有什么区别?“整体页面过滤正则”是过滤整个网页的html代码,
电脑资料
《帝国CMS采集教程(下):采集过滤与替换技巧》(https://www.)。
“过滤广告正则”是过滤文章内容,仅对文章内容([!--newstext--])起作用。
2、过滤实例:
过滤实例(1):
我们采集后发现信息内容底部多了行代码:“
& bnsp;。
dede单页采集规则-回复什么是dede单页采集规则?dede单页采集规则是指在dedecms网站建设过程中,用来采集单个页面信息的规则和方法。
通过采集规则,可以实现自动化的内容采集,节省人工操作的时间和精力。
下面将一步一步回答有关dede单页采集规则的问题。
步骤一:了解dede单页采集规则的基本概念和原理dede单页采集规则是通过调用dede系统内置的一系列采集函数实现的。
这些采集函数可以获取指定页面的HTML代码,并对其中的元素进行解析和提取。
通过指定需要采集的元素标识或者使用正则表达式等方式,可以从HTML代码中提取出需要的内容,如标题、正文、图片等。
然后将提取的内容进行处理和保存,最终实现内容的自动采集。
步骤二:设置dede单页采集规则的基本参数在dedecms后台管理界面中,进入“采集管理”模块,选择“单页采集规则”进行设置。
首先需要设置采集规则的名称、所属栏目、所属模型等基本参数。
这些参数决定了采集规则的基本属性以及采集结果的保存位置。
步骤三:设置dede单页采集规则的采集URL在设置页面的“采集URL”选项中,可以设置需要采集的页面的URL地址。
可以直接输入页面的URL,也可以通过选择已有的单页内容或者文章进行采集。
通过设置采集URL,系统可以根据该URL获取页面的HTML 代码进行解析和提取。
步骤四:设置dede单页采集规则的具体内容提取规则在设置页面的“内容提取规则”选项中,可以设置要提取的内容的元素标识或者正则表达式。
可以选择页面中的元素标签,也可以通过自定义正则表达式进行匹配。
通过设置提取规则,系统可以根据规则从HTML代码中提取出需要的内容,并保存到指定的字段中。
步骤五:设置dede单页采集规则的字段映射关系在设置页面的“字段映射关系”选项中,可以设置提取的内容要保存到哪些字段中。
可以选择已有的字段进行映射,也可以添加新的字段进行保存。
通过设置字段映射关系,系统可以将采集到的内容保存到对应的字段中,方便后续使用和展示。
dedecms织梦采集功能的使用方法(三)我是程序员Dedecms采集功能的使用方法—不含分页的普通文章(三)3.1采集指定节点单击“保存并开始采集“后,将会进入”采集指定节点“界面,如(图34)所示,图34-采集指定节点每页采集:设置每页所需采集的条数,并可根据网站是否有防刷新功能,设置采集间隔时间。
特殊选项:设置是否检测重复图片,默认为“检测”。
附加选项:此选项一共有3种采集模式可供选择:第一种为“监控采集模式(检测当前或所有节点是否有新内容)”,选取后,系统只会采集指定节点中更新的内容;第二种为“重新下载全部内容”,选取后,系统会采集指定节点中的全部内容;第三种为“下载种子网站的未下载内容”,选取后,系统只会采集指定节点中未下载过的内容,包括以前没下载的和更新的内容。
设置完成并确定无误后,可单击“开始采集网页”或者“查看种子网址”。
此时,如果单击“查看种子网址”会看到列表是空的,这是因为新建立的采集节点从未采集过,如(图35)所示,图35-查看节点的种子网址单击“开始采集网页”后,系统便会开始采集节点中设置的网址,并出现相关提示,如(图36)所示,图36-采集进程中提示信息采集结束后,再次单击“查看种子网址”或者单击页面右上角的“查看已下载”,便可看到已采集到的网址信息,如(图37)所示,图37-查看节点的种子网址成功采集以后,可以根据实际需要选择页面右上角的单击“采集节点管理”或者“导出数据”。
单击“导出数据“后,便可进入” 采集管理> 采集内容导出“界面,如(图38)所示,图38-采集内容导出“默认导出栏目“:设置要把采集到的内容导入到的栏目“批量采集选项”:如果在采集规则中已指定栏目ID,则可使用此功能,若指定的栏目ID为0,系统会把采集内容导入到“默认导出栏目”所选择的栏目中。
“发布选项“:有发布成“普通文档”和“保存为草稿”可供选择。
“每批导入“:设置每批导入的条数,此数不宜过大。
DEDECMS采集规则常用的过滤标签
DEDE采集过滤的规则
DEDE采集规则中需要常用过滤的规则代码DEDECMS教程
一般在DEDE采集的过程中需要过滤或者删除再者是注释掉一些别人的信息,比如:超链接,图片等等之类的,,都需要用到这些过滤规则,把不想采集过来的资源全部都注释掉这样就大大减少了采集回来的垃圾信息,占用了自己的空间.
{dede:trim}<span(.*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}
{dede:trim}<li>{/dede:trim}
{dede:trim}</li>{/dede:trim}
{dede:trim}<ul>{/dede:trim}
{dede:trim}</ul>{/dede:trim}
{dede:trim}<font(.*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<table(.*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<tbody(.*)>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<tr(.*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<td(.*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<a(.*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<iframe(.*)</iframe>{/dede:trim}
{dede:trim}<style(.*)</style>{/dede:trim}
{dede:trim}<script(.*)</script>{/dede:trim}
{dede:trim}<option(.*)</option>{/dede:trim}
{dede:trim}<select(.*)</select>{/dede:trim}
下面是过滤"视频"的代码
{dede:trim}<embed(.*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<param(.*)</param>{/dede:trim}
{dede:trim}<object(.*)</object>{/dede:trim}
DEDE采集规则中需要常用过滤的规则代码DEDECMS教程
一般在DEDE采集的过程中需要过滤或者删除再者是注释掉一些别人的信息,比如:超链接,图片等等之类的,,都需要用到这些过滤规则,把不想采集过来的资源全部都注释掉这样就大大减少了采集回来的垃圾信息,占用了自己的空间.
更多信息请加QQ:175661009。