robots文件禁止蜘蛛方法大全
- 格式:doc
- 大小:39.00 KB
- 文档页数:4
Robots文件是SEO很重要的一部分,是一个网站优化首先必备的,也是我们与搜索引擎蜘蛛对话的一个“桥梁”,那么如何设置好robots文件显得至关重要,我们都知道蜘蛛来访问一个网站的时候,首先访问的是你网站根目录下robots文件,根据协议给出的权限来抓取一个网站,若没有,就代表搜索引擎能够抓取任何内容,所以协议的写法也是一把优化的利器。
以下以我博客站作为一个简单的说明:1、User-agent: *这是一个通配符,用来说明适合所有的蜘蛛都能抓取,若是只是准许某个蜘蛛抓取,将通配符换成其他蜘蛛的符号就可以了。
2、Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/屏蔽蜘蛛抓取网站的程序文件,同时也能够节奏资源,让蜘蛛抓取有用的资源。
3、Disallow: /?s=*Disallow: /*/?s=*这个就不用解释了,屏蔽捉取站内搜索结果。
站内没出现这些链接不代表站外没有,如果收录了会造成和TAG等页面的内容相近。
4、Disallow: /*.jpg$Disallow: /*.jpeg$Disallow: /*.gif$Disallow: /*.png$Disallow: /*.bmp$屏蔽捉取任何图片文件,在这里主要是想节约点宽带,不同的网站管理员可以按照喜好和需要设置这几条指令。
5、Disallow: /a/date/Disallow: /a/author/Disallow: /a/category/Disallow: /?p=*&preview=trueDisallow: /?page_id=*&preview=trueDisallow: /wp-login.php屏蔽其他的一些形形色色的链接,a目录下面的都是一些网站后台文件,不要让蜘蛛去抓取,避免造成重复内容和隐私问题。
最后在协议的最后可以写上Sitemap:http://***.com/sitemap.xml用来告知蜘蛛我们的网站地图,更加有利于蜘蛛抓取我们网站的内容,设置完成后,我们可以百度站长平台监测下robots协议设置的是否正确。
Robots.txt文件告诉搜索引擎哪些页面是可以被收录的哪些是不可以被收录的。
如果您不想让搜索引擎收录某些页面,请用robots.txt文件制定搜索引擎在你网站的抓取范围。
所以Robots的写置是优化网站所必须的。
Robots.Txt文件的设置:了解robots先从百度开始:下面是百度的robots:/robots.txtUser-agent: Baiduspider (蜘蛛类型:Baiduspider为百度蜘蛛只对百度蜘蛛有效)Disallow: /baidu (限定蜘蛛不能爬取的目录,也可以是页面)User-agent: * (这里就是代表所有蜘蛛的一个限定)Disallow: /shifen/Disallow: /homepage/Disallow: /cpro从以上的百度robots简单了解到,robots.txt能够屏蔽蜘蛛访问特定的目录,方法就是Disallow: /目录名。
改方法是屏蔽此目录包含子目录的所有文件,当然如果子目录不屏蔽,我们可以使用Disallow: /目录名/,我们发现robots.txt一个简单的/ 所起到的作用却截然不同,所以在我们书写robots.txt 的时候一定不能大意,写完后要反复检查或者交站长工具检测。
下面介绍几种特殊写法,用于不同情况:①屏蔽动态页面:Disallow: /*?* Robots检测解释:禁止所有引擎抓取网站所有动态页面这个应该很容易理解,/*?* 表示网站任何带?的url链接,我们知道这种链接一般就是动态页面,鉴于网站静态化处理过的网站完全可以通过屏蔽动态页面来避免出现重复页面,当然如果是数据库驱动的网站,而没有做静态或伪静态处理的网站,就不必要做此特殊处理了。
②屏蔽特殊后缀的文件例如:Disallow: /*.php$ Robots检测解释:禁止所有引擎抓取网站后缀为并且包含。
php的文件$代表以什么后缀结束,介绍符号。
我们可以通过此方法来屏蔽css文件甚至js文件,当然目前我们不是很清楚蜘蛛对于js爬取情况,有朋友做过类似测试的或者查看过日志文件朋友可以分享下。
Robots写法搜索引擎Robots协议,是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则。
设置搜索引擎蜘蛛Spider抓取内容规则。
下面Seoer惜缘举例robots写法规则与含义:首先要创建一个robots.txt文本文件,放置网站的根目录下,下面就开始编辑设置Robots协议文件:一、允许所有搜索引擎蜘蛛抓取所以目录文件,如果文件无内容,也表示允许所有的蜘蛛访问,设置代码如下:User-agent: *Disallow:或者User-agent: *Allow: /二、禁止某个搜索引擎蜘蛛抓取目录文件,设置代码如下:User-agent: MsnbotDisallow: /例如想禁止MSN的蜘蛛抓取就设为,Msnbot代表MSN的蜘蛛,如果想禁止其他搜索引擎就更换蜘蛛名字即可,其他蜘蛛名字如下:百度的蜘蛛:baiduspiderGoogle的蜘蛛:Googlebot腾讯Soso:SosospiderY ahoo的蜘蛛:Y ahoo SlurpMsn的蜘蛛:MsnbotAltavista的蜘蛛:ScooterLycos的蜘蛛:Lycos_Spider_(T-Rex)三、禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下:User-agent: *Disallow: /目录名字1/Disallow: /目录名字2/Disallow: /目录名字3/把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取,目录名字未写表示可以被搜索引擎抓取。
四、禁止某个目录被某个搜索引擎蜘蛛抓取,设置代码如下:User-agent: 搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)Disallow: /目录名字/ 说明(这里设定禁止蜘蛛抓取的目录名称)例如,想禁目Msn蜘蛛抓取admin文件夹,可以设代码如下:User-agent: MsnbotDisallow: /admin/五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,设置代码如下:User-agent: *Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)六、充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取,设置代码如下: User-agent: *Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件) 七、只充许某个搜索引擎蜘蛛抓取目录文件,设置代码如下:User-agent: 搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)Disallow:。
拒绝蜘蛛协议(Robots Exclusion Protocol)使用Robots Exclusion Protocol协议当Robot访问一个Web站点时,比如/,它先去检查文件/robots.txt。
如果这个文件存在,它便会按照这样的记录格式去分析:User-agent:*Disallow:/cgi-bin/Disallow:/tmp/Disallow:/~joe/以确定它是否应该检索站点的文件。
这些记录是专门给Web Robot看的,一般的浏览者大概永远不会看到这个文件。
在一个站点上只能有一个“/robots.txt”文件,而且文件名的每个字母要求全部是小写。
在Robot的记录格式中每一个单独的“Disallow”行表示你不希望Robot访问的URL,每个URL 必须单独占一行,不能出现“Disallow:/cgi-bin//tmp/”这样的病句。
同时在一个记录中不能出现空行,这是因为空行是多个记录分割的标志。
User-agent行指出的是Robot或其他代理的名称。
在User-agent行,'*'表示所有的Robot。
下面是几个robot.txt的例子:在整个服务器上拒绝所有的robots:User-agent:*Disallow:/允许所有的robots访问整个站点:User-agent:*Disallow:;或者产生一个空的“/robots.txt”文件服务器的部分内容允许所有的robot访问User-agent:*Disallow:/cgi-bin/Disallow: /tmp/Disallow:/private/拒绝某一个专门的robot:User-agent:BadBotDisallow:/只允许某一个Robot光顾:User-agent:WebCrawlerDisallow:User-agent:*Disallow:/最后我们给出/站点上的robots.txt:#For use by User-agent:W3Crobot/1Disallow:User-agent:*Disallow:/Member/#This is restricted to W3C Members onlyDisallow:/member/#This is restricted to W3C Members onlyDisallow:/team/#This is restricted to W3C Team onlyDisallow:/TandS/Member#This is restricted to W3C Members onlyDisallow:/TandS/Team#This is restricted to W3C Team onlyDisallow:/ProjectDisallow:/SystemsDisallow:/WebDisallow:/TeamRobots META tag的格式为:〈META NAME="ROBOTS"CONTENT="NOINDEX,NOFOLLOW"〉像其他的META tag一样,它应该放在HTML文件的HEAD区:〈html〉〈head〉〈meta name="robots"content="noindex,nofollow"〉〈meta name="description"content="This page...."〉〈title〉...〈/title〉〈/head〉〈body〉...Robots META tag指令用逗号隔开,可以使用的指令包括[NO]INDEX和[NO]FOLLOW。
网站robots的写法站长的工作是设计精美的网站,为大众展现网站丰富多彩的内容。
当然,我们也希望精心设计的网站获得理想的排名,这就要求我们去研究搜索引擎排名规律,最大程度的获得机会展现给客户。
然而,搜索引擎种类很多,有时候,我们对某一种搜索引擎的排名很好,却在另外的搜索引擎上面获得不到一样的排名,原因是各个搜索引擎规则不一样。
为此,有人复制出相同的内容以应付不同搜索引擎的排名规则,制造出大量的重复页面。
搜索引擎一旦发现就会给予惩处。
为此,robots的出现了。
一、r obots的基本概念和功能robots.txt文件是网站的一个文件,它是给搜索引擎蜘蛛看的。
搜索引擎蜘蛛爬行道我们的网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。
robots.txt 也可用在某一目录中。
对这一目录下的文件进行搜索范围设定。
几点注意:1)网站必须要有一个robots.txt文件。
2)文件名是小写字母。
3)当需要完全屏蔽文件时,需要配合meta的robots属性。
robots具有两个主要功能:一个功能是屏蔽重复页面另一个功能是屏蔽如让抓取的页面比如隐私。
对于不同的搜索引擎展现不同的搜索路径,在robots中有哪些搜索引擎和其对应的User-agent呢?下面,我列出了一些,以供参考。
搜索引擎User-AgentAltaVista Scooterbaidu BaiduspiderInfoseek InfoseekHotbot SlurpAOL Search SlurpExcite ArchitextSpiderGoogle GooglebotGoto SlurpLycos LycosMSN SlurpNetscape GooglebotNorthernLight GulliverWebCrawler ArchitextSpiderIwon SlurpFast FastDirectHit GrabberYahoo Web Pages GooglebotLooksmart Web Pages Slurp二、robots.txt的语法内容项的基本格式:域: 值对。
robots协议 如何查看robots协议?怎么写? 对于seo来讲,robots⽂件⾮常重要。
搜索引擎爬⾍爬取的⽹站的第⼀个⽂件便是这个⽂件,这个⽂件告诉搜索引擎⽹站的那些内容可以被爬取,那些内容不能被爬取,或者说禁⽌爬取。
怎么查看l?可以使⽤这种办法,主域名/robots.txt。
怎么写robots协议? 当⼀个搜索蜘蛛访问⼀个站点时,它会⾸先检查该站点根⽬录下是否存在robots.txt,如果存在,搜索机器⼈就会按照该⽂件中的内容来确定访问的范围;如果该⽂件不存在,所有的搜索蜘蛛将能够访问⽹站上所有没有被⼝令保护的页⾯。
⼀、什么是Robots协议 Robots协议(也称为爬⾍协议、机器⼈协议等)的全称是“⽹络爬⾍排除标准”(Robots Exclusion Protocol),⽹站通过Robots协议告诉搜索引擎哪些页⾯可以抓取,哪些页⾯不能抓取,对于seo来讲,意义重⼤。
robots是⼀个协议,⽽不是⼀个命令。
robots.txt⽂件是⼀个⽂本⽂件,是放置在⽹站根⽬录下,使⽤任何⼀个常见的⽂本编辑器,就可以创建和编辑它。
robots.txt是搜索引擎中访问⽹站的时候要查看的第⼀个⽂件,其主要的作⽤就是告诉蜘蛛程序在服务器上什么⽂件是可以被查看的。
robots协议⽂件的写法及语法属性解释-seo 如果将⽹站视为⼀个房间,robots.txt就是主⼈在房间门⼝悬挂的“请勿打扰”或“欢迎进⼊”的提⽰牌。
这个⽂件告诉来访的搜索引擎哪些房间可以进⼊和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私⽽不对搜索引擎开放。
但robots.txt不是命令,也不是防⽕墙,如同守门⼈⽆法阻⽌窃贼等恶意闯⼊者。
所以,seo建议各位站长仅当您的⽹站包含不希望被搜索引擎收录的内容时,才需要使⽤robots.txt⽂件,如果您希望搜索引擎收录⽹站上所有内容,请勿建⽴robots.txt⽂件。
⼆、Robots协议的原则 Robots协议是国际互联⽹界通⾏的道德规范,基于以下原则建⽴: 1、搜索技术应服务于⼈类,同时尊重信息提供者的意愿,并维护其隐私权; 2、⽹站有义务保护其使⽤者的个⼈信息和隐私不被侵犯。
robots.txt文件的作用和语法介绍1、什么是robots.txt文件搜索引擎有自己的搜索习惯,当它对一个网站进行搜索时,哪些目录和文件要看,哪些不用看,它有自己的算法。
我们也可以自己建立一个robots.txt文件,告诉搜索引擎的机器人哪些可以被收录,哪些不需要收录。
这样可以节约自己网站的资源,提高被搜索引擎收录的效率。
2、robots.txt放置位置robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
3、robots相关语法1)User-agent: 适用下列规则的漫游器(搜索引擎)该项的值用于描述搜索引擎robot的名字。
在robots.txt文件中,如果有多条User-agent 记录,就说明有多个robot会受到robots.txt的限制,对该文件来说,至少要有一条User-agent 记录。
如果该项的值设为*,则对任何robot均有效。
●Google爬虫名称: Googlebot●百度(Baidu)爬虫名称:Baiduspider●雅虎(Yahoo)爬虫名称:Yahoo Slurp●有道(Yodao)蜘蛛名称:YodaoBot●搜狗(sogou)蜘蛛名称:sogou spider●MSN的蜘蛛名称(微软最新搜索引擎Bing蜘蛛名也是这个):Msnbot2)Disallow: 拒绝访问的目录或文件该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。
例如:Disallow:/seo.html 表示禁止robot访问文件/seo.html3)Allow:允许访问的目录或文件该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。
例如:Allow:/hibaidu/ 表示允许robot访问目录/hibaidu/4)使用通配符"*"和"$":$ 匹配行结束符。
SEO优化之网站收录:利用robots.txt禁止不想被收robots.txt 文件位于您网站的根目录下,用于表明您不希望搜索引擎抓取工具访问您网站上的哪些内容。
此文件使用的是Robots 排除标准,该标准是一项协议,其中含有一小组命令,用于表明哪些类型的网页抓取工具可以访问您网站的哪些部分。
什么样的URL需要robots.txt 禁止搜索引擎蜘蛛抓取呢?1.同时存在动态和静态URL通常情况下很多网站都会对URL进行静态化,但是很多时候在网站的运营过程中,往往导致动态URL也被抓取了,比如营销部门不小心用动态URL来推广,比如产品部门不小心也用了动态URL,这个时候就会导致两个不一样的URL对应相同的内容,这对搜索引擎来讲是不友好的,也会导致权重的分散,或者导致搜索引擎抓取的页面不是站长需要的,这时候就需要用robots.txt来屏蔽动态的URL了。
2.有些内容我们不需要搜索引擎进行抓取大家都知道淘宝不希望被百度抓取,淘宝认为他的商品页面最具价值,不希望百度收录之后导致用户搜索商品到来百度搜索,这样对淘宝来讲是不利益的,所以淘宝就屏蔽了百度的抓取,自然淘宝也少了很多流量。
我们有些会员信息,网站程序URL等都不希望被搜索引擎抓取,那么也可以用robots.txt进行屏蔽。
利用robots.txt 禁止不想被收录的url的好处:1.重复的URL被屏蔽之后,有利于权重的积累2.屏蔽一些无效的URL能提高搜索引擎的抓取效率,因为搜索引擎到网站的时间是固定的,那么如果有很多无效的URL,对于大型网站来讲,比如几千万级别的,搜索引擎花了大量的时间处理无效的URL,自然对有效的URL处理的时间就会减少,自然就会导致收录有问题。
robots.txt的撰写规则:robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它[2]。
robots.txt是一个协议,而不是一个命令。
疯狂seo 论坛:以下是几种百度快照屏蔽方法--------------------------------------------------------------------------------第一种情况:屏蔽百度快照<meta name="robots" content="noarchive">限制了所有搜索引擎建立你的网页快照<meta name="Baiduspider" content="noarchive">只限制其中一个搜索引擎建立快照注意:上面meta 标签仅是禁止搜索引擎为你的网站建立快照,如果是要禁止搜索引擎索引你某个页面,可以使用两种方法:1、建立“Robots.txt ”屏蔽 2、使用“META 标签”屏蔽第二种情况:禁止搜索引擎抓取本页面在网站优化过程中、有时还是会要用到禁止搜索引擎抓取某单个页面,而这种情况如果动态、一般都会使用“Robots.txt ”屏蔽。
META 标签最常用:<meta name="description"content="" /> <meta name="keywords" content="" />而对于用来屏蔽搜索引擎蜘蛛或允许比较少见:<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">NAME="ROBOTS" //是泛指所有的搜索引擎,也可以特指某个搜索引擎,例如META NAME="Googlebot"、META NAME="Baiduspide"content=“index”//部分有四个命令:index 、noindex 、follow 、nofollowINDEX 命令:告诉搜索引擎抓取这个页面FOLLOW 命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
记得n年前研究黑客技术的时候,当时有那么一招,是用Google等搜索引擎活生生地把后台路径或数据库路径找出来,于是,不少站长生怕重要信息泄露,将数据库及后台路径加入robots.txt,众所周知,网站目录下的Robots.txt是用来设置搜索引擎访问权限的,只要把不希望被搜索引擎找到的路径加到Disallow:后面,就可以了。
例如:
#All Robots will spider the domain
User-agent: *
Disallow: /admin/
这样就屏蔽了所有搜索引擎对admin目录的访问。
但是,别高兴的太早,聪明反被聪明误!
现在黑客要获得你的后台及数据库路径比以前更简单了!只要在网站域名后加上robots.txt(例如/robots.txt),这时,这个文件里所有的内容就原封不动显示在黑客的浏览器中!!!被你屏蔽搜索的后台路径及数据库也就让黑客知道了,得来全不费功夫!!
下面告诉大家怎样防御。
很简单,在IIS中,选中robots.txt,右键,属性,选择“重定向到URL”,然后在“重定向到”中输入其他地址,比如
然后勾选“上面准确的URL”以及“资源的永久重定向”,就OK了!这时,黑客访问 /robots.txt时,就会被重定
向到(google的主页),他也就看不到robots.txt的内容了。
一般情况下,网站建立并运营之后总是希望被搜索引擎收录的数量越多越好。
但这只是通常情况下,大部分人所希望的。
有些时候,我们还是会希望搜索引擎蜘蛛不要访问网站的某些文件夹,当然也有不希望搜索引擎收录的页面。
比如说,网站刚刚建立并没有真正投入运营,还没有实质性的内容时;还有过多的收录页面导致网站权重的分散,而恰恰你想要聚拢权重到某些个最重要的页面时;再比如建立一个镜像网站,并主要通过其他的推广手段(这里指除了SEO以外的推广方法)对网站进行运营时。
而搜索引擎收录网站页面是需要通过蜘蛛访问网站,并对页面内容进行抓取。
所以通常情况下,想要阻止搜索引擎的收录就需要限制、屏蔽蜘蛛的访问与抓取。
下面笔者介绍几种常用的屏蔽蜘蛛抓取的方法。
1.robots.txt规则文件。
大家都知道robots.txt是指引搜索引擎蜘蛛对该网站访问与否的规则,平时运用的也比较多。
一般的建议是不论网站是否有需要屏蔽收录的内容,都要在根目录下建立robots.txt文件。
robots.txt文件规则的写法很简单,比如需要屏蔽某一个搜索引擎的蜘蛛访问所有目录,就这样写:User-agent:GooglebotDisallow:/再比如禁止所有蜘蛛访问、抓取某一个目录则:User-agent:*Disallow:/admin/2.robots Meta标签。
如果说robots.txt是一个放在网站中的规则文件,那robots Meta就是放在某个网页中的标签。
两者的实际功能是大致相同的,但robots.txt是大部分搜索引擎都支持的方式,而后者却是大部分搜索引擎都不支持的。
另外相比较下,robots Meta用来对某几个页面单独设置时使用。
robots Meta标签必须存放在“<head>…</head>”代码之内:<head>…<meta name=”robots” content=”index,follow” /></head>其中“index”指的是索引,“follow”指的是跟踪链接并传递相应的权重。
1.robots.txt例1.禁止所有搜索引擎访问网站的任何部分User-agent: * Disallow: /例2.允许所有的robot访问(或者也可以建一个空文件"/robots.txt") User-agent: * Disallow:或者User-agent: * Allow: /例3. 仅禁止Baiduspider访问您的网站User-agent: Baiduspider Disallow: /例4. 仅允许Baiduspider访问您的网站User-agent: Baiduspider Disallow:User-agent: * Disallow: /例5. 禁止spider访问特定目录在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot 不会访问这三个目录。
需要注意的是对每一个目录必须分开声明,而不能写成"Disallow: /cgi-bin/ /tmp/"。
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/例6. 允许访问特定目录中的部分url User-agent: * Allow: /cgi-bin/see Allow: /tmp/hi Allow: /~joe/look Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/例7. 使用"*"限制访问url禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: * Disallow: /cgi-bin/*.htm例8. 使用"$"限制访问url仅允许访问以".htm"为后缀的URL。
User-agent: * Allow: .htm$ Disallow: /例9. 禁止访问网站中所有的动态页面User-agent: * Disallow: /*?*例10. 禁止Baiduspider抓取网站上所有图片User-agent: Baiduspider仅允许抓取网页,禁止抓取任何图片。
避免蜘蛛陷阱的十大总结做SEO的童鞋都知道,网站被搜索引擎收录是关键,如果你的站点没有被搜索引擎收录,那么SEO就无从谈起。
所以要想网站能够被搜索引擎发现且网页能够被搜索引擎正常收录,那么首先就得使自己的站点便于蜘蛛的爬行。
搜索引擎爬取网页的工具被称之为蜘蛛或爬虫机器人,英文名即robot。
这些蜘蛛沿着超链接爬取我们的众多页面,但是有些页面是爬不到的,有的是因为网站自身存在一些不利于蜘蛛爬行,导致其对应的页面很难被搜索引擎收录,这样就形成了“蜘蛛陷阱”,一般指的是对搜索引擎不友好的网站制作技术,这些技术不利于蜘蛛爬取我们的页面,为了避免这种情况,小无名总结了如下因素,防止蜘蛛进入陷阱。
1:采用session id的页面,有的销售类站点为了分析用户的某些信息会采用会话ID来跟踪用户,访问站点的时候每个用户访问都会增加一次session id 而加入到URL中,同样蜘蛛的每一次访问也会被当做为一个新用户,每次蜘蛛来访问的URL中都会加入一个session id,这样就会产生了同一个页面但URL不同的情况,这种的一来会产生复制内容页面,造成了高度重复的内容页,同时也是最常见的蜘蛛陷阱之一。
比如说有的网站的为了提高销售业绩,而进行弹窗会话等,比如说您好来自XXX地的朋友等。
2:常识性的蜘蛛陷阱,采用强制注册或登录才能访问的页面,这种的对于蜘蛛来说就相当为难了,因为蜘蛛无法提交注册更无法输入用户名和密码登录查看内容,对于蜘蛛来说我们直接点击查看到的内容也是蜘蛛所能看到的内容。
3:喜欢采用flash的站点,之所以说是喜欢采用flash的站点是因为对于一些中小型企业来说,因为flash本身可以做很多种效果,尤其是放在导航上视觉效果强,所以不少企业站喜欢弄个flash来展示自己公司的实力,文化,产品等,甚至一些企业站点的网站首页就是一个flash,要么是在多长时间后通过flash跳转到另外一个页面,要么就是通过flash上的链接让用户自己点击后进入一个新的页面,但是对于蜘蛛来说一来是很难读取 flash中的内容,所以蜘蛛也很难点击flash上的链接。
和之间)放置如下的一段代码。
以上的一段代码限制了所有的搜索引擎建立你的网页快照。
如果我们需要仅仅限制一个搜索引擎建立快照的话,就可以像如下这样去写需要注意的是,这样的标记仅仅是禁止搜索引擎为你的网站建立快照,如果你要禁止搜索引擎索引你的这个页面的话,请参照后面的办法。
第二种情况:禁止搜索引擎抓取本页面。
在SEO中,禁止搜索引擎抓取本页面或者是允许搜索引擎抓取本页面是经常会用到的。
因此我们需要对这一部分重点做一次讨论。
为了让搜索引擎禁止抓取本页面,我们一般的做法是在页面的元标记中加入如下的代码:在这里,META NAME="ROBOTS"是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎,例如META NAME="Googlebot"、META NAME="Baiduspide"等。
content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。
INDEX命令:告诉搜索引擎抓取这个页面FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
NOINDEX命令:告诉搜索引擎不允许抓取这个页面NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
根据以上的命令,我们就有了一下的四种组合:可以抓取本页,而且可以顺着本页继续索引别的链接:不许抓取本页,但是可以顺着本页抓取索引别的链接:可以抓取本页,但是不许顺着本页抓取索引别的链接:不许抓取本页,也不许顺着本页抓取索引别的链接。
这里需要注意的是,不可把两个对立的反义词写到一起,例如或者直接同时写上两句这里有一个简便的写法,如果是的形式的话,可以写成:如果是的形式的话,可以写成:当然,我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。
从上面的文章中我们得知,禁止建立网页快照的命令是noarchive,那么我们就可以写成如下的形式:如果是对于单独的某个搜索引擎不允许建立快照,例如百度,我们就可以写成:如果在元标记中不屑关于蜘蛛的命令,那么默认的命令即为如下因此,如果我们对于这一部分把握不准的话,可以直接写上上面的这一行命令,或者是直接留空。
robots文件禁止蜘蛛方法大全
有些时候我们会遇到这样的困难:我们原本不想被搜索引擎收录的网站后台地址却被搜索引擎“无情”的收录,这样只要在Google里输入一个“后台、管理site:”,自己的后台地址就会显露无疑,因此网站安全性也无从谈起。
遇到这样的情况时,我们如何阻止搜索引擎收录我们不想被收录的文件呢?
一般在这个时候,我们常用的办法有两个,一个是编辑robots.txt文件,另外一个是在不想被收录的页面头部放置META NAME="ROBOTS"标签。
所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。
通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。
在很多网站中,站长们都忽略了使用robots.txt文件。
因为很多站长都认为,自己的网站没有什么秘密可言,而且自己也不太会使用robots.txt的语法,因此一旦写错了会带来更多的麻烦,还不如干脆不用。
其实这样的做法是不对的。
在前面的文章中我们知道,如果一个网站有大量文件找不到的时候(404),搜索引擎就会降低网站的权重。
而robots.txt 作为蜘蛛访问网站的第一个文件,一旦搜索引擎要是找不到这个文件,也会在他的索引服务器上记录下一条404信息。
虽然在百度的帮助文件中,有这样的一句话“请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。
如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
”但是我个人还是认为建立robots.txt还是必须的,哪怕这个robots.txt文件是一个空白的文本文档都可以。
因为我们的网站毕竟不是仅仅会被百度收录,同时也会被其他搜索引擎收录的,所以,上传一个robots.txt文件还是没有什么坏处的。
如何写一个合理的robots.txt文件?
首先我们需要了解robots.txt文件的一些基本语法。
有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还可以采取直接屏蔽图片后缀名的方式。
具体办法如下。
在了解了以上这些基础的语法之后,对于robots.txt的写法各位已经有了一个大概的概念了,不过在学习写作robots.txt文件时,我们还必须要了解一些大型搜索引擎的蜘蛛名称,这样可以便于我们写做robots.txt文件。
注意:以上蜘蛛名称请按照图表区分大小写
在上面这些搜索引擎蜘蛛中,我们最常用的就是Googlebot和Baiduspider,因此对这两个蜘蛛的用法要特别注意。
以上的robots.txt文件可以帮助我们对于搜索引擎的访问做一个限制,这里需要注意的有几个方面。
1、robots.txt文件必须处于网站根目录下,而且必须命名为robots.txt
2、robots.txt文件的文件名全部是小写字母,没有大写字母。
3、如果对于robots.txt文件的写法把握不准,那么可以直接放一个空的文本文档,命名为robots.txt即可。
好了,以上我们介绍了robots.txt的写法。
这时候有一个问题,有些时候我们会遇到一些实际的特殊情况,那么遇到特殊情况我们应当怎样处理呢?一下就对限制搜索引擎的原标签(META)做一个介绍。
第一种情况:限制网页快照
很多搜索引擎都提供一个网页快照的功能。
但是网页快照功能却有很多的弊端,例如事实内容在网页快照中更新不及时、索引网页快照浪费大量的服务器资源等。
因此,我们有些时候可能并不需要搜索引擎来索引我们某个页面的网页快照。
解决这样问题的办法很简单,只需要在你的网页元标记中(<head>和</head>之间)放置如下的一段代码。
<meta name="robots" content="noarchive">
以上的一段代码限制了所有的搜索引擎建立你的网页快照。
如果我们需要仅仅限制一个搜索引擎建立快照的话,就可以像如下这样去写
<meta name="Baiduspider" content="noarchive">
需要注意的是,这样的标记仅仅是禁止搜索引擎为你的网站建立快照,如果你要禁止搜索引擎索引你的这个页面的话,请参照后面的办法。
第二种情况:禁止搜索引擎抓取本页面。
在SEO中,禁止搜索引擎抓取本页面或者是允许搜索引擎抓取本页面是经常会用到的。
因此我们需要对这一部分重点做一次讨论。
为了让搜索引擎禁止抓取本页面,我们一般的做法是在页面的元标记中加入如下的代码:
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
在这里,META NAME="ROBOTS"是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎,例如META NAME="Googlebot"、META NAME="Baiduspide"等。
content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。
INDEX命令:告诉搜索引擎抓取这个页面
FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
NOINDEX命令:告诉搜索引擎不允许抓取这个页面
NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
根据以上的命令,我们就有了一下的四种组合
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。
这里需要注意的是,不可把两个对立的反义词写到一起,例如
<META NAME="ROBOTS" CONTENT="INDEX,NOINDEX">
或者直接同时写上两句
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
这里有一个简便的写法,如果是
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">的形式的话,可以写成:
<META NAME="ROBOTS" CONTENT="ALL">
如果是
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">的形式的话,可以写成:
<META NAME="ROBOTS" CONTENT="NONE">
当然,我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。
从上面的文章中我们得知,禁止建立网页快照的命令是noarchive,那么我们就可以写成如下的形式:<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW,noarchive">
如果是对于单独的某个搜索引擎不允许建立快照,例如百度,我们就可以写成:
<META NAME=" Baiduspider" CONTENT="INDEX,FOLLOW,noarchive">
如果在元标记中不屑关于蜘蛛的命令,那么默认的命令即为如下
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW, archive">
因此,如果我们对于这一部分把握不准的话,可以直接写上上面的这一行命令,或者是直接留空。
在SEO中,对于蜘蛛的控制是非常重要的一部分内容,所以希望各位看官准确把握这部分的内容。