利用Robots解决404错误页分权问题
- 格式:doc
- 大小:28.00 KB
- 文档页数:2
•网站的死链接和错误链接是难以避免的,站内文章的删除、网站的改版都会遗留下很多死链接,错误链接的来源主要是在外链发布中可能会因为输错或遗漏一些字符而导致链接无法访问,当一个用户访问网站时,有出现友好的404页面,那么不管是死链接还是错误的链接,都可以很好的将用户引导进入网站,可以说404页面的制作是提升用户体验的一大表现,是网站不可或缺的一部分。
404页面的制作其实不难,操作一遍几乎就可以掌握。
对于404页面的制作,个人认为不需要太花哨,应该结合自己的网站主题去制作,特别是一些关于转化率的网站,更应该慎重考虑,稍微有点疏忽,制作的页面过于偏离,可能会让用户有种不信任的感觉;用户对于网站的第一感觉是很重要的,一旦他门认可,那么成功的几率就非常高的,而如果当用户因为网站的某些不足而咨询你时,那么成功的几率就大大减小,无论你怎么解释,他都会产生些怀疑和不信任。
观察了很多大型网站,他们的404页面制作都有所不同,新浪的是5秒内跳转到导航页,admin5的没有设置跳转,直接到404错误页面;对于404页面,SEOER主要有两个问题经常会遇到的,一是404页面是否需要用robots进行屏蔽,二是是否需要设置自动跳转到首页,下面说下自己对于这两方面的一个看法:一、是否需要用robots进行屏蔽?很多站长认为404页面应该用robots进行屏蔽,因为没有屏蔽的话可能会让搜索引擎抓取太多的重复页面,事实上站长能屏蔽的只有一个404.htm页面,而其他用户访问的错误页面或死链接页面根本没办法屏蔽,最多只能通过观察iis日志,进行相对于的屏蔽,比如一些因为外部地址写错的链接,本来发布的链接是/xxjj,在外链发布是写成/xxj,漏掉了一个字母,那蜘蛛可能就会爬取这个链接,这个错误的页面就很有可能被搜索引擎收录,因此对于404页面个人认为是根本没办法进行一一屏蔽的。
二、是否需要自动跳转到首页?对于404页面是否需要设置自动跳转到首页,产生了比较大的争议,一些站长认为跳转到首页有利于首页权重的提升,一些站长认为跳转的时间不宜太快,时间应该在10秒货20秒为宜,而新浪的404页面跳转的时间为5秒钟:但新浪并不是直接跳转到首页,而是跳转到导航页面。
避免死链接的方法1、避免死链接页面被收录一个网站的运营,死链接的出现是不可避免的。
当我们删除一个栏目或者删除某一篇内容的时候,无论这一些页面收录与否,我们都需要进行屏蔽处理。
有的人可能有疑惑,为什么没有收录的页面也要进行屏蔽了,其实原因很简单,搜索引擎的收录有时并不是收录后就马上放出来,而是要过一阶段才放出。
这一些虽然没被放出来的但是已经收录的页面我们也不可忽视。
我们可以借由404错误页面或者使用robots文件进行屏蔽处理。
2、避免重复的页面被收录如果你有仔细的阅读过百度的优化指南,你应该会记得其中有一条信息是关于重复页面的信息,该提示指出如果我们站点上有两个不同的URL地址指向一个相同的页面的话,那么搜索引擎只会在两者之中知其一。
而搜索引擎起初并不能区分要收录哪一个页面,会将所有的重复页面都收录。
虽然我们的收录之后有成倍增长,但是最终都会被搜索引擎剔除。
这就导致我们的收录数量出现大的波动。
而且如果出现大量重复的页面有可能会被搜索引擎直接认为是作弊的手段。
当然避免重复的页面被收录也不能,我们只要通过robots屏蔽掉这些链接,或者使用重定向将这些页面重定向到标准的我们想让搜索引擎收录的页面就可以了。
3、避免收录对搜索引擎不友好的页面在用户的友好体验与SEO上我们难免会遇到两难的局面,一个页面的质量高低,搜索引擎与用户之间的评判总是存在着一定的差异。
可能我们有一个页面对于用户友好,但是对搜索引擎不友好的话,我们就可以适当的屏蔽这些页面,让搜索引擎无法收录。
举一个简单的实例,我们可以发现很多论坛都开始有广告专区,这一个板块的目的方便用户发布广告,和获得广告信息,但是我们也不得不免对一个问题,就是在这一板块中可能出现内容的质量低,很多内容都是直接复制重复的,或者是文章中充满了外链等等,这些页面虽然用户看起来并不反感,但是在搜索引擎严重这些是一些质量非常低的页面,而且这些页面中链接有可能是一些被惩罚的网站的链接,假如我们放着这些页面被搜索引擎收录,无非对站点的SEO是一大打击。
常见HTTP状态(304,200等)
在网站建设的实际应用中,容易出现很多小小的失误,就像mysql当初优化不到位,影响整体网站的浏览效果一样,其实,网站的常规http状态码的表现也是一样,Google无法验证网站几种解决办法,提及到由于404状态页面设置不正常,导致了google管理员工具无法验证的情况,当然,影响的不仅仅是这一方面,影响的更是网站的整体浏览效果。
因此,比较清楚详细的了解http状态码的具体含义,对于一个网站站长来说,这是很有必要俱备的网站制作基础条件。
如果某项请求发送到您的服务器要求显示您网站上的某个网页(例如,用户通过浏览器访问您的网页或Googlebot 抓取网页时),服务器将会返回HTTP 状态码响应请求。
此状态码提供关于请求状态的信息,告诉Googlebot 关于您的网站和请求的网页的信息。
一些常见的状态码为:
•200–服务器成功返回网页
•404–请求的网页不存在
•503–服务器超时
下面提供HTTP 状态码的完整列表。
点击链接可了解详情。
您也可以访问HTTP 状态码上的W3C 页获取更多信息。
1xx(临时响应)
表示临时响应并需要请求者继续执行操作的状态码。
3xx(重定向)
要完成请求,需要进一步操作。
通常,这些状态码用来重定向。
Google 建议您在每次请求中使用重定向不要超过5 次。
您可以使用网站管理员工具查看一下Googlebot 在抓取重定向网页时是否遇到问题。
诊断下的网络抓取页列出了由于重定向错误导致Googlebot 无法抓取的网址。
如有侵权请联系告知删除,感谢你们的配合!。
有的时候,站长并不希望某些页面被抓取和收录,如付费内容、还在测试阶段的页面复制内容页面等。
网站上不出现链接,或者使用davaScript. 1~ lash链接,使用nofollow等方法都不能保证页面一定不被收录·站长自己虽然没有链接到不想被收录的页面,其他网站可能由于某种原因出现导入链接,导致页面被收录。
要确保页面不被收录,需要使用bots文件或Meta Robots标签。
1. robots文件搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。
只有在需要禁止抓取某些内容时,写robots.txt才有意义。
robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。
有的服务器设置有问题,robots文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这有可能使搜索引擎错误解读robots 文件信息,所以建议就算允许抓取所有内容,也要建一个空的robots.txt文件,放在根目录下。
robots文件由记录组成,记录之间以空行分开。
记录格式为:<域>:<可选空格><域值><可选空格>最简单的robots文件:User-agent:*Disallow:/上面这个robots文件禁止所有搜索引擎抓取任何内容。
User-agent:指定下面的规则适用于哪个蜘蛛。
通配符*代表所有搜索引擎。
只适用于百度蜘蛛则用:User-agent: Baiduspider只适用于Google蜘蛛则用:User-Agent: GooglebotDisallow:告诉蜘蛛不要抓取某些文件或目录。
Disallow:禁止的目录或文件必须分开写,每个一行。
下面的指令相当于允许所有搜索引擎抓取任何内容:User-agent:*Disallow:主流搜索引擎都遵守robots文件指令,robots. txt禁止抓取的文件搜索引擎将不访问,不抓取。
robots.txt使用误区与技巧-电脑资料1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件),。
每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。
比如:大多数网站服务器都有程序储存在“CGI-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。
一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
下面是VeryCMS里的robots.txt文件:User-agent: *Disallow: /admin/ 后台管理文件Disallow: /require/ 程序文件Disallow: /attachment/ 附件Disallow: /images/ 图片Disallow: /data/ 数据库文件Disallow: /template/ 模板文件Disallow: /CSS/ 样式表文件Disallow: /lang/ 编码文件Disallow: /script/ 脚本文件3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。
那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
4. robots.txt文件里还可以直接包括在sitemap文件的链接。
就像这样:目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN,电脑资料《robots.txt使用误区与技巧》(https://www.)。
而中文搜索引擎公司,显然不在这个圈子内。
404页⾯设置的⽅法以及删除快照的技巧404页⾯设置及删除已收录页⾯的处理⽅法之前做过⼀个⽹站遇到这样的问题:⽹站改版之后遗留了很多死链接,为了让百度不收录这些页⾯,于是设置了404页⾯,但是后来发现,这些⼤量的 404页⾯百度仍然在收录,多次向百度提交过死链,依然没有改善。
有⼈说这是百度的问题,很多⼈都遇到过这种情况。
这样的问题如果属于⽐较⼩型的⽹站可能很难感觉到影响,但是⼀旦⽹站规模⽐较⼤,⽽且死链⼜⽐较多,就会对⽹站本⾝的收录、权重、排名、流量带来影响。
最后在⼀些朋友的帮助下,404页⾯的收录问题终于得到解决。
这⾥也说⼀些题外话,如果你的⽹站遇到了⾃⼰暂时不能解决的问题,不妨多和别⼈沟通交流,相信会有⼈能很快的解决你的这些疑难问题。
我们都知道404页⾯的⼀些基本规则,但是却很少有⼈重视,即使你发现了这些问题也因为感觉问题不⼤就没有继续深究下去。
不过,如果你任由这样的漏洞存在,时间长了就会⾃⾷其果了,所以笔者建议作为站长,任何细微的问题都应该有穷追猛打的劲头。
这⾥,我将⾃⼰对404页⾯的⼀些新的认识分享出来,也欢迎更多的朋友跟我交流合作。
404页⾯会不会被收录关于这个问题,看法并不统⼀,有⼈说404页⾯不会被收录,404本⾝就是告诉搜索引擎以及访问者这个页⾯已经不存在了,请绕道或者去其他的页⾯逛逛。
也有⼀些⼈认为404页⾯会被收录。
在企赢001可以找到⽐较专业的说法:搜索引擎不会收录404页⾯,但是有例外的情况,那就是已经收录过的页⾯被删除后设置的404,百度会收录。
这⼀点,跟笔者的⽹站遇到的情况类似,笔者也是通过企赢001的专家才解决了这些问题。
404页⾯被收录的危害:404页⾯收录的⼀个特征就是已经设置了404的页⾯,百度仍然放出来,可以检索的到,但是快照⼀直不会更新。
少数的404页⾯被收录,或者你的⽹站本⾝就没有多少404页⾯,就不会感觉多有多少危害。
⽽对于哪些成⽴不久,但是发展快速的⽹站来说,庞⼤的数据之下就必然有⼤量的死链、错误链接,这时候你就不能回避404页⾯被收录的问题。
robots.txt文件中应该屏蔽哪些目录一个合格的网站,必须在根目录下包含一下robots.txt文件,这个文件的作用对所有运营网站的朋友来说并不陌生,网上也提供了很多制作robots.txt 文件的方法和软件,可谓相当方便。
但是,你真的知道网站的robots.txt文件设置是否合理,哪些文件或者目录需要屏蔽、哪些设置方法对网站运营有好处?那下面带着这些疑问,笔者会进行详细的解答,希望对新手站长朋友们有所帮助,老鸟勿喷。
一、什么是robots.txt笔者引用百度站长工具中后段话来解释。
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。
spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。
您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
二、robots.txt文件对网站有什么好处1、快速增加网站权重和访问量;2、禁止某些文件被搜索引擎索引,可以节省服务器带宽和网站访问速度;3、为搜索引擎提供一个简洁明了的索引环境三、哪些网站的目录需要使用robots.txt文件禁止抓取1)、图片目录图片是构成网站的主要组成元素。
随着现在建站越来越方便,大量CMS的出现,真正做到了会打字就会建网站,而正是因为如此方便,网上出现了大量的同质化模板网站,被反复使用,这样的网站搜索引擎是肯定不喜欢的,就算是你的网站被收录了,那你的效果也是很差的。
如果你非要用这种网站的话,建议你应该在robots.txt文件中进行屏蔽,通常的网站图片目录是:imags 或者 img;2)、网站模板目录如上面图片目录中所说,CMS的强大和灵活,也导致了很多同质化的网站模板的出现和滥用,高度的重复性模板在搜索引擎中形成了一种冗余,且模板文件常常与生成文件高度相似,同样易造成雷同内容的出现。
什么是robots?如何设置robots?robots是位于网站根目录的一个TXT文本文件,主要的作用是告诉搜索引擎那些页面可以抓取,那些页面不可以抓取。
一、robots定义:robots是网站和搜索引擎爬虫之间的协议,当搜索引擎爬虫爬取一个网站之前,第一先访问该网站有没有robots协议,如果有按照设置的robots协议进行对网站的抓取,如果没有默认网站所有页面都可以被抓取。
搜索引擎通过一个程序(搜索引擎蜘蛛),自动获取互联网上数亿的网页,经过分析和对比,筛选出质量优质的网页,进行收录和索引,最后得到网页的排名,用户查询关键词就可以访问到被收录的网页。
所以在网站的根目录创建一个robots协议用来告诉搜索引擎,网站这个页面可以被抓取,那个网页不让抓取。
可以说robots协议是对搜索引擎蜘蛛的行为设定了要求。
二、robots注意事项网站所有的内容都可以让搜索引擎抓取,我就不设置robots文件这是不对的,每次搜索引擎蜘蛛来到网站访问robots 文件都会生成一个404页面,网页不存在,对网站有不好的影响。
这种的可以在网站根目录放一个空的robots文件,什么都不写就可以了。
设置所有网页都让搜索引擎抓取,可以增加收目率这个想法也是错误的,搜索引擎对html文件情有独钟,对JS、框架等文件很是排斥。
网站的脚本文件、样式表等可以选择屏蔽,浪费服务器资源还得不到好处。
蜘蛛抓取浪费服务器资源,在robots协议中屏蔽所有搜索引擎这样就把搜索引擎蜘蛛屏蔽了,搜索引擎蜘蛛不会抓取网站内的内容,也不会有收录robots文件需要放置到网站的根目录,url格式域名+robots.txtrobots文件可以放置网站地图的链接,搜索引擎蜘蛛每次到网站首先访问的就是robots文件,所以放上网站的网站地图,有利于搜索引擎蜘蛛发现更多的链接。
robots文件必须是小写命名三、robots协议的设置robots文件的设置有两种参数,一个允许,一个拒绝。
宝塔文件配置返回404的规则宝塔文件配置返回404的规则可以帮助网站管理员解决页面找不到的问题,提升用户体验,增加网站的可靠性和可访问性。
下面将详细介绍宝塔文件配置返回404的规则,以及如何进行配置。
一、什么是404错误页面?当网页无法被找到时,服务器会返回一个404错误码,告诉用户所请求的资源不存在。
这通常是由于网页链接错误、文件被删除或者文件移动导致的。
如果不进行处理,用户将看到一个空白页面或者服务器默认的错误页面,给用户带来不好的使用体验。
二、为什么要配置404错误页面?配置404错误页面可以提升网站的可访问性和用户体验。
通过自定义404错误页面,可以向用户展示一个友好的页面,提供相关的导航和搜索功能,帮助用户找到他们想要的信息或页面。
并且,通过配置404错误页面,还可以避免用户在页面找不到时离开网站,增加网站的黏性和转化率。
三、宝塔文件配置返回404的规则步骤1. 登录宝塔面板并进入网站的文件管理页面。
2. 在文件管理页面,找到网站的根目录,一般是public_html目录。
3. 在根目录下创建一个名为"404.html"的文件,这个文件将作为404错误页面的内容。
4. 打开网站根目录下的`.htaccess`文件,如果没有该文件,可以通过宝塔面板的文件编辑功能新建一个。
5. 在`.htaccess`文件中添加以下代码:```ErrorDocument 404 /404.html```其中,`/404.html`是你刚刚创建的404错误页面的路径,可以根据自己的情况进行修改。
6. 保存`.htaccess`文件并关闭文件编辑器。
7. 访问网站上一个不存在的页面,应该能够看到你刚刚创建的404错误页面。
8. 根据需要,可以在404错误页面中添加导航、搜索框等功能,方便用户导航和搜索相关内容。
四、常见问题和注意事项1. 确保宝塔面板和所使用的服务器支持`.htaccess`文件。
Robots的作用相信很多站长都比较了解,说robots是搜索引擎的敲门砖一点也不错,robots限制搜索引擎抓取哪些页面,不允许抓取哪些页面,对网站来说,至关重要!本文针对robots的作用,对404错误页面的分权问题做一个解释!
Robots文件是搜索引擎访问网站时第一个要读取的文件,它告诉搜索程序服务器上哪些内容可以抓取,哪些不用抓取。
目前网站的robots文件里面的抓取规则已经日趋完善,比如禁止了网页中图片的抓取,禁止蜘蛛抓取一些会员隐私(个人简历)页面、一些无用页面(之前的推广页面)、样式表文件等,但是仍然有部分页面并不需要蜘蛛程序的抓取,这部分页面只是面向用户的,搜索引擎抓取了并没有什么意义,瓜分了页面的权重。
一、网站的404页面
每个网站都存在一些错误页面,404页面的存在就是为了当用户访问了错误页面的时候能够将用户引导到正确的页面上,防止网站流量的流失。
而一个页面较多的网站肯定存在很多的错误页面,这就导致存在很多相似的404页面。
所以,一旦404页面太多,而还让搜索引擎去收录,就会导致网站把权重分给这些404页面,所以应该屏蔽404页面。
添加规则:Disallow:/404.html
二、网站部分导航页面
网站底部的一些导航页面,如“市场合作”“网站声明”“付费方式”等都是针对客户的页面,几乎没有用户通过搜索引擎上搜索这些页面并到达网站,而且这些导航页面是全站显示的,所有的内容页面都存在,同样的也要分散这些页面的权重。
这部分页面都是位于同一目录/main下,该目录下除保留部分页面需蜘蛛进行抓取外,其他页面可以都禁止,保留页面为:“关于我
们”(main/aboutus.asp),友情链接(main/friendlink.asp)。
此外“资费标准”“付费方式”页面位于企业会员中心页面,这些页面也没有必要对搜索引擎开放。
添加规则:
Allow:/main/aboutus*
Allow:/main/friendlink*
Allow:/main/recruitmeeting*
Allow:/main/investigation*
Disallow:/main/
Disallow:/company/companyapplymember*
将现有规则中最后一条删除:disallow: /main/refuse*
将新添加的两条“Allow”规则放到disallow命令的前面。
通过一些对搜索引擎抓取意义不大的页面,将首页和一些内容页面的权重更加集中。
文章由电视连续剧流影在线整理分享!。