一、几乎很多站点都无法避免死链接的存在,但高死链接率会影响搜索引擎对网站的评价。
二、搜索引擎仅限于每天抓取每个网站的频率。如果网站有很多死链接,就会浪费抓取配额,影响正常页面的抓取。
三、过多的死链对网站用户来说也是一个糟糕的表现。
百度站长工具有一个抓取异常,那么这个工具是如何产生异常数据的呢?
编辑错误或程序员的粗心大意使页面产生一个没有页面的URL。
由于程序或页面调整或修订,无法打开原始正常页面
由于程序更改,无法打开某些正常页。
由于服务器、空间或程序问题,无法访问网站,因此抓取异常中将出现大量500个错误页。
当单个爬虫程序提取页面URL时,它们只提取URL的一部分或正常URL之后的文本或字符。
由于网站修改过程中处理不当,导致一些旧页面无法访问,或者网站管理员删除被黑、被广告、过期、被水淹的页面。
1、除了检索错误页之外,许多错误页都是由于程序员的粗心大意或我们程序的问题造成的。它们应该是普通的页面,因为由于错误而无法访问它们。对于这样的页面,请尽快修复。
2、提交死链接,但必须有许多错误的网页,不应该存在。那么我们需要找到一种获取此类页面的URL的方法,主要有三种方式:
(1) 百度站长工具-抓取异常-页面未找到-复制数据[修复:这里不需要提交死链,百度站长工具自动提交死链];
(2) 管理员在删除页面时手动或自动保存被删除页面的URL;
(3) 使用相关的爬虫软件对整个站点进行爬虫,获得死链,如Xenu。
然后将上面处理的数据粘贴到网站根目录下的文档中,并将文档地址提交到百度站长工具-网页抓取-死链提交-添加新数据-填写死链文件地址。
将规则添加到robots文件后,必须到百度站长的robots工具进行验证,将指定的错误页面放入,查看阻塞是否成功,然后将正常页面放入,查看是否被错误阻塞。
相关注意事项:
一、在百度站长工具中提交死链之前,请确保提交的死链数据中没有活动链接,或者有一个HTTP状态代码不是404的页面。一旦有一个活动链,它将显示提交失败,无法删除。
二、由于很多网站程序问题,很多无法打开的页面返回码都不是404,这是一个很大的问题。例如,无法打开的页的返回码是301、200、500。如果他们是200,不同的网址将出现在网站上,以获得相同的内容。例如,在我的一个网站上,社区帖子被删除后,返回代码实际上是500。后来,我发现了,立即处理。我们试图找出所有错误的URL格式,并在打开后将HTTP状态代码设置为404。
三、在找到所有错误的页面后,一定要找到这些页面的URL的相同特性,并将它们与普通页面的特性区分开来。将相应的规则写入robots文件,并禁止spider获取它们。即使你已经在网站管理员工具中提交了死链,建议机器人拦截并抓取它们。
四、机器人只能解决蜘蛛不再抓取这样的页面的问题,但不能解决删除已经抓取的页面快照的问题。如果你的网站是黑色的,并且你删除了黑色页面,除了机器人阻止了黑色页面外,你还应该将这些页面提交到死链。提交死锁是删除黑页快照的快方式。