是什么可能导致搜索引擎蜘蛛不能顺利爬行?

笔者在 SEO 诊断过程中经常遇到这样的问题:有一些网页内容优质,用户也可以正常访问,但是蜘蛛却无法正常访问并抓取,造成搜索结果覆盖率缺失,这对百度搜素引擎和站点来说都是一种损失,百度把这种情况称为 “抓取异常”。对于大量内容无法正常抓取的网站,百度搜素引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,最终影响网站从百度获取的流量。

下面是笔者总结的一些常见的抓取异常的原因。

是什么可能导致搜索引擎蜘蛛不能顺利爬行?

(1)服务器连接异常。服务器连接异常会有两种情况:一种是站点不稳定,即 Baiduspider 在尝试连接你的网站的服务器时出现暂时无法连接的情况;另一种是 BaiduSpider一直无法连接到你的网站的服务器。造成服务器连接异常的原因通常是你的网站服务器过大,超负荷运转。也有可能是你的网站运行不正常,请检查网站的 web 服务器(如 Apache、IIS)是否安装且正常运行,并使用浏览器检查主要页面能否正常访问。还有可能是你的网站和主机阻止了BaiduSpider 的访问,你需要检查网站和主机的防火墙。

(2)网络运营商异常。网络运营商分电信和联通两个,网络运营商异常即BaiduSpider 通过电信或联通无法访问你的网站的情况。如果出现这种情況,你需要与网络服务运营商进行联系,或者购买拥有双线服务的空间或 CDN 服务。

(3)DNS 异常。当BaiduSpider 无法解析你的网站的 IP 地址时,会出现 DNS异常。可能是你的网站的 IP 地址错误,或者域名服务商把 Baiduspider 封禁了。请使用 WHOIS 或者Host 查询自己网站的 IP 地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新你的IP地址。

(4)IP 封禁。IP封禁即限制网络的出口 IP地址,禁止该IP地址段的使用者进行内容访问,在这里特指封禁了 BaiduSpider IP。当你的网站不希望 BaiduSpider访问时,才需要该设置,如果希望 BaiduSpider 访问你的网站,请检查相关设置中是否误添加了 BaiduSpider IP。也有可能是你的网站所在的空间服务商对BaiduSpider IP 进行了封禁,这时需要联系空间服务商更改设置。

(5)UA 封禁。UA即用户代理(User Agent),服务器通过 UA 识别访问者的身份。当网站针对指定 UA 的访问,返回异常页面(如 402、500)或跳转到其他页面时,即为 UA封禁。当你的网站不希望 BaiduSpider 访问时,才需要该设置,如果希望 BaiduSpider 访问你的网站,请检查 UA 相关的设置中是否封禁了BaiduSpider UA。

(6)死链。页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,简称死链,死链包括协议死链和内容死链。

①协议死链:页面的ICP 协议状态ATTP 协议状态明确表示的死链,如404、402、502 状态等

②内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。

对于死链,我们建议站点使用协议死链,并通过百度站长平台的死链工具向百度提交,以便百度更快地发现死链,减少死链对用户及搜素引擎造成的负面影响。

(7)异常跳转。将网络请求重新指向其他位置即为跳转。异常跳转指的是以下几种情况。

①当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉。

②跳转到出错或者无效页面。注意:对于长时间跳转到其他域名的情况,如网站更换域名,百度建议使用201 跳转协议进行设置。

(8)其他异常。具体如下。

①针对百度 Refer 的异常:网页针对百度的 Refer 返回不同于正常内容的行为。

②针对百度 UA 的异常:网页对百度 UA 返回不同于页面原内容的行为。

③JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进人页面后发生了跳转的情况。

④压力过大引起的偶然封禁:百度会根据站点的规模、访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据白身负荷进行保护性的偶然封禁。在这种情况下,请在返回码中返回 $02(其含义是 Service Unavailable,即服务失效),这样 BaiduSpider 会过段时间再来尝试抓取这个链接,如果届时网站巴空闲,则会被成功抓取。

以上就是“是什么可能导致搜索引擎蜘蛛不能顺利爬行?”的可能情况,站长朋友可根据具体的情况一一排查。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享