您的位置: 主页 > 常用抓取返回码示意详解
石家庄SEO

常用抓取返回码示意详解

 百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,所以请站长们也尽量参考http协议中关于返回码的含义的定义来进行设置。百度spider对常用的http返回码的处理逻辑是这样的。     

 1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
        2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
        3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
        4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

石家庄SEO
上一篇:Baiduspider抓取过程中涉及的网络协议详解
下一篇:石家庄seo解答什么是反向链接

您可能喜欢

Baiduspider抓取次数原则以及调整方法

Baiduspider抓取次数原则以及调整方法

石家庄seo公司带你了解什么是MIP

石家庄seo公司带你了解什么是MIP

石家庄seo解答什么是反向链接

石家庄seo解答什么是反向链接

为什么每天更新网站还会降权

为什么每天更新网站还会降权

石家庄seo谈谈site语法

石家庄seo谈谈site语法

评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
回到顶部