Baidu spider抓取异样的起因
发布日期:2023-04-13浏览量:101
有一些网页,内容优质,用户也能够正常访问,可是baidu spider却没法正常访问并抓取,形成搜索后果笼盖率缺失,对百度搜索引擎、对站点都是一种损失,百度把这类情况叫“抓取异样”。对付大量内容没法正常抓取的网站,百度搜索引擎会以为网站存在用户体验上的缺点,并低落对网站的评价,在抓取、索引,排序上城市遭到必然水平的负面影响,终极影响到网站从百度获取的流量。
下面引见一些常见的抓取异样的起因。
(1)服务器连贯异样。服务器连贯异样会有两种情况。一种是站点不不变,baidu spider测验考试连贯网站的服务器时泛起暂时没法连贯的情况;另外一种是baidu spider一直没法连贯上网站的服务器。形成服务器连贯异样的起因常规是网站服务器过大,超负荷运转。也有能够是网站运转不正常,请检查网站的web服务器(如apache、is)是否装置且正常运转,并运用阅读器检查主要页面可否正常访问。网站和主机还能够阻挠了baidu spider的访问,需求检查网站和主机的防火墙。
(2)网络运营商异样。网络运营商分电信和联通两种,baidu spider经由过程电信或网通没法访问网站。若是泛起这类情况,需求与网络服务运营商进行接洽,或者购置领有双线服务的空间或者购置cdn服务。
(3)dns异样。当baidu spider没法剖析网站的p时,会泛起dns异样。能够是网站ip地址毛病,或者域名服务商把baidu spider封禁。请运用 whois或者host查询本身网站的ip地址是否正确且可剖析,若是不正确或没法剖析,请与域名注册商接洽,更新ip地址。
(4)ip封禁。限定网络的出口ip地址,禁止该p段的运用者进行内容访问、,这里特指封禁了baidu spider ip。当网站不但愿baidu spider访问时,才需求该配置,若是但愿baidu spider访问网站,请检查相干配置中是否误添了baidu spider ip.。也有能够是网站地点的空间服务商把百度p进行i了封禁,这日时需求接洽服务商更改配置。
(5)ua封禁。服务器经由过程ua辨认访问者的身份。当网站针对指定ua的访不但愿baidu spider访间时,才需求该配置,若是您但愿 baidu spider访问您的网站 问,返回异样页面(如403,500)或跳转到其余页面的情况,即为ua封禁。当网站useragent相干的配置中是否有baidu spider ua,并实时修改。
(6)死链。页面曾经无效,没法对用户提供任何有代价信息的页面就是死链接, 包括协定死链和内容死链两种模式协定死链。页面的tcp状况,http状况明确暗示的死链,常见的如40四、40三、503状况等。内容死链。服务器返回状况是正常的,但内容曾经变动为不存在,已删或需求权限等与原内容无关的信息页面。对付死链,倡议站点运用协定死链,并经由过程百度站长平台—死结工具向百度提交,以便百度更快地发现死链,削减死链对用户以及搜索引擎形成的负面影响。
(7)异样跳转。将网络要求从头指向其余位置即为跳转。异样跳转指的是如下几种情况:
①当前该页面为无效页面(如内容已删除。死链等),直接跳转到前一目次或者首页,百度倡议站长将该无效页面的人口超链接删除。
②跳转到出错或者无效页面注重:对付永劫间跳转到其余城名的情况,如网站更绕域名,百度倡议运用301跳转协定进行配置。
(8)其余异样。
①针对百度reer的异样:网页针对来自百度的mfe返回差别于正常内容的举动。
②针对百度ua的异样:网页对百度ua返回差别于页面原内容的举动。
③js跳转异样:网页设计加载了百度没法辨认的n跳转代码,使得用户经由过程搜索后果进入页面后产生了跳转的情况。
④压力过大惹起的偶尔封禁:百度会按照站点的规模、访问量等信息,自动设定一个合理的抓取压力。可是在异样情况下,如压力控制失常时,服务器会按照自身负荷进行庇护性的偶尔封禁。这类情况下,请在返回码中返回503(其寄义是service unavailable),如许baidu spider会过段时间再来测验考试抓取这个链接,若是网站已闲暇,则会被胜利抓取。
相关文章: