You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

求助:Googlebot占用HostGator经销商账户下网站带宽

解决Googlebot频繁访问HostGator经销商托管网站的问题

我帮你梳理下解决这个问题的步骤,毕竟Googlebot过度抓取确实会搞崩经销商账户的小服务器——我之前也遇到过类似情况,按下面的方法来大概率能缓解:

第一步:先确认是不是真的Googlebot

很多恶意爬虫会伪装成Googlebot的UA和IP段,先别着急限制,先验证真实性:

  • 用cPanel的终端或者本地命令行,执行反向解析命令:host 66.249.79.79,正常应该返回类似79.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-79.googlebot.com.的结果。
  • 再正向解析这个域名:host crawl-66-249-79-79.googlebot.com,看是否回到原IP 66.249.79.79。
  • 也可以直接在Google Search Console里的「设置」-「抓取统计」里查看官方的抓取记录,对比你的日志,确认是官方爬虫。

第二步:优化Google抓取策略

如果确认是真实Googlebot,那就要引导它合理抓取:

  • 检查你的robots.txt文件,添加抓取延迟设置:
    User-agent: Googlebot
    Crawl-delay: 10
    
    数值可以根据服务器承受能力调整(比如从10开始,观察CPU和带宽变化)。如果那个/MzhmLzUxNzE5LzhmLzE2NjYvZmgz.asp是无用页面(比如测试页、废弃页),直接在robots.txt里禁止:
    User-agent: Googlebot
    Disallow: /MzhmLzUxNzE5LzhmLzE2NjYvZmgz.asp
    
  • 登录Google Search Console,进入「设置」-「抓取设置」,手动调整「抓取速率限制」,告诉Google你的服务器能承受的频率(选「降低」选项,后续根据情况再调回来)。

第三步:利用HostGator经销商账户的工具缓解

作为经销商账户,资源配额有限,这几个操作能帮你:

  • 联系HostGator客服,说明Googlebot过度抓取导致的资源占用问题,问他们是否能临时提升你的账户资源配额,或者开启针对搜索引擎爬虫的缓存优化(很多主机商有专门的爬虫缓存机制)。
  • 检查cPanel里的「带宽使用」和「CPU使用率」面板,确认是不是Googlebot占了大部分资源。如果是的话,在确认爬虫真实的前提下,可以通过.htaccess临时限制特定页面的抓取(比如那个asp页),示例代码:
    <IfModule mod_setenvif.c>
    SetEnvIfNoCase User-Agent "^Mozilla/5.0 \(compatible; Googlebot/2.1; \+http://www.google.com/bot.html\)" GOOGLEBOT
    </IfModule>
    <IfModule mod_rewrite.c>
    RewriteEngine On
    RewriteCond %{ENV:GOOGLEBOT} ^1$
    RewriteCond %{REQUEST_URI} ^/MzhmLzUxNzE5LzhmLzE2NjYvZmgz.asp$
    RewriteRule ^ - [R=403,L]
    </IfModule>
    

第四步:分析访问日志找根源

导出cPanel的「原始访问日志」,仔细看Googlebot访问的页面:

  • 如果它反复访问同一页面,可能是页面内容频繁动态更新,或者存在大量重复参数(比如?id=1?id=2这种),这时候可以给页面加缓存,或者用canonical标签告诉Google哪个是主页面。
  • 如果是访问了很多不存在的页面(404),那可能是之前的链接有问题,或者被恶意提交了无效链接,这时候要提交404页面到Google Search Console,避免它反复抓取。

内容的提问来源于stack exchange,提问作者Prajwal

火山引擎 最新活动