You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

如何解除robots.txt文件中的资源封禁?现有配置求验证

分析你的robots.txt配置问题及解封方案

先看你当前的robots.txt,存在几个容易导致规则混乱的问题,我一步步给你拆解:

当前配置的核心问题

  1. 重复的User-agent: *:你写了两次User-agent: *,搜索引擎解析robots.txt是按从上到下的顺序执行,且同一个用户代理的规则应该集中在同一个块里。你第一次给*设置了Allow: /,后面又给*加了Disallow:/login和几个Allow规则,这会导致部分规则可能不被正确识别——因为第一个User-agent: *块已经匹配了所有爬虫,后面的块很大概率会被忽略。
  2. 格式不规范Disallow:/login缺少冒号后的空格,虽然大部分搜索引擎能兼容,但规范写法是Disallow: /login,避免出现解析异常。

修正后的robots.txt配置

把相同用户代理的规则合并,调整为规范格式:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: Googlebot-news
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: *
Allow: /
Disallow: /login
Allow: /router.infolinks.com/dyn/
Allow: /router.infolinks.com/dyn/zmn/
Allow: /ads.pubmatic.com/AdServer/js/

Sitemap: http://svidzdownloader.com/sitemap.xml

这样所有规则分类清晰,每个用户代理的规则都集中在一个块里,不会出现解析冲突。

解除资源封禁的步骤

  1. 确认封禁资源的路径:在Google Search Console里查看那145个被封禁的资源,检查它们的URL是否匹配了Disallow: /nogooglebot/或者错误触发了其他规则。如果是/nogooglebot/下的资源,那是你主动禁止Googlebot访问的,属于正常情况;如果是其他路径,大概率是之前的规则冲突导致误封禁。
  2. 上传修正后的robots.txt:把上面的修正版替换你服务器上的robots.txt文件。
  3. 在GSC验证规则:打开Google Search Console的「robots.txt测试工具」,输入被封禁资源的URL,测试它现在是否能被Googlebot正常抓取,确保规则生效。
  4. 申请重新抓取:对于误封禁的资源,在GSC的「索引」→「覆盖率」里找到这些资源,提交「请求索引」,让Google重新抓取并评估是否解除封禁。

补充说明:Allow规则的优先级在大部分搜索引擎里高于Disallow,但前提是规则写在同一个用户代理块里,所以合并块之后不会有冲突问题。

内容的提问来源于stack exchange,提问作者Ahmed Shahryar Shery

火山引擎 最新活动