Robots.txt 生成器

在线快速生成标准 robots.txt 文件。配置 User-agent 规则、Allow/Disallow 路径及 Sitemap URL,无需注册,即开即用。

100% 浏览器端运行 数据不离开你的设备 免费 · 无需注册
robots.txt
 

使用方法

  1. 从下拉菜单选择 User-agent* 表示所有爬虫),或手动输入自定义爬虫名称。
  2. 点击 + Allow+ Disallow 添加路径规则。
  3. 如需针对特定爬虫单独配置,可点击「+ Add User-agent Block」添加更多块。
  4. 如有 Sitemap,请填写 Sitemap URL
  5. robots.txt 内容实时更新,点击 Copy 即可复制。

常见 robots.txt 配置

  • 屏蔽所有爬虫:User-agent: * + Disallow: /
  • 允许所有爬虫:User-agent: * + Disallow:(留空)
  • 屏蔽特定目录:Disallow: /admin/
  • 仅允许 Googlebot:先屏蔽 *,再单独添加 Googlebot 块并设置 Disallow: 为空

生成文件后,将其上传至 Web 服务器根目录,确保可通过 https://yourdomain.com/robots.txt 访问。

FAQ

robots.txt 是什么?

robots.txt 是放置于网站根目录(如 https://example.com/robots.txt)的纯文本文件,用于告知网络爬虫哪些页面或目录可以抓取,哪些不可以。它遵循机器人排除协议(Robots Exclusion Protocol)。

robots.txt 能阻止所有爬虫吗?

不能。robots.txt 是约定规范,而非安全措施。Googlebot、Bingbot 等合规爬虫会遵守它,但恶意爬虫可能完全无视。如需真正限制内容访问,请使用服务器层面的访问控制。

'Disallow: /' 是什么意思?

它告诉指定的 User-agent 不要抓取站点上的任何页面。将 'User-agent: *' 与 'Disallow: /' 组合使用,可阻止所有合规爬虫访问整个站点。

可以设置多个 User-agent 块吗?

可以。您可以为不同爬虫定义独立的规则集。点击「+ Add User-agent Block」即可添加更多块,每个块可拥有独立的 Allow/Disallow 规则。

Sitemap 指令应放在哪里?

Sitemap 指令通常放在 robots.txt 文件末尾,用于告知搜索引擎 XML Sitemap 的位置,帮助其发现所有待收录页面。