Robots.txt 生成器
在线快速生成标准 robots.txt 文件。配置 User-agent 规则、Allow/Disallow 路径及 Sitemap URL,无需注册,即开即用。
使用方法
- 从下拉菜单选择 User-agent(
*表示所有爬虫),或手动输入自定义爬虫名称。 - 点击 + Allow 或 + Disallow 添加路径规则。
- 如需针对特定爬虫单独配置,可点击「+ Add User-agent Block」添加更多块。
- 如有 Sitemap,请填写 Sitemap URL。
- robots.txt 内容实时更新,点击 Copy 即可复制。
常见 robots.txt 配置
- 屏蔽所有爬虫:
User-agent: *+Disallow: / - 允许所有爬虫:
User-agent: *+Disallow:(留空) - 屏蔽特定目录:
Disallow: /admin/ - 仅允许 Googlebot:先屏蔽
*,再单独添加 Googlebot 块并设置Disallow:为空
生成文件后,将其上传至 Web 服务器根目录,确保可通过
https://yourdomain.com/robots.txt 访问。
FAQ
robots.txt 是什么?
robots.txt 是放置于网站根目录(如 https://example.com/robots.txt)的纯文本文件,用于告知网络爬虫哪些页面或目录可以抓取,哪些不可以。它遵循机器人排除协议(Robots Exclusion Protocol)。
robots.txt 能阻止所有爬虫吗?
不能。robots.txt 是约定规范,而非安全措施。Googlebot、Bingbot 等合规爬虫会遵守它,但恶意爬虫可能完全无视。如需真正限制内容访问,请使用服务器层面的访问控制。
'Disallow: /' 是什么意思?
它告诉指定的 User-agent 不要抓取站点上的任何页面。将 'User-agent: *' 与 'Disallow: /' 组合使用,可阻止所有合规爬虫访问整个站点。
可以设置多个 User-agent 块吗?
可以。您可以为不同爬虫定义独立的规则集。点击「+ Add User-agent Block」即可添加更多块,每个块可拥有独立的 Allow/Disallow 规则。
Sitemap 指令应放在哪里?
Sitemap 指令通常放在 robots.txt 文件末尾,用于告知搜索引擎 XML Sitemap 的位置,帮助其发现所有待收录页面。