Question 1

robots.txt 是什么？

Accepted Answer

robots.txt 是放置于网站根目录（如 https://example.com/robots.txt）的纯文本文件，用于告知网络爬虫哪些页面或目录可以抓取，哪些不可以。它遵循机器人排除协议（Robots Exclusion Protocol）。

Question 2

robots.txt 能阻止所有爬虫吗？

Accepted Answer

不能。robots.txt 是约定规范，而非安全措施。Googlebot、Bingbot 等合规爬虫会遵守它，但恶意爬虫可能完全无视。如需真正限制内容访问，请使用服务器层面的访问控制。

Question 3

'Disallow: /' 是什么意思？

Accepted Answer

它告诉指定的 User-agent 不要抓取站点上的任何页面。将 'User-agent: *' 与 'Disallow: /' 组合使用，可阻止所有合规爬虫访问整个站点。

Question 4

可以设置多个 User-agent 块吗？

Accepted Answer

可以。您可以为不同爬虫定义独立的规则集。点击「+ Add User-agent Block」即可添加更多块，每个块可拥有独立的 Allow/Disallow 规则。

Question 5

Sitemap 指令应放在哪里？

Accepted Answer

Sitemap 指令通常放在 robots.txt 文件末尾，用于告知搜索引擎 XML Sitemap 的位置，帮助其发现所有待收录页面。

Robots.txt 生成器

使用方法