工作原理
- 本工具会选择匹配你输入 User-Agent 的最具体的规则块(如
Googlebot比*更具体) - 块内同时检查 Allow 和 Disallow,匹配路径最长的规则优先(符合 RFC 9309)
- 如果没有任何 User-Agent 块匹配,默认视为允许
- 通配符:
*匹配任意字符序列,$匹配 URL 末尾
robots.txt 规则示例
User-agent: * Disallow: /admin/ # 屏蔽 /admin/ 及其下所有路径 Allow: /admin/help # 但允许 /admin/help Disallow: *.pdf$ # 屏蔽所有以 .pdf 结尾的 URL Sitemap: https://example.com/sitemap.xml
常见爬虫参考
Googlebot——Google 网页爬虫。还有:Googlebot-Image、Googlebot-NewsBingbot——微软 Bing 爬虫Baiduspider——百度爬虫GPTBot——OpenAI 爬虫(屏蔽可避免被用于 GPT 训练)AhrefsBot/SemrushBot——SEO 工具爬虫(常被屏蔽以节省带宽)