robots.txt
- 2025.04.20
- Web Crawler
robots.txt 是一個放在網站根目錄下的純文字檔
用來告訴網路爬蟲機器人 (web crawler/spider)
哪些資源可以抓取、哪些不可以
# comment User-agent: <機器人名稱> Disallow: <不允許抓取的路徑> Allow: <允許抓取的路徑> Sitemap: https://domain.name/sitemap.xml Crawl-delay: 10
- User-agent:指定要套用規則的機器人;* 表示所有機器人。
- Disallow:指定不允許抓取的路徑;若要允許所有,只寫 Disallow:(空值)
- Allow:在更細部路徑上重新允許抓取 (僅部分搜索引擎支援,如 Googlebot)
- Sitemap:告訴機器人網站地圖 (常用 .xml) 的位置,有助於加速索引
- Crawl-delay:建議機器人抓取間隔的秒數,避免伺服器過度負載
Last Updated on 2025/04/20 by A1go