robots.txt

2025.04.20
Web Crawler

robots.txt 是一個放在網站根目錄下的純文字檔
用來告訴網路爬蟲機器人 (web crawler/spider)
哪些資源可以抓取、哪些不可以

# comment
User-agent: <機器人名稱>
Disallow: <不允許抓取的路徑>
Allow: <允許抓取的路徑>

Sitemap: https://domain.name/sitemap.xml
Crawl-delay: 10

User-agent：指定要套用規則的機器人；* 表示所有機器人。
Disallow：指定不允許抓取的路徑；若要允許所有，只寫 Disallow:（空值）
Allow：在更細部路徑上重新允許抓取 (僅部分搜索引擎支援，如 Googlebot)
Sitemap：告訴機器人網站地圖 (常用 .xml) 的位置，有助於加速索引
Crawl-delay：建議機器人抓取間隔的秒數，避免伺服器過度負載

Last Updated on 2025/04/20 by A1go