robots.txt

robots.txt 是一個放在網站根目錄下的純文字檔
用來告訴網路爬蟲機器人 (web crawler/spider)
哪些資源可以抓取、哪些不可以

 

# comment
User-agent: <機器人名稱>
Disallow: <不允許抓取的路徑>
Allow: <允許抓取的路徑>

Sitemap: https://domain.name/sitemap.xml
Crawl-delay: 10
  • User-agent:指定要套用規則的機器人;* 表示所有機器人。
  • Disallow:指定不允許抓取的路徑;若要允許所有,只寫 Disallow:(空值)
  • Allow:在更細部路徑上重新允許抓取 (僅部分搜索引擎支援,如 Googlebot)
  • Sitemap:告訴機器人網站地圖 (常用 .xml) 的位置,有助於加速索引
  • Crawl-delay:建議機器人抓取間隔的秒數,避免伺服器過度負載

Last Updated on 2025/04/20 by A1go

Bitnami