開發中

Robots.txt 產生器 |機器人txt檔案製作者

廣告

一般指令

在進行分層覆蓋之前,請先設定所有爬蟲的預設行為。

設定針對 User-agent: * 的全域允許或阻止規則。

如果伺服器需要更多空間,請限制爬蟲的運行速度。

鏡像域的可選主機指令。

每行一條路徑。支援通配符和尾部斜線。

即使大範圍路徑被封鎖,也要確保特定資料夾仍可爬取。

每行提供一個網站地圖 URL。如有其他網站地圖索引,請新增。

普通爬行動物

切換您想要完全屏蔽的爬蟲。或允許它們繼續使用上述預設規則。

自訂規則

新增具有自訂允許或封鎖指令、抓取延遲和網站地圖提示的使用者代理程式。

複製上面產生的文件,並將其上傳到您的網域根目錄,命名為 robots.txt。

產生robots.txt檔案來控制搜尋引擎抓取行為。
Table of Contents

Robots.txt 是一個小文字文件,用於指導您網站上的搜尋機器人。它告訴爬蟲它們可以訪問哪些區域以及它們應該避免哪些路徑。這可以使爬行集中在重要的頁面上,並減少對低價值 URL 的浪費存取。

使用 robots.txt 封鎖管理頁面、暫存資料夾、測試 URL、過濾頁面和重複路徑等區域。當您的規則明確時,搜尋引擎會在您的重要頁面上花費更多時間。這可以幫助更快地發現新內容,並保持抓取的乾淨和可預測性。

Robots.txt 是機器人排除標準的一部分。您將其放置在:

yourdomain.com/robots.txt

搜尋引擎通常會儘早檢查該文件,因為它為它們提供了明確的爬行方向。如果您的網站很小,即使沒有 robots.txt 文件,它仍可能被編入索引。但在較大的網站上,缺少指導可能會導致爬行的浪費和關鍵頁面的發現速度變慢。

重要的一點:

  • Robots.txt 控制抓取
  • 它不保證索引

如果您想確認某個頁面可以出現在搜尋結果中,請使用可索引性檢查。這可以幫助您發現 noindex、阻止的資源或 robots.txt 未涵蓋的其他問題等訊號。

搜尋引擎不會每天抓取每個頁面。它們根據限制和訊號進行爬網,例如網站速度、伺服器運作狀況以及內容變更的頻率。

如果您的網站速度緩慢或傳回錯誤,爬網程式每次執行造訪的頁面可能會減少。這可能會延遲新帖子和更新頁面的索引。 Robots.txt 有助於減少浪費的爬行,因此機器人可以在您真正希望它們關注的頁面上花費更多時間。

為了獲得最佳效果,請將 robots.txt 與網站地圖結合使用:

  • Robots.txt 指導機器人抓取或跳過哪些內容
  • 網站地圖列出您想要抓取並編入索引的頁面

robots.txt 檔案使用一些簡單的指令。它們很容易閱讀,但您必須仔細書寫。

  • 用戶代理
  • 設定規則適用於哪個機器人
  • 禁止
  • 阻止對資料夾或路徑進行爬網
  • 允許
  • 開啟被封鎖資料夾內的特定路徑
  • 抓取延遲
  • 請某些機器人進行較慢的爬行(並非所有機器人都遵循它)

一個小錯誤可能會阻止重要頁面,包括關鍵類別或核心登陸頁面。這就是為什麼使用生成器比手動編寫所有內容更安全。

WordPress 可以創建許多無助於 SEO 的 URL,例如內部搜尋頁面、一些存檔頁面和基於參數的 URL。阻止低價值區域可以幫助爬行動物在您的主頁、部落格文章以及產品或服務頁面上花費更多時間。

即使在較小的網站上,乾淨的 robots.txt 檔案也是一個明智的設定。隨著網站的成長,它可以使您的抓取規則井井有條。

網站地圖可以幫助搜尋引擎發現您想要抓取的頁面。 Robots.txt 控制機器人可以去的地方。

  • 網站地圖改善發現
  • Robots.txt 控制抓取訪問

大多數網站都受益於兩者的使用。

Robots.txt很簡單,但不寬容。一條錯誤的規則可能會阻止關鍵頁面。此生成器可協助您安全地建置檔案。

設定預設存取權

選擇預設是否所有機器人都可以抓取您的網站。

新增您的網站地圖網址

包含您的網站地圖,以便爬蟲可以更快找到您的重要頁面。

仔細加入不允許的路徑

僅阻止您真正不想抓取的內容。始終以正斜線開頭,例如:

/admin/ 或 /search/

發布前審核

仔細檢查您是否沒有封鎖您的主頁、部落格、類別頁面或主要服務頁面。

Robots.txt 是技術 SEO 的一部分。這些工具支援相同的目標,並幫助您確認一切正常: