common.you_need_to_be_loggedin_to_add_tool_in_favorites
ตัวสร้าง Robots.txt |
คำสั่งทั่วไป
กำหนดค่าพฤติกรรมเริ่มต้นสำหรับโปรแกรมรวบรวมข้อมูลทั้งหมดก่อนที่จะกำหนดค่าเพิ่มเติมลงไป
ตั้งค่ากฎอนุญาตหรือบล็อกทั่วโลกสำหรับ User-agent: *.
ลดความเร็วของโปรแกรมรวบรวมข้อมูลหากเซิร์ฟเวอร์ของคุณต้องการพื้นที่หายใจ
คำสั่ง host สำหรับโดเมนที่จำลอง (ไม่บังคับ)
หนึ่งเส้นทางต่อหนึ่งบรรทัด รองรับสัญลักษณ์ตัวแทน (wildcard) และเครื่องหมายทับปิดท้าย (slash)
ตรวจสอบให้แน่ใจว่าโฟลเดอร์ที่ระบุยังคงสามารถเข้าถึงได้ แม้ว่าเส้นทางที่กว้างกว่าจะถูกปิดกั้นก็ตาม
ระบุ URL ของแผนผังเว็บไซต์หนึ่งรายการต่อบรรทัด เพิ่มดัชนีแผนผังเว็บไซต์เพิ่มเติมหากมี
หนอนคลานทั่วไป
ปิดใช้งานโปรแกรมรวบรวมข้อมูลที่คุณต้องการบล็อกโดยสิ้นเชิง ปล่อยให้โปรแกรมเหล่านั้นทำงานตามกฎเริ่มต้นด้านบนต่อไป
กฎที่กำหนดเอง
เพิ่ม User-agent พร้อมคำสั่งอนุญาตหรือบล็อกที่ปรับแต่งได้ การหน่วงเวลาการรวบรวมข้อมูล และคำแนะนำเกี่ยวกับ Sitemap
ยังไม่มีกฎที่กำหนดเอง ใช้ปุ่มด้านบนเพื่อสร้างกฎใหม่
สตริง User-Agent ที่ตรงเป๊ะหรือแบบไวด์การ์ด
คัดลอกไฟล์ที่สร้างขึ้นด้านบน แล้วอัปโหลดไปยังไดเร็กทอรีหลักของโดเมนของคุณ โดยใช้ชื่อไฟล์ว่า robots.txt
เครื่องมือสร้าง Robots.txt เพื่อการรวบรวมข้อมูลและการจัดทำดัชนีที่ดีขึ้น
Robots.txt เป็นไฟล์ข้อความขนาดเล็กที่แนะนำบอทการค้นหาในเว็บไซต์ของคุณ
ใช้ robots.txt เพื่อบล็อกพื้นที่ต่างๆ เช่น หน้าผู้ดูแลระบบ โฟลเดอร์ชั่วคราว URL ทดสอบ หน้ากรอง และเส้นทางที่ซ้ำกัน
Robots.txt หมายถึงอะไรใน SEO
Robots.txt เป็นส่วนหนึ่งของมาตรฐานการยกเว้นโรบ็อต
โดเมนของคุณ.com/robots.txt
เครื่องมือค้นหามักจะตรวจสอบไฟล์นี้ตั้งแต่เนิ่นๆ เพราะมันให้แนวทางการรวบรวมข้อมูลที่ชัดเจน
ประเด็นสำคัญประการหนึ่ง:
- Robots.txt ควบคุมการรวบรวมข้อมูล
- ไม่รับประกัน การจัดทำดัชนี
หากคุณต้องการยืนยันว่าเพจสามารถปรากฏในผลการค้นหาได้ ให้ใช้การตรวจสอบความสามารถในการจัดทำดัชนี
เหตุใด Robots.txt จึงช่วยในเรื่องงบประมาณการรวบรวมข้อมูล
เครื่องมือค้นหาไม่ได้รวบรวมข้อมูลทุกหน้าทุกวัน
หากไซต์ของคุณช้าหรือส่งคืนข้อผิดพลาด โปรแกรมรวบรวมข้อมูลอาจเข้าชมหน้าเว็บน้อยลงต่อการเรียกใช้แต่ละครั้ง
เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด ให้ใช้ robots.txt กับแผนผังไซต์:
- Robots.txt จะแนะนำบอทว่าควรรวบรวมข้อมูลหรือข้ามอะไร
- รายการแผนผังเว็บไซต์ หน้าเว็บที่คุณต้องการรวบรวมข้อมูลและจัดทำดัชนี
กฎของ Robots.txt ที่คุณควรรู้
ไฟล์ robots.txt ใช้คำสั่งง่ายๆ สองสามคำสั่ง
- ตัวแทนผู้ใช้
- ตั้งค่าว่ากฎจะใช้กับบอตใด
- ไม่อนุญาต
- บล็อกการรวบรวมข้อมูลสำหรับโฟลเดอร์หรือเส้นทาง
- อนุญาต
- เปิดเส้นทางเฉพาะภายในโฟลเดอร์ที่ถูกบล็อก
- รวบรวมข้อมูล-ล่าช้า
- ขอให้การรวบรวมข้อมูลช้าลงสำหรับบอทบางตัว (ไม่ใช่บอททั้งหมดที่จะติดตาม)
ข้อผิดพลาดเล็กๆ น้อยๆ อาจบล็อกหน้าที่สำคัญได้ รวมถึงหมวดหมู่หลักหรือหน้า Landing Page หลัก
ทำไมเว็บไซต์ WordPress มักต้องการ Robots.txt
WordPress สามารถสร้าง URL จำนวนมากที่ไม่ช่วย SEO เช่น หน้าค้นหาภายใน หน้าเก็บถาวรบางหน้า และ URL ตามพารามิเตอร์
แม้แต่ในไซต์ขนาดเล็ก ไฟล์ robots.txt ที่สะอาดยังเป็นการตั้งค่าที่ชาญฉลาด
ความแตกต่างของ Robots.txt และแผนผังไซต์
แผนผังเว็บไซต์ช่วยให้เครื่องมือค้นหาค้นพบหน้าเว็บที่คุณต้องการรวบรวมข้อมูล
- แผนผังไซต์ ปรับปรุงการค้นพบ
- Robots.txt ควบคุมการเข้าถึงการรวบรวมข้อมูล
เว็บไซต์ส่วนใหญ่ได้ประโยชน์จากการใช้ทั้งสองอย่าง
วิธีสร้าง Robots.txt โดยใช้ตัวสร้างนี้
Robots.txt นั้นเรียบง่าย แต่ก็ไม่ได้ให้อภัย
ตั้งค่าการเข้าถึงเริ่มต้น
เลือกว่าบอททั้งหมดสามารถรวบรวมข้อมูลเว็บไซต์ของคุณตามค่าเริ่มต้นได้หรือไม่
เพิ่ม URL แผนผังไซต์ของคุณ
รวมแผนผังไซต์ของคุณเพื่อให้โปรแกรมรวบรวมข้อมูลสามารถค้นหาหน้าสำคัญของคุณได้เร็วขึ้น
เพิ่มเส้นทางที่ไม่ได้รับอนุญาตอย่างระมัดระวัง
บล็อกเฉพาะสิ่งที่คุณไม่ต้องการให้รวบรวมข้อมูลจริงๆ
/admin/ หรือ /search/
ตรวจสอบก่อนเผยแพร่
ตรวจสอบอีกครั้งว่าคุณไม่ได้บล็อกหน้าแรก บล็อก หน้าหมวดหมู่ หรือหน้าบริการหลัก
เครื่องมือ SEO ที่เกี่ยวข้องซึ่งทำงานได้ดีกับ Robots.txt
Robots.txt เป็นส่วนหนึ่งของ SEO ทางเทคนิค
- เครื่องมือตรวจสอบแผนผังไซต์: ยืนยันว่าแผนผังไซต์ของคุณถูกต้องและบอทอ่านได้ง่าย
- Google Index Checker: ตรวจสอบว่าหน้าเว็บสามารถจัดทำดัชนีได้หรือไม่ และตั้งค่าสถานะตัวบล็อกทั่วไป เช่น noindex
- ตรวจสอบรหัสสถานะ HTTP: ค้นหาข้อผิดพลาด 200, 301, 404 และเซิร์ฟเวอร์ที่อาจทำให้รวบรวมข้อมูลช้าลง
- เครื่องมือตรวจสอบการเปลี่ยนเส้นทางฟรี: ยืนยันว่าการเปลี่ยนเส้นทางนั้นสะอาดและไม่ติดขัดเป็นลูกโซ่หรือวนซ้ำ
- การวิเคราะห์เมตาแท็ก: วิจารณ์ชื่อ คำอธิบาย และเมตาแท็กโรบ็อตเพื่อหาข้อผิดพลาด SEO