common.you_need_to_be_loggedin_to_add_tool_in_favorites
ตัวสร้าง Robots.txt |
คำสั่งทั่วไป
กำหนดค่าพฤติกรรมเริ่มต้นสำหรับโปรแกรมรวบรวมข้อมูลทั้งหมดก่อนที่จะกำหนดค่าเพิ่มเติมลงไป
ตั้งค่ากฎอนุญาตหรือบล็อกทั่วโลกสำหรับ User-agent: *.
ลดความเร็วของโปรแกรมรวบรวมข้อมูลหากเซิร์ฟเวอร์ของคุณต้องการพื้นที่หายใจ
คำสั่ง host สำหรับโดเมนที่จำลอง (ไม่บังคับ)
หนึ่งเส้นทางต่อหนึ่งบรรทัด รองรับสัญลักษณ์ตัวแทน (wildcard) และเครื่องหมายทับปิดท้าย (slash)
ตรวจสอบให้แน่ใจว่าโฟลเดอร์ที่ระบุยังคงสามารถเข้าถึงได้ แม้ว่าเส้นทางที่กว้างกว่าจะถูกปิดกั้นก็ตาม
ระบุ URL ของแผนผังเว็บไซต์หนึ่งรายการต่อบรรทัด เพิ่มดัชนีแผนผังเว็บไซต์เพิ่มเติมหากมี
หนอนคลานทั่วไป
ปิดใช้งานโปรแกรมรวบรวมข้อมูลที่คุณต้องการบล็อกโดยสิ้นเชิง ปล่อยให้โปรแกรมเหล่านั้นทำงานตามกฎเริ่มต้นด้านบนต่อไป
กฎที่กำหนดเอง
เพิ่ม User-agent พร้อมคำสั่งอนุญาตหรือบล็อกที่ปรับแต่งได้ การหน่วงเวลาการรวบรวมข้อมูล และคำแนะนำเกี่ยวกับ Sitemap
ยังไม่มีกฎที่กำหนดเอง ใช้ปุ่มด้านบนเพื่อสร้างกฎใหม่
สตริง User-Agent ที่ตรงเป๊ะหรือแบบไวด์การ์ด
คัดลอกไฟล์ที่สร้างขึ้นด้านบน แล้วอัปโหลดไปยังไดเร็กทอรีหลักของโดเมนของคุณ โดยใช้ชื่อไฟล์ว่า robots.txt
สารบัญ
Robots.txt ตัวสร้างเพื่อการรวบรวมข้อมูลและการจัดทําดัชนีที่ดีขึ้น
Robots.txt เป็นไฟล์ข้อความขนาดเล็กที่แนะนําบอทค้นหาในไซต์ของคุณ มันบอกโปรแกรมรวบรวมข้อมูลว่าพื้นที่ใดที่พวกเขาสามารถเข้าถึงได้และเส้นทางใดที่พวกเขาควรหลีกเลี่ยง วิธีนี้จะช่วยให้การรวบรวมข้อมูลมุ่งเน้นไปที่หน้าเว็บที่สําคัญและลดการเข้าชมที่สูญเปล่าใน URL ที่มีมูลค่าต่ํา
ใช้ robots.txt เพื่อบล็อกพื้นที่ เช่น หน้าผู้ดูแลระบบ โฟลเดอร์การแสดงละคร URL ทดสอบ หน้าตัวกรอง และเส้นทางที่ซ้ํากัน เมื่อกฎของคุณชัดเจน เสิร์ชเอ็นจิ้นจะใช้เวลากับหน้าสําคัญของคุณมากขึ้น ซึ่งจะช่วยให้ค้นพบเนื้อหาใหม่ได้เร็วขึ้นและรวบรวมข้อมูลได้อย่างสะอาดและคาดเดาได้
Robots.txt หมายถึงอะไรใน SEO
Robots.txt เป็นส่วนหนึ่งของมาตรฐานการยกเว้นหุ่นยนต์ คุณวางไว้ที่:
yourdomain.com/robots.txt
เครื่องมือค้นหามักจะตรวจสอบไฟล์นี้ตั้งแต่เนิ่นๆ เนื่องจากจะให้ทิศทางการรวบรวมข้อมูลที่ชัดเจน หากเว็บไซต์มีขนาดเล็ก เว็บไซต์อาจยังได้รับการจัดทําดัชนีโดยไม่มีไฟล์ robots.txt แต่ในเว็บไซต์ขนาดใหญ่ คําแนะนําที่ขาดหายไปอาจทําให้การรวบรวมข้อมูลสูญเปล่าและการค้นหาหน้าสําคัญช้าลง
ประเด็นสําคัญประการหนึ่ง:
- Robots.txt ควบคุมการรวบรวมข้อมูล
- ไม่รับประกันการจัดทําดัชนี
หากต้องการยืนยันว่าหน้าเว็บจะปรากฏในผลการค้นหาได้ ให้ใช้การตรวจสอบความสามารถในการจัดทําดัชนี ซึ่งช่วยให้คุณมองเห็นสัญญาณต่างๆ เช่น noindex ทรัพยากรที่ถูกบล็อก หรือปัญหาอื่นๆ ที่ robots.txt ไม่ครอบคลุม
เหตุใด Robots.txt จึงช่วยเรื่องงบประมาณการรวบรวมข้อมูล
เครื่องมือค้นหาไม่ได้รวบรวมข้อมูลทุกหน้าทุกวัน โดยรวบรวมข้อมูลตามขีดจํากัดและสัญญาณ เช่น ความเร็วของไซต์ ความสมบูรณ์ของเซิร์ฟเวอร์ และความถี่ในการเปลี่ยนแปลงเนื้อหา
หากเว็บไซต์ทํางานช้าหรือแสดงข้อผิดพลาด โปรแกรมรวบรวมข้อมูลอาจเข้าชมหน้าเว็บน้อยลงต่อการเรียกใช้ ซึ่งอาจทําให้การจัดทําดัชนีสําหรับโพสต์ใหม่และหน้าเว็บที่อัปเดตล่าช้า Robots.txt ช่วยลดการรวบรวมข้อมูลที่สูญเปล่า ดังนั้นบอทจึงใช้เวลามากขึ้นในหน้าเว็บที่คุณต้องการให้พวกเขามุ่งเน้น
เพื่อผลลัพธ์ที่ดีที่สุด ให้ใช้ robots.txt กับแผนผังเว็บไซต์ดังนี้
- Robots.txt แนะนําบอทเกี่ยวกับสิ่งที่ควรรวบรวมข้อมูลหรือข้าม
- แผนผังเว็บไซต์จะแสดงหน้าเว็บที่ต้องการรวบรวมข้อมูลและจัดทําดัชนี
กฎ Robots.txt ที่คุณควรรู้
ไฟล์ robots.txt ใช้คําสั่งง่ายๆ สองสามคําสั่ง อ่านง่าย แต่คุณต้องเขียนอย่างระมัดระวัง
- ตัวแทนผู้ใช้
- ตั้งค่ากฎที่ใช้กับบอท
- ไม่อนุญาต
- บล็อกการรวบรวมข้อมูลสําหรับโฟลเดอร์หรือเส้นทาง
- อนุญาต
- เปิดเส้นทางเฉพาะภายในโฟลเดอร์ที่ถูกบล็อก
- การหน่วงเวลาการรวบรวมข้อมูล
- คําขอรวบรวมข้อมูลช้าลงสําหรับบอทบางตัว (ไม่ใช่ทุกบอทที่ปฏิบัติตาม)
ความผิดพลาดเล็กน้อยอาจบล็อกหน้าสําคัญ รวมถึงหมวดหมู่หลักหรือหน้า Landing Page หลัก นั่นคือเหตุผลที่การใช้เครื่องกําเนิดไฟฟ้าปลอดภัยกว่าการเขียนทุกอย่างด้วยตนเอง
เหตุใดเว็บไซต์ WordPress จึงมักต้องการ Robots.txt
WordPress สามารถสร้าง URL จํานวนมากที่ไม่ช่วย SEO เช่น หน้าค้นหาภายใน หน้าเก็บถาวรบางหน้า และ URL ตามพารามิเตอร์ การบล็อกพื้นที่ที่มีมูลค่าต่ําจะช่วยให้โปรแกรมรวบรวมข้อมูลใช้เวลาในหน้าหลัก บล็อกโพสต์ และหน้าผลิตภัณฑ์หรือบริการของคุณมากขึ้น
แม้แต่ในไซต์ขนาดเล็ก ไฟล์ robots.txt ที่สะอาดก็เป็นการตั้งค่าที่ชาญฉลาด มันช่วยให้กฎการรวบรวมข้อมูลของคุณเป็นระเบียบเมื่อไซต์เติบโตขึ้น
ความแตกต่างของ Robots.txt และแผนผังเว็บไซต์
แผนผังเว็บไซต์ช่วยให้เครื่องมือค้นหาค้นพบหน้าเว็บที่ต้องการรวบรวมข้อมูล Robots.txt ควบคุมตําแหน่งที่บอทสามารถไปได้
- แผนผังเว็บไซต์ช่วยปรับปรุงการค้นพบ
- Robots.txt ควบคุมการเข้าถึงการรวบรวมข้อมูล
เว็บไซต์ส่วนใหญ่ได้รับประโยชน์จากการใช้ทั้งสองอย่าง
วิธีสร้าง Robots.txt โดยใช้เครื่องกําเนิดไฟฟ้านี้
Robots.txt นั้นเรียบง่าย แต่ไม่ให้อภัย กฎที่ผิดเพียงข้อเดียวสามารถบล็อกหน้าสําคัญได้ ตัวสร้างนี้ช่วยให้คุณสร้างไฟล์ได้อย่างปลอดภัย
ตั้งค่าการเข้าถึงเริ่มต้น
เลือกว่าจะให้บอททั้งหมดรวบรวมข้อมูลเว็บไซต์ของคุณตามค่าเริ่มต้นหรือไม่
เพิ่ม URL แผนผังเว็บไซต์
รวมแผนผังเว็บไซต์เพื่อให้โปรแกรมรวบรวมข้อมูลค้นหาหน้าเว็บที่สําคัญได้เร็วขึ้น
เพิ่มเส้นทางที่ไม่ได้รับอนุญาตอย่างระมัดระวัง
บล็อกเฉพาะสิ่งที่คุณไม่ต้องการให้รวบรวมข้อมูลจริงๆ เริ่มต้นด้วยเครื่องหมายทับไปข้างหน้าเสมอ เช่น:
/admin/ หรือ /search/
ตรวจสอบก่อนเผยแพร่
ตรวจสอบอีกครั้งว่าคุณไม่ได้บล็อกหน้าแรก บล็อก หน้าหมวดหมู่ หรือหน้าบริการหลัก
เครื่องมือ SEO ที่เกี่ยวข้องที่ทํางานได้ดีกับ Robots.txt
Robots.txt เป็นส่วนหนึ่งของ SEO ทางเทคนิค เครื่องมือเหล่านี้สนับสนุนเป้าหมายเดียวกันและช่วยให้คุณยืนยันว่าทุกอย่างทํางานได้อย่างถูกต้อง:
- ตัวตรวจสอบแผนผังเว็บไซต์: ยืนยันว่าแผนผังเว็บไซต์ของคุณถูกต้องและบอทอ่านได้ง่าย
- ตัวตรวจสอบดัชนีของ Google: ตรวจสอบว่าหน้าเว็บสามารถจัดทําดัชนีได้หรือไม่ และตั้งค่าสถานะตัวบล็อกทั่วไป เช่น noindex
- ตรวจสอบรหัสสถานะ HTTP: ค้นหาข้อผิดพลาด 200, 301, 404 และเซิร์ฟเวอร์ที่อาจทําให้การรวบรวมข้อมูลช้าลง
- ตัวตรวจสอบการเปลี่ยนเส้นทางฟรี: ยืนยันว่าการเปลี่ยนเส้นทางนั้นสะอาดและไม่ติดอยู่ในห่วงโซ่หรือลูป
- การวิเคราะห์เมตาแท็ก: รีวิวชื่อ คําอธิบาย และเมตาแท็กของหุ่นยนต์สําหรับข้อผิดพลาด SEO
เอกสารประกอบ API จะพร้อมให้บริการในเร็วๆ นี้
Documentation for this tool is being prepared. Please check back later or visit our full API documentation.