Đang trong quá trình phát triển

Trình tạo Robots.txt |

Quảng cáo

Chỉ thị chung

Cấu hình hành vi mặc định cho tất cả các trình thu thập thông tin trước khi ghi đè các lớp.

Thiết lập quy tắc cho phép hoặc chặn toàn cầu cho User-agent: *.

Giảm tốc độ của các trình thu thập dữ liệu nếu máy chủ của bạn cần không gian hoạt động.

Chỉ thị máy chủ tùy chọn cho các tên miền được nhân bản.

Một đường dẫn trên mỗi dòng. Hỗ trợ ký tự đại diện và dấu gạch chéo cuối dòng.

Đảm bảo các thư mục cụ thể vẫn có thể được trình thu thập thông tin ngay cả khi các đường dẫn rộng hơn bị chặn.

Mỗi dòng chứa một URL sơ đồ trang web. Thêm các chỉ mục sơ đồ trang web bổ sung nếu có.

Các loài bò sát thông thường

Chọn chế độ chặn hoàn toàn các trình thu thập thông tin mà bạn muốn. Cho phép chúng hoạt động theo quy tắc mặc định ở trên.

Quy tắc tùy chỉnh

Thêm các user-agent với các chỉ thị cho phép hoặc chặn tùy chỉnh, độ trễ thu thập dữ liệu và gợi ý sơ đồ trang web.

Sao chép tệp được tạo ở trên và tải lên thư mục gốc của tên miền của bạn với tên robots.txt.

Tạo tệp robots.txt để kiểm soát hành vi thu thập dữ liệu của công cụ tìm kiếm.
Table of Contents

Robots.txt là một tệp văn bản nhỏ hướng dẫn các bot tìm kiếm trên trang web của bạn.

Sử dụng robots.txt để chặn các khu vực như trang quản trị, thư mục dàn dựng, URL kiểm tra, trang bộ lọc và đường dẫn trùng lặp.

Robots.txt là một phần của tiêu chuẩn loại trừ robot.

yourdomain.com/robots.txt

Các công cụ tìm kiếm thường kiểm tra tệp này sớm vì nó cung cấp cho chúng hướng dẫn thu thập dữ liệu rõ ràng.

Một điểm quan trọng:

  • Robots.txt kiểm soát thu thập thông tin
  • Nó không đảm bảo lập chỉ mục

Nếu bạn muốn xác nhận rằng một trang có thể xuất hiện trong kết quả tìm kiếm, hãy sử dụng kiểm tra khả năng lập chỉ mục.

Công cụ tìm kiếm không thu thập dữ liệu mỗi trang mỗi ngày.

Nếu trang web của bạn chậm hoặc trả về lỗi, trình thu thập thông tin có thể truy cập ít trang hơn trong mỗi lần chạy.

Để có kết quả tốt nhất, hãy sử dụng robots.txt với sơ đồ trang web:

  • Robots.txt hướng dẫn bot những gì cần thu thập thông tin hoặc bỏ qua
  • Sơ đồ trang web liệt kê các trang bạn muốn được thu thập thông tin và lập chỉ mục

Tệp robots.txt sử dụng một số lệnh đơn giản.

  • Tác nhân người dùng
  • Đặt quy tắc áp dụng cho bot nào
  • Không cho phép
  • Chặn thu thập thông tin cho một thư mục hoặc đường dẫn
  • Cho phép
  • Mở một đường dẫn cụ thể bên trong thư mục bị chặn
  • Độ trễ thu thập thông tin
  • Yêu cầu thu thập dữ liệu chậm hơn đối với một số bot (không phải tất cả các bot đều tuân theo yêu cầu này)

Một sai sót nhỏ có thể chặn các trang quan trọng, bao gồm các danh mục chính hoặc trang đích cốt lõi.

WordPress có thể tạo nhiều URL không giúp ích cho SEO, chẳng hạn như các trang tìm kiếm nội bộ, một số trang lưu trữ, URL dựa trên tham số.

Ngay cả trên các trang web nhỏ hơn, tệp robots.txt sạch sẽ là một thiết lập thông minh.

Sơ đồ trang web giúp công cụ tìm kiếm khám phá các trang bạn muốn thu thập thông tin.

  • Sơ đồ trang web cải thiện khả năng khám phá
  • Robots.txt kiểm soát quyền truy cập thu thập thông tin

Hầu hết các trang web đều được hưởng lợi từ việc sử dụng cả hai.

Robots.txt tuy đơn giản nhưng không hề dễ dàng.

Đặt quyền truy cập mặc định

Chọn xem tất cả các bot có thể thu thập dữ liệu trang web của bạn theo mặc định hay không.

Thêm URL sơ đồ trang web của bạn

Bao gồm sơ đồ trang web của bạn để trình thu thập thông tin có thể tìm thấy các trang quan trọng của bạn nhanh hơn.

Thêm các đường dẫn không được phép một cách cẩn thận

Chỉ chặn những gì bạn thực sự không muốn thu thập thông tin.

/admin/ hoặc /search/

Xem lại trước khi xuất bản

Kiểm tra kỹ xem bạn không chặn trang chủ, blog, trang danh mục hoặc trang dịch vụ chính của mình hay không.

Robots.txt là một phần của SEO kỹ thuật.