Đang trong quá trình phát triển

Trình tạo Robots.txt |

Quảng cáo

Chỉ thị chung

Cấu hình hành vi mặc định cho tất cả các trình thu thập thông tin trước khi ghi đè các lớp.

Thiết lập quy tắc cho phép hoặc chặn toàn cầu cho User-agent: *.

Giảm tốc độ của các trình thu thập dữ liệu nếu máy chủ của bạn cần không gian hoạt động.

Chỉ thị máy chủ tùy chọn cho các tên miền được nhân bản.

Một đường dẫn trên mỗi dòng. Hỗ trợ ký tự đại diện và dấu gạch chéo cuối dòng.

Đảm bảo các thư mục cụ thể vẫn có thể được trình thu thập thông tin ngay cả khi các đường dẫn rộng hơn bị chặn.

Mỗi dòng chứa một URL sơ đồ trang web. Thêm các chỉ mục sơ đồ trang web bổ sung nếu có.

Các loài bò sát thông thường

Chọn chế độ chặn hoàn toàn các trình thu thập thông tin mà bạn muốn. Cho phép chúng hoạt động theo quy tắc mặc định ở trên.

Quy tắc tùy chỉnh

Thêm các user-agent với các chỉ thị cho phép hoặc chặn tùy chỉnh, độ trễ thu thập dữ liệu và gợi ý sơ đồ trang web.

Sao chép tệp được tạo ở trên và tải lên thư mục gốc của tên miền của bạn với tên robots.txt.

Tạo tệp robots.txt để kiểm soát hành vi thu thập dữ liệu của công cụ tìm kiếm.
Quảng cáo

Mục lục

Robots.txt là một tệp văn bản nhỏ hướng dẫn các bot tìm kiếm trên trang web của bạn. Nó cho trình thu thập thông tin biết những khu vực họ có thể truy cập và những con đường nào họ nên tránh. Điều này giúp thu thập dữ liệu tập trung vào các trang quan trọng và giảm lượt truy cập lãng phí trên các URL có giá trị thấp.

Sử dụng robots.txt để chặn các khu vực như trang quản trị, thư mục dàn dựng, URL thử nghiệm, trang lọc và đường dẫn trùng lặp. Khi các quy tắc của bạn rõ ràng, các công cụ tìm kiếm dành nhiều thời gian hơn cho các trang quan trọng của bạn. Điều đó có thể giúp nội dung mới được khám phá nhanh hơn và tiếp tục thu thập dữ liệu sạch sẽ và dễ đoán.

Robots.txt là một phần của tiêu chuẩn loại trừ robot. Bạn đặt nó tại:

yourdomain.com/robots.txt

Các công cụ tìm kiếm thường kiểm tra tệp này sớm vì nó cung cấp cho họ hướng thu thập dữ liệu rõ ràng. Nếu trang web của bạn nhỏ, trang web vẫn có thể được lập chỉ mục mà không cần tệp robots.txt. Nhưng trên các trang web lớn hơn, thiếu hướng dẫn có thể dẫn đến việc thu thập dữ liệu lãng phí và khám phá các trang chính chậm hơn.

Một điểm quan trọng:

  • Robots.txt điều khiển thu thập dữ liệu
  • Nó không đảm bảo lập chỉ mục

Nếu bạn muốn xác nhận rằng một trang có thể xuất hiện trong kết quả tìm kiếm, hãy sử dụng tính năng kiểm tra khả năng lập chỉ mục. Điều đó giúp bạn phát hiện các tín hiệu như noindex, tài nguyên bị chặn hoặc các vấn đề khác mà robots.txt không đề cập.

Các công cụ tìm kiếm không thu thập dữ liệu mọi trang mỗi ngày. Chúng thu thập dữ liệu dựa trên các giới hạn và tín hiệu như tốc độ trang web, tình trạng máy chủ và tần suất thay đổi nội dung của bạn.

Nếu trang web của bạn chạy chậm hoặc trả về lỗi, trình thu thập dữ liệu có thể truy cập ít trang hơn mỗi lần chạy. Điều đó có thể trì hoãn việc lập chỉ mục cho các bài đăng mới và các trang cập nhật. Robots.txt giúp giảm thu thập dữ liệu lãng phí, vì vậy bot dành nhiều thời gian hơn trên các trang mà bạn thực sự muốn họ tập trung vào.

Để có kết quả tốt nhất, hãy sử dụng robots.txt với sơ đồ trang web:

  • Robots.txt hướng dẫn bot về những gì cần thu thập dữ liệu hoặc bỏ qua
  • Sơ đồ trang web liệt kê các trang bạn muốn thu thập dữ liệu và lập chỉ mục

Tệp robots.txt sử dụng một vài lệnh đơn giản. Chúng rất dễ đọc, nhưng bạn phải viết chúng cẩn thận.

  • Tác nhân người dùng
  • Đặt quy tắc áp dụng cho bot nào
  • Không cho phép
  • Chặn thu thập dữ liệu cho một thư mục hoặc đường dẫn
  • Cho phép
  • Mở một đường dẫn cụ thể bên trong thư mục bị chặn
  • Độ trễ thu thập dữ liệu
  • Yêu cầu thu thập dữ liệu chậm hơn đối với một số bot (không phải tất cả bot đều tuân theo)

Một sai lầm nhỏ có thể chặn các trang quan trọng, bao gồm các danh mục chính hoặc trang đích cốt lõi. Đó là lý do tại sao sử dụng máy phát điện an toàn hơn là viết mọi thứ theo cách thủ công.

WordPress có thể tạo nhiều URL không giúp ích cho SEO, chẳng hạn như các trang tìm kiếm nội bộ, một số trang lưu trữ và URL dựa trên tham số. Việc chặn các khu vực có giá trị thấp giúp trình thu thập thông tin dành nhiều thời gian hơn trên các trang chính, bài đăng trên blog và trang sản phẩm hoặc dịch vụ của bạn.

Ngay cả trên các trang web nhỏ hơn, tệp robots.txt sạch sẽ là một thiết lập thông minh. Nó giữ cho các quy tắc thu thập dữ liệu của bạn có tổ chức khi trang web phát triển.

Sơ đồ trang web giúp công cụ tìm kiếm khám phá các trang bạn muốn thu thập dữ liệu. Robots.txt kiểm soát nơi bot có thể đến.

  • Sơ đồ trang web cải thiện khả năng khám phá
  • Robots.txt kiểm soát quyền truy cập thu thập dữ liệu

Hầu hết các trang web đều được hưởng lợi từ việc sử dụng cả hai.

Robots.txt đơn giản, nhưng nó không tha thứ. Một quy tắc sai có thể chặn các trang chính. Trình tạo này giúp bạn xây dựng tệp một cách an toàn.

Đặt quyền truy cập mặc định

Chọn xem tất cả bot có thể thu thập dữ liệu trang web của bạn theo mặc định hay không.

Thêm URL sơ đồ trang web của bạn

Bao gồm sơ đồ trang web của bạn để trình thu thập dữ liệu có thể tìm thấy các trang quan trọng của bạn nhanh hơn.

Thêm đường dẫn không được phép một cách cẩn thận

Chỉ chặn những gì bạn thực sự không muốn thu thập dữ liệu. Luôn bắt đầu bằng dấu gạch chéo về phía trước, như:

/admin/ hoặc /search/

Xem lại trước khi xuất bản

Kiểm tra kỹ để đảm bảo rằng bạn không chặn trang chủ, blog, trang danh mục hoặc trang dịch vụ chính của mình.

Robots.txt là một phần của SEO kỹ thuật. Các công cụ này hỗ trợ cùng một mục tiêu và giúp bạn xác nhận mọi thứ đang hoạt động chính xác:

Tài liệu API sẽ sớm ra mắt.

Documentation for this tool is being prepared. Please check back later or visit our full API documentation.