Trình tạo Robots.txt |
Chỉ thị chung
Cấu hình hành vi mặc định cho tất cả các trình thu thập thông tin trước khi ghi đè các lớp.
Thiết lập quy tắc cho phép hoặc chặn toàn cầu cho User-agent: *.
Giảm tốc độ của các trình thu thập dữ liệu nếu máy chủ của bạn cần không gian hoạt động.
Chỉ thị máy chủ tùy chọn cho các tên miền được nhân bản.
Một đường dẫn trên mỗi dòng. Hỗ trợ ký tự đại diện và dấu gạch chéo cuối dòng.
Đảm bảo các thư mục cụ thể vẫn có thể được trình thu thập thông tin ngay cả khi các đường dẫn rộng hơn bị chặn.
Mỗi dòng chứa một URL sơ đồ trang web. Thêm các chỉ mục sơ đồ trang web bổ sung nếu có.
Các loài bò sát thông thường
Chọn chế độ chặn hoàn toàn các trình thu thập thông tin mà bạn muốn. Cho phép chúng hoạt động theo quy tắc mặc định ở trên.
Quy tắc tùy chỉnh
Thêm các user-agent với các chỉ thị cho phép hoặc chặn tùy chỉnh, độ trễ thu thập dữ liệu và gợi ý sơ đồ trang web.
Hiện chưa có quy tắc tùy chỉnh nào. Sử dụng nút phía trên để tạo một quy tắc.
Chuỗi user-agent chính xác hoặc ký tự đại diện.
Sao chép tệp được tạo ở trên và tải lên thư mục gốc của tên miền của bạn với tên robots.txt.
Trình tạo Robots.txt để thu thập dữ liệu và lập chỉ mục tốt hơn
Robots.txt là một tệp văn bản nhỏ hướng dẫn các bot tìm kiếm trên trang web của bạn.
Sử dụng robots.txt để chặn các khu vực như trang quản trị, thư mục dàn dựng, URL kiểm tra, trang bộ lọc và đường dẫn trùng lặp.
Robots.txt có ý nghĩa gì trong SEO
Robots.txt là một phần của tiêu chuẩn loại trừ robot.
yourdomain.com/robots.txt
Các công cụ tìm kiếm thường kiểm tra tệp này sớm vì nó cung cấp cho chúng hướng dẫn thu thập dữ liệu rõ ràng.
Một điểm quan trọng:
- Robots.txt kiểm soát thu thập thông tin
- Nó không đảm bảo lập chỉ mục
Nếu bạn muốn xác nhận rằng một trang có thể xuất hiện trong kết quả tìm kiếm, hãy sử dụng kiểm tra khả năng lập chỉ mục.
Tại sao Robots.txt lại giúp ích cho ngân sách thu thập dữ liệu
Công cụ tìm kiếm không thu thập dữ liệu mỗi trang mỗi ngày.
Nếu trang web của bạn chậm hoặc trả về lỗi, trình thu thập thông tin có thể truy cập ít trang hơn trong mỗi lần chạy.
Để có kết quả tốt nhất, hãy sử dụng robots.txt với sơ đồ trang web:
- Robots.txt hướng dẫn bot những gì cần thu thập thông tin hoặc bỏ qua
- Sơ đồ trang web liệt kê các trang bạn muốn được thu thập thông tin và lập chỉ mục
Các quy tắc trong Robots.txt bạn nên biết
Tệp robots.txt sử dụng một số lệnh đơn giản.
- Tác nhân người dùng
- Đặt quy tắc áp dụng cho bot nào
- Không cho phép
- Chặn thu thập thông tin cho một thư mục hoặc đường dẫn
- Cho phép
- Mở một đường dẫn cụ thể bên trong thư mục bị chặn
- Độ trễ thu thập thông tin
- Yêu cầu thu thập dữ liệu chậm hơn đối với một số bot (không phải tất cả các bot đều tuân theo yêu cầu này)
Một sai sót nhỏ có thể chặn các trang quan trọng, bao gồm các danh mục chính hoặc trang đích cốt lõi.
Tại sao các trang web WordPress thường cần Robots.txt
WordPress có thể tạo nhiều URL không giúp ích cho SEO, chẳng hạn như các trang tìm kiếm nội bộ, một số trang lưu trữ, URL dựa trên tham số.
Ngay cả trên các trang web nhỏ hơn, tệp robots.txt sạch sẽ là một thiết lập thông minh.
Sự khác biệt giữa Robots.txt và Sơ đồ trang web
Sơ đồ trang web giúp công cụ tìm kiếm khám phá các trang bạn muốn thu thập thông tin.
- Sơ đồ trang web cải thiện khả năng khám phá
- Robots.txt kiểm soát quyền truy cập thu thập thông tin
Hầu hết các trang web đều được hưởng lợi từ việc sử dụng cả hai.
Cách tạo Robots.txt bằng trình tạo này
Robots.txt tuy đơn giản nhưng không hề dễ dàng.
Đặt quyền truy cập mặc định
Chọn xem tất cả các bot có thể thu thập dữ liệu trang web của bạn theo mặc định hay không.
Thêm URL sơ đồ trang web của bạn
Bao gồm sơ đồ trang web của bạn để trình thu thập thông tin có thể tìm thấy các trang quan trọng của bạn nhanh hơn.
Thêm các đường dẫn không được phép một cách cẩn thận
Chỉ chặn những gì bạn thực sự không muốn thu thập thông tin.
/admin/ hoặc /search/
Xem lại trước khi xuất bản
Kiểm tra kỹ xem bạn không chặn trang chủ, blog, trang danh mục hoặc trang dịch vụ chính của mình hay không.
Các công cụ SEO liên quan hoạt động tốt với Robots.txt
Robots.txt là một phần của SEO kỹ thuật.
- Trình kiểm tra sơ đồ trang web: Xác nhận sơ đồ trang web của bạn hợp lệ và bot dễ đọc.
- Trình kiểm tra chỉ mục của Google: Xác minh xem một trang có thể được lập chỉ mục hay không và gắn cờ các trình chặn phổ biến như noindex.
- Kiểm tra mã trạng thái HTTP: Tìm lỗi 200, 301, 404 và lỗi máy chủ có thể làm chậm quá trình thu thập thông tin.
- Trình kiểm tra chuyển hướng miễn phí: Xác nhận các chuyển hướng rõ ràng và không bị mắc kẹt trong chuỗi hoặc vòng lặp.
- Phân tích thẻ meta: Đánh giá tiêu đề, mô tả và thẻ meta robot để tìm lỗi SEO.